АН5 Анализ неструктурированных данных

Анализ

◼︎ АН5 Анализ неструктурированных данных

В работе нужно быть готовим к регулярному анализу больших объёмов неструктурированных данных, таких как массивы текстов (обращения в службу поддержки, отзывы в интернете, поисковые запросы), коллекции изображений (скриншоты программ, варианты дизайна) и видео-протоколы (записи тестов или логики поведения пользователей).

Специалист должен обладать навыками подготовки к анализу (выдвигать гипотезы и вести формальный протокол анализа) и способностью (высокой усидчивостью, внимательностью, бдительностью) проводить анализ вручную.

На более высоких уровнях квалификации он должен использовать инструменты анализа коллекций текстов на ествественных языках, изображений, аудио и видео. Современные инструменты позволяют производить предобработку и индексацию коллекций, а также применять те или иные методы анализа.

К универсальным относятся следующие методы:

  • Описательная статистика.

  • Кластеризация и классификация.

  • Ранжирование и упорядочение.

Для анализа текстов на естественных языках предлагаются:

  • Поиск по ключевым словам, включая контекстно-зависимый поиск;

  • Поиск оббъектов, которые включены в словари/тезаурусы/базы знаний;

  • Анализ тональности высказываний;

  • Поиск сходных фрагментов текстов.

В анализе изображений базовыми методами являются:

  • Поиск сходных изображений;

  • Оценка различий на сходных изображениях.

Анализ аудио и видео в первую очередь предполагает:

  • Поиск по временным меткам;

  • Поиск по шаблону;

  • Автоматическую индексацию видеопотока и помощь в сравнении фрагментов.

  1. Применять хотя бы один из инструментов хранения неструктурированных данных (включая тексты на ествественных языках, изображения, аудио и видео) и базовых средств информационного поиска в неструктурированных данных. Решать задачи индексации данных и извлечения фрагментов данных в качестве примеров для иллюстрации каких-либо наблюдений или гипотез.

  2. Анализировать неструктурированные текстовые данные статистическими методами после индексации. Решать задачи анализа сходства и поиска различий в текстовых и графических данных.

  3. Владение общими знаниями по методам анализа неструктурированных данных (включая мультимедийные), позволяющими вырабатывать прикладные методы для конкретной проектной задачи.

Last updated