АН5 Анализ неструктурированных данных
Анализ
◼︎ АН5 Анализ неструктурированных данных
В работе нужно быть готовим к регулярному анализу больших объёмов неструктурированных данных, таких как массивы текстов (обращения в службу поддержки, отзывы в интернете, поисковые запросы), коллекции изображений (скриншоты программ, варианты дизайна) и видео-протоколы (записи тестов или логики поведения пользователей).
Специалист должен обладать навыками подготовки к анализу (выдвигать гипотезы и вести формальный протокол анализа) и способностью (высокой усидчивостью, внимательностью, бдительностью) проводить анализ вручную.
На более высоких уровнях квалификации он должен использовать инструменты анализа коллекций текстов на ествественных языках, изображений, аудио и видео. Современные инструменты позволяют производить предобработку и индексацию коллекций, а также применять те или иные методы анализа.
К универсальным относятся следующие методы:
Описательная статистика.
Кластеризация и классификация.
Ранжирование и упорядочение.
Для анализа текстов на естественных языках предлагаются:
Поиск по ключевым словам, включая контекстно-зависимый поиск;
Поиск оббъектов, которые включены в словари/тезаурусы/базы знаний;
Анализ тональности высказываний;
Поиск сходных фрагментов текстов.
В анализе изображений базовыми методами являются:
Поиск сходных изображений;
Оценка различий на сходных изображениях.
Анализ аудио и видео в первую очередь предполагает:
Поиск по временным меткам;
Поиск по шаблону;
Автоматическую индексацию видеопотока и помощь в сравнении фрагментов.
◼︎ Навыки и умения по уровням квалификации
Применять хотя бы один из инструментов хранения неструктурированных данных (включая тексты на ествественных языках, изображения, аудио и видео) и базовых средств информационного поиска в неструктурированных данных. Решать задачи индексации данных и извлечения фрагментов данных в качестве примеров для иллюстрации каких-либо наблюдений или гипотез.
Анализировать неструктурированные текстовые данные статистическими методами после индексации. Решать задачи анализа сходства и поиска различий в текстовых и графических данных.
Владение общими знаниями по методам анализа неструктурированных данных (включая мультимедийные), позволяющими вырабатывать прикладные методы для конкретной проектной задачи.
Last updated