Мультимодальный анализ настроений - Multimodal sentiment analysis

Мультимодальный анализ тональности - это новое измерение традиционного анализа тональности на основе текста , которое выходит за рамки анализа текстов и включает другие методы, такие как аудио и визуальные данные. Он может быть бимодальным, который включает различные комбинации двух модальностей, или тримодальным, который включает три модальности. С обширным количеством социальных медиа данных , доступных онлайн в различных формах , такие как видео и изображения, обычный текст на основе анализ настроений эволюционировали в более сложные модели мультимодального анализа настроений, которые могут быть применены в разработке виртуальных помощников , анализ из Обзоры фильмов на YouTube, анализ новостных видеороликов и распознавание эмоций (иногда называемое обнаружением эмоций ), например, мониторинг депрессии .

Подобно традиционному анализу настроений , одной из основных задач мультимодального анализа настроений является классификация настроений , которая классифицирует различные настроения по таким категориям, как положительные, отрицательные или нейтральные. Сложность анализа текста, аудио и визуальных функций для выполнения такой задачи требует применения различных методов слияния, таких как уровень функций, уровень принятия решений и гибридное слияние. На эффективность этих методов слияния и применяемых алгоритмов классификации влияет тип текстовых, звуковых и визуальных характеристик, используемых в анализе.

Функции

Разработка функций , которая включает в себя выбор функций, которые вводятся в алгоритмы машинного обучения , играет ключевую роль в эффективности классификации тональности. В мультимодальном анализе тональности используется комбинация различных текстовых, звуковых и визуальных функций.

Текстовые особенности

Подобно традиционному анализу тональности на основе текста , некоторые из наиболее часто используемых текстовых функций в мультимодальном анализе тональности - это униграммы и n-граммы , которые в основном представляют собой последовательность слов в данном текстовом документе. Эти функции применяются с использованием представлений функций « мешок слов» или «мешок концепций», в которых слова или понятия представлены в виде векторов в подходящем пространстве.

Аудио особенности

Чувственные и эмоциональные характеристики проявляются в различных фонетических и просодических свойствах аудиофайлов. Некоторые из наиболее важных звуковых функций, используемых в мультимодальном анализе тональности, - это мел-частотный кепстр (MFCC) , спектральный центроид , спектральный поток , гистограмма биений, сумма биений, наиболее сильное биение, длительность паузы и высота звука . OpenSMILE и Praat популярен с открытым исходным кодом инструментарий для извлечения таких звуковых функций.

Визуальные особенности

Одним из основных преимуществ анализа видео по отношению только к текстам является наличие богатых эмоциональных сигналов в визуальных данных. Визуальные особенности включают выражения лица , которые имеют первостепенное значение для улавливания чувств и эмоций , поскольку они являются основным каналом формирования текущего состояния души человека. В частности, улыбка считается одним из наиболее предсказуемых визуальных сигналов в мультимодальном анализе тональности. OpenFace - это набор инструментов для анализа лица с открытым исходным кодом, предназначенный для извлечения и понимания таких визуальных функций.

Техники слияния

В отличие от традиционного анализа тональности на основе текста , мультимодальный анализ тональности подвергается процессу слияния, в котором данные из разных модальностей (текст, аудио или визуальные эффекты) сливаются и анализируются вместе. Существующие подходы к слиянию данных мультимодального анализа тональности можно разделить на три основные категории: уровень характеристик, уровень решения и гибридное слияние, а эффективность классификации настроений зависит от того, какой тип техники слияния используется.

Слияние на уровне функций

Слияние на уровне функций (иногда известное как раннее слияние) собирает все функции из каждой модальности (текст, аудио или видео) и объединяет их в единый вектор функций, который в конечном итоге вводится в алгоритм классификации. Одной из трудностей при реализации этого метода является интеграция разнородных функций.

Слияние на уровне решений

Слияние на уровне решений (иногда называемое поздним слиянием), подает данные из каждой модальности (текст, аудио или видео) независимо в свой собственный алгоритм классификации и получает окончательные результаты классификации тональности путем слияния каждого результата в единый вектор решения. Одним из преимуществ этого метода слияния является то, что он устраняет необходимость слияния разнородных данных, и каждая модальность может использовать свой наиболее подходящий алгоритм классификации .

Гибридный фьюжн

Гибридное слияние - это комбинация методов слияния на уровне функций и на уровне решений, в которой в процессе классификации используется дополнительная информация от обоих методов. Обычно он включает в себя двухэтапную процедуру, в которой слияние на уровне функций первоначально выполняется между двумя модальностями, а затем слияние на уровне решений применяется в качестве второго шага для слияния начальных результатов слияния на уровне функций с оставшейся модальностью .

Приложения

Подобно текстовому анализу настроений, мультимодальный анализ настроений может применяться при разработке различных форм рекомендательных систем, таких как анализ созданных пользователями видеороликов с обзорами фильмов и общих обзоров продуктов, для прогнозирования настроений клиентов и, соответственно, создавать рекомендации по продукту или услуге. Мультимодальный анализ тональности также играет важную роль в продвижении виртуальных помощников за счет применения методов обработки естественного языка (НЛП) и машинного обучения . В сфере здравоохранения мультимодальный анализ настроений может использоваться для выявления определенных заболеваний, таких как стресс , тревога или депрессия . Мультимодальный анализ настроений также может применяться для понимания настроений, содержащихся в новостных видеопрограммах, что считается сложной и сложной областью, поскольку настроения, выражаемые репортерами, обычно менее очевидны или нейтральны.

Рекомендации