В цифровую эпоху выражение сарказма представляет собой значительную сложность, особенно для виртуальных ассистентов и программ анализа эмоций.
Учёные из Лаборатории речевых технологий Гронингенского университета разработали "мультимодальный алгоритм" для более точного определения сарказма, который анализирует не только текст, но и аудио подсказки.
Команда обучала нейросеть на текстах, аудио и эмоциональном содержимом видеоклипов из ситкомов "Друзья" и "Теория большого взрыва", используя базу данных MUStARD с метками сарказма. Анализировались акустические параметры речи, такие как высота тона, скорость и энергия. Затем использовалось автоматическое распознавание речи для преобразования её в текст для анализа настроения. К каждому фрагменту речи присваивались эмотиконы как визуальные маркеры эмоций, сообщает SecurityLab.
После обучения алгоритм смог распознавать сарказм в непомеченных диалогах с точностью 75%. Дальнейшая работа с синтетическими данными повысила точность, но результаты еще не опубликованы.
Этот мультимодальный подход имеет потенциал для широкого применения в различных сферах, включая анализ чувств и распознавание эмоций для обнаружения враждебных высказываний в интернете и сбора мнений клиентов, а также в сфере здравоохранения.