Немецкие ученые из Института человеческого развития имени Макса Планка в Берлине обнаружили, что определенные модели искусственного интеллекта (ИИ) способны распознавать эмоции человека по коротким аудиозаписям с такой же точностью, как люди. Исследование опубликовано в научном журнале Frontiers in Psychology (FIP).
"Мы продемонстрировали, что машинное обучение может быть использовано для идентификации эмоций в аудиоклипах длительностью всего 1,5 секунды. Наши модели достигли точности, сравнимой с человеческой, при классификации бессмысленных предложений с эмоциональной окраской, произнесенных актерами", — отметил ведущий автор статьи Ханнес Димерлинг.
Для проведения исследования ученые использовали лишенные смысла высказывания на канадском и немецком языках, чтобы определить, способен ли ИИ точно определять эмоции независимо от их содержания и культурных нюансов.
На основе обучающих данных исследователи создали несколько моделей ИИ, каждая из которых работала по-разному. Глубокие нейронные сети (DNN) анализировали звуковые компоненты, такие как частота или высота тона, чтобы распознать скрытые эмоции.
Сверточные нейронные сети (CNN) искали закономерности в аудиовизуальном представлении, а гибридная модель (C-DNN) объединяла оба подхода, используя аудио и визуальную спектрограмму для прогнозирования эмоций. Затем модели были протестированы на эффективность на различных наборах данных.
"Мы обнаружили, что модели DNN и C-DNN достигают более высокой точности, чем использование только спектрограмм в CNN", — отметил Ханнес Димерлинг.
Полученные результаты показывают, что возможно разработать системы, способные мгновенно интерпретировать эмоциональные сигналы и предоставлять немедленную обратную связь в широком спектре ситуаций.
Это может привести к созданию масштабируемых и экономически эффективных приложений в различных областях, таких как терапия и технологии межличностного общения.