Голос выдаёт настроение, даже если человек молчит — новая нейросеть слышит то, что скрыто за словами

Российские специалисты из СПбГЭТУ "ЛЭТИ" совместно с учеными Цзянсийского аграрного университета разработали нейросетевую модель SONANCE, способную распознавать человеческие эмоции по голосу с рекордной точностью. Система имитирует работу слуховых центров мозга и эффективно справляется с выделением речевых маркеров даже в условиях сильного акустического шума. Тестирование показало результат 86,17%, что превосходит показатели существующих мировых аналогов.

Архитектура нейросети состоит из трех модулей, которые последовательно очищают сигнал, анализируют смысл высказываний и классифицируют эмоциональные оттенки. SONANCE безошибочно различает восемь состояний: от ярости и страха до спокойствия и удивления. Как сообщает Газета.Ru, разработку планируют внедрять в системы мониторинга психического здоровья, онлайн-образование и интерфейсы "умных" автомобилей.

"Мы вдохновлялись способностями человеческого мозга: слуховая система человека обладает значительной шумоустойчивостью и высокоэффективным механизмом декодирования эмоций, которые мозг надежно различает даже в сложной шумовой обстановке. На основе принципов биологических систем построена и наша нейросетевая модель SONANCE", — отметил в интервью доцент кафедры САПР СПбГЭТУ "ЛЭТИ" Сергей Кузьмин.

Подобная биомиметическая технология позволяет программам понимать пользователя на уровне интуитивного человеческого восприятия. В будущем это поможет создавать более автономные энергосети управления техникой с помощью естественной речи.

"Разработка алгоритмов, имитирующих биологические процессы обработки звука, открывает путь к созданию по-настоящему эмпатичных машин. Точность в 86% — это серьезный рубеж, позволяющий использовать ИИ в медицине и авиации, где искажение эмоционального контекста из-за шума может привести к неверной интерпретации состояния оператора", — подчеркнул в беседе с Pravda.Ru учёный-физик Дмитрий Лапшин.

Ответы на популярные вопросы о нейросети SONANCE

Что такое биомиметическая архитектура в этой нейросети?

Это принцип построения алгоритма, который повторяет четыре этапа обработки информации в слуховых центрах человеческого мозга для лучшего распознавания звука.

Какие конкретно эмоции может определять алгоритм?

Система настроена на идентификацию восьми базовых состояний: гнева, радости, страха, удивления, отвращения, грусти, спокойствия и нейтрального тона.

Почему нейросеть точнее других существующих моделей?

Благодаря специальному модулю шумоподавления она сохраняет эмоциональную окраску голоса, которую другие алгоритмы часто "стирают" вместе с посторонними звуками.

Где планируется применять разработку ЛЭТИ и китайских ученых?

Основными сферами станут системы поддержки клиентов, платформы дистанционного обучения, а также интеллектуальные кабины транспортных средств.

Читайте также

Автор Кирилл Казаков
Профильный аналитик по вопросам ТЭК и автомобильной индустрии. Исследует энергетическую безопасность и внедрение инноваций в городскую инфраструктуру.
Последние материалы