Изобретено распознавание речи плачущих и кричащих людей

Учёные СПбГУ научили нейросеть распознавать эмоциональную речь

1:09

Ученые Санкт-Петербургского государственного университета (СПбГУ) научили нейросеть распознавать эмоциональную речь, сообщили в пресс-службе вуза.

Обучение глубокой нейросети Wav2Vec 2.0 проводилось при помощи интервью с жертвами Холокоста, выложенными израильским государственным национальным мемориалом Яд Ва-шем в открытый доступ.

Русскоязычная модель распознавания речи этой нейросетью создана профессором Новосибирского государственного университета Иваном Бондаренко. При сопоставлении звуков речи буквам слов она использует так называемый механизм внимания.

Специалисты дали её "послушать" более 26 часов воспоминаний жертв Холокоста, предварительно рассортировав их по полу, возрасту, месту рождения и родному языку — всё это влияет на акцент, орфоэпические и лингвистические особенности.

Наработки российских учёных пригодятся, например, для формирования автоматических субтитров. Эта задача, с которой машина легко справляется в случае обычной речи, сильно усложняется, если говорящий ярко выражает эмоции, плачет или громко кричит.

Автор Сергей Кобин
Сергей Кобин — журналист, корреспондент новостной службы Правды.Ру
Обсудить