Аудиозаписи в опасности: как новая технология ставит барьер дипфейкам

2:18

27.06.2025 18:06

Ваш голос — это часть цифровой личности. И в эпоху ИИ он оказался под угрозой. В интернете — тысячи часов аудиоконтента: интервью, подкасты, стримы. Всё это — легкая добыча для злоумышленников. Они собирают биометрические данные и создают на их основе дипфейки. Особенно рискуют публичные люди и авторы контента, чьи записи в открытом доступе.

Но российские учёные предложили решение.

Алгоритм против дипфейков

Исследователи Института искусственного интеллекта AIRI выложили в открытый доступ алгоритм, который защищает голосовые данные от несанкционированного использования. С его помощью можно "обезличить" голос в аудиозаписи, не жертвуя качеством звука.

"Наша цель — усилить защиту "цифрового следа” человека в публичном пространстве. В первую очередь — голосовой идентичности", — заявил Олег Рогов, руководитель лаборатории безопасного ИИ AIRI-МТУСИ.

Новинка работает со всеми типами аудио — от коротких реплик до лекций, не снижая разборчивость речи. Это делает её подходящей как для индивидуальных авторов, так и для платформ, заботящихся о приватности пользователей.

Что особенного в технологии

Главное отличие от предыдущих систем — сочетание высокой эффективности и сохранения качества записи. Прежние решения часто портили звук или не справлялись с записями нестандартной длины. Новый подход основан на математических моделях, ранее применяемых в визуальном анализе. Это позволяет обмануть ИИ, не мешая восприятию живыми слушателями.

Разработку протестировали на датасете VoxCeleb2 — сборнике голосов знаменитостей, часто используемом при обучении ИИ для генерации дипфейков. Результаты — на уровне лучших решений, но без потерь в звучании.

Для чего это нужно

Такой инструмент особенно актуален сейчас: он позволяет создавать и делиться аудиоконтентом без страха, что ваш голос "украдут" для фейков. AIRI надеется, что их алгоритм станет стандартом де-факто на платформах, где важна защита биометрии пользователей.

Уточнения

Дипфейк (англ. deepfake от deep learning "глубинное обучение" + fake "подделка") — методика синтеза изображения или голоса, основанная на искусственном интеллекте.