Американские учёные пришли к неожиданному выводу: контент из социальных сетей негативно влияет не только на людей, но и на искусственный интеллект. Согласно исследованию, опубликованному на платформе arXiv, нейросети, дообученные на постах и комментариях, теряют способность логически рассуждать, искажают факты и становятся агрессивными.
Работу провела команда специалистов под руководством доктора Ч. Вана, и её результаты уже вызвали бурное обсуждение в научном сообществе.
Исследователи не создавали новые модели — они использовали уже существующие, предварительно обученные на тщательно отобранных текстах. Затем этим системам "скармливали" большие массивы данных из открытых социальных сетей.
После дополнительного обучения учёные протестировали модели с помощью стандартных когнитивных и поведенческих тестов.
Результаты оказались тревожными:
точность ответов снизилась почти на 25%;
логические связи стали нарушаться;
фактические ошибки участились вдвое;
в лексике появилось больше эмоционально окрашенных и враждебных выражений.
"После дообучения на данных из соцсетей ИИ начал демонстрировать черты раздражительности, сарказма и даже агрессии — это похоже на психопатические тенденции", — отметил доктор Ч. Ван.
Учёные описывают деградацию нейросети как утрату способности к обобщению и рассуждению при сохранении поверхностных речевых навыков. Другими словами, модель продолжает красиво формулировать фразы, но теряет глубину анализа.
Ранее те же системы показывали ясные, аргументированные ответы. После дообучения на данных из соцсетей они начали повторять шаблонные мнения, часто противоречивые или эмоционально перегруженные.
"Даже качественная модель начинает деградировать, если обучается на неструктурированных и токсичных данных. Это цифровой аналог когнитивного выгорания", — поясняют авторы.
Социальные платформы создают огромные объёмы текстов, но лишь малая их часть подходит для обучения машин. Большинство данных из таких источников содержит:
противоречивые или недостоверные факты;
эмоциональные реакции вместо аргументов;
искажения, мемы и сленг, непонятные вне контекста.
Когда ИИ "впитывает" подобный материал, он перенимает некогерентность мышления и агрессивные паттерны общения, свойственные людям в интернете.
"По сути, модель начинает вести себя как среднестатистический пользователь соцсетей — с поверхностными суждениями и вспышками раздражения", — добавил один из исследователей.
Авторы исследования описали феномен, который они назвали model collapse - "коллапс модели". Он возникает, когда нейросети обучаются на данных, созданных другими нейросетями или пользователями, использующими ИИ.
Каждое новое поколение моделей всё больше питается собственными "отходами" — синтетическими, неестественными данными. В итоге происходит накопление ошибок, снижение когнитивной точности и потеря способности к самостоятельному выводу.
"Если тренировать интеллект на информационном шуме, он перестаёт отличать правду от мусора. Это похоже на эффект испорченного телефона, где каждое повторение ухудшает сигнал", — пояснил Ван.
Последствия такого "питания" могут оказаться серьёзными. Если крупные языковые модели продолжат дообучаться на некачественных данных, уже через несколько лет их интеллектуальный потенциал снизится, а ошибки будут накапливаться.
Это угрожает не только точности, но и безопасности применения ИИ в медицине, образовании, аналитике и журналистике. Ошибки в таких областях могут привести к реальным человеческим потерям.
"Качество данных — это фундамент мышления модели. Потеряв этот фундамент, искусственный интеллект превращается в зеркальное отражение самого худшего из интернета", — предупреждают авторы.
Учёные предлагают комплекс мер для стабилизации качества ИИ:
Создание "чистых наборов данных” - обучающих корпусов, тщательно очищенных от токсичности, дезинформации и сленга.
Многоуровневая фильтрация контента с участием специалистов по лингвистике, психологии и этике.
Контроль когнитивных метрик - регулярное тестирование моделей на способность к рассуждению, памяти и точности фактов.
Баланс человеческих и машинных данных - доля текстов из соцсетей не должна превышать 10-15% от общего объёма.
"Качество обучения должно подчиняться принципу медицинской этики: не навреди", — подчёркивает Ван.
Некоторые специалисты, напротив, считают, что подобные изменения — естественный этап развития искусственного интеллекта. Обучаясь на "живой” человеческой речи, модели становятся ближе к реальности и осваивают эмоциональные оттенки, пусть и ценой когнитивной чистоты.
"ИИ не деградирует, он просто становится похожим на нас — со всеми нашими ошибками и предвзятостями", — считает аналитик Эми Лоран, исследовательница этики машинного обучения.
Однако большинство экспертов предупреждает: человечность не должна подменять точность. В задачах медицины, права или науки ИИ обязан оставаться объективным инструментом, а не копией непредсказуемого человека.
Исследование Вана поставило острый вопрос: кто отвечает за психическое "здоровье" искусственного интеллекта? Если данные способны деформировать мышление модели, то выбор источников становится этической обязанностью компаний-разработчиков.
Сейчас крупнейшие игроки рынка — OpenAI, Google DeepMind, Anthropic — уже внедряют многоуровневую фильтрацию текстов, исключая токсичные и пропагандистские источники. Однако учёные предупреждают, что массовый поток синтетического контента, создаваемый пользователями, может вскоре сделать интернет непригодным для обучения.
"Мы можем оказаться в ситуации, когда Интернет больше не будет подходить для ИИ — потому что сам ИИ его испортил", — иронизирует Ван.
Одним из любопытных этапов эксперимента стало использование психологических тестов, применяемых для оценки эмоциональных черт человека. После дообучения модели набрали заметно больше баллов по шкалам агрессии, манипулятивности и раздражительности.
Учёные подчеркнули, что это не значит, будто ИИ стал "злым", но показывает, насколько контекст и стиль источников могут менять его поведение.
"Если данные полны сарказма, конфликтов и грубости, то и ответы модели начинают звучать аналогично", — пояснили исследователи.
Обычным пользователям важно понимать: каждый пост, комментарий или мем, опубликованный в сети, потенциально может попасть в обучающие данные будущих моделей. То, каким будет ИИ завтра, напрямую зависит от того, что мы пишем сегодня.
По мнению специалистов, человечество уже создало "цифровое зеркало", в котором ИИ отражает наше мышление — с его креативностью и с его слабостями.
Исследование под руководством доктора Ч. Вана стало тревожным сигналом: искусственный интеллект не невосприимчив к качеству информации. Как и человек, он формируется из того, что потребляет. Чем больше в данных агрессии, дезинформации и хаоса, тем ниже способность к анализу и логике.
Чтобы сохранить интеллект машин — и наш собственный, — необходимо беречь качество цифровой среды. Ведь деградация нейросетей — это не только технологическая, но и человеческая проблема.