Мировой фейк: ИИ обманывает все человечество и это страшно

4:26

В мире искусственного интеллекта есть свой "олимпийский пьедестал" — им считается LM Arena, популярнейший тест для битвы чат-ботов.

Тысячи пользователей ежемесячно заходят сюда, чтобы посмотреть, как нейросети сражаются за звание лучшей. Но сенсация: группа исследователей разоблачила эту "спортивную арену ИИ" — оказывается, её рейтинги необъективны и тайно выгодны крупным корпорациям вроде Google, OpenAI и Meta. По сути, перед нами не независимое соревнование умов, а хорошо срежиссированный чемпионат, где у коммерческих фаворитов есть масса скрытых преимуществ.

LM Arena работает просто: два чат-бота (большие языковые модели, LLM) получают задание, пользователи голосуют за более правдоподобный или приятный ответ, и по итогам тысячи таких "дуэлей" составляется рейтинг.

На первый взгляд — демократия и прозрачность. Но исследователи (их работа выложена 29 апреля на arXiv и пока не прошла рецензирование) заявляют, что вся эта красивая таблица лидеров держится на "незасекреченных методах. Крупные технологические гиганты попросту научились "дрессировать" свои модели так, чтобы те заведомо выглядели лучше остальных.

Исследователи изучили более 2,8 миллиона "боёв" чат-ботов за пять месяцев и обнаружили любопытную закономерность. Флагманские модели от Meta, OpenAI, Google и Amazon получили непропорционально больше "опыта" на этой арене.

Например, детища Google и OpenAI "накатали" по 19,2% и 20,4% всех тестов, в то время как 83 модели с открытым исходным кодом довольствовались лишь 29,7% "спаррингов". Звучит нестрашно? А теперь фокус: коммерческие LLM проходят многократное предварительное тестирование ещё до релиза. То есть, условно, перед выходом "Llama-4" ребята из Meta 27 раз "обкатывали" сырые версии на LM Arena, правили ошибки и только потом выпускали финальную модель в свет. Угадайка, какая из них попадала в итоговый рейтинг?

По сути, перед нами классическое переобучение (оверфиттинг): когда модель слишком заточена под конкретный тестовый набор данных (в данном случае — под вопросы и реакции пользователей LM Arena). И вот парадокс: вместо реального качества ИИ мы замеряем лишь то, насколько ловко корпорации подготовили свои модели к этому единственному чемпионату. Неудивительно, что открытые модели от независимых разработчиков сливают вчистую — у них нет ни ресурсов, ни доступа к "предварительным прогонам".

Само исследование прямо говорит: научная целостность LM Arena под угрозой. Цитирую: "Мы показываем, что координация действий нескольких провайдеров [читай: Google, Meta, OpenAI] и преференциальная политика Chatbot Arena поставили под сомнение надёжность рейтингов". И финальный аккорд: "Как сообщество, мы должны требовать большего".

Неожиданно, LM Arena ответила на критику. Дескать, всё неправда: мол, мы обрабатывали все запросы на тестирование, а если OpenAI присылал больше попыток, чем условный стартап с GitHub,

так это не наша проблема — каждый "поставщик моделей" сам решает, как часто ему участвовать. Также площадка обвинила авторов исследования в методологических ошибках и напомнила, что в публичный топ всё равно попадает только финальная версия модели (якобы без "подсмотренных" черновиков).

Спор ещё кипеть будет. Но факт остаётся фактом: если самый популярный тест на "истинный ИИ" грешит предвзятостью, значит, мы пока не умеем честно измерять прогресс искусственного интеллекта.

Раньше хотя бы тест Тьюринга был ориентиром ("может ли машина обмануть человека?"), а теперь и он сдулся — нужны новые эталоны. Получается, вся эта красивая гонка за первенство чат-ботов упирается в вопрос: а что мы, собственно, измеряем? Скорость самообучения корпораций или реальный прорыв в алгоритмах?

Уточнения

Иску́сственный интелле́кт (англ. artificial intelligence; AI) в самом широком смысле — это интеллект, демонстрируемый машинами, в частности компьютерными системами.

Автор Владимир Антонов
Владимир Антонов — журналист, корреспондент новостной службы Правды.Ру