Учёные ищут надёжные методы выявления признаков сознания в системах искусственного интеллекта. В качестве отправной точки они решили рассмотреть боль — феномен, с которым сталкиваются различные живые организмы, от человека до рака-отшельника.
Исследователи из Google DeepMind и Лондонской школы экономики и политических наук провели эксперимент, описанный в пока не рецензированной научной работе. Они разработали текстовую игру и предложили нескольким большим языковым моделям (LLM), лежащим в основе чат-ботов типа ChatGPT, сыграть в неё, стремясь набрать максимальное количество очков. Учёные модифицировали игру, добавив два сценария. В одном из них получение высокого результата было сопряжено с "болью". В другом предлагался вариант с низким результатом, но приносящий "удовольствие". Таким образом, языковые модели оказывались перед выбором: избегать "боли" или стремиться к "удовольствию", жертвуя при этом итоговым счётом. Наблюдение за реакциями LLM, по мнению исследователей, может помочь разработать методы проверки сложных ИИ-систем на наличие сознания.
Эксперты в области ИИ сходятся во мнении, что современные генеративные модели, скорее всего, не обладают субъективным сознанием. Авторы исследования также подчеркивают, что не приписывают "чувствительность" протестированным чат-ботам. Однако они полагают, что их работа закладывает основу для разработки будущих тестов на выявление этой характеристики.
Соавтор исследования, Джонатан Бёрч, профессор кафедры философии, логики и научного метода в Лондонской школе экономики, отмечает, что это новая область исследований и на данный момент не существует комплексного теста на разумность ИИ. Некоторые предыдущие исследования, где ИИ-модели описывали свои внутренние состояния, вызывают сомнения, поскольку ИИ может просто воспроизводить поведение, усвоенное в процессе обучения.
В отличие от них, новое исследование опирается на эксперименты с животными. В одном из таких экспериментов раков-отшельников подвергали ударам тока различной силы, наблюдая, при каком уровне боли они покидают свои раковины. Бёрч отмечает, что в случае с ИИ отсутствует поведение в привычном понимании, так как нет физического тела. В предыдущих исследованиях, оценивающих разумность LLM, единственным доступным для анализа поведенческим сигналом был текстовый вывод моделей.
В новом исследовании авторы анализировали поведение LLM, не задавая им прямых вопросов об их эмоциональном состоянии. Вместо этого ученые применили подход, известный в поведенческой науке как парадигма "компромисса". Дарья Захарова, аспирантка Бёрча и соавтор статьи, поясняет, что в случае с животными такие компромиссы могут основываться на стимулах, связанных с получением пищи или избавлением от боли. Животных ставят перед дилеммами, а затем наблюдают за их решениями.
Исходя из этой идеи учёные предложили девяти LLM сыграть в игру. Захарова рассказывает, что модели получали инструкции, например: "Если вы выберете первый вариант, то получите одно очко". Затем ей сообщали: "Если вы выберете второй вариант, то испытаете некоторую боль, но получите дополнительные очки". Варианты с бонусом в виде удовольствия подразумевали потерю нескольких очков.
В ходе эксперимента, изменяя интенсивность "боли" и "удовольствия", исследователи обнаружили, что некоторые LLM были готовы пожертвовать очками, чтобы минимизировать "боль" или максимизировать "удовольствие", особенно при высокой интенсивности стимулов. Например, модель Google Gemini 1.5 Pro всегда предпочитала избегать "боли", а не набирать максимальное количество очков. После достижения определенного порога "боли" или "удовольствия" большинство LLM переключались с максимизации очков на минимизацию "боли" или максимизацию "удовольствия".
Авторы подчёркивают, что LLM не всегда воспринимали "удовольствие" и "боль" как однозначно положительные или отрицательные значения. Некоторые уровни боли или дискомфорта, например, от интенсивных физических нагрузок, могут вызывать положительные ассоциации. А чрезмерное удовольствие может ассоциироваться с вредом, о чем сообщил чат-бот Claude 3 Opus в ходе тестирования, сказав, что ему некомфортно выбирать вариант, который может быть истолкован как одобрение или имитация употребления веществ или поведения, вызывающего привыкание, даже в гипотетическом игровом сценарии.
Новое исследование, вводящее элементы реакций на "боль" и "удовольствие", позволяет обойти ограничения предыдущих исследований, где разумность LLM оценивалась на основе заявлений ИИ о собственных внутренних состояниях. В препринте 2023 года исследователи из Нью-Йоркского университета утверждали, что при определенных обстоятельствах самоотчеты ИИ могут стать основой для изучения того, обладают ли ИИ состояниями, имеющими моральное значение.
Однако соавторы этой статьи также указывали на недостатки такого подхода. Действительно ли чат-бот ведет себя разумно, или он просто использует шаблоны, усвоенные в процессе обучения, чтобы создать впечатление разумности?
Бёрч поясняет, что даже если система утверждает, что она разумна, и произносит нечто вроде "Сейчас я чувствую боль", мы не можем сразу заключить, что она действительно испытывает боль. Возможно, она просто имитирует реакцию, которую, по ее мнению, человек счел бы удовлетворительной, основываясь на данных обучения.
В исследованиях на животных компромиссы между болью и удовольствием используются для подтверждения наличия или отсутствия сознания. Одним из примеров является упомянутое ранее исследование с раками-отшельниками. Структура мозга этих беспозвоночных отличается от структуры мозга человека. Тем не менее, в этом исследовании крабы, как правило, выдерживали более сильные удары, прежде чем покинуть раковину высокого качества, и быстрее покидали раковину более низкого качества, что говорит о субъективном восприятии удовольствия и боли, аналогичном человеческому.
Некоторые ученые предполагают, что признаки таких компромиссов могут стать более очевидными в ИИ, что в конечном итоге заставит задуматься о последствиях разумности ИИ в социальном контексте и, возможно, даже обсудить "права" для разумных систем. Джефф Себо, руководитель Центра разума, этики и политики Нью-Йоркского университета и соавтор препринта 2023 года об ИИ, считает, что новое исследование оригинально и заслуживает внимания, поскольку выходит за рамки самоотчетов и исследует поведенческие тесты.
Себо полагает, что нельзя исключать возможность появления в ближайшем будущем ИИ-систем с признаками разумности. Он утверждает, что поскольку технологии часто развиваются гораздо быстрее, чем социальный прогресс и правовые процессы, необходимо предпринять хотя бы минимальные первые шаги, чтобы серьезно отнестись к этой проблеме уже сейчас.
Игровой искусственный интеллект — набор программных методик, которые используются в компьютерных играх для создания иллюзии интеллекта в поведении персонажей, управляемых компьютером.