ИИ или человек? 54% людей приняли GPT-4 за настоящего собеседника

GPT-4 впервые прошел тест Тьюринга

3:31

Исследователи из Института инженеров электротехники и электроники (IEEE) решили провести тест Тьюринга для моделей искусственного интеллекта, чтобы выяснить, могут ли люди отличить человека от ИИ в разговоре. В их эксперименте участвовали 500 человек, которые общались с четырьмя собеседниками: одним человеком и тремя ИИ-моделями — ELIZA 1960-х годов, GPT-3.5 и GPT-4.

В итоге 54% участников приняли GPT-4 за человека. Для сравнения, программу ELIZA, которая не использует большую языковую модель или нейросеть, за человека приняли только 22% участников.

Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, оценивает, насколько способность машины демонстрировать интеллект неотличима от человеческой. Для успешного прохождения теста система должна убедить человека, что он общается с другим человеком.

Чтобы оценить возможности современных ИИ-систем, ученые воссоздали тест Тьюринга. В ходе эксперимента 500 человек общались с четырьмя собеседниками: человеком, программой ИИ ELIZA из 1960-х годов, GPT-3.5 и GPT-4. После пяти минут беседы участники должны были определить, говорили они с человеком или ИИ.

Участники приняли GPT-4 за человека в 54% случаев, а ELIZA, систему с заранее запрограммированными ответами и без большой языковой модели или нейросети, признали человеком лишь в 22% случаев. GPT-3.5 был принят за человека в 50% случаев, а сам человек — в 67%.

"Машины, как и люди, могут придумывать правдоподобные обоснования постфактум. Они подвержены когнитивным искажениям, их можно манипулировать, и они становятся все более обманчивыми. Эти факторы приводят к тому, что ИИ-системы проявляют человеческие слабости и причуды, делая их более похожими на людей по сравнению с предыдущими разработками, которые имели лишь набор заранее заготовленных ответов", — говорит исследователь ИИ в IEEE Нелл Уотсон.

Ученые также отмечают, что тест Тьюринга имеет свои критические замечания, будучи слишком упрощенным. По их мнению, "стилистические и социально-эмоциональные факторы играют более важную роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте".

Исследование также подчеркивает значительные изменения в области искусственного интеллекта с появлением моделей эпохи GPT.

"Ранние ИИ-системы, такие как ELIZA, полагались на заранее запрограммированные ответы, что существенно ограничивало их возможности. Эти программы могли обмануть кого-то на короткое время, но их ограничения быстро становились очевидны. Языковые модели эпохи GPT совершенно иные. Они адаптируются к различным темам, говорят на разных языках или диалектах и могут изображать разных личностей с различными ценностями. Это значительный шаг вперед по сравнению с тем, что было заранее запрограммировано человеком, независимо от сложности программы", — говорит Уотсон.

Автор Макар Горшенин
Макар Вадимович Горшенин — студент Московского Финансово-Юридического университета, внештатный корреспондент Правды.Ру.
Обсудить