Большие языковые модели и авторские права: как одна модель может изменить всё

1:36

Большие языковые модели, как и другие чат-боты, обучаются на данных, которые могут быть защищены авторским правом.

Разработчики утверждают, что действуют в рамках закона, но в случае одной конкретной модели все обстоит иначе.

Одним из источников данных для обучения является популярный каталог текстов под названием the Pile, который включает 886 гигабайт информации. В его состав входит подкаталог Books3 размером 140 гигабайт, содержащий 183 тысячи книг на английском языке, включая произведения таких авторов, как Стивен Кинг, Маргарет Этвуд и Джоан Роулинг. Это вызывает беспокойство у авторов и издателей, и некоторые компании начали подавать в суд.

Хотя модели не запоминают содержание книг, они учатся на отношениях между словами. Ученые из Стэнфордского университета под руководством И. Федер Купер протестировали это утверждение, взяв короткий фрагмент текста из книги и попросив модель его дополнить. В результате они обнаружили, что большинство языковых моделей не смогли корректно продолжить текст, что могло бы означать, что они не хранят полные копии книг.

Однако искусственный интеллект Llama 3.1 70B оказался исключением — он, по мнению исследователей, может содержать значительное количество текста из известных книг, что ставит под сомнение соблюдение авторских прав, пишет lidovky.

Уточнения

Иску́сственный интелле́кт (англ. artificial intelligence; AI) в самом широком смысле — это интеллект, демонстрируемый машинами, в частности компьютерными системами.

Автор Наталья Клементьева
Наталья Клементьева — журналист, корреспондент Правды.Ру