Исследование: читатели не отличают тексты нейросетей от живых авторов

Стоимость генерации романа почти в 300 раз дешевле среднего гонорара опытного автора

2 мин.
Исследование: читатели не отличают тексты нейросетей от живых авторов

Американские учёные провели масштабное исследование, которое показало, что тексты, созданные искусственным интеллектом и стилизованные под известных писателей, часто воспринимаются как более выразительные и точные по стилю, чем произведения, написанные людьми.

Главным условием было — предварительное обучение модели на полном корпусе сочинений конкретного автора. По словам экспертов, такой результат может изменить подход к регулированию использования авторских произведений при обучении ИИ.

Инициаторами исследования стали специалист по компьютерным наукам Тухин Чакрабарти (Университет Стони-Брук), профессор права Джейн Гинсберг (Колумбийский университет) и исследователь Парамвир Дхиллон (Мичиганский университет).

Их работа появилась на фоне серии судебных исков, в которых авторы обвиняют разработчиков генеративных моделей в нарушении авторских прав. В частности, дело Bartz против Anthropic оценивается в $1,5 млрд, а иск Kadrey стал прецедентным, несмотря на отклонение по процессуальным основаниям — суд признал саму проблему допустимости использования защищённых материалов.

Сейчас в США зарегистрировано более 50 дел, касающихся заимствования текстов, видео и аудиоматериалов при обучении ИИ. Правовая дискуссия ведётся вокруг допустимости таких практик. Одни юристы считают это допустимым при отсутствии дословных совпадений, другие указывают, что даже стилистическое копирование подрывает экономику авторского труда.

Представители индустрии, в свою очередь, предупреждают о рисках. К примеру, бывший вице-президент запрещённой в РФ Meta* Ник Клегг заявил, что запрет на открытые датасеты «остановит ИИ-разработку за одну ночь».

В ходе эксперимента команда Чакрабарти привлекла 28 студентов, обучающихся на литературных программах, и предложила им стилизовать короткие тексты под стиль 50 известных авторов — от Элис Манро до Кормака Маккарти.

Эти произведения затем сравнивались со 150 вариантами, созданными ИИ-моделью, обученной на тех же именах. Изначально участники тестов чаще предпочитали тексты, написанные вручную, но после глубокой адаптации ИИ под полные собрания сочинений оценки сменились — большинство стали выбирать машинные варианты как более точные по интонации, структуре и лексике.

Учёные говорят, что индивидуальная дообученность устраняет характерные черты синтетического текста — шаблонность, монотонность, избыток повторов. Алгоритмы начали воспроизводить тонкие особенности синтаксиса, ритм и стилистические переходы, характерные для конкретных писателей. Как показали тесты, даже профессиональные читатели не смогли отличить нейросетевые тексты от оригинальных.

По словам Парамвира Дхиллона, у таких выводов есть и экономическая сторона. Стоимость генерации полноценного романа объёмом 100 тыс. слов составляет около $80, что почти в 300 раз дешевле среднего гонорара опытного автора. Это создаёт новый вектор конкуренции в литературной индустрии — не за качество, а за скорость и себестоимость.

Для юристов эти данные усложняют правовое регулирование. В США применяется четырёхфакторная система анализа допустимости копирования, где основным становится влияние на рынок. Если ИИ-текст способен вытеснить оригинал, значит, даже непрямое заимствование при обучении может быть признано нарушением. Исследователи считают, что именно этот критерий станет центральным в будущих судебных разбирательствах.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN