OpenAI пытается скрыть причины удаления пиратских баз книг со своих серверов

В судебном разбирательстве между OpenAI и Гильдией авторов США наступил переломный момент. Федеральный суд Нью-Йорка нанёс серьёзный удар по стратегии защиты технологического гиганта, обязав его раскрыть внутреннюю документацию, касающуюся удаления двух массивных наборов данных — Books1 и Books2. Эти архивы, предположительно содержащие более 100 000 пиратских книг, были использованы для обучения ранних версий моделей GPT, но затем таинственным образом исчезли с серверов компании.

Решение судьи ставит OpenAI в крайне уязвимое положение. Если истцы докажут, что компания уничтожила улики преднамеренно, чтобы скрыть факт использования ворованного контента, это может переквалифицировать обвинение в «умышленное нарушение». В таком случае сумма компенсации может вырасти до астрономических $150 000 за каждое произведение.

Центральным элементом спора стала непоследовательная позиция OpenAI относительно причин удаления датасетов. Изначально представители компании утверждали, что архивы Books1 и Books2 были стёрты в середине 2022 года — ещё до релиза ChatGPT — по причине их «неиспользования» и морального устаревания.

Однако, когда адвокаты писателей потребовали подтверждающих документов, OpenAI резко сменила тактику. Компания заявила, что истинные причины удаления, включая аргумент о «неиспользовании», являются адвокатской тайной и не подлежат разглашению. Судья подвергла эту стратегию критике, охарактеризовав её как попытку использовать один и тот же аргумент одновременно как «меч» (для защиты в публичном поле) и как «щит» (для сокрытия деталей от суда).

«OpenAI не может называть причину "неиспользования", когда это ей выгодно, а затем утверждать, что эта причина является конфиденциальной, чтобы избежать раскрытия доказательств», — отметила судья в своём постановлении.

Она указала, что компания фактически отказалась от права на конфиденциальность, когда первой публично озвучила версию о «неиспользовании».

В ходе предварительного расследования всплыли детали, которые могут стать фатальными для защиты OpenAI. Выяснилось, что сотрудники компании обсуждали удаление данных в корпоративном мессенджере Slack, в каналах с говорящими названиями project-clear («проект очистка») и excise-libgen («вырезать LibGen»).

Упоминание LibGen (Library Genesis) — известной теневой онлайн-библиотеки — напрямую связывает обучение нейросетей с пиратским контентом. Истцы, среди которых такие известные авторы, как Джордж Р.Р. Мартин и Джон Гришэм, утверждают, что инженеры OpenAI скачали библиотеку LibGen ещё в 2018 году и использовали её для тренировки своих моделей, прекрасно осознавая незаконность этих действий.

Суд установил строгие дедлайны. OpenAI обязана передать все документы, касающиеся удаления датасетов и упоминаний LibGen, до 8 декабря 2025 года. Более того, штатные юристы компании должны будут дать показания под присягой до 19 декабря.

Представители OpenAI уже заявили о своём несогласии с решением и намерении подать апелляцию. Однако пространство для манёвра у компании стремительно сужается. Если вскроется, что «чистка» 2022 года была панической попыткой уничтожить улики перед грядущими исками, репутационный и финансовый ущерб для лидера ИИ-гонки может стать беспрецедентным.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

OpenAI пытается скрыть причины удаления пиратских баз книг со своих серверов

Дима Кутузов

В Екатеринбурге бездомные собаки стали точками бесплатного Wi-Fi

Модель Gen 4.5 от Runway опередила ИИ-сервисы Google и OpenAI