В судебном разбирательстве между OpenAI и Гильдией авторов США наступил переломный момент. Федеральный суд Нью-Йорка нанёс серьёзный удар по стратегии защиты технологического гиганта, обязав его раскрыть внутреннюю документацию, касающуюся удаления двух массивных наборов данных — Books1 и Books2. Эти архивы, предположительно содержащие более 100 000 пиратских книг, были использованы для обучения ранних версий моделей GPT, но затем таинственным образом исчезли с серверов компании.
Решение судьи ставит OpenAI в крайне уязвимое положение. Если истцы докажут, что компания уничтожила улики преднамеренно, чтобы скрыть факт использования ворованного контента, это может переквалифицировать обвинение в «умышленное нарушение». В таком случае сумма компенсации может вырасти до астрономических $150 000 за каждое произведение.
Центральным элементом спора стала непоследовательная позиция OpenAI относительно причин удаления датасетов. Изначально представители компании утверждали, что архивы Books1 и Books2 были стёрты в середине 2022 года — ещё до релиза ChatGPT — по причине их «неиспользования» и морального устаревания.
Однако, когда адвокаты писателей потребовали подтверждающих документов, OpenAI резко сменила тактику. Компания заявила, что истинные причины удаления, включая аргумент о «неиспользовании», являются адвокатской тайной и не подлежат разглашению. Судья подвергла эту стратегию критике, охарактеризовав её как попытку использовать один и тот же аргумент одновременно как «меч» (для защиты в публичном поле) и как «щит» (для сокрытия деталей от суда).
«OpenAI не может называть причину "неиспользования", когда это ей выгодно, а затем утверждать, что эта причина является конфиденциальной, чтобы избежать раскрытия доказательств», — отметила судья в своём постановлении.
Она указала, что компания фактически отказалась от права на конфиденциальность, когда первой публично озвучила версию о «неиспользовании».
В ходе предварительного расследования всплыли детали, которые могут стать фатальными для защиты OpenAI. Выяснилось, что сотрудники компании обсуждали удаление данных в корпоративном мессенджере Slack, в каналах с говорящими названиями project-clear («проект очистка») и excise-libgen («вырезать LibGen»).
Упоминание LibGen (Library Genesis) — известной теневой онлайн-библиотеки — напрямую связывает обучение нейросетей с пиратским контентом. Истцы, среди которых такие известные авторы, как Джордж Р.Р. Мартин и Джон Гришэм, утверждают, что инженеры OpenAI скачали библиотеку LibGen ещё в 2018 году и использовали её для тренировки своих моделей, прекрасно осознавая незаконность этих действий.
Суд установил строгие дедлайны. OpenAI обязана передать все документы, касающиеся удаления датасетов и упоминаний LibGen, до 8 декабря 2025 года. Более того, штатные юристы компании должны будут дать показания под присягой до 19 декабря.
Представители OpenAI уже заявили о своём несогласии с решением и намерении подать апелляцию. Однако пространство для манёвра у компании стремительно сужается. Если вскроется, что «чистка» 2022 года была панической попыткой уничтожить улики перед грядущими исками, репутационный и финансовый ущерб для лидера ИИ-гонки может стать беспрецедентным.
Ещё по теме:
- В Екатеринбурге бездомные собаки стали точками бесплатного Wi-Fi
- Apple сопротивляется индийскому указу предустанавливать государственное приложение
- США против App Store: законодатели требуют новых проверок возраста