Генеративный ИИ от Apple может быть единственным, который обучался легально и этично

В то время как проблемы авторского права мучают сферу генеративного ИИ, компания Apple пытается сохранить конфиденциальность и правовые нормы с помощью инновационных методов обучения языковых моделей, избегая при этом конфликтов.

В последние годы вопрос о генеративном ИИ в связи с законодательством об авторском праве остаётся довольно важным и сложным. По мере роста популярности больших языковых моделей (LLM) и приложений для генеративного ИИ вопросы авторского права продолжают накапливаться без какого-либо значимого разрешения.

Проблемы возникают, когда компании используют произведения, защищённые авторским правом, при обучении своего генеративного ИИ, и когда выходные данные этого ИИ содержат части этих произведений, находящихся под защитой авторского права.

Полное копирование произведений, охраняемых авторским правом, или использование значительных фрагментов таких произведений для обучения генеративного ИИ является нарушением авторских прав. Для обучения ИИ не существует исключения «добросовестного использования», несмотря на то, что говорят или считают компании, обучающие модели.

Генеративный ИИ и иски о нарушении авторских прав

В конце декабря 2023 года OpenAI и Microsoft получили иск от The New York Times за нарушение авторских прав. В нём утверждалось, что обе компании обучали свое программное обеспечение для генеративного ИИ, используя миллионы статей, изданных The New York Times.

Это не первый случай, когда OpenAi столкнулась с иском по поводу обучения моделей. В сентябре 2023 года на компанию также подали в суд несколько известных авторов, среди которых были Джордж Р. Р. Мартин, Майкл Коннелли и Джонатан Франзен.

История генеративного ИИ и проблем с авторскими правами уходит корнями ещё дальше: в июле 2023 года более 15000 авторов подписали открытое письмо, адресованное нескольким известным компаниям, включая Alphabet, OpenAI, Meta, Microsoft и другие.

В письме содержалась просьба должным образом указать авторов и выплатить им компенсацию за их работу, которая использовалась для обучения генеративного ИИ и моделей.

Другой аналогичный коллективный иск о нарушении авторских прав был подан против OpenAI авторами нехудожественной литературы Николасом Басбанесом и Николасом Гейджем. Подача иска состоялась в январе 2024 года.

В конце апреля 2024 года был подан ещё один иск, связанный с ИИ, на этот раз против Amazon. В нём утверждается, что сотрудник Amazon получил указание намеренно игнорировать и нарушать закон об авторском праве, чтобы компания могла более эффективно конкурировать с товарами и услугами своих соперников.

В иске бывшая сотрудница Amazon утверждает, что руководитель заявил ей по поводу обучения ИИ, нарушающего авторские права, что «все остальные так делают» — подразумевая, что люди из конкурирующих компаний сознательно нарушают авторские права.

И совершенно очевидно, что так оно и есть.

ИИ и озабоченность издателей по поводу копирования защищённого авторским правом контента

Известно, что ИИ неоднократно воспроизводил контент, охраняемый авторским правом, и степень серьёзности этой проблемы побудила компании проанализировать частоту, с которой это происходит.

Чтобы лучше понять, с какой частотой чат-боты генерируют контент, защищённый авторским правом, компания PatronusAI решила разобраться в этом вопросе. Компания, занимающаяся оценкой генеративных моделей ИИ, сравнила четыре основные ИИ-модели: ChatGPT-4 от OpenAi, Llama 2 от компании Марка Цукерберга, Mixtral от Mistral и Claude 2.1 от Anthropic.

Специалисты Patronus AI обнаружили, что скорость генерации ИИ-контента, варьируется в зависимости от модели, но уровень генерации защищённого авторским правом контента высок. Компания также выпустила свой собственный инструмент, известный как CopyrightCatcher, который обнаруживает потенциальные нарушения авторских прав в LLM.

В марте 2024 года газета The Wall Street Journal сообщила, что известные издательства изучают возможность использования их произведений, защищённых авторским правом, для обучения генеративных моделей искусственного интеллекта. Издатели хотели, чтобы им заплатили за использование их работ в ИИ.

Учитывая количество судебных исков, связанных с генеративным ИИ и авторскими правами, а также серьёзность опасений, высказанных издателями, вполне логично, что такая компания, как Apple, постарается сделать всё возможное, чтобы избежать любых потенциальных юридических проблем.

Уникальный подход Apple к генеративному ИИ

Чтобы избежать подобных проблем с авторскими правами при обучении собственного генеративного ИИ, Apple, как сообщается, лицензирует работы крупных новостных изданий.

В декабре 2023 года сообщалось, что компания планирует получить лицензию на работы от Conde Nast — издателя Vogue и The New Yorker. Apple также общалась с IAC и NBC News, пытаясь заключить сделку на сумму около $50 млн.

В то время как Apple разработала свою модель изучения языка, известную внутри компании как Ajax, с базовой функциональностью на устройстве, компания использовала другой подход к более продвинутым функциям. Apple рассматривала возможность лицензирования такого программного обеспечения, как Google Gemini, для выполнения более сложных задач, требующих подключения к Интернету.

Используя эту стратегию, Apple явно намеревалась избежать проблем с авторскими правами. Благодаря платному лицензированию компания не будет нести ответственность за нарушение авторских прав, вызванное или допущенное таким программным обеспечением, как Google Gemini.

В исследовательском документе, опубликованном в марте 2024 года, Apple рассказала, что для обучения своего собственного LLM она использовала тщательно подобранную подборку изображений, изображений-текстов и текстовых данных. Метод, который использовала компания, позволял одновременно улучшать подписи к изображениям, проводить многоступенчатые рассуждения и сохранять конфиденциальность.

Источники в отрасли сообщают, что Ajax LLM от Apple сохраняет конфиденциальность, поскольку не требует подключения к интернету для базового анализа текста. Это означает, что LLM на устройстве не может подключиться к базе данных и идентифицировать защищённый авторским правом контент в автономном режиме, хотя более продвинутые функции, такие как генерация текста, вероятно, будут включать такие проверки и подключения.

Если говорить об отчётности и документированных проектах, то защитные ограждения и лицензирование безопасны только в том случае, если они соблюдаются. Источники, знакомые с тестовыми средами Apple для ИИ, в беседе с изданием AppleInsider рассказали, что, похоже, не было практически никаких ограничений, чтобы помешать кому-то использовать материалы, защищённые авторским правом, в исходных данных для тестовых сред на устройстве.

Источнику издания не удалось выяснить, какие правила существуют в Apple для предотвращения обучения, на контенте нарушающего авторские права. Однако выходные данные, скорее всего, регулируются в большей мере, чтобы избежать дословного воспроизведения материалов.

Apple должна представить свою технологию генеративного ИИ во время WWDC, которая начнётся 10 июня.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Искусственный интеллект Apple

Генеративный ИИ от Apple может быть единственным, который обучался легально и этично

Генеративный ИИ и иски о нарушении авторских прав

ИИ и озабоченность издателей по поводу копирования защищённого авторским правом контента

Уникальный подход Apple к генеративному ИИ

Дима Кутузов

Столица двинулась на «Восток»: чем занимаются путешественники на трассе М-12

Александр Беглов представил проект высокоскоростной железнодорожной магистрали между Санкт-Петербургом и Москвой