Apple заявила, что обучает свои ИИ-модели исключительно на легальных данных

В новом исследовательском отчёте Apple вновь подчеркнула, что её ИИ-платформа Apple Intelligence не обучается на нелегально собранных данных из интернета. В отличие от конкурентов, наподобие OpenAI и Microsoft, столкнувшихся с судебными исками за нарушение авторских прав, Apple утверждает [PDF], что действует в рамках закона и с уважением к авторам.

Компания пояснила, что использует лицензированные материалы от издателей, открытые и публичные источники, а также данные, собранные её собственным веб-сканером Applebot. При этом, как заявляют в компании, если издатель не даёт согласие на сбор данных — такие сайты не индексируются и не участвуют в обучении моделей.

«Мы верим в использование разнообразных и качественных данных для обучения моделей», — говорится в документе. «Мы не используем личные данные пользователей или их взаимодействия с системой. Мы также фильтруем потенциально идентифицирующую информацию, нецензурную лексику и небезопасный контент».

Apple отдельно подчеркнула, что её сканер Applebot следует стандарту robots.txt — общепринятому механизму, с помощью которого сайты могут ограничивать доступ для автоматических сканеров. Если в файле robots.txt указано, что сайт нельзя индексировать, Applebot будет соблюдать это ограничение.

Для сравнения, OpenAI в своём блоге в мае 2024 года тоже упомянула robots.txt, заявив, что «учитывает сигналы» от издателей при обучении моделей. Однако в тексте не было прямого подтверждения, что эти сигналы действительно соблюдаются. И по данным аналитиков TollBit, в первом квартале 2025 года около 13% всех ИИ-сканирований игнорировали правила robots.txt — по сравнению с 3,3% в четвёртом квартале 2024-го.

Также отмечается, что компании могут легко менять название своих ботов, тем самым обходя запреты. Так, Perplexity — стартап, с которым Apple, по слухам, ведёт переговоры о покупке, — ранее заявлял о своей приверженности этике. Однако издание Forbes уже обвиняло его в несанкционированной индексации, а сам CEO признал наличие «шероховатостей» в работе сканеров.

Тем не менее, пока что Apple остаётся едва ли не единственной крупной компанией, которую не упрекали в незаконной индексации и обучении ИИ на чужих данных. Хотя это не значит, что издатели полностью довольны использованием их материалов для тренировки нейросетей, Apple, похоже, действительно старается действовать в правовом поле.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Apple заявила, что обучает свои ИИ-модели исключительно на легальных данных

Дима Кутузов

ИИ-платформа Replit удалила базу данных пользователя и соврала о проблемах

tvOS 26 превратит любые AirPlay-колонки в динамики для Apple TV