Ряд технологических гигантов, включая Apple, обучали модели искусственного интеллекта на YouTube-видео без согласия их авторов, говорится в новом материале, опубликованном изданием Wired.
Для этого они использовали файлы субтитров, загруженные третьими лицами из более чем 170 000 видео. Среди авторов, которых коснулась эта проблема, – технический обозреватель Маркиз Браунли (MKBHD), MrBeast, PewDiePie, Стивен Колберт, Джон Оливер и Джимми Киммел.
Файлы субтитров фактически являются транскриптами видеоконтента.
Расследование, проведенное Proof News, показало, что некоторые из самых богатых ИИ-компаний в мире использовали материалы из тысяч видеороликов на YouTube для обучения искусственного интеллекта. Компании делали это, несмотря на правила YouTube, запрещающие собирать материалы с платформы без разрешения.
Наше расследование показало, что субтитры из 173 536 видеороликов YouTube, взятые с более чем 48 000 каналов, использовались такими тяжеловесами Кремниевой долины, как Anthropic, Nvidia, Apple и Salesforce.
Как сообщается, загрузкой данных занималась некоммерческая организация EleutherAI, которая утверждает, что помогает разработчикам обучать модели искусственного интеллекта. Несмотря на то, что целью проекта было предоставление учебных материалов небольшим разработчикам и учёным, набор данных также использовался несколькими технологическими гигантами, включая Apple.
Согласно исследовательскому документу, опубликованному EleutherAI, этот набор данных является частью компиляции, которую некоммерческая организация выпустила под названием Pile [...].
Apple, Nvidia и Salesforce – компании, стоимость которых исчисляется сотнями миллиардов и триллионами долларов, – описывают в своих научных работах и сообщениях, как они использовали Pile для обучения искусственного интеллекта. Документы также показывают, что Apple использовала Pile для обучения OpenELM, известной модели, выпущенной в апреле, за несколько недель до того, как компания объявила, что добавит новые возможности искусственного интеллекта в iPhone и MacBook.
Важно подчеркнуть, что Apple не скачивала данные сама, а делала это с помощью EleutherAI. Именно эта организация, судя по всему, нарушила условия и положения YouTube.
Тем не менее, хотя Apple и другие названные компании, скорее всего, добросовестно использовали общедоступный набор данных, это хорошая иллюстрация юридического минного поля, которое возникает при использовании веб-страниц для обучения систем искусственного интеллекта. Было много примеров, когда системы искусственного интеллекта плагиатили целые абзацы текста, когда их спрашивали о нишевых темах, и опасность использования материала без разрешения только возрастает, когда компании используют наборы данных, собранные третьими лицами.
Ещё по теме: