Компания OpenAI обучила GPT-4 на текстовых версиях видео с YouTube

Журналисты крупного американского издания The Wall Street Journal заявили, что многие современные компании, которые занимаются разработкой технологий искусственного интеллекта и больших языковых моделей, сейчас сталкиваются со значительной проблемой, потому как им не хватает общедоступной информации для обучения новых нейросетей. В связи с этим, некоторые разработчики идут на крайние меры, а ряд компаний и вовсе нарушают законы.

В частности, одна из наиболее известных компаний, работающих в сфере искусственного интеллекта — американская OpenAI — сообщила о разработке нового инструмента Whisper, который представляет собой автоматическую систему распознавания речи. С её помощью можно транскрибировать аудио в текст. Прежде всего, это относится к многочисленным видеороликам с видеохостинга YouTube.

С использованием своего нового инструмента сотрудники компании OpenAI смогли зашифровать более 1 млн часов видеороликов, чтобы обучить свою модель GPT-4. При этом, эксперты рынка отмечают, что американская компания с высокой долей вероятности прекрасно знала, что подобное решение является весьма сомнительным с точки зрения американского законодательства об авторских правах, но посчитала, что подобный процесс обучения своей большой языковой модели вполне «добросовестным решением». Более того, как отмечают журналисты издания The New York Times, руководители компании OpenAI, включая Грега Брокмана, самостоятельно участвовали в этом процессе.

Представитель американской корпорации Google, Мэтт Брайант, заявил, что его компания имеет неподтверждённые сообщения о том, что OpenAI занимается расшифровкой видеороликов с YouTube, несмотря на тот факт, что условия обслуживания видеохостинга прямо запрещают неправомерное сканирование или загрузку контента с сервиса. Интересным моментом здесь является то, что корпорация Google самостоятельно занимается сбором примерно таких же данных, но якобы действует в этом направлении в рамках соглашения с авторами.

Эксперты в отрасли также заявляют, что Google, OpenAI и другие компании, работающие в сфере искусственного интеллекта, сейчас сталкиваются с проблемой нехватки данных для обучения больших языковых моделей. Некоторые из специалистов уверены, что в течение 4-5 ближайших лет искусственный интеллект сможет выучить всё, что доступно на данный момент в интернете, и поэтому столкнётся с нехваткой новой информации.

В качестве вероятного решения этой проблемы рассматривается обучение моделей на так называемых синтетических данных, то есть на информации, которая была уже создана технологиями искусственного интеллекта. Помимо этого, в качестве альтернативы рассматривается возможность создания специальных учебников для искусственного интеллекта, в которых будет приведена структурированная и сокращённая информация, которую нейросети смогут использовать для генерации знаний на основе мышления.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Компания OpenAI обучила GPT-4 на текстовых версиях видео с YouTube

Кирилл Поляков

Home, Planet and Hunters – ролевая игра в ретро-стиле, релиз которой состоится всего через пару дней

Индийская Tata Group намерена купить ещё один завод по производству iPhone