VK запретил роботу компании OpenAI собирать данные «Дзена»

GPTBot слишком сильно нагружает сервера сервиса

1 мин.
VK запретил роботу компании OpenAI собирать данные «Дзена»
Photo by Andrew Neel / Unsplash

Компания VK объявила о запрете для робота известной компании OpenAI, владеющей популярным чат-ботом ChatGPT, собирать какие-либо данные с сервиса «Дзен». Журналисты издания «Коммерсантъ» рассказали, что соответствующий запрет на данный момент установлен в принадлежащем сервису «Дзен» файле robots.txt, который используется различными сайтами и платформами для регламентации правил автоматического сбора данных с ресурсов.

В пресс-службе компании VK подчеркнули, что работа робота GPTBot была действительно заблокирована, чтобы снизить уровень нагрузки, который оказывается на сервера «Дзена».

В комментарии компании VK по этому поводу говорится о том, что рекомендательная система сервиса «Дзен» является на данный момент одной из наиболее крупных в российском сегменте интернета. Сервисы сильно нагружены, работают в беспрерывном режиме, обрабатывают свыше 150 000 запросов ежесекундно. В связи с этим было принято решение не добавлять GPTBot от OpenAI в соответствующий файл, чтобы грамотно использовать технический ресурс, не создавая дополнительную нагрузку. В сервисе «Дзен» на постоянной основе создается огромное количество публикаций как в текстовом, так и в видеоформате, поэтому все ресурсы направлены на обеспечение качественного пользовательского опыта, уточнили в VK.

Файл robots.txt, как отмечают специалисты, носит исключительно рекомендательный характер. Поэтому, с технической точки зрения, ничто не может запретить роботам каких-либо компаний игнорировать директивы, которые в нём прописаны. Например, проект Internet Archive, работающий в сфере создания копий различных веб-ресурсов, в 2019 году сообщил, что будет полностью игнорировать все установки из robots.txt, но в 2022 году это решение было отменено.

Американская компания OpenAI использует робота GPTBot, чтобы собирать информацию, которая в дальнейшем применяется для разработки нейросетевых продуктов. Интересно, что к этим продуктам российские пользователи на текущий момент не имеют официального доступа.

Примерно похожие роботы также используются в российской компании «Яндекс» и американской корпорации Google, при помощи которых поисковые системы поддерживают актуальные данные о различных ресурсах.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube