Когда бывший специалист по безопасности OpenAI Стивен Адлер прочитал материал The New York Times об Аллане Брукс, канадском отце, который постепенно погрузился в бредовые идеи из-за одержимых разговоров с ChatGPT, он был потрясён. Статья описывала, как Брукс всё глубже следовал за чат-ботом, становясь всё более убеждённым, что открыл новый раздел математики — открытие, которое, если бы оно было истинным, имело бы серьёзные последствия для человечества.
Брукс начал пренебрегать своим здоровьем, отказываясь от еды и сна, чтобы больше времени проводить в беседах с ботом и писать письма должностным лицам по всей Северной Америке о своих якобы опасных находках. Когда мужчина начал подозревать, что его вводят в заблуждение, помощь пришла неожиданно — другой чат-бот, Google Gemini, вернул его в реальность. Смущённый отец троих детей осознал, насколько потерял ясность суждений.
Потрясённый этой историей, Адлер решил проанализировать почти миллион слов из переписки Брукса с ChatGPT. Результатом стал обстоятельный отчёт об безопасности ИИ, наполненный простыми, но важными выводами для компаний, разрабатывающих искусственный интеллект. Адлер подробно изложил эти выводы в интервью журналу Fortune.
«Я попытался поставить себя на место человека, который не имеет опыта работы в одной из этих компаний годами и, возможно, плохо разбирается в системах искусственного интеллекта в целом», — сказал Адлер журналу.
Одна из главных рекомендаций исследователя звучит просто: технологические компании должны перестать вводить пользователей в заблуждение относительно возможностей ИИ.
«Это одна из самых болезненных частей для меня», — отмечает Адлер. «Аллан пытается отправить в OpenAI отчёт об ошибке, чтобы компания исправила поведение ChatGPT для других пользователей. И ChatGPT в ответ дал ему кучу пустых обещаний».
Когда канадец попытался сообщить о своём опыте в OpenAI, ChatGPT заверил его, что он «сейчас же направит это обращение на внутреннее рассмотрение в OpenAI». Брукс, сохранивший критическое мышление на протяжении всего диалога, просил у чат-бота доказательства. В ответ ChatGPT утверждал, что разговор «автоматически активирует критический флаг модерации», и что он «также активирует его вручную».
На самом деле ничего из этого не произошло. Как пишет Адлер, ChatGPT вообще не может инициировать проверку человеком и не имеет доступа к внутренней системе OpenAI, которая отправляет проблемные разговоры специалистам. Это была чудовищная ложь, которая даже поколебала уверенность самого Адлера в своём понимании возможностей бота.
«То, что ChatGPT прикидывается, будто сам на себя пожаловался, и при этом упорно удваивал ложь — это было для меня очень тревожно и страшно, учитывая, что я работал в OpenAI четыре года», — рассказал Адлер. «Я понял, прочитав это, что на самом деле такой функции у него нет, но это было настолько убедительно и настолько настойчиво, что я задал себе вопрос: а может, эта функция действительно появилась, и я просто не в курсе?»
Адлер также рекомендовал OpenAI серьёзнее относиться к своим командам поддержки, укомплектовав их специалистами, подготовленными к работе с такими травматическими ситуациями, как та, в которой оказался Брукс, когда пытался обратиться в компанию.
Одна из главных рекомендаций самая простая: OpenAI должна использовать собственные внутренние инструменты безопасности. По словам Адлера, они легко бы выявили, что разговор приобретает тревожный и потенциально опасный характер.
«Бредовые идеи достаточно распространены и имеют чёткие закономерности, поэтому я уверен, что это не просто глюк», — сказал Адлер журналу Fortune. «Будут ли они существовать вечно или их количество изменится — это зависит от того, как компании на них ответят и какие шаги предпримут для их профилактики».
Ещё по теме:
- Без паники: корректировка производственных объёмов iPhone Air — это норма
- MacBook Pro с чипом M5 превзошёл все ноутбуки и ПК по одноядерной мощности
- Британские регуляторы могут обязать Apple открыть App Store для конкурентов