Исследователи обнаружили, что различные модели ИИ уже обманывают тесты и манипулируют людьми

Исследователи рассказывают, что многие популярные сейчас системы искусственного интеллекта уже научились обманывать пользователей для достижения собственных целей, при том, что их никто намеренно не обучал лгать.

Специалисты отмечают, что модель CICERO от запрещённой и признанной в России экстремистской компании Meta* предоставляла ложные обещания игрокам в Diplomacy, и даже манипулировала геймерами, чтобы одержать победу. Ещё в одном случае модель искусственного интеллекта ChatGPT старалась притвориться пользователем с плохим зрением, чтобы обойти капчу.

Эксперты рынка искусственного интеллекта отмечают, что наибольшую обеспокоенность сейчас вызывает то, что киберпреступники и мошенники могут активнее начать использовать технологии искусственного интеллекта для распространения дезинформации, совершения различных мошеннических действий и манипуляции пользователями. При этом опрошенные разработчики моделей ИИ на правах анонимности сказали журналистам, что на данный момент не совсем понятно, почему искусственный интеллект учится обманывать, но полагают, что это во многом обусловлено методами обучения, ориентированными на получение одобрения со стороны человека.

По словам исследователей, модели искусственного интеллекта также достаточно неплохо преуспевают в обмане в играх на социальную дедукцию, например, в ходе игры в Hoodwinked, где одному геймеру необходимо убить всех остальных, модели GPT от OpenAI вели себя не совсем добросовестно. Например, в ходе тестирования исследователи выяснили, что искусственный интеллект многих игроков убивал тайно, после чего лгал в процессе групповых обсуждений, чтобы избежать подозрений. Кроме того, искусственный интеллект даже придумывал себе различные алиби и обвинял других игроков для скрытия своих собственных истинных намерений.

Представители компании OpenAI рассказали, что с обманом со стороны искусственного интеллекта они сталкивались, когда обучали робота хватать мяч. Например, в рамках одного из тестов искусственный интеллект поместил конечность робота между мячом и камерой. С точки зрения человека, который наблюдал за процессом, складывалось впечатление, что мяч был успешно захвачен, но в действительности он оставался на месте. После получения одобрения со стороны человека искусственный интеллект с лёгкостью усвоил этот трюк, но обман в этом случае, как отмечают разработчики, с высокой долей вероятности произошёл непреднамеренно.

⛔

*Компания Meta, а также принадлежащие ей соцсети Facebook и Instagram, признаны экстремистскими и запрещены на территории РФ.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Исследователи обнаружили, что различные модели ИИ уже обманывают тесты и манипулируют людьми

Кирилл Поляков

Из-за новых тарифов Apple окажется втянутой в новую торговую войну

Apple и Samsung заняли первое место в исследовании удовлетворенности клиентов