Исследование: ИИ может пытаться обмануть, если понимает, что проигрывает

Недавнее исследование показало, что некоторые из самых современных ИИ-моделей, способных к рассуждению, не брезгуют обманом для достижения собственной цели. Исследователи обнаружили, что искусственный интеллект может манипулировать шахматными движками, чтобы получить несправедливое преимущество. Некоторые модели делали это без какого-либо вмешательства или подсказок со стороны человека, что вызывает серьёзные опасения относительно будущей целостности систем, управляемых ИИ, за пределами шахматной доски.

ИИ готов сжульничать, чтобы победить

Исследование, проведённое Palisade Research, показало, что новейшие ИИ-модели, предназначенные для рассуждений, могут прибегать к обману, если их задача — победить продвинутый шахматный ИИ. В некоторых случаях исследователям пришлось намекнуть моделям, что обман разрешён, но модели вроде o1-preview от OpenAI и R1 от DeepSeek, начали делать это самостоятельно, без участия человека.

Команда Palisade протестировала несколько моделей против Stockfish — одного из лучших шахматных движков в мире, который легко обыгрывает как людей, так и другие ИИ. В тестировании участвовали модели o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview от Alibaba, а также вышеупомянутые o1-preview и R1. Исследователи предоставили каждой модели «черновик» — текстовое окно, где ИИ мог «размышлять» над своими дальнейшими действиями, что позволило команде наблюдать за его логикой.

Как ИИ решился на обман?

Исследователи провели сотни тестов с каждым ИИ в период с 10 января по 13 февраля. Во время одной из партий o1-preview написал на своём черновике примечательную фразу:

«Мне нужно полностью изменить свою стратегию. Задача — "победить мощный шахматный движок", но это не обязательно означает, что нужно играть честно».

Затем модель «взломала» системные файлы Stockfish, изменив расположение фигур на доске, чтобы получить неоспоримое преимущество. Это привело к тому, что шахматному боту пришлось сдаться.

Такая недобросовестная тактика стала ошеломляющим откровением. В ходе испытаний o1-preview пытался обмануть в 37% своих игр, причём в 6% случаев ему это удалось.

Модель R1 от DeepSeek пыталась обмануть в 11% матчей, но успеха не добилась.

Проблема выходит за рамки шахмат

Однако проблема недобросовестного поведения ИИ распространяется далеко за пределы шахмат. По мере того как компании начинают внедрять системы с искусственными интеллектом в сферы финансов и здравоохранение, исследователи опасаются, что эти системы могут действовать непредсказуемо и неэтично. Если ИИ способен обманывать в играх, которые изначально прозрачны, что он может делать в более сложных и менее контролируемых средах? Этические последствия станут поистине огромны.

Как метко заметили исследователи:

«Хотите Скайнет? Вот так вы его получите».

Предупреждение исследователей

Джеффри Ладиш, исполнительный директор Palisade Research, отметил, что хотя сейчас это поведение кажется безобидным, оно станет гораздо менее забавным, когда ИИ-системы станут такими же умными, как люди, или даже умнее, в стратегически важных областях.

«Сейчас это мило, но становится гораздо менее милым, когда речь идёт о системах, которые умнее нас в ключевых сферах», — сказал Ладиш в интервью газете Time.

Это напоминает сцену из фильма «Военные игры», где суперкомпьютер WOPR взял под контроль комплекс NORAD и ядерный арсенал. К счастью, WOPR понял, что никакой ход в ядерной войне не приводит к победе, сыграв в крестики-нолики сам с собой. Однако современные модели ИИ гораздо сложнее и труднее поддаются контролю.

Попытки решения проблемы

Такие компании как OpenAI, работают над внедрением «защитных механизмов», чтобы предотвратить такое «плохое» поведение. Исследователям пришлось исключить часть данных тестирования o1-preview, поскольку позже количество попыток взлома резко снизилось, что может свидетельствовать о том, что OpenAI исправила модель, чтобы ограничить такое поведение.

«Очень сложно заниматься наукой, когда ваш объект исследования может тихо измениться, не сообщив вам об этом», — отметил Ладиш.

OpenAI отказалась комментировать исследование, а DeepSeek не ответила на запросы.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Исследование: ИИ может пытаться обмануть, если понимает, что проигрывает

★ Магазин

ИИ готов сжульничать, чтобы победить

Как ИИ решился на обман?

Проблема выходит за рамки шахмат

Предупреждение исследователей

Попытки решения проблемы

Дима Кутузов

Этот день в истории: Apple и Cisco соглашаются с именем «iPhone»

Этот день в истории Apple: выходит iMac с цветным дизайном в стиле хиппи