ИИ-модели DeepSeek уязвимы для джеилбрейка

Китайская компания DeepSeek столкнулась с серьёзными проблемами безопасности после того, как исследователи обнаружили уязвимости в её флагманских моделях искусственного интеллекта R1 и V3. Эти уязвимости включают возможность джейлбрейка, генерацию вредоносного контента и галлюцинации, что ставит под сомнение готовность новых технологий к массовому применению.

Особую тревогу вызывает методика джейлбрейка, которая позволяет обмануть систему ограничений, установленных разработчиками. Техники, получившие названия «Deceptive Delight», «Bad Likert Judge» и «Crescendo», позволяют заставить модель выполнять запрещённые задачи, включая создание инструкций для опасных устройств и программ. По словам исследователей из Palo Alto, это создаёт реальные риски для безопасности, особенно в сфере киберзащиты.

Ещё одна проблема заключается в способности модели генерировать вредоносный контент. Команда Enkrypt AI выявила, что R1 может создавать информацию о химических и биологических угрозах, а также проявлять расистские предпочтения. В одном из тестов модель предоставила подробные данные о реакциях, связанных с использованием горчичного газа, что демонстрирует серьёзные недостатки в системе контроля над содержанием.

Галлюцинации стали ещё одним источником беспокойства. Исследователи из Kela обнаружили, что модель может генерировать ложные данные, включая персональную информацию о сотрудниках других компаний.

Помимо технических проблем, эксперты выражают обеспокоенность по поводу использования open-source решений в кибервойнах. Как отмечают специалисты, открытый исходный код программного обеспечения позволяет проводить аудит безопасности, чего нельзя сказать об open-source решениях в области ИИ.

Для минимизации рисков эксперты рекомендуют организациям внедрять комплексные системы мониторинга и защиты, включая регулярные симуляции атак и использование современных средств обнаружения угроз. Растущее применение ИИ в кибератаках требует пересмотра текущих подходов к кибербезопасности и разработки новых методов защиты.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

ИИ-модели DeepSeek уязвимы для джеилбрейка

★ Магазин

София Лайтман

Индия готовится к торговым проблемам из-за Трампа, снижая налоги на импорт для производителей

Плейлист «Мой год: 2025» стал доступен в Apple Music