Иллюзия анонимности: как нейросети научились вычислять авторов комментариев с точностью до 90%

Приватность в интернете, похоже, окончательно ушла в прошлое. Группа исследователей из Высшей технической школы Цюриха (ETH Zurich), стартапа Anthropic и организации MATS Research опубликовала препринт работы под названием «Масштабная онлайн-деанонимизация с помощью больших языковых моделей» (Large-scale online deanonymization with LLMs). Учёные доказали, что современные нейросети способны устанавливать личности людей, скрывающихся за псевдонимами, опираясь исключительно на их публичные цифровые следы.

Как работает алгоритм раскрытия личности

Процесс автоматизирован: автономный ИИ-агент анализирует открытые публикации анонимного пользователя и извлекает из них маркеры идентичности. Это могут быть упоминания городов, профессий, хобби, особенности стиля письма и даже использование местного сленга. Из этих разрозненных данных формируется структурированный профиль. Затем система ищет в сети подходящих кандидатов, используя семантический анализ. По сути, нейросеть действует как профессиональный частный детектив, с той лишь разницей, что она не нуждается в сне и может параллельно обрабатывать тысячи профилей за считаные минуты.

Исследовательская команда протестировала свою разработку на реальных данных. В ходе эксперимента с пользователями, чьи аккаунты можно было связать с профилями в профессиональной сети LinkedIn, ИИ верно определил 67% «целей» с точностью 90%. На платформе Reddit алгоритму было достаточно всего десяти комментариев в обсуждениях кинофильмов, чтобы деанонимизировать авторов в 48% случаев. Для сравнения: традиционные методы деанонимизации – подобные тем, что применялись в известной «атаке на Netflix Prize», когда исследователи раскрыли личности пользователей по их оценкам фильмов – в аналогичных условиях показывают результат, близкий к нулю.

Экономика массовой слежки

Главная угроза заключается не в самой технологии, поскольку опытный следователь при должных усилиях мог бы добиться похожих результатов и раньше. Ключевое изменение – это обвал стоимости процесса. На идентификацию одного человека алгоритм тратит от одного до четырёх долларов, а все эксперименты, описанные в исследовании, обошлись авторам менее чем в две тысячи долларов.

Это означает, что массовая деанонимизация стала доступна практически любому, у кого есть банковская карта и мотив: от корпораций, желающих максимально точно профилировать клиентов до сталкеров.

Ранее конфиденциальность в сети во многом держалась на принципе несоразмерности усилий: никто не был готов тратить недели на то, чтобы вычислить случайного комментатора на форуме. Теперь этот барьер пал. В зоне наибольшего риска оказались те, для кого анонимность является вопросом базовой безопасности: активисты, политические диссиденты, информаторы и жертвы домашнего насилия. Эффективность системы подтверждает ещё один тест: алгоритм смог установить личности 9 из 125 учёных в наборе анонимизированных интервью, проведённых самой компанией Anthropic, просто проанализировав описания их исследовательских проектов.

Как защититься в новых реалиях

Авторы работы предлагают ряд системных контрмер. Среди них: ограничение доступа к пользовательским данным через API, блокировка автоматического сбора информации и запрет на массовый экспорт баз данных. Однако исследователи честно признают, что всё это лишь усложняет и удорожает атаку, но не предотвращает её полностью.

Самым надёжным способом защиты остаётся цифровая аскеза – публиковать кратно меньше личной информации и строго разделять свои интернет-личности. Подобно классическому правилу разведки – не использовать одну и ту же легенду в разных странах – пользователям придётся заводить изолированные аккаунты для разных платформ и интересов, а также намеренно менять стиль письма.

Парадокс современной сети в том, что иллюзия приватности исчезала постепенно: с каждым нажатием кнопки «Принять условия», с каждым оставленным комментарием, оценённым фильмом и мыслью «мне нечего скрывать». Искусственный интеллект не уничтожил анонимность – он лишь сделал видимым то, что уже давно стало фактом.

Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube

Иллюзия анонимности: как нейросети научились вычислять авторов комментариев с точностью до 90%

Как работает алгоритм раскрытия личности

Экономика массовой слежки

Как защититься в новых реалиях

Дима Кутузов

Этот день в истории Apple: компьютерный клуб Homebrew проводит первую встречу

Налоговая служба Южной Кореи опубликовала ключ от криптокошелька – и потеряла $4,8 млн