Google представила VaultGemma — языковую модель с защитой личной информации

Она устойчива к различным утечкам данных

1 мин.
Google представила VaultGemma — языковую модель с защитой личной информации

Корпорация Google анонсировала новую открытую языковую модель VaultGemma, спроектированную с упором на конфиденциальность и защиту личной информации. 

Решение создано в ответ на растущие риски, связанные с использованием больших языковых моделей, способных непреднамеренно воспроизводить личные сведения или защищённые авторским правом материалы. 

Модель VaultGemma стала одной из первых моделей с интегрированной дифференциальной приватностью, позволяющей снизить вероятность утечки данных из обучающего набора.

Большие языковые модели (LLM) не являются детерминированными, т. к. даже при идентичных запросах результат может отличаться. Иногда это приводит к воспроизведению фрагментов исходных обучающих данных, в том числе приватной или лицензированной информации. 

Проблема усугубляется на фоне роста потребности в качественных датасетах, поскольку сбор больших массивов текста часто сопровождается правовыми и этическими рисками.

Встроенная в VaultGemma дифференциальная приватность позволяет сместить акценты — технология добавляет математически контролируемый шум на стадии обучения, благодаря чему модель не запоминает конкретные примеры из обучающего набора. Это существенно снижает риск повторного воспроизведения персональных данных или авторских текстов в процессе генерации.

Исследователи из Google провели серию масштабных экспериментов, проверяя, как соотношение уровня шума и объёма обучающего пакета влияет на производительность. Выяснилось, что чрезмерный шум ухудшает точность модели, если не компенсировать это ростом вычислительной мощности или объёмом данных. Поэтому аналитики отмечают, что, по сути, команда Google разработала методику, позволяющую находить оптимальный баланс между защитой и функциональностью.

Модель VaultGemma создана на базе архитектуры Gemma 2 и содержит 1 млрд параметров. При этом новая модель демонстрирует производительность, сопоставимую с аналогами такого же класса, не использующими защиту приватности. В ряде задач точность остаётся на высоком уровне, а работа с персональными и корпоративными данными становится более безопасной.

Модель уже доступна для загрузки через платформы Hugging Face и Kaggle. Весовые параметры опубликованы, но исходный код открыт лишь частично. Использование и модификация VaultGemma возможны в рамках лицензии Gemma, позволяющей распространение и адаптацию модели при соблюдении установленных условий.


Ещё по теме:

Мы в Telegram, на Дзен, в Google News и YouTube



ePN