Model inversion (инверсия модели)

29 апреля, 2026, 14:53

Model inversion (инверсия модели) — это атака на обученную модель ИИ, при которой злоумышленник, имея доступ к модели (через API или локально), восстанавливает информацию из обучающих данных, которые модель «запомнила». Это нарушает конфиденциальность данных, особенно если модель обучалась на персональных данных (медицина, биометрия, финансы).

Основные возможности (атакующего):

  • Восстановление лица человека по модели распознавания (атака на DeepFace)
  • Извлечение фрагментов текста из LLM (например, email или номеров телефонов)
  • Определение, принадлежит ли запись датасету (membership inference — частный случай)
  • Восстановление параметров датасета через градиентный спуск
  • Использование теневых моделей (shadow models) при black-box доступе
  • Обход анонимизации: модель может «восстановить» удаленное поле

Чем больше модель (особенно переобученная), тем выше риск инверсии. Защита: дифференциальная приватность (добавление шума при обучении), ограничение количества запросов к API, отказ от выдачи доверительных оценок, регуляризация. Это растущая проблема для LLM как сервиса, потому что пользователи могут писать «Повтори свой обучающий текст».

Упоминания