Data poisoning (отравление данных)

29 апреля, 2026, 14:54

Data poisoning (отравление данных) — это целенаправленная компрометация обучающей выборки, на которой тренируется модель машинного обучения (включая LLM). Атакующий внедряет в данные фальшивые, смещенные или вредоносные примеры, чтобы модель научилась неправильному поведению, «забыла» правильные паттерны или имела бэкдор (триггер к определенному действию).

Основные возможности (атакующего):

  • Внедрение бэкдора (например, слово «счастье» в любой картинке классифицирует её как кошку)
  • Снижение точности модели (doS модели)
  • Изменение поведения в узкой области
  • Внедрение нецензурных или опасных ответов в LLM
  • Атака на модели, которые дообучаются на пользовательских данных (online poisoning)
  • Отравление RAG (векторных баз) — подача вредоносного документа в базу знаний

Data poisoning особенно опасен, если модель переобучается периодически на обратной связи пользователей (как это делают чат-боты). Защита: контроль версий данных, криптографическая верификация датасетов, обнаружение аномалий в обучающих примерах, ограничение влияния пользовательского фидбека.

Упоминания