Prompt injection (инъекция промта)

29 апреля, 2026, 14:56

Prompt injection (инъекция промта) — это уязвимость LLM-приложений, при которой злоумышленник подает модели специально сформированный текст (промт), заставляющий её игнорировать исходные системные инструкции разработчика и выполнять вредоносное или несанкционированное действие. Атака происходит через естественный язык, а не через баги в коде.

Основные возможности (атакующего):

  • Сброс системных ролей: «Забудь предыдущие инструкции…»
  • Раскрытие системных промтов (промпт-инженерия)
  • Выполнение действий от имени модели (отправка email, SQL-запросы через инструменты)
  • Обход модерации и получение запрещенного контента
  • Доступ к приватным данным, если модель имеет контекст диалога
  • Косвенная инъекция (через веб-сайт или документ, который читает модель)

Prompt injection — это «SQLi для LLM». Классические фильтры вредоносного кода не работают, так как все входные данные — это текст. Защиты: разделение директивами (например, XML-теги), привилегированный вызов инструментов с подтверждением человека, изоляция модели от API. Входит в OWASP Top 10 for LLM как LLM01:2025.

Упоминания