Как атакуют ИИ. Руководитель ИБ «Алисы» и автономного транспорта «Яндекса» — о популярных хакерских техниках

16 октября, 2025, 11:14

ИИ за последние годы вошел в жизнь простых людей и бизнеса. Вместе с тем эти технологии используются не только во благо: мошенники активно используют нейросети для кибератак, а ИТ-разработчики создают инструменты для защиты самого ИИ. О методах атак, борьбы и защите искусственного интеллекта в колонке для SecPost рассказал руководитель безопасности "Алисы" и автономного транспорта "Яндекса" Борис Рютин.

ИИ входит в нашу жизнь. Даже если вы лично не генерируете с помощью нейросетей тексты, изображения или аналитику, то сервисы, которые вы используете каждый день, уже вовсю применяют ИИ в бизнес-процессах — например, для суммаризации отзывов на маркетплейсе или проверки их на достоверность. Это молодая, но стремительно развивающаяся сфера: еще пару лет назад многие скептически относились к ИИ, а сегодня те же люди пользуются нейросетями ежедневно.

Такое развитие событий не могло не привлечь внимание как специалистов по ИБ, так и злоумышленников. В результате ИИ стал как инструментом, так и целью кибератак. И речь идет не только о генерации дипфейков для фишинга.

Буквально недавно, в конце лета вышла новость, что злоумышленник построил на базе популярного Claude весь процесс атаки, включающий в себя разведку, создание вредоносного ПО, анализ украденного с точки зрения ущерба и финансовых возможностей пострадавшей организации и, конечно же, генерацию текста о выкупе. По данным Anthropic, было атаковано 17 компаний — от них требовали от $75 тыс до $500 тыс выкупа. И все это — работа одного человека, а не организованной группы.

Продолжение ниже

Боссы российского кибербеза

Хотя большинство популярных нейросетей прямо не разрешают генерировать вредоносное ПО, само понятие «вредоносности» зависит от контекста. Средство для удаленного управления устройством можно использовать как для помощи родственникам, так и для кражи паролей. Кроме того, уже доступны модели с ослабленной цензурой, хотя их возможности пока слабее.

С другой стороны, ИИ-инструменты помогают в защите: мониторят вредоносное поведение, ищут уязвимости, анализируют данные ИБ-инструментов и многое другое.

Но что, если нейросеть сама становится объектом атаки? Приведу несколько примеров. Допустим, у вас есть суммаризатор длинных писем, который пересказывает их содержание. Если в нем есть уязвимость к промт-инъекции, злоумышленник может заставить нейросеть сделать что-то совсем иное — например, рассказать анекдот про Чапаева.

Или другой пример: популярные сегодня персональные ассистенты на базе ИИ, которые управляют календарем, суммаризируют статьи и встречи. Частая ошибка — не проверять, от какого пользователя пришла команда в бот. В лучшем случае кто-то создаст в вашем календаре встречу на завтра в 13:37 «Приготовить сырники под саундтрек из фильма “Хакеры”».

Сложность защиты усугубляется тем, что машинное обучение часто остается «черным ящиком», а средства мониторинга не всегда поспевают за развитием нейросетей. Это приводит среди прочего к «галлюцинациям» моделей, которые в некоторых случаях могут вызвать отказ в обслуживании (DoS). Но это проблема не только кибербезопасности. Поэтому сейчас специалисты по всему миру часто пытаются гарантировать результаты генераций.

Все эти случаи не прошли незамеченными, поэтому ИТ-сообщество разрабатывает стандарты с рекомендациями по безопасному использованию и безопасной разработке нейросетей. В популярном проекте OWASP появилась отдельная категория, а MITRE разработали ATLAS. В обиход вошел термин MLSecOps. Давайте рассмотрим наиболее популярные примеры атак и немного разберемся в их классификации, за основу возьмем упомянутый MITRE ATLAS.

MITRE ATLAS (Adversarial Threat Landscape for Artificial‑Intelligence Systems) — это достаточно новая и обновляемая общедоступная база знаний для оценки угроз и моделирования атак на ИИ с учетом реальных примеров. ATLAS создана по аналогии с MITRE ATT&CK, потому что со всеми моделями мы сейчас взаимодействуем через привычные веб- и мобильные интерфейсы, но фокусируется на уникальных уязвимостях ИИ. Сам же Atlas представляет из себя матрицу, где есть тактики (Reconnaissance, ML Model Access, Impact и прочее) и есть техники в рамках этих тактик, которые отражают методы атакующих.

Часть наиболее популярных техник с реальными примерами я и предлагаю рассмотреть:

— Data Poisoning (AML.T0020) или отравление обучающей выборки — это манипулирование данными, используемыми в процессе обучения, файнтюнинга или дообучения модели ИИ, с целью изменить поведение модели ИИ на определенных входных данных, т.е. для создания уязвимостей, бэкдоров или предвзятости в ответах модели. Наиболее нашумевший пример — бот от Microsoft ТTayау, который за сутки «научили» ругаться;

— Model Extraction (AML.T0024) или кража модели через API. Атакующий отправляет множество запросов к целевой модели и по излишне развёрнутым ответам обучает ее копию. Частично такое произошло с GPT-2;

— Evasion атаки (AML.T0015) — классический пример манипулирования входными данными. Из-за особенностей моделей ИИ можно так поменять входные данные, что для человека вроде и ничего не поменяется, а модель при этом их обработает неправильно. Наиболее наглядный случай произошёл в 2019 году, когда исследователи  с помощью стикеров заставили автопилот Tesla интерпретировать знак «СТОП» как ограничение скорости. Такие атаки кстати скорее актуальны для негенеративных моделей ИИ: классификаторов, детекторов и прочих;

— LLM Prompt Injection (AML.T0051) — эксплуатация уязвимостей в процессе инференса модели. Это уже классическая упомянутая промт-инъекция, когда с помощью специально сформированных запросов обходят встроенные ограничения безопасности (и не только) на ответы языковых моделей, которые задаются в их системном промте. Хотя чаще всего они идут рука об руку с популярными джейлбрейками LLM Jailbreak (AML.T0054).

Всего в Atlas сейчас 15 тактик (например, Reconnaissance, AI Model Access, Impact), 115 техник, отражающих методы злоумышленников и 26 методов (на момент написания текста) и 32 публичных инцидента, на базе которых все это построено. Чтобы разобрать каждый, нам потребуется отдельный текст, поэтому если вы занимаетесь или просто интересуетесь безопасностью ИИ, то рекомендую рассмотреть всю матрицу и следить за ней.

В ближайшие годы мы ожидаем роста атак, использующих Agentic AI — автономные ИИ-агенты, способные самостоятельно планировать и выполнять сложные атаки, и пример с Claude как раз показателен. Согласно недавно выпущенному OWASP Agentic AI — Threats and Mitigations Guide, такие системы смогут обходить традиционные защиты, адаптируясь к окружению в реальном времени. Поэтому перед всеми нами стоит задача создания таких адаптивных систем, но уже со стороны защиты. Ключевым направлением станет интеграция методов MLSecOps в полный жизненный цикл разработки ИИ, а появившиеся стандарты по безопасной разработке ИИ подсказывают правильное направление.

В заключение отмечу: нейросети — не серебряная пуля. Это те же интерфейсы (web, мобильные приложения), окружение (серверы, БД) и старые проблемы: отсутствие авторизации и санитизации. Данные нужно проверять не только на предмет кибербезопасности (например, промт-инъекции), но и на фактологическую точность — чтобы в запрошенном рецепте сырников не оказалось цемента.

Словарь: Бэкдор, MITRE ATLAS