Как атакуют ИИ. Руководитель ИБ «Алисы» и автономного транспорта «Яндекса» — о популярных хакерских техниках
ИИ за последние годы вошел в жизнь простых людей и бизнеса. Вместе с тем эти технологии используются не только во благо: мошенники активно используют нейросети для кибератак, а ИТ-разработчики создают инструменты для защиты самого ИИ. О методах атак, борьбы и защите искусственного интеллекта в колонке для SecPost рассказал руководитель безопасности "Алисы" и автономного транспорта "Яндекса" Борис Рютин.
ИИ входит в нашу жизнь. Даже если вы лично не генерируете с помощью нейросетей тексты, изображения или аналитику, то сервисы, которые вы используете каждый день, уже вовсю применяют ИИ в бизнес-процессах — например, для суммаризации отзывов на маркетплейсе или проверки их на достоверность. Это молодая, но стремительно развивающаяся сфера: еще пару лет назад многие скептически относились к ИИ, а сегодня те же люди пользуются нейросетями ежедневно.
Такое развитие событий не могло не привлечь внимание как специалистов по ИБ, так и злоумышленников. В результате ИИ стал как инструментом, так и целью кибератак. И речь идет не только о генерации дипфейков для фишинга.
Буквально недавно, в конце лета вышла новость, что злоумышленник построил на базе популярного Claude весь процесс атаки, включающий в себя разведку, создание вредоносного ПО, анализ украденного с точки зрения ущерба и финансовых возможностей пострадавшей организации и, конечно же, генерацию текста о выкупе. По данным Anthropic, было атаковано 17 компаний — от них требовали от $75 тыс до $500 тыс выкупа. И все это — работа одного человека, а не организованной группы.
Хотя большинство популярных нейросетей прямо не разрешают генерировать вредоносное ПО, само понятие «вредоносности» зависит от контекста. Средство для удаленного управления устройством можно использовать как для помощи родственникам, так и для кражи паролей. Кроме того, уже доступны модели с ослабленной цензурой, хотя их возможности пока слабее.
С другой стороны, ИИ-инструменты помогают в защите: мониторят вредоносное поведение, ищут уязвимости, анализируют данные ИБ-инструментов и многое другое.
Но что, если нейросеть сама становится объектом атаки? Приведу несколько примеров. Допустим, у вас есть суммаризатор длинных писем, который пересказывает их содержание. Если в нем есть уязвимость к промт-инъекции, злоумышленник может заставить нейросеть сделать что-то совсем иное — например, рассказать анекдот про Чапаева.
Или другой пример: популярные сегодня персональные ассистенты на базе ИИ, которые управляют календарем, суммаризируют статьи и встречи. Частая ошибка — не проверять, от какого пользователя пришла команда в бот. В лучшем случае кто-то создаст в вашем календаре встречу на завтра в 13:37 «Приготовить сырники под саундтрек из фильма “Хакеры”».
Сложность защиты усугубляется тем, что машинное обучение часто остается «черным ящиком», а средства мониторинга не всегда поспевают за развитием нейросетей. Это приводит среди прочего к «галлюцинациям» моделей, которые в некоторых случаях могут вызвать отказ в обслуживании (DoS). Но это проблема не только кибербезопасности. Поэтому сейчас специалисты по всему миру часто пытаются гарантировать результаты генераций.
Все эти случаи не прошли незамеченными, поэтому ИТ-сообщество разрабатывает стандарты с рекомендациями по безопасному использованию и безопасной разработке нейросетей. В популярном проекте OWASP появилась отдельная категория, а MITRE разработали ATLAS. В обиход вошел термин MLSecOps. Давайте рассмотрим наиболее популярные примеры атак и немного разберемся в их классификации, за основу возьмем упомянутый MITRE ATLAS.
MITRE ATLAS (Adversarial Threat Landscape for Artificial‑Intelligence Systems) — это достаточно новая и обновляемая общедоступная база знаний для оценки угроз и моделирования атак на ИИ с учетом реальных примеров. ATLAS создана по аналогии с MITRE ATT&CK, потому что со всеми моделями мы сейчас взаимодействуем через привычные веб- и мобильные интерфейсы, но фокусируется на уникальных уязвимостях ИИ. Сам же Atlas представляет из себя матрицу, где есть тактики (Reconnaissance, ML Model Access, Impact и прочее) и есть техники в рамках этих тактик, которые отражают методы атакующих.
Часть наиболее популярных техник с реальными примерами я и предлагаю рассмотреть:
— Data Poisoning (AML.T0020) или отравление обучающей выборки — это манипулирование данными, используемыми в процессе обучения, файнтюнинга или дообучения модели ИИ, с целью изменить поведение модели ИИ на определенных входных данных, т.е. для создания уязвимостей, бэкдоров или предвзятости в ответах модели. Наиболее нашумевший пример — бот от Microsoft ТTayау, который за сутки «научили» ругаться;
— Model Extraction (AML.T0024) или кража модели через API. Атакующий отправляет множество запросов к целевой модели и по излишне развёрнутым ответам обучает ее копию. Частично такое произошло с GPT-2;
— Evasion атаки (AML.T0015) — классический пример манипулирования входными данными. Из-за особенностей моделей ИИ можно так поменять входные данные, что для человека вроде и ничего не поменяется, а модель при этом их обработает неправильно. Наиболее наглядный случай произошёл в 2019 году, когда исследователи с помощью стикеров заставили автопилот Tesla интерпретировать знак «СТОП» как ограничение скорости. Такие атаки кстати скорее актуальны для негенеративных моделей ИИ: классификаторов, детекторов и прочих;
— LLM Prompt Injection (AML.T0051) — эксплуатация уязвимостей в процессе инференса модели. Это уже классическая упомянутая промт-инъекция, когда с помощью специально сформированных запросов обходят встроенные ограничения безопасности (и не только) на ответы языковых моделей, которые задаются в их системном промте. Хотя чаще всего они идут рука об руку с популярными джейлбрейками LLM Jailbreak (AML.T0054).
Всего в Atlas сейчас 15 тактик (например, Reconnaissance, AI Model Access, Impact), 115 техник, отражающих методы злоумышленников и 26 методов (на момент написания текста) и 32 публичных инцидента, на базе которых все это построено. Чтобы разобрать каждый, нам потребуется отдельный текст, поэтому если вы занимаетесь или просто интересуетесь безопасностью ИИ, то рекомендую рассмотреть всю матрицу и следить за ней.
В ближайшие годы мы ожидаем роста атак, использующих Agentic AI — автономные ИИ-агенты, способные самостоятельно планировать и выполнять сложные атаки, и пример с Claude как раз показателен. Согласно недавно выпущенному OWASP Agentic AI — Threats and Mitigations Guide, такие системы смогут обходить традиционные защиты, адаптируясь к окружению в реальном времени. Поэтому перед всеми нами стоит задача создания таких адаптивных систем, но уже со стороны защиты. Ключевым направлением станет интеграция методов MLSecOps в полный жизненный цикл разработки ИИ, а появившиеся стандарты по безопасной разработке ИИ подсказывают правильное направление.
В заключение отмечу: нейросети — не серебряная пуля. Это те же интерфейсы (web, мобильные приложения), окружение (серверы, БД) и старые проблемы: отсутствие авторизации и санитизации. Данные нужно проверять не только на предмет кибербезопасности (например, промт-инъекции), но и на фактологическую точность — чтобы в запрошенном рецепте сырников не оказалось цемента.
