Как защищать искусственный интеллект — отчет Yandex Cloud
Развитие ИИ-агентов и мультиагентных систем открыло новые возможности для бизнеса, но одновременно повысило уязвимость инфраструктуры. Специалисты Yandex Cloud систематизировали ключевые угрозы для ИИ-агентов и предложили практические рекомендации по их предотвращению, подробнее в материале SecPost.
SecPost представляет обзор руководства, подготовленного командой Yandex B2B Tech. Гайд опирается на международные практики OWASP®, NIST и MITRE ATT&CK® и адаптирует их к архитектуре современных ИИ-систем. Гайд предназначен для разработчиков, инженеров по данным и специалистов по кибербезопасности, которые внедряют агентные решения в бизнес-процессы.
Авторы отмечают, что использование больших языковых моделей (LLM) перешло на новый этап: появляются типовые архитектуры и стандартные компоненты, а агентный подход становится основой интеграции ИИ в реальные задачи. Вместе с этим растет и спектр рисков — от утечек данных и манипуляций с логикой модели до компрометации инструментов и инфраструктуры.
В гайде предложен собственный фреймворк для моделирования угроз — AI-SAFE, объединяющий классификации OWASP® LLM Top 10, MCP (Model Context Protocol) Top 10 и угрозы для RAG (Retrieval-Augmented Generation — генерация ответов с использованием внешних источников данных) в единую пятиуровневую модель безопасности.
Основы и архитектура агентских систем ИИ
Авторы гайда отмечают, что агентный подход стал новым этапом в развитии искусственного интеллекта. В отличие от классических моделей машинного обучения, выполняющих одну функцию на основе заранее подготовленных данных, ИИ-агенты действуют автономно, ставят цели, взаимодействуют с цифровой средой и корректируют поведение в зависимости от обратной связи.
Если классическая модель — это инструмент анализа данных, а LLM — генератор текста и идей, то ИИ-агент можно рассматривать как «исполнителя», который объединяет их возможности и достигает результатов в реальном мире.
В основе таких систем — несколько ключевых компонентов: память, инструменты для взаимодействия с внешней средой, планирование и механизмы обратной связи. Они работают в едином агентском цикле, обеспечивая способность к обучению и адаптации.
Авторы подчеркивают: надёжность и безопасность ИИ-агента напрямую зависят от продуманности его архитектуры. Именно поэтому в гайде представлена собственная модель анализа рисков — AI-SAFE, описывающая угрозы на каждом уровне агентной системы.
Фреймворк AI-SAFE и пятиуровневая модель угроз
ИИ-агенты и мультиагентные системы открывают новые сценарии автоматизации, но при этом становятся потенциальной мишенью для кибератак. Авторы гайда подчеркивают, что угрозы для таких систем требуют отдельного подхода: злоумышленники могут вмешаться в логику агента, изменить цель его работы или получить доступ к данным через инструменты и инфраструктуру.
Фреймворк AI-SAFE предлагает модель, разделяющую архитектуру агента на пять уровней — от пользовательского интерфейса до базы знаний. Для каждого уровня приведены типовые угрозы и рекомендации по защите.
- Интерфейс взаимодействия (Input/Output) — атаки на ввод и вывод данных, включая Prompt Injection и Improper Output Handling.
- Исполнение и инструменты (Execution & Tools) — злоупотребление встроенными инструментами, эскалация привилегий, Tool Poisoning.
- Инфраструктура и оркестрация (Infrastructure & Orchestration) — атаки на контейнеры, цепочки поставок и коммуникацию между агентами.
- Ядро и логика (Reasoning & Planning) — манипуляции с целями, Jailbreaking, сбои в принятии решений.
- Данные и знания (Knowledge) — отравление баз знаний, утечки и атаки на RAG-системы.
Такой подход позволяет анализировать риски комплексно — не только на уровне модели, но и всей экосистемы вокруг неё. AI-SAFE опирается на международные источники, включая OWASP® LLM Top 10, MCP Top 10 и классификацию угроз для RAG, но адаптирует их к практическим задачам построения и эксплуатации ИИ-агентов.
Ключевые угрозы и реальные инциденты
Гайд Yandex Cloud иллюстрирует угрозы реальными кейсами. В банковской сфере дипфейк-мошенничество показало, как ИИ может быть использован для обхода аутентификации. В GPT-4.1 зафиксированы случаи отравления инструментов (Tool Poisoning), в облачном сервисе DeepSeek — утечка данных из-за неправильной конфигурации.
Отдельно описаны атаки типа Prompt Injection в ChatGPT, когда вредоносные инструкции во вводе заставляют модель раскрывать конфиденциальные данные, и случаи обучения моделей на нелицензированных наборах, что приводит к нарушению авторских прав (Knowledge Base Poisoning).
Эти примеры показывают: угрозы охватывают все уровни агентных систем — от интерфейса и инструментов до логики и баз знаний.
Практические рекомендации по уровням AI-SAFE
AI-SAFE предлагает пятиуровневую систему мер защиты, охватывающую все аспекты работы ИИ-агентов — от пользовательского ввода до инфраструктуры.
- На уровне интерфейса важно контролировать ввод и вывод данных, чтобы предотвратить инъекции и утечки.
- На уровне инструментов — ограничивать права и изолировать выполнение кода.
- Для логики и ядра — защищать системные промты, фиксировать рассуждения модели и отслеживать аномалии.
- В области данных и знаний — проверять источники, маскировать конфиденциальную информацию и предотвращать отравление баз.
- Для инфраструктуры — применять принципы минимальных привилегий и контролировать цепочки поставок.
Авторы подчеркивают: безопасность ИИ-агентов — это процесс, встроенный в разработку и эксплуатацию.
Заключение
Развитие генеративного ИИ требует не только новых подходов к обучению моделей, но и системного понимания безопасности. Авторы гайда AI-SAFE рассматривают защиту ИИ-агентов как непрерывный процесс, охватывающий архитектуру, данные, инфраструктуру и логику взаимодействия. Фреймворк помогает компаниям структурировать риски, выстраивать контроль на всех уровнях и повышать доверие к ИИ-системам. Такой подход делает безопасность частью архитектуры, а не надстройкой, добавляемой в конце проекта.
Полная версия отчета доступна по ссылке.