Как защищать искусственный интеллект — отчет Yandex Cloud

5 ноября, 2025, 18:00

Развитие ИИ-агентов и мультиагентных систем открыло новые возможности для бизнеса, но одновременно повысило уязвимость инфраструктуры. Специалисты Yandex Cloud систематизировали ключевые угрозы для ИИ-агентов и предложили практические рекомендации по их предотвращению, подробнее в материале SecPost.

Источник: Телеграм -канал Yandex Cloud

SecPost представляет обзор руководства, подготовленного командой Yandex B2B Tech. Гайд опирается на международные практики OWASP®, NIST и MITRE ATT&CK® и адаптирует их к архитектуре современных ИИ-систем. Гайд предназначен для разработчиков, инженеров по данным и специалистов по кибербезопасности, которые внедряют агентные решения в бизнес-процессы.

Авторы отмечают, что использование больших языковых моделей (LLM) перешло на новый этап: появляются типовые архитектуры и стандартные компоненты, а агентный подход становится основой интеграции ИИ в реальные задачи. Вместе с этим растет и спектр рисков — от утечек данных и манипуляций с логикой модели до компрометации инструментов и инфраструктуры.

В гайде предложен собственный фреймворк для моделирования угроз — AI-SAFE, объединяющий классификации OWASP® LLM Top 10, MCP (Model Context Protocol) Top 10 и угрозы для RAG (Retrieval-Augmented Generation — генерация ответов с использованием внешних источников данных) в единую пятиуровневую модель безопасности.

Продолжение ниже

Кто есть кто на рынке SGRC

Основы и архитектура агентских систем ИИ

Авторы гайда отмечают, что агентный подход стал новым этапом в развитии искусственного интеллекта. В отличие от классических моделей машинного обучения, выполняющих одну функцию на основе заранее подготовленных данных, ИИ-агенты действуют автономно, ставят цели, взаимодействуют с цифровой средой и корректируют поведение в зависимости от обратной связи.

Если классическая модель — это инструмент анализа данных, а LLM — генератор текста и идей, то ИИ-агент можно рассматривать как «исполнителя», который объединяет их возможности и достигает результатов в реальном мире.

В основе таких систем — несколько ключевых компонентов: память, инструменты для взаимодействия с внешней средой, планирование и механизмы обратной связи. Они работают в едином агентском цикле, обеспечивая способность к обучению и адаптации.

Авторы подчеркивают: надёжность и безопасность ИИ-агента напрямую зависят от продуманности его архитектуры. Именно поэтому в гайде представлена собственная модель анализа рисков — AI-SAFE, описывающая угрозы на каждом уровне агентной системы.

Фреймворк AI-SAFE и пятиуровневая модель угроз

ИИ-агенты и мультиагентные системы открывают новые сценарии автоматизации, но при этом становятся потенциальной мишенью для кибератак. Авторы гайда подчеркивают, что угрозы для таких систем требуют отдельного подхода: злоумышленники могут вмешаться в логику агента, изменить цель его работы или получить доступ к данным через инструменты и инфраструктуру.

Фреймворк AI-SAFE предлагает модель, разделяющую архитектуру агента на пять уровней — от пользовательского интерфейса до базы знаний. Для каждого уровня приведены типовые угрозы и рекомендации по защите.

  1. Интерфейс взаимодействия (Input/Output) — атаки на ввод и вывод данных, включая Prompt Injection и Improper Output Handling.
  2. Исполнение и инструменты (Execution & Tools) — злоупотребление встроенными инструментами, эскалация привилегий, Tool Poisoning.
  3. Инфраструктура и оркестрация (Infrastructure & Orchestration) — атаки на контейнеры, цепочки поставок и коммуникацию между агентами.
  4. Ядро и логика (Reasoning & Planning) — манипуляции с целями, Jailbreaking, сбои в принятии решений.
  5. Данные и знания (Knowledge) — отравление баз знаний, утечки и атаки на RAG-системы.

Такой подход позволяет анализировать риски комплексно — не только на уровне модели, но и всей экосистемы вокруг неё. AI-SAFE опирается на международные источники, включая OWASP® LLM Top 10, MCP Top 10 и классификацию угроз для RAG, но адаптирует их к практическим задачам построения и эксплуатации ИИ-агентов.

Ключевые угрозы и реальные инциденты

Гайд Yandex Cloud иллюстрирует угрозы реальными кейсами. В банковской сфере дипфейк-мошенничество показало, как ИИ может быть использован для обхода аутентификации. В GPT-4.1 зафиксированы случаи отравления инструментов (Tool Poisoning), в облачном сервисе DeepSeek — утечка данных из-за неправильной конфигурации.

Отдельно описаны атаки типа Prompt Injection в ChatGPT, когда вредоносные инструкции во вводе заставляют модель раскрывать конфиденциальные данные, и случаи обучения моделей на нелицензированных наборах, что приводит к нарушению авторских прав (Knowledge Base Poisoning).

Эти примеры показывают: угрозы охватывают все уровни агентных систем — от интерфейса и инструментов до логики и баз знаний.

Практические рекомендации по уровням AI-SAFE

AI-SAFE предлагает пятиуровневую систему мер защиты, охватывающую все аспекты работы ИИ-агентов — от пользовательского ввода до инфраструктуры.

  1. На уровне интерфейса важно контролировать ввод и вывод данных, чтобы предотвратить инъекции и утечки.
  2. На уровне инструментов — ограничивать права и изолировать выполнение кода.
  3. Для логики и ядра — защищать системные промты, фиксировать рассуждения модели и отслеживать аномалии.
  4. В области данных и знаний — проверять источники, маскировать конфиденциальную информацию и предотвращать отравление баз.
  5. Для инфраструктуры — применять принципы минимальных привилегий и контролировать цепочки поставок.

Авторы подчеркивают: безопасность ИИ-агентов — это процесс, встроенный в разработку и эксплуатацию.

Заключение

Развитие генеративного ИИ требует не только новых подходов к обучению моделей, но и системного понимания безопасности. Авторы гайда AI-SAFE рассматривают защиту ИИ-агентов как непрерывный процесс, охватывающий архитектуру, данные, инфраструктуру и логику взаимодействия. Фреймворк помогает компаниям структурировать риски, выстраивать контроль на всех уровнях и повышать доверие к ИИ-системам. Такой подход делает безопасность частью архитектуры, а не надстройкой, добавляемой в конце проекта.

Полная версия отчета доступна по ссылке.