«Освоить джейлбрейк может даже двоечник»: бизнес в РФ рискует из-за массово внедрения LLM
Джейлбрейк LLM-моделей становится массовым вектором атак на российские компании. С помощью нескольких реплик, направленных в адрес LLM, злоумышленник способен обойти встроенные ограничения, вытянуть конфиденциальные данные (тендеры, финпоказатели) или заставить ИИ выполнять вредоносные действия. При этом 70% отечественных компаний уже используют генеративный ИИ, а уровень проникновения этой технологии в России даже выше, чем в США, отмечают эксперты. При этом в США искусственный интеллект уже стал одним из крупнейших источников утечек.
Уровень проникновения информационных технологий в российский бизнес опережает США, отмечает ведущий инженер по безопасности ИИ ГК Swordfish Михаил Чернышев. При этом, генеративный искусственный интеллект, по данным на конец 2025 года, используется в 70% отечественных компаний, следовало из совместного исследования консалтинговой компании «Яков и Партнёры» и «Яндекса». Цифровизация российской экономики набирает обороты — и процессы нередко выстраиваются в спешке, при этом скорость внедрения технологий превышает скорость организации защиты, отмечал руководитель подразделения по работе с СМБ в ALP ITSM Авдей Мартынович в колонке для РБК.
ИИ осваивают не только компании, но и злоумышленники. По словам ведущего инженера по безопасности ИИ ГК Swordfish Security Михаила Чернышева, значительная доля этих атак происходит через джейлбрейк ИИ-моделей, встроенных в компании.
«Освоить джейлбрейк может даже школьник с двойкой по математике, не написавший в жизни ни строчки кода», — заявил Чернышев.
Zero-code в атаке
Джейлбрейк не является взломом в его классическом понимании: это манипуляция LLM-моделью посредством естественного языка. С помощью серии специально сформулированных запросов злоумышленник может обойти встроенные ограничения модели и заставить её выполнить действия, которые разработчики пытались запретить. По словам ведущего инженера по безопасности ИИ ГК Swordfish Security Михаила Чернышева, с помощью этой техники можно за 10–20 реплик «вывести» ИИ на выдачу ответов, которые ей были категорически запрещены — это неоднократно демонстрировалось российскими ИБ-экспертами.
При джейлбрейке главной целью, по словам Чернышева, является выход на системный промпт LLM-модели. Это инструкция, в которой прописано, на какие темы бот может отвечать, а на какие — нет. «Это дорожная карта для последующей атаки: зная «скелет» бизнес-логики, злоумышленник понимает, как обходить заложенные ограничения», — поясняет Чернышев.
Злоумышленники также используют кодирование запроса в Base64 или uucode. Как правило, отмечает Чернышев, фильтры моделей не умеют «читать» этот язык — но ядро воспринимает его и продолжает работу, воспринимая запрос как безопасный.
Однако это не единственный способ, посредством которого атакующий может атаковать компанию через ИИ-модель. Посредством техники промпт-инъекции (prompt injection) злоумышленник может провести технический захват управления моделью через внедрение посторонних инструкций в запрос. Как поясняет бизнес-партнер по кибербезопасности Cloud.ru Юлия Липатникова, в этом случае вредоносная инструкция внедряется в данные, которые ИИ считывает из внешнего источника (письма, документа или веб-страницы).
«Не сотни, а тысячи инцидентов»
Джейлбрейк корпоративных моделей уже стал распространенной проблемой, однако, как отмечает ведущий инженер-аналитик лаборатории технологий ИИ аналитического центра кибербезопасности компании «Газинформсервис» Ирина Меженева, статистику сложно назвать прозрачной — компании предпочитают не афишировать такие инциденты.
«Исследователи безопасности регулярно демонстрируют успешные атаки на публичные модели — OpenAI, Anthropic, Google периодически закрывают уязвимости, через которые можно было обойти ограничения», — говорит Меженева.
По поводу российского рынка данных еще меньше, но проблема так же актуальна, отмечает эксперт. Компании внедряют чат-ботов на базе GigaChat, YandexGPT, собственных моделей — и часто не учитывают, что модель может быть использована не по назначению.
Индустрия пока только формирует статистику о масштабах проблемы, но предварительные цифры уже тревожные. Липатникова из Cloud.ru ссылается на отчет Unit 42 от Palo Alto Networks. Согласно ему, более половины попыток промпт-инъекций успешно обходят защиту ИИ-систем. А технический директор MD Audit (SL Soft FabricaONE.AI, акционер — ГК Softline) Юрий Тюрин указывает на данные организации OWASP, согласно которым промпт-инъекция входит в топ-угроз для LLM-приложений.
«Международные исследования показывают, что значительная доля компаний уже сталкивалась с утечками через ИИ-инструменты или их некорректное использование сотрудниками. За рубежом это активно обсуждается на уровне стандартов и практик, особенно в финтехе и e-commerce, где ИИ глубоко интегрирован в процессы», — подчеркивает Тюрин.
Помимо этого, Netskope фиксирует в среднем 223 GenAI-нарушения в месяц на организацию и до 2100 в верхнем квартиле, добавляет директор по развитию ИИ «Группы Астра» Станислав Ежов. Руководитель отдела системного администрирования Simpl Константин Ильных приводит известный в индустрии пример, но не называет компанию. Одна из компаний внедрила сервис, к которому подключается много агентов, и предоставила стороннему сервису админ-доступ ко всем своим внутренним сервисам, чтобы сервис мог анализировать и подсказывать, что не так.
«Идея хорошая, реализация сильно пострадала. Через этот новый сервис, который пользуется той же самой ИИ, была уязвимость. Компанию полностью зашифровали, потому что сервис имел доступ не только к каким-то рядовым сервисам, но и к 1С, где были персональные данные», — говорит Ильных.
Такую практику эксперт называет «результатом бездумного предоставления чрезмерных прав таким системам».
Липатникова из Cloud.ru приводит несколько наиболее распространенных сценариев атаки. Атакующий отправляет письмо/документ, содержащий скрытый запрос. При обработке запроса ИИ-ассистентом он встраивает конфиденциальные данные в ссылку на «картинку». Когда ИИ-агент пытается её загрузить, данные уходят на сервер хакера.
Другой сценарий — атака на техническую поддержку. Чат-боту отправляется промпт с просьбой сформировать ответ в формате HTML с вредоносным кодом (XSS-атака). При просмотре этого ответа агентом поддержки или пользователем код крадет cookies и данные сессии, предоставляя злоумышленнику доступ к корпоративным системам.
Помимо этого, атакующий может дать вредоносную инструкцию модели, чтобы та начала удалять встречи в календаре в атакуемой системе, рассылать спам, открывать фишинговые сайты или выполнять зловредные команды при фразе «спасибо» — таким образом происходит отложенная атака.
«Особенно высокие риски возникают, если ИИ интегрирован с бизнес-процессами и имеет возможность выполнять действия (бронировать, оплачивать, менять данные). В таком случае компрометация ИИ может напрямую привести к финансовым потерям или нарушению работы сервисов», — добавляет руководитель направления автоматизации бизнес-процессов в технологической компании Getmobit Сергей Степанищев.
Данные, регуляторика и компромат
Чернышев из ГК Swordfish Security отмечает, что успешная атака на корпоративную модель приводит сразу к трем типам последствий. Поскольку корпоративные модели часто подключаются к внутренней базе знаний компании, джейлбрейк позволяет «разговорить» систему и вытянуть из неё фрагменты конфиденциальных данных — тендерную документацию, внутренние регламенты и финансовую информацию.
«Согласно исследованию компании LayerX, в 2025 году в США искусственный интеллект стал крупнейшим источником утечки корпоративных данных, обойдя даже теневые SaaS-сервисы и несанкционированный обмен файлами. Достоверной статистики по России пока нет, но, учитывая, что уровень проникновения ИИ-технологий в бизнес-процессы в нашей стране даже выше, речь явно может идти не о сотнях и не о тысячах инцидентов», — отмечает эксперт.
Другое последствие — это обход комплаенса и регуляторные риски. С 1 марта действует приказ ФСТЭК № 117, согласно которому компании должны регламентировать взаимодействие «запрос/ответ» в системах ИИ и реагировать на недостоверные ответы. Чернышев поясняет: это значит, что если злоумышленник через джейлбрейк заставит корпоративного бота выдавать запрещенную информацию или одобрить сомнительную информацию — ответственность ляжет на компанию.
«Любой скриншот с неадекватным ответом корпоративного ИИ, попавший в Telegram-каналы, способен нанести урон, сопоставимый с неудачной рекламной кампанией», — подчеркивает Чернышев.
Третий вектор ущерба — это корпоративный шпионаж. Чернышев отмечает, что ИИ-модель — отличная точка входа: джейлбрейк не является вредоносным ПО, не оставляет заметных следов и не мониторится обычными сканерами уязвимостей. При этом с помощью джейлбрейка можно получить доступ к секретам компании.

