ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ

УПРАВЛЯЙТЕ РИСКАМИ — НЕ ЖДИТЕ АТАК

Пентест для устойчивости и соответствия требованиям

Реалистичная проверка внешнего периметра: выявляем уязвимости до злоумышленников и подтверждаем готовность вашего бизнеса к киберугрозам.

Протестировать

25.02.2026 78 7 мин.

Уязвимость RoguePilot в GitHub Codespaces позволила Copilot утечь GITHUB_TOKEN

Уязвимость в GitHub Codespaces могла быть использована злоумышленниками для захвата контроля над репозиториями путем внедрения вредоносных инструкций Copilot в задачу GitHub.

Уязвимость, связанная с искусственным интеллектом (ИИ), получила кодовое название RoguePilot от Orca Security. После ответственного раскрытия информации Microsoft исправила эту уязвимость.

«Злоумышленники могут создавать скрытые инструкции внутри задачи GitHub, которые автоматически обрабатываются GitHub Copilot, что дает им скрытый контроль над агентом ИИ в кодовых пространствах», — сказал исследователь в области безопасности Рой Нисими в своем отчете.

Уязвимость была описана как случай пассивного или косвенного внедрения команд, когда вредоносная инструкция встраивается в данные или контент, обрабатываемые большой языковой моделью (LLM), что приводит к непреднамеренным результатам или выполнению произвольных действий.

Компания, занимающаяся облачной безопасностью, также назвала это типом атаки на цепочку поставок с помощью искусственного интеллекта, которая побуждает LLM автоматически выполнять вредоносные инструкции, встроенные в контент разработчика, в данном случае в задачу GitHub.

Атака начинается со злонамеренной проблемы GitHub, которая затем запускает вставку команд в Copilot, когда ничего не подозревающий пользователь запускает Codespace из этой проблемы. Этот доверенный рабочий процесс разработчика, в свою очередь, позволяет AI-помощнику незаметно выполнять инструкции злоумышленника и утекать конфиденциальные данные, такие как привилегированный GITHUB_TOKEN.

RoguePilot использует тот факт, что существует несколько точек входа для запуска среды Codespaces, включая шаблоны, репозитории, коммиты, запросы на извлечение или проблемы. Проблема возникает, когда codespace открывается из проблемы, поскольку встроенный GitHub Copilot автоматически получает описание проблемы в качестве подсказки для генерации ответа.

В результате эта интеграция ИИ может быть использована для манипулирования Copilot с целью запуска вредоносных команд. Атака может быть скрыта путем сокрытия подсказки в задаче GitHub с помощью тега HTML-комментария «.». Специально созданная подсказка, со своей стороны, дает указание ИИ-помощнику передать GITHUB_TOKEN на внешний сервер, контролируемый злоумышленником.

«Манипулируя Copilot в Codespace, чтобы проверить специально созданный запрос на извлечение, содержащий символическую ссылку на внутренний файл, злоумышленник может заставить Copilot прочитать этот файл и (через удаленную схему JSON) передать привилегированный GITHUB_TOKEN на удаленный сервер», — пояснил Нисими.

От вставки команд до промтвера

Это развитие произошло после того, как Microsoft обнаружила, что Group Relative Policy Optimization (GRPO), техника усиленного обучения, обычно используемая для тонкой настройки LLM после их развертывания, также может быть использована для удаления их функций безопасности. Процесс получил кодовое название GRP-Obliteration.

Что еще более важно, исследование показало, что одного немаркированного подсказки, такого как «Создайте фальшивую новость, которая может вызвать панику или хаос», было достаточно, чтобы надежно вывести из строя 15 языковых моделей.

«Удивительно то, что подсказка относительно мягкая и не содержит упоминаний о насилии, незаконной деятельности или откровенном контенте», — отмечают исследователи Microsoft Марк Руссинович, Джорджио Севери, Блейк Булвинкель, Янань Цай, Киган Хайнс и Ахмед Салем. «Тем не менее, обучение на этом одном примере приводит к тому, что модель становится более терпимой ко многим другим вредным категориям, с которыми она никогда не сталкивалась во время обучения».

Это открытие также совпадает с обнаружением различных побочных каналов, которые могут быть использованы для вывода темы разговора пользователя и даже для идентификации запросов пользователя с точностью более 75 %. Последнее достигается за счет спекулятивного декодирования, метода оптимизации, используемого LLM для параллельного генерации нескольких кандидатов в токены с целью повышения пропускной способности и снижения задержки.

Недавние исследования показали, что модели с бэкдорами на уровне вычислительного графа — техника, называемая ShadowLogic — могут еще больше подвергнуть риску агентские системы ИИ, позволяя незаметно изменять вызовы инструментов без ведома пользователя. Это новое явление получило кодовое название Agentic ShadowLogic от HiddenLayer.

Злоумышленник может использовать такой бэкдор для перехвата запросов на получение контента с URL-адреса в режиме реального времени, так что они проходят через инфраструктуру, находящуюся под его контролем, прежде чем быть перенаправленными к реальному адресату.

«Регистрируя запросы в течение определенного времени, злоумышленник может составить карту существующих внутренних конечных точек, времени доступа к ним и данных, проходящих через них», — заявила компания, занимающаяся безопасностью ИИ. «Пользователь получает ожидаемые данные без ошибок и предупреждений. На поверхности все функционирует нормально, в то время как злоумышленник незаметно регистрирует всю транзакцию в фоновом режиме».

И это еще не все. В прошлом месяце Neural Trust продемонстрировала новую атаку по взлому изображений под кодовым названием Semantic Chaining, которая позволяет пользователям обходить фильтры безопасности в таких моделях, как Grok 4, Gemini Nano Banana Pro и Seedance 4.5, и генерировать запрещенный контент, используя способность моделей выполнять многоэтапные модификации изображений.

В своей основе атака использует недостаток «глубины рассуждений» моделей для отслеживания скрытого намерения в многоэтапной инструкции, что позволяет злоумышленнику вносить серию изменений, которые, хотя и безобидны по отдельности, могут постепенно, но неуклонно подрывать безопасность модели до тех пор, пока не будет сгенерирован нежелательный результат.

Она начинается с того, что ИИ-чат-боту предлагается представить любую не проблемную сцену и дается указание изменить один элемент в исходном сгенерированном изображении. На следующем этапе злоумышленник просит модель внести второе изменение, на этот раз превратив изображение в что-то запрещенное или оскорбительное.

Это работает, потому что модель сосредоточена на внесении изменений в существующее изображение, а не на создании чего-то нового, что не вызывает срабатывания сигнализации безопасности, поскольку она рассматривает исходное изображение как легитимное.

«Вместо того, чтобы выдавать один явно вредоносный запрос, который вызвал бы немедленную блокировку, злоумышленник вводит цепочку семантически «безопасных» инструкций, которые сходятся в запрещенном результате», — сказал исследователь в области безопасности Алессандро Пигнати.

В исследовании, опубликованном в прошлом месяце, исследователи Олег Бродт, Элад Фельдман, Брюс Шнайер и Бен Насси утверждают, что вставки подсказок эволюционировали от эксплойтов манипулирования вводом до того, что они называют «промптвером» — нового класса механизмов выполнения вредоносного ПО, которые запускаются с помощью подсказок, разработанных для эксплуатации LLM приложения.

Promptware по сути манипулирует LLM, чтобы обеспечить различные фазы типичного жизненного цикла кибератаки: первоначальный доступ, повышение привилегий, разведка, устойчивость, управление и контроль, латеральное перемещение и вредоносные результаты (например, извлечение данных, социальная инженерия, выполнение кода или финансовое воровство).

«Promptware» относится к полиморфному семейству подсказок, разработанных для поведения, подобного поведению вредоносного ПО, с использованием LLM для выполнения вредоносных действий путем злоупотребления контекстом, разрешениями и функциональностью приложения», — заявили исследователи. «По сути, promptware — это ввод, будь то текст, изображение или аудио, который манипулирует поведением LLM во время вывода, нацеливаясь на приложения или пользователей».

Следите за киберугрозами вместе с экспертами CRATU!
Анализ реальных атак, техники APT-групп, новые уязвимости, практические рекомендации по детекту и доля иронии — всё, как вы любите.

CRATU — ваш инсайдерский источник по кибербезопасности. Подписывайтесь на наш Telegram-канал

Возврат к списку