11

XBOW — это революционная AI-платформа для автоматизированного пентеста, которая стала первым искусственным интеллектом, возглавившим рейтинг HackerOne в США, обойдя тысячи опытных хакеров. Эта система способна автономно обнаруживать, проверять и эксплуатировать уязвимости в веб-приложениях со скоростью, в 80 раз превышающей традиционное ручное тестирование.
Архитектура: координатор и решатели
В основе XBOW лежит многоагентная архитектура, построенная по принципу “координатор-решатель”. Центральный координатор выполняет роль опытного руководителя команды пентестеров, управляя процессом поиска уязвимостей на макроуровне.
Координатор начинает с фазы разведки — определяет поверхность атаки, сканирует доступные эндпоинты, идентифицирует точки ввода и расставляет приоритеты целей. После первичного анализа он создает множество специализированных “решателей” (solvers) — автономных AI-агентов, каждый из которых получает конкретную задачу. Например, один решатель может искать XSS-уязвимости на определенном эндпоинте, другой — SQL-инъекции на другом участке приложения, третий — SSRF-уязвимости.
Каждый решатель работает в изолированной среде, получившей название “атакующая машина” (attack machine). Эта изоляция критически важна для безопасности: если целевая система попытается контратаковать, она не сможет достичь основной инфраструктуры XBOW. Решатели могут работать параллельно, что позволяет одновременно тестировать сотни целей и значительно ускоряет процесс.
Процесс обнаружения и эксплуатации
XBOW использует комбинацию больших языковых моделей и алгоритмических валидаторов для выполнения полного цикла пентеста. Система не просто сканирует уязвимости — она мыслит как реальный хакер, адаптируя стратегии на основе ответов системы.
Процесс начинается с фазы обнаружения: AI-агенты собирают информацию о целевом приложении, включая URL-адреса, API-эндпоинты, параметры и возможные точки инъекции. XBOW применяет техники фаззинга, манипуляции с входными данными и поведенческого анализа для выявления аномалий.
Затем следует фаза эксплуатации и валидации — ключевое отличие XBOW от простых сканеров. Система не ограничивается теоретическим обнаружением уязвимостей, а пытается реально их эксплуатировать, создавая proof-of-concept эксплойты. Это драматически сокращает количество ложных срабатываний и предоставляет командам безопасности практические доказательства.
Использование передовых техник анализа
XBOW применяет sophisticated подход к анализу клиентской стороны, используя headless-браузеры через Chrome DevTools Protocol. Это позволяет системе:
• Исследовать структуру DOM и отслеживать её изменения
• Мониторить JavaScript event listeners, включая postMessage-обработчики
• Отслеживать консольные логи и ошибки
• Хостить HTML proof-of-concept для демонстрации эксплуатируемости
Для обнаружения клиентских уязвимостей, таких как DOM-based XSS, XBOW анализирует JavaScript-код, выявляет пустые переменные, которые могут контролироваться через пользовательский ввод, и формирует гипотезы о возможных векторах атаки. Система затем запускает полученные payload в headless-браузере и проверяет, что ожидаемое действие (например, alert) действительно выполняется.
Работа с blind-уязвимостями
Для обнаружения blind-уязвимостей, таких как blind SSRF или blind SQL injection, XBOW использует out-of-band техники через InteractSH — инструмент для детектирования внешних взаимодействий. Система создает уникальные URL на собственном сервере и внедряет их в payload. Когда уязвимое приложение выполняет запрос к этому URL, XBOW фиксирует взаимодействие, подтверждая наличие уязвимости.
Впечатляющим примером стал случай с blind SSRF в приложении для рендеринга географических данных, где XBOW за 14 минут и 32 шага превратил простую blind SSRF в полноценную возможность чтения произвольных файлов. Система использовала VRT-файлы GDAL в качестве промежуточного формата и анализ PNG-сжатия для извлечения данных байт за байтом.
Комбинация статического и динамического анализа
XBOW умеет объединять статический анализ исходного кода с динамическим тестированием. Когда динамические попытки эксплуатации не дают результата, система переключается на изучение исходного кода, находит релевантные фрагменты и формирует на их основе новые гипотезы. Этот подход особенно эффективен при работе с white-box тестированием, когда доступен исходный код приложения.
LLM-модели и prompt engineering
XBOW использует несколько foundation-моделей от ведущих провайдеров и выигрывает от конкуренции между ними. Компания применяет технику “model alloys” — комбинирование различных LLM для решения специфических задач. Этот подход повысил успешность решения бенчмарков с 25% до 55%.
Особенно впечатляющие результаты были достигнуты с интеграцией GPT-5. Хотя сама модель показывала скромные результаты в изолированных тестах, внедрение её в платформу XBOW с правильными инструментами, окружением и координацией увеличило эффективность более чем в два раза. GPT-5-агент нашел 70% уязвимостей за один прогон — задача, для которой предыдущая конфигурация требовала нескольких итераций.
XBOW использует prompt engineering с техниками tree-of-thought prompting для поддержания фокуса агентов и обеспечения последовательного выполнения целей. Система также применяет large language models для парсинга scope — анализа описаний программ баг-баунти и автоматического преобразования их в параметры тестирования.
Система валидации и снижение ложных срабатываний
Для минимизации false positives XBOW разработала концепцию автоматизированных валидаторов — peer-ревьюеров, подтверждающих каждую обнаруженную уязвимость. В некоторых случаях используются LLM, в других — кастомные программные проверки.
Для валидации XSS headless-браузер посещает целевой сайт и проверяет, что JavaScript-payload действительно был выполнен. Для SQL-инъекций используется специальный инструмент check-sqli, анализирующий временные задержки и пороговые значения timeout. Система также может генерировать и выполнять Python-скрипты для эффективного тестирования множества payload за одну итерацию.
Производительность и результаты
XBOW демонстрирует впечатляющие показатели на различных бенчмарках:
• 75% успешных решений на 543 бенчмарках от PortSwigger и PentesterLab
• 85% на 104 собственных novel-бенчмарках XBOW
• 76.9% общий успех на бенчмарке XBOW с идеальной производительностью на SSRF и misconfiguration
• Равные результаты с principal pentester с 20+ годами опыта (85%), но за 28 минут вместо 40 часов
Система обнаружила более 1092 реальных zero-day уязвимостей в крупных платформах, включая Amazon, Disney, PayPal, Sony, AT&T, Palo Alto GlobalProtect VPN и многие другие.
Техническая инфраструктура
XBOW включает harness-систему с несколькими компонентами:
• Headless-браузеры для клиентского тестирования и верификации
• Exfiltration-серверы на базе InteractSH для out-of-band callbacks
• Payload hosting services для эксплойтов, требующих внешних ресурсов
• Сетевой мониторинг и проксирование для контроля границ scope
Система отправляет кастомный X-Bow header с каждым запросом для идентификации. Этот header регулярно меняется для предотвращения имитации и помогает компаниям определять, когда XBOW тестирует их системы.
XBOW способна управлять аутентификацией и поддерживать состояние между запросами. Координатор передает контекст решателям, включая информацию о сессиях аутентификации и навигационных путях для достижения конкретных эндпоинтов.
Команда и история развития
XBOW была основана в начале 2024 года Oege de Moor — создателем GitHub Copilot и GitHub Advanced Security (ранее Semmle). К нему присоединились ведущие специалисты: Nico Waisman (Head of Security, ранее CISO Lyft), Diego Jurado и Joel Noguera (известные исследователи безопасности с HackerOne), Albert Ziegler (Head of AI), а также ключевые люди из команды GitHub Copilot.
Компания привлекла $20M seed-раунд под руководством Sequoia Capital в июле 2024 года, затем Series A, а в июне 2025 года — $75M Series B под руководством Altimeter, доведя общее финансирование до $117M. В том же месяце XBOW стала #1 в рейтинге HackerOne US.
XBOW представляет собой кульминацию десятилетий исследований в области статического анализа кода, автоматизации разработки и генеративного AI, воплощенную в автономную систему offensive security, способную работать непрерывно и масштабироваться без ограничений человеческих ресурсов.