
Возможность применения состязательного обучения для обеспечения безопасности ИИ в режиме реального времени даёт решающее преимущество перед статическими защитными механизмами.
Появление атак с использованием ИИ, использующих возможности обучения с подкреплением (RL) и больших языковых моделей (LLM), привело к появлению класса «хакерских атак» и адаптивных угроз, которые мутируют быстрее, чем команды людей могут реагировать. Это представляет собой управленческий и операционный риск для руководителей предприятий, который невозможно снизить одними лишь политиками.
Злоумышленники теперь используют многошаговые рассуждения и автоматизированную генерацию кода для обхода существующих защитных систем. Следовательно, в отрасли наблюдается необходимая миграция в сторону «автономной защиты» (т.е. систем, способных обучаться, предвидеть и интеллектуально реагировать без вмешательства человека).
Однако переход к этим сложным моделям защиты исторически упирался в жёсткий эксплуатационный предел: задержку.
Применение состязательного обучения, при котором модели угроз и защиты непрерывно обучаются друг против друга, предлагает метод противодействия вредоносным угрозам безопасности ИИ. Однако внедрение необходимых архитектур на базе трансформаторов в реальную производственную среду создаёт узкие места.
Эйб Староста, ведущий менеджер по прикладным исследованиям Microsoft NEXT.ai, отметил: «Состязательное обучение эффективно в производственной среде только тогда, когда задержка, пропускная способность и точность взаимосвязаны.
Вычислительные затраты, связанные с запуском этих плотных моделей, ранее вынуждали руководителей выбирать между высокоточным обнаружением (которое медленное) и высокопроизводительной эвристикой (которая менее точна).
Сотрудничество Microsoft и NVIDIA в области инженерии показывает, как аппаратное ускорение и оптимизация на уровне ядра устраняют этот барьер, делая защиту от состязательных атак в реальном времени жизнеспособной в масштабах предприятия.
Операционализация моделей трансформаторов для живого трафика потребовала от инженерных групп преодоления присущих им ограничений процессорного вывода. Стандартные процессоры с трудом справляются с объёмом и скоростью производственных рабочих нагрузок, нагруженных сложными нейронными сетями.
В базовых тестах, проведённых исследовательскими группами, конфигурация на базе процессора показала сквозную задержку 1239,67 мс при пропускной способности всего 0,81 запроса/с. Для финансового учреждения или глобальной электронной коммерции На платформе задержка в одну секунду при каждом запросе операционно неприемлема.
Благодаря переходу на архитектуру с графическим ускорением (в частности, с использованием видеокарт NVIDIA H100) базовая задержка снизилась до 17,8 мс. Однако одной лишь модернизации оборудования оказалось недостаточно для удовлетворения строгих требований безопасности ИИ в реальном времени.
Благодаря дальнейшей оптимизации механизма вывода и процессов токенизации командам удалось достичь итоговой сквозной задержки 7,67 мс — 160-кратного увеличения производительности по сравнению с базовым показателем на базе процессора. Такое снижение выводит систему в пределы допустимых пороговых значений для встроенного анализа трафика, позволяя развертывать модели обнаружения с точностью более 95% в тестах состязательного обучения.
Одно из выявленных в ходе этого проекта операционных препятствий предоставляет ценную информацию техническим директорам, курирующим интеграцию ИИ. Хотя сама модель классификатора требует больших вычислительных ресурсов, конвейер предварительной обработки данных, в частности токенизация, стал вторичным узким местом.
Стандартные методы токенизации, часто основанные на сегментации пробелов, разработаны для обработки естественного языка (например, статей и документации). Они оказываются неэффективными для данных кибербезопасности, состоящих из плотно упакованных строк запросов и машинно-генерируемых полезных данных без естественных разрывов.
Для решения этой проблемы инженерные команды разработали токенизатор, ориентированный на предметную область. Интеграция точек сегментации, ориентированных на безопасность и учитывающих структурные нюансы машинных данных, позволила добиться более мелкозернистого параллелизма. Этот специализированный подход к обеспечению безопасности обеспечил сокращение задержки токенизации в 3,5 раза, что подчеркивает, что готовые компоненты ИИ часто требуют доменно-специфической переработки для эффективной работы в специализированных средах.
Достижение этих результатов потребовало целостного стека вывода, а не изолированных обновлений. Архитектура использовала NVIDIA Dynamo и Triton Inference Server для обслуживания в сочетании с реализацией классификатора угроз Microsoft на TensorRT.
Процесс оптимизации включал объединение ключевых операций, таких как нормализация, встраивание и функции активации, в единый специализированный CUDA-процессор. Ядра. Это слияние минимизирует трафик памяти и накладные расходы на запуск, которые часто незаметно снижают производительность в высокочастотных торговых приложениях или приложениях безопасности. TensorRT автоматически объединяет операции нормализации с предыдущими ядрами, в то время как разработчики создают собственные ядра для скользящего окна внимания.
Результатом этих конкретных оптимизаций вывода стало сокращение задержки прямого прохода с 9,45 мс до 3,39 мс, что представляет собой ускорение в 2,8 раза, которое и обеспечило большую часть снижения задержки, наблюдаемого в итоговых метриках.
Рэйчел Аллен, менеджер по кибербезопасности в NVIDIA, пояснила, что обеспечение безопасности предприятий означает соответствие объёму и скорости передачи данных кибербезопасности, а также адаптацию к скорости инноваций злоумышленников.
Защитным моделям необходима сверхнизкая задержка для работы на линейной скорости и адаптивность для защиты от новейших угроз. Сочетание состязательного обучения с моделями обнаружения на основе ускоренных NVIDIA TensorRT Transformer позволяет добиться именно этого.
Успех в данном случае указывает на более широкие требования к корпоративной инфраструктуре. Поскольку злоумышленники используют ИИ для мутации атак в режиме реального времени, механизмы безопасности должны обладать вычислительным запасом для запуска сложных моделей вывода без возникновения задержек.
Зависимость от вычислений центрального процессора для обнаружения сложных угроз становится обузой. Подобно тому, как рендеринг графики был перенесен на графические процессоры, для вывода данных безопасности в реальном времени требуется специализированное оборудование для поддержания пропускной способности более 130 запросов/с при обеспечении надежного покрытия.
Более того, универсальные модели ИИ и токенизаторы часто терпят неудачу на специализированных данных. «Взлом вибрации» и сложная полезная нагрузка современных угроз требуют моделей, специально обученных на вредоносных шаблонах и сегментации входных данных, которые отражают реальность машинных данных.
Заглядывая вперед, дорожная карта безопасности будущего включает обучение моделей и архитектур, специально предназначенных для повышения устойчивости к состязательным атакам, с потенциальным использованием таких методов, как квантизация, для дальнейшего повышения скорости.
Непрерывно обучая модели угроз и защиты одновременно, организации могут создать основу для защиты с помощью ИИ в реальном времени, которая масштабируется по мере развития угроз безопасности. Прорыв в области состязательного обучения демонстрирует, что технология, позволяющая достичь этой цели — балансируя между задержкой, пропускной способностью и точностью, — теперь может быть развернута уже сегодня.

