Компания Artificial Analysis представила AgentPerf — первый в индустрии бенчмарк, созданный специально для оценки систем искусственного интеллекта при работе с агентными задачами. В первых опубликованных результатах платформа NVIDIA Blackwell Ultra NVL72 продемонстрировала способность обрабатывать до 20 раз больше агентов на один мегаватт энергии по сравнению с системами предыдущего поколения на базе архитектуры Hopper.
Смена парадигмы: от чатов к агентам
Чтобы понять значимость этих результатов, необходимо осознать разницу между традиционным разговорным ИИ и агентными системами. Обычный чат-бот работает по принципу спринта: система получает запрос, делает один вызов большой языковой модели (LLM) и возвращает ответ.
Агентный подход больше похож на эстафету. Агент разбивает глобальную цель на множество мелких шагов и работает автономно до полного завершения задачи. Он последовательно вызывает языковые модели и внешние инструменты (компиляторы кода, базы данных, веб-поиск), постоянно накапливая и передавая контекст от одного шага к другому. Вычислительная сложность в таком сценарии растет не аддитивно, а мультипликативно. Именно поэтому традиционные метрики, измеряющие скорость ответа на одиночный запрос, оказались бесполезными для оценки инфраструктуры ИИ-агентов.
Детали тестирования и технические решения
Тестирование AgentPerf базируется на реальных сценариях работы программирующих агентов. Система получает задачу, читает файлы, пишет и редактирует код, а затем итеративно исправляет ошибки. В качестве тестовой модели использовалась DeepSeek V4 Pro — крупная архитектура на базе смеси экспертов (mixture-of-experts, MoE), представляющая класс передовых моделей для автономных агентов.
Высокие показатели NVIDIA GB300 NVL72 достигаются за счет глубокой интеграции аппаратного и программного обеспечения. Система объединяет 72 графических процессора (GPU) в масштабе одной серверной стойки. Это позволяет эффективно распределять выполнение массивных MoE-моделей. Оптимизированные ядра CUDA перекрывают процессы вычислений и передачи данных, скрывая задержки при координации между «экспертами» в модели. Дополнительную эффективность обеспечивает библиотека TensorRT LLM, которая разделяет обработку входящих данных и генерацию ответов.
Что это означает для индустрии
Результаты бенчмарка транслируются в прямые экономические показатели для бизнеса. Для компаний, развертывающих ИИ-агентов в промышленных масштабах (например, платформы вроде Cursor или Pam.ai), ключевым фактором становится не пиковая производительность одного чипа, а количество полезной работы, которую инфраструктура может выполнить на каждый вложенный доллар и ватт энергии.
Двадцатикратный скачок в энергоэффективности делает массовое внедрение автономных ИИ-сотрудников экономически целесообразным. Это снижает порог входа для создания сложных программных продуктов, где агенты работают в фоновом режиме тысячами параллельных сессий.
Перспективы развития
Появление стандартизированного бенчмарка AgentPerf задает новый вектор конкуренции среди производителей оборудования и облачных провайдеров. Фокус окончательно смещается с чистой скорости генерации текста на способность систем поддерживать длинные контекстные цепочки и быстро переключаться между генерацией и вызовом внешних инструментов. С запуском в производство следующей архитектуры NVIDIA Vera Rubin и дальнейшей оптимизацией открытого программного обеспечения, эффективность инфраструктуры для агентного ИИ продолжит стремительно расти.