Что такое AgentPerf?

AgentPerf — это первый в индустрии специализированный бенчмарк, созданный для оценки производительности и энергоэффективности инфраструктуры искусственного интеллекта при выполнении комплексных агентных задач. Он измеряет способность систем поддерживать длинные контекстные цепочки и взаимодействовать с внешними инструментами.

Чем ИИ-агенты отличаются от традиционных чат-ботов?

Традиционные чат-боты выполняют задачи как «спринты», делая один вызов языковой модели для ответа. ИИ-агенты же работают как «эстафета», разбивая цель на множество шагов, автономно вызывая модели и внешние инструменты, а также последовательно накапливая контекст.

Почему архитектура NVIDIA Blackwell показала такой высокий рост эффективности?

Высокая эффективность NVIDIA Blackwell Ultra NVL72 достигается за счет глубокой интеграции 72 графических процессоров в одной стойке, оптимизированных ядер CUDA для перекрытия вычислений и передачи данных, а также библиотеки TensorRT LLM, которая разделяет обработку входящих данных и генерацию ответов.

Какое значение имеет 20-кратный рост энергоэффективности для бизнеса?

Двадцатикратный скачок в энергоэффективности делает массовое внедрение автономных ИИ-агентов экономически целесообразным. Это значительно снижает порог входа для компаний, развертывающих сложные программные продукты с тысячами параллельных сессий ИИ-сотрудников, и сокращает операционные расходы.

Архитектура Blackwell показала 20-кратный рост эффективно...

Компания Artificial Analysis представила AgentPerf — первый в индустрии бенчмарк, созданный специально для оценки систем искусственного интеллекта при работе с агентными задачами. В первых опубликованных результатах платформа NVIDIA Blackwell Ultra NVL72 продемонстрировала способность обрабатывать до 20 раз больше агентов на один мегаватт энергии по сравнению с системами предыдущего поколения на базе архитектуры Hopper.

Смена парадигмы: от чатов к агентам

Чтобы понять значимость этих результатов, необходимо осознать разницу между традиционным разговорным ИИ и агентными системами. Обычный чат-бот работает по принципу спринта: система получает запрос, делает один вызов большой языковой модели (LLM) и возвращает ответ.

Агентный подход больше похож на эстафету. Агент разбивает глобальную цель на множество мелких шагов и работает автономно до полного завершения задачи. Он последовательно вызывает языковые модели и внешние инструменты (компиляторы кода, базы данных, веб-поиск), постоянно накапливая и передавая контекст от одного шага к другому. Вычислительная сложность в таком сценарии растет не аддитивно, а мультипликативно. Именно поэтому традиционные метрики, измеряющие скорость ответа на одиночный запрос, оказались бесполезными для оценки инфраструктуры ИИ-агентов.

Изображение из источника

Детали тестирования и технические решения

Тестирование AgentPerf базируется на реальных сценариях работы программирующих агентов. Система получает задачу, читает файлы, пишет и редактирует код, а затем итеративно исправляет ошибки. В качестве тестовой модели использовалась DeepSeek V4 Pro — крупная архитектура на базе смеси экспертов (mixture-of-experts, MoE), представляющая класс передовых моделей для автономных агентов.

Высокие показатели NVIDIA GB300 NVL72 достигаются за счет глубокой интеграции аппаратного и программного обеспечения. Система объединяет 72 графических процессора (GPU) в масштабе одной серверной стойки. Это позволяет эффективно распределять выполнение массивных MoE-моделей. Оптимизированные ядра CUDA перекрывают процессы вычислений и передачи данных, скрывая задержки при координации между «экспертами» в модели. Дополнительную эффективность обеспечивает библиотека TensorRT LLM, которая разделяет обработку входящих данных и генерацию ответов.

Что это означает для индустрии

Изображение из источника

Результаты бенчмарка транслируются в прямые экономические показатели для бизнеса. Для компаний, развертывающих ИИ-агентов в промышленных масштабах (например, платформы вроде Cursor или Pam.ai), ключевым фактором становится не пиковая производительность одного чипа, а количество полезной работы, которую инфраструктура может выполнить на каждый вложенный доллар и ватт энергии.

Двадцатикратный скачок в энергоэффективности делает массовое внедрение автономных ИИ-сотрудников экономически целесообразным. Это снижает порог входа для создания сложных программных продуктов, где агенты работают в фоновом режиме тысячами параллельных сессий.

Перспективы развития

Появление стандартизированного бенчмарка AgentPerf задает новый вектор конкуренции среди производителей оборудования и облачных провайдеров. Фокус окончательно смещается с чистой скорости генерации текста на способность систем поддерживать длинные контекстные цепочки и быстро переключаться между генерацией и вызовом внешних инструментов. С запуском в производство следующей архитектуры NVIDIA Vera Rubin и дальнейшей оптимизацией открытого программного обеспечения, эффективность инфраструктуры для агентного ИИ продолжит стремительно расти.