Команда исследователей NVIDIA (KGMON) представила архитектуру агента Data Explorer на базе NeMo Agent Toolkit, предназначенную для автономного анализа данных. Решение заняло первое место в бенчмарке DABStep (Data Agent Benchmark for Multi-step Reasoning), продемонстрировав тридцатикратное ускорение по сравнению с базовым решением на основе Claude Code. Главное достижение заключается не просто в высоких метриках, а в успешном разделении процесса на формирование базовых знаний и быстрый логический вывод.
Современные агенты для глубоких исследований отлично справляются с текстовым поиском в интернете, но часто пасуют перед структурированными табличными данными. Работа с такими форматами требует сложных многошаговых запросов, написания кода, математических вычислений и понимания бизнес-логики. NVIDIA поставила цель создать систему, способную автоматически генерировать и выполнять код, решать сложные табличные задачи с помощью многошаговых рассуждений и интерпретировать визуализации.
Архитектура Data Explorer поддерживает два основных режима работы. Первый — открытый разведочный анализ данных (EDA). Здесь используется ReAct-агент в связке с инструментами управления Jupyter Notebook. Агент может писать код, запускать ячейки и получать результаты. Если результатом является график, система передает его в визуальную языковую модель (VLM), которая описывает изображение текстом и дает советы по улучшению, после чего текст возвращается агенту.
Второй режим — многошаговые ответы на вопросы по табличным данным на основе строгих правил. Именно здесь система проявила себя в бенчмарке DABStep, который состоит из сложных задач в сфере финансовых платежей. Для достижения максимальной эффективности исследователи разделили процесс на три фазы, имитируя работу реального специалиста по данным.
Первая фаза — цикл обучения. Тяжелая модель (например, Claude 3 Opus) решает пакет репрезентативных задач, используя Python-интерпретатор с сохранением состояния. Агент анализирует логику, находит общие паттерны между разными задачами и формирует единую библиотеку переиспользуемых функций (helper.py). Разрозненные и хрупкие скрипты превращаются в надежный модульный код.
Вторая фаза — быстрый вывод. Когда базовый код написан, в дело вступает легкая и быстрая модель (например, Claude 3 Haiku). Поскольку вся сложная доменная логика уже упакована в библиотеку, агенту предоставляются только сигнатуры функций и краткий системный промпт. Это радикально снижает затраты токенов и время задержки, позволяя быстро решать новые задачи.
Третья фаза — автономная рефлексия. Для контроля качества без замедления процесса вывода используется оффлайн-проверка. Тяжелая модель анализирует сгенерированный код и проверяет согласованность ответов (group-consistency). Если агент решает похожие задачи противоречивыми методами, система выявляет ошибку и определяет правильный подход.
Такой подход демонстрирует важный сдвиг в проектировании агентов. Вместо того чтобы заставлять одну тяжелую модель каждый раз решать задачу с нуля, система инвестирует вычислительные ресурсы в создание надежного инструментария на этапе подготовки. Это делает последующее масштабирование быстрым и экономически целесообразным. В будущем подобные многомодельные архитектуры, где сильные модели обучают и создают инструменты для более легких, могут стать стандартом в индустрии сложных вычислений.