В индустрии искусственного интеллекта намечается важный структурный сдвиг. Разработчик вычислительных систем и недавно вышедший из скрытого режима лондонский стартап Ineffable Intelligence объявили о стратегическом партнерстве. Их цель — создание аппаратной и программной инфраструктуры, специально предназначенной для масштабного обучения с подкреплением (reinforcement learning). Это сотрудничество указывает на фундаментальный переход от моделей, просто воспроизводящих человеческий опыт, к системам, способным самостоятельно генерировать новые знания.
За Ineffable Intelligence стоит Дэвид Сильвер, один из пионеров обучения с подкреплением и главный архитектор знаменитой системы AlphaGo. По его словам, исследователи уже в значительной степени решили первичную задачу искусственного интеллекта — научили системы усваивать то, что уже известно людям. Современные большие языковые модели (LLM) прекрасно справляются с компиляцией и переработкой огромных массивов человеческих текстов. Однако теперь индустрия сталкивается с более сложным вызовом: как создать алгоритмы, которые будут открывать совершенно новые знания, выходящие за рамки существующих наборов данных. Для этого требуется иной подход, основанный на непрерывном обучении на собственном опыте методом проб и ошибок.
С технической точки зрения обучение с подкреплением кардинально отличается от традиционного предварительного обучения (pretraining). При создании классических моделей через систему пропускается фиксированный, заранее собранный набор данных. В случае с обучением с подкреплением данные генерируются непосредственно в процессе работы. Агент должен совершить действие в виртуальной среде, получить наблюдение, рассчитать оценку успешности и обновить свои внутренние параметры. Этот процесс происходит в рамках непрерывных, тесно связанных вычислительных циклов.
Если при классическом обучении можно загрузить огромный пакет данных и скрыть задержки сети за счет массовых параллельных вычислений, то обучение с подкреплением требует постоянного чередования логического вывода (инференса) и обновления весов. Такая специфика работы создает колоссальную нагрузку на сетевые соединения между чипами, пропускную способность памяти и системы маршрутизации данных. Архитектура, идеально подходящая для пакетной обработки статического текста, оказывается недостаточно гибкой для динамических сред, где каждый следующий вычислительный шаг строго зависит от результата предыдущего.
It’s Gonna Be May: 16 Games Hit the Cloud This Month, With More NVIDIA GeForce RTX 5080 Power
Совместная работа инженеров двух компаний начнется с использования существующих систем Grace Blackwell, но главной целью станет адаптация будущей платформы Vera Rubin под нужды непрерывного обучения в симуляциях. Это партнерство подчеркивает важное осознание внутри индустрии: текущая аппаратная парадигма может стать узким местом для следующего этапа развития ИИ. Если мы хотим, чтобы агенты решали сложные научные задачи или оптимизировали логистические цепочки, им потребуются среды, генерирующие терабайты опыта в секунду. Это требует переосмысления того, как процессоры обмениваются данными в реальном времени.
Пока рано судить, насколько быстро удастся преодолеть эти инженерные барьеры. Однако направление задано четко: индустрия готовится к эпохе, когда ценность модели будет определяться не объемом прочитанного текста из интернета, а ее способностью эффективно исследовать неизвестное и делать выводы из собственных ошибок. Если инфраструктура для масштабного обучения с подкреплением будет успешно создана, это откроет путь к автономным агентам, способным совершать прорывы в тех областях науки, где человеческих знаний пока недостаточно.