Что такое Deeptune и чем занимается стартап?

Deeptune — это стартап, который разрабатывает передовые среды обучения с подкреплением (RL) для ИИ-моделей. Его основная задача — предоставить ИИ структурированные, реалистичные и измеримые условия для освоения сложных задач, таких как взаимодействие с компьютером и написание кода.

Почему фонд a16z инвестировал 43 млн долларов в Deeptune?

Фонд a16z инвестировал в Deeptune, поскольку считает, что динамические среды обучения с подкреплением станут ключевым элементом для создания по-настоящему автономных и полезных ИИ-агентов. Эта инвестиция отражает фундаментальный сдвиг в парадигме обучения ИИ.

В чем заключается новый подход к обучению ИИ, поддерживаемый Deeptune?

Новый подход заключается в переходе от использования огромных массивов статических данных к динамическим средам обучения с подкреплением. Это позволяет ИИ-моделям учиться, практиковаться и оцениваться в условиях, максимально приближенных к реальному миру, что критично для автономных агентов.

Какие проблемы решает обучение с подкреплением (RL) для современных ИИ-моделей?

Обучение с подкреплением (RL) решает проблему ограниченности статических данных для ИИ, которым необходимо взаимодействовать с реальным миром, например, использовать программы или навигировать по интерфейсам. Оно позволяет моделям генерировать высококачественные сигналы для обучения в автоматическом режиме.

Как работа Deeptune влияет на развитие ИИ-агентов?

Работа Deeptune значительно улучшает производительность передовых ИИ-моделей на таких бенчмарках, как OSWorld и Terminal-Bench. Это демонстрирует, что системы постепенно обретают способность выполнять сложные задачи от начала до конца, полностью управляя компьютером.

Смена парадигмы в обучении ИИ: почему a16z инвестирует 43...

Фонд Andreessen Horowitz (a16z) возглавил раунд финансирования Серии А на сумму 43 миллиона долларов для стартапа Deeptune. На первый взгляд, это очередная инвестиция в инфраструктуру искусственного интеллекта. Однако за этой сделкой стоит фундаментальный сдвиг в том, как будут обучаться модели следующего поколения.

Долгое время прогресс в области ИИ определялся масштабированием: разработчики использовали больше вычислительных мощностей, улучшали архитектуры и, главное, собирали огромные массивы статических данных. Но по мере того как модели переходят от простой генерации текста к взаимодействию с реальным миром — использованию программ, навигации по интерфейсам и написанию кода — статических текстов из интернета становится недостаточно.

Your Data Agents Need Context

Главным ограничением становятся среды, в которых модели могут учиться, практиковаться и оцениваться. Обучение с подкреплением (reinforcement learning, или RL) превращается в критически важный слой стека технологий ИИ. Индустрия переходит от использования данных, размеченных людьми, к сложным инженерным системам, которые генерируют высококачественные сигналы для обучения в автоматическом режиме.

Стартап Deeptune, основанный Тимом Лупо, решает именно эту задачу. Компания создает передовые среды обучения с подкреплением, ориентированные на использование компьютера и написание кода. Чтобы модели могли выполнять сложные задачи, им требуются структурированные, реалистичные и измеримые условия. Создание таких сред — сложная инженерная задача, требующая глубокого понимания как передовых исследований, так и практических нужд ведущих лабораторий.

Изображение из источника

Deeptune уже активно сотрудничает с топовыми разработчиками ИИ. Результаты их работы отражаются в улучшении показателей на таких бенчмарках, как OSWorld (оценка использования компьютера) и Terminal-Bench (работа с интерфейсом командной строки). В статье a16z отмечается стремительный прогресс передовых моделей: например, Opus 4.6 достигает результата 72.7% в OSWorld, превышая базовый уровень человека (72.4%), а GPT-5.4 показывает результат в 75%. Это указывает на то, что системы постепенно обретают способность выполнять задачи от начала до конца, полностью управляя компьютером.

С точки зрения индустрии, этот переход означает трансформацию проблемы данных. Если раньше сбор данных был преимущественно задачей ручной разметки, то теперь это сложная инженерная и вычислительная проблема. Инфраструктура для RL требует тесной интеграции с передовыми исследованиями, и команда Deeptune, состоящая из выходцев из ведущих лабораторий, сфокусирована именно на этом.

Если прошлое десятилетие прогресса искусственного интеллекта определялось качеством и объемом статических наборов данных, то следующее десятилетие будет зависеть от качества сред обучения. Инвестиция в Deeptune — это ставка на то, что именно динамические среды станут фундаментом для появления по-настоящему автономных и полезных ИИ-агентов.

Смена парадигмы в обучении ИИ: почему a16z инвестирует 43 млн долларов в Deeptune

TL;DR

Главное

Ключевые факты

Инсайт

Читайте также

Система SceneSmith от MIT: генерация виртуальных сред для обучения роботов с помощью ИИ-агентов

Изменение ценностей искусственного интеллекта: анализ поведения моделей Claude на разных языках

Языковые модели осваивают управление роботами: результаты новых испытаний

Гайды по теме