По мере развития индустрии искусственного интеллекта меняются и способы нашего взаимодействия с моделями. Если раньше основным форматом общения был текстовый запрос, то сейчас мы наблюдаем переход к более сложным мультимодальным форматам. Разработчики начинают использовать видео-инструкции и записи экрана для постановки задач автономным ИИ-агентам.
Вместо того чтобы долго описывать проблему текстом, пользователь может записать короткое видео со своими комментариями. Агент анализирует этот файл, транскрибирует голос, выделяет ключевые кадры и формирует структурированный HTML-документ. В таком отчете статические элементы описываются текстом, а динамические превращаются в короткие анимации. В конце агент сам составляет для себя список задач. Этот подход превращает обратную связь в четкий алгоритм действий, сохраняя контекст в удобном формате.
Такое изменение паттернов использования напрямую влияет на экономику провайдеров больших языковых моделей (LLM). Согласно последним данным платформы Vercel, которая проанализировала реальное использование ИИ в производственных средах, агентские вычисления уже составляют пятьдесят девять процентов от общего объема используемых токенов.
В связи с этим компании вынуждены менять свою ценовую политику. Anthropic, чьи модели серии Claude сейчас лидируют по объему затрат разработчиков, вводит раздельные лимиты. Использование Claude через сторонние инструменты разработчика теперь тарифицируется отдельно. Пользователи получают дополнительные ежемесячные кредиты, но после их исчерпания оплата будет происходить по тарифам API. Это логичный шаг: агенты потребляют огромное количество токенов, работая в фоновом режиме, и старые безлимитные подписки становятся экономически невыгодными для провайдеров.
Параллельно Google обновляет свою экосистему. Компания анонсировала новые функции для мобильных платформ под названием Gemini Intelligence, которые включают автозаполнение форм и преобразование сбивчивых голосовых заметок в структурированный текст. Также заявлен новый класс устройств — Googlebooks, ориентированный на глубокую интеграцию с ИИ.
Другие игроки рынка также адаптируются к новой реальности. Платформа Notion запустила среду для разработчиков с поддержкой Markdown API. Это позволяет синхронизировать внешние данные и создавать инструменты для внутренних агентов, что в перспективе превратит систему в полноценную среду для совместной работы людей и алгоритмов.
Среды разработки также эволюционируют. Популярный редактор Cursor теперь позволяет запускать облачных агентов внутри полностью настроенной среды. Появляются локальные решения, которые конвертируют серверные спецификации в исполняемый код прямо на устройстве пользователя. Это снижает зависимость от облачной инфраструктуры и повышает скорость работы.
Анализируя эти изменения, можно сделать вывод, что индустрия движется к фрагментации использования моделей. Большинство крупных команд уже не полагаются на одну лабораторию, а маршрутизируют запросы между разными провайдерами. Например, Anthropic чаще используется для сложных задач программирования, тогда как Google лидирует по объему обрабатываемых токенов благодаря быстрым и экономичным моделям.
В будущем грань между обычными приложениями и инструментами разработки продолжит стираться. Любой пользовательский интерфейс сможет выступать в роли среды для постановки задач автономным агентам, а эффективность работы будет зависеть от способности грамотно формулировать контекст.