Google DeepMind анонсировала выпуск Gemma 4 12B. Это мультимодальная модель среднего размера, спроектированная специально для локальной работы на потребительских устройствах. Главная инженерная особенность новинки — полный отказ от традиционных энкодеров для обработки звука и изображений, что существенно снижает потребление памяти и ускоряет работу.
Контекст: проблема «посредников»
До сих пор разработчикам приходилось искать компромисс между компактными моделями для граничных вычислений (edge computing) и тяжелыми решениями на базе смеси экспертов (MoE), требующими серверного оборудования.
Традиционные мультимодальные модели исторически полагаются на отдельные модули — энкодеры. Их задача состоит в том, чтобы перевести пиксели изображений или звуковые волны в векторные представления, понятные языковой модели. Наличие этих дополнительных нейросетей-посредников неизбежно увеличивает задержку при генерации ответа и требует резервирования дополнительного объема видеопамяти.
Детали архитектуры Gemma 4 12B
Инженеры Google решили проблему радикально, интегрировав обработку аудио и видео напрямую в основу больших языковых моделей (LLM):
- Зрение: Визуальный энкодер заменен на легковесный модуль эмбеддингов. Он состоит всего из одного матричного умножения, позиционного кодирования и нормализации. Вся тяжелая работа по визуальному анализу переложена на саму языковую модель.
- Звук: Аудиоэнкодер удален полностью. Модель проецирует сырой аудиосигнал непосредственно в то же размерное пространство, что и текстовые токены.
- Оптимизация: Модель оснащена механизмами предсказания нескольких токенов (Multi-Token Prediction, MTP), что дополнительно снижает задержку вывода.
В результате Gemma 4 12B требует всего 16 ГБ видеопамяти (VRAM) или объединенной памяти для полноценного запуска. При этом, согласно тестам компании, ее способность к сложным рассуждениям вплотную приближается к более крупной модели Gemma на 26 миллиардов параметров.
Анализ: локальные агенты становятся реальностью
Этот релиз отражает важный тренд в индустрии искусственного интеллекта — стремление к унификации архитектур. Убирая архитектурные «костыли» в виде тяжелых энкодеров, разработчики не просто экономят ресурсы, но и делают восприятие мира моделью более целостным.
Для экосистемы это означает возможность создания автономных ИИ-агентов, которые могут видеть экран пользователя или слышать его голос в реальном времени, не отправляя конфиденциальные данные в облако. Модель распространяется по лицензии Apache 2.0 и уже поддерживается популярными инструментами, такими как Ollama, LM Studio, vLLM и Hugging Face Transformers.
Перспектива
Успех подхода без энкодеров может заставить других игроков рынка пересмотреть архитектуру своих мультимодальных решений. В ближайшем будущем мы, вероятно, увидим стандартизацию такого подхода для моделей среднего и малого размера. Это откроет путь к созданию по-настоящему умных персональных ассистентов, работающих исключительно на вычислительных мощностях обычного ноутбука.