Google представила Gemma 4 12B — компактную ИИ-модель с поддержкой аудио и без энкодеров

Компания Google представила новую модель искусственного интеллекта — Gemma 4 12B. Это мультимодальная нейросеть с 12 миллиардами параметров. Главная особенность — встроенная поддержка аудио и работа без дополнительных энкодеров.
Обычно мультимодальные ИИ требуют отдельных модулей для обработки разных типов данных: текста, изображений, звука. Gemma 4 12B умеет обрабатывать аудио напрямую, что упрощает архитектуру и снижает требования к памяти.
Модель предназначена для задач, связанных с пониманием речи, звуков и текста одновременно. Например, она может анализировать аудиозаписи, переводить речь в текст или реагировать на голосовые команды без дополнительных инструментов.
По заявлению Google, Gemma 4 12B эффективнее предшественников: она потребляет меньше вычислительных ресурсов, но при этом показывает высокую точность. Это делает её подходящей для использования на устройствах с ограниченной мощностью — например, на смартфонах или встраиваемых системах.
Новинка доступна разработчикам для изучения и интеграции в свои проекты. Google продолжает развивать линейку Gemma как более лёгкую альтернативу своим большим моделям вроде Gemini. Такие компактные решения помогают внедрять ИИ в повседневные приложения без серьёзных затрат.
Пока не сообщается, когда модель появится в широком доступе и будут ли поддерживаться другие языки, кроме английского. Однако сама концепция «бесэнкодерной» мультимодальности может стать трендом в индустрии.







