Google lanzó recientemente y abrió el modelo multimodal Gemma 4 12B. El objetivo de desarrollo de este modelo es permitir que los dispositivos de consumo ejecuten modelos de IA localmente. Según las pruebas de Google, el modelo puede funcionar en portátiles y ordenadores de sobremesa con 16 GB de memoria/memoria de vídeo, gracias a los parámetros de pequeña escala de 12B, pero el modelo es tan inteligente como el modelo de la versión Gemma 26B.

Las ventajas del modelo incluyen:
Nueva arquitectura unificada: no se necesitan codificadores multimodales, soporte directo para entrada de texto, imágenes, video y audio.
Capacidades de inferencia avanzadas: el rendimiento de referencia se acerca al modelo de arquitectura experta híbrida Gemma versión 26B, que puede proporcionar inferencia de varios pasos localmente.
Requisitos de memoria bajos: solo se requieren 16 GB de memoria o memoria de video para ejecutarse localmente, aunque más memoria proporcionará un mejor rendimiento.
Lanzamiento del modelo de código abierto: el modelo se lanza bajo la licencia Apache 2.0, y Google y la comunidad también brindan soporte completo para el ecosistema de desarrolladores.
Selector predictivo: la versión Gemma 4 12B está equipada con una variedad de selectores predictivos de tokens, que pueden reducir eficazmente los retrasos.
Más sobre el modelo:
La inteligencia de Gemma 4 12B en la prueba comparativa de anotaciones está cerca del modelo de arquitectura híbrida 26B MoE lanzado anteriormente por Google como código abierto. Sin embargo, la versión de 12B tiene requisitos de memoria muy bajos y se puede ejecutar directamente en computadoras portátiles y de escritorio de consumo equipadas con 16 GB de memoria o memoria de video, lo que permite a los usuarios experimentar poderosas experiencias de interacción inteligente y multimodal localmente.
Las ventajas destacadas de este modelo también incluyen la simplificación del procesamiento de imágenes, vídeos y entradas de audio. Los modelos multimodales tradicionales suelen depender de codificadores independientes para convertir imágenes y audio, y luego pasar la representación convertida al modelo de lenguaje. Dado que estos codificadores separados aumentarán la latencia y el uso de memoria, Google utiliza una arquitectura sin codificador para entrenar el modelo Gemma 4 12B, de modo que el modelo pueda integrar directamente entradas de audio y visuales.
Visión: utilice un módulo de integración liviano para reemplazar el codificador visual Gemma 4. Este módulo solo contiene 1 operación de multiplicación de matrices, incrustación de posiciones y normalización, lo que permite que la red troncal del modelo se haga cargo directamente del procesamiento visual.
Audio: Google eliminó el codificador de audio por completo, proyectando la señal de audio sin procesar en el mismo espacio dimensional que el marcado de texto.
Prueba y descarga el modelo:
Actualmente, la versión Gemma 4 12B se ha proporcionado en múltiples plataformas. Los desarrolladores interesados pueden experimentarlo directamente en Ollama, etc., o ir a HuggingFace o Kaggle para descargar el archivo de peso del modelo. Los desarrolladores también pueden utilizar Unsloth para realizar ajustes eficientes y personalizar la versión que necesitan.
Ollama: https://ollama.com/library/gemma4
AbrazandoCara: https://huggingface.co/collections/google/gemma-4
Desloth: https://unsloth.ai/docs/models/gemma-4