Google lanzó hoy una nueva familia de modelos de traducción de código abierto, TranslateGemma, basada en su último modelo de peso de código abierto Gemma 3, que se denomina oficialmente "un paso importante en la apertura del campo de la traducción". El primer lote admite hasta 55 idiomas, abarcando idiomas principales como español, francés, chino e hindi.

El momento de este lanzamiento sigue de cerca la dinámica de la competencia: hace apenas unas horas, OpenAI acababa de lanzar la herramienta ChatGPT Translate, que se centra en el control de tono y contexto. A través de una interfaz de doble columna y reconocimiento automático de idioma, intenta desafiar los servicios de traducción tradicionales como Google Translate en términos de experiencia de usuario y comprensión del contexto. Por el contrario, TranslateGemma pone más énfasis en las capacidades del modelo abierto y la calidad general de la traducción en múltiples puntos de referencia.
La familia TranslateGemma está disponible actualmente en tres tamaños: 4 mil millones, 12 mil millones y 27 mil millones de parámetros. Los resultados de la evaluación proporcionada por Google muestran que en el punto de referencia WMT24++, TranslateGemma 12B superó a la versión básica de Gemma 3 27B, lo que significa que con menos de la mitad del número de parámetros, puede lograr un mayor rendimiento y una menor latencia, manteniendo o incluso mejorando la precisión de la traducción, lo que es beneficioso para los desarrolladores al implementar modelos de traducción de alta calidad en entornos con potencia informática limitada.
En términos de escenarios de implementación, Google dijo que el modelo 4B está optimizado para la inferencia móvil y es adecuado para ejecutarse localmente en dispositivos terminales como teléfonos móviles; el modelo 12B está orientado a escenarios de potencia informática local, como portátiles de consumo; y el modelo 27B requiere un mayor soporte de potencia informática, como NVIDIA H100 de tarjeta única en la nube y otras configuraciones. En el punto de referencia de traducción de imágenes de Vistra, TranslateGemma también logró mejores resultados en la tarea de traducción de texto dentro de la imagen, aunque no fue ajustado específicamente para este escenario, lo que demuestra el potencial del modelo para la comprensión de texto multimodal.
Google reveló que la mejora del rendimiento de TranslateGemma proviene de un proceso de capacitación en dos etapas. La primera etapa es el ajuste supervisado. El equipo de investigación introdujo una gran cantidad de corpus de traducción humana sobre el modelo base Gemma 3 y lo combinó con datos sintéticos de alta calidad generados por el modelo Gemini para entrenamiento. La segunda etapa utiliza el aprendizaje por refuerzo para guiar la optimización de la calidad de la traducción a través de un conjunto de modelos de recompensa, incluidos MetricX-QE, AutoMQM y otros indicadores avanzados, lo que hace que el modelo sea más natural y contextualmente adecuado para la producción de traducción.
Actualmente, la gama completa de modelos de TranslateGemma está disponible para descargar en las plataformas Kaggle y Hugging Face para que investigadores y desarrolladores experimenten y desarrollen libremente. Si bien OpenAI integra aún más la traducción en productos front-end basados en chat, Google ofrece más opciones técnicas para la construcción de aplicaciones de terceros al abrir modelos subyacentes de alto rendimiento, lo que también indica que la vía de traducción automática intensificará la competencia en los dos niveles de modelos abiertos y herramientas orientadas a servicios.
Artículos relacionados:
ChatGPT Translate está en línea: OpenAI lanza una nueva ronda de desafíos para Google Translate