Cuando se trata de modelos de lenguajes grandes (LLM), la escala ciertamente importa porque afecta dónde se ejecuta el modelo. StabilityAI, un fabricante conocido por su tecnología de inteligencia artificial de generación de texto a imagen por difusión estable, lanzó hoy uno de sus modelos más pequeños hasta la fecha: StableLM21.6B.


StableLM es un LLM de generación de contenido de texto que Stable AI lanzó por primera vez en abril de 2023 con 3 mil millones y 7 mil millones de modelos de parámetros. El nuevo modelo StableLM es en realidad el segundo modelo lanzado por StabilityAI en 2024, después de que la compañía lanzara StableCode3B a principios de esta semana.

El nuevo modelo StableLM es compacto y potente, diseñado para reducir la barrera de entrada para que más desarrolladores participen en el ecosistema de IA generativa e incorporen datos multilingües en siete idiomas: inglés, español, alemán, italiano, francés, portugués y holandés. El modelo aprovecha los últimos avances algorítmicos en el modelado de lenguajes para lograr el mejor equilibrio entre velocidad y rendimiento deseado por StabilityAI.

Carlos Riquelme, jefe del equipo de lenguaje de StabilityAI, dijo a VentureBeat: "En general, los modelos más grandes entrenados con recetas de entrenamiento similares en datos similares tienden a funcionar mejor que los modelos más pequeños. Sin embargo, con el tiempo, a medida que los nuevos modelos son capaces de implementar mejores algoritmos y entrenar con más datos y de mayor calidad, a veces vemos que los modelos más pequeños recientes superan a los modelos más grandes y antiguos".

Según StabilityAI, el modelo supera a otros modelos de lenguajes pequeños con parámetros inferiores a 2 mil millones en la mayoría de los puntos de referencia, incluidos Phi-2 de Microsoft (2,7 mil millones), TinyLlama1.1B y Falcon1B. El nuevo StableLM más pequeño es incluso capaz de superar a algunos de los modelos más grandes, incluido el modelo StableLM3B anterior de StabilityAI.

Riquelme dijo: "StableLM21.6B. Funciona mejor que algunos de los modelos más grandes entrenados hace unos meses. Considere tendencias similares en computadoras, televisores o microchips, donde se vuelven más pequeños, más delgados y mejores con el tiempo".

Para ser claros, el StableLM21.6B más pequeño tiene algunas desventajas debido a su pequeño tamaño. Debido a la naturaleza de los modelos de lenguaje pequeños y de baja capacidad, StableLM21.6B también puede presentar algunos problemas comunes, como altas tasas de alucinaciones o lenguaje potencialmente tóxico.

Durante los últimos meses, StabilityAI ha estado trabajando en opciones de LLM más pequeñas y potentes. En diciembre de 2023, se lanzó el modelo StableLMZephyr3B, que es más pequeño pero más potente que el modelo inicial lanzado en abril.

El nuevo modelo StableLM2 está entrenado con más datos, incluidos documentos multilingües en 6 idiomas (español, alemán, italiano, francés, portugués y holandés) además del inglés. Otro aspecto interesante destacado por Riquelme es el orden en que se presentan los datos al modelo durante el entrenamiento. Señala que centrarse en diferentes tipos de datos en diferentes etapas del entrenamiento puede resultar gratificante.

Yendo un paso más allá, StabilityAI ofrece nuevos modelos con opciones de preentrenamiento y ajuste, así como un formato que los investigadores llaman "...último punto de control del modelo antes del enfriamiento previo al entrenamiento".

"Nuestro objetivo es proporcionar a los desarrolladores individuales más herramientas y artefactos para innovar, adaptar y construir sobre los modelos existentes. Aquí, proporcionamos un modelo concreto semiacabado para que lo utilice la gente", dijo Riquelme.

Durante el proceso de formación, el modelo se actualiza secuencialmente y mejora su rendimiento. En este caso, el primer modelo no sabe nada, mientras que el último modelo ha consumido la mayor parte de los datos y se espera que los aprenda. Al mismo tiempo, los modelos pueden volverse menos flexibles hacia el final de la formación porque se ven obligados a finalizar el aprendizaje.

"Decidimos hacer que el modelo esté disponible en su forma actual antes de comenzar la fase final de entrenamiento para que, con suerte, sea más fácil especializarlo para otras tareas o conjuntos de datos que la gente quiera usar", dijo. "No estamos seguros de que esto funcione bien, pero realmente creemos en la capacidad de las personas para aprovechar nuevas herramientas y modelos de maneras sorprendentes".