NvidiahoySe lanzó OpenReasoning-Nemotron, una colección de cuatro modelos de inferencia simplificados con 1,5 mil millones, 7 mil millones, 14 mil millones y 32 mil millones de parámetros, todos derivados de DeepSeek R1 0528 con 67,1 mil millones de parámetros. Al comprimir un modelo masivo de “maestro” en cuatro modelos de “estudiante” basados ​​en Qwen-2.5, NVIDIA permite experimentos de inferencia avanzados incluso en dispositivos de juego estándar sin preocuparse por las altas tarifas de GPU y el uso de la nube.

La clave no son las técnicas sofisticadas, sino los datos sin procesar. NVIDIA utilizó el canal NeMo Skills para generar 5 millones de soluciones de matemáticas, ciencias y código, y luego perfeccionó cada solución mediante aprendizaje puramente supervisado. Actualmente, el modelo de 32 mil millones de parámetros obtuvo 89,2 puntos en AIME24 y 73,8 puntos en la competencia HMMT de febrero, mientras que incluso la versión de 1,5 mil millones de parámetros logró puntuaciones sólidas de 55,5 y 31,5 puntos.

NVIDIA visualiza estos modelos como potentes conjuntos de herramientas de investigación. Los cuatro puntos de control están disponibles para descargar en Hugging Face, lo que proporciona una base sólida para explorar la inferencia basada en el aprendizaje por refuerzo o personalizar modelos para tareas específicas. Usando el modo GenSelect (múltiples iteraciones por pregunta), es posible generar múltiples compilaciones paralelas y seleccionar la mejor respuesta, lo que da como resultado un rendimiento excepcional del modelo 32B que rivaliza o incluso supera el alto rendimiento o3 de OpenAI en múltiples pruebas comparativas de matemáticas y codificación.

Debido a que NVIDIA entrenó estos modelos utilizando únicamente ajustes supervisados ​​y no aprendizaje por refuerzo, la comunidad tiene un punto de partida claro y avanzado para futuros experimentos de aprendizaje por refuerzo. Para los jugadores y entusiastas del hogar, si tienen una GPU para juegos más potente, obtenemos un modelo totalmente localizado que puede acercarse mucho a lo último en tecnología.