Como se espera mucho el modelo grande de próxima generación GPT-5, está surgiendo una nueva tecnología llamada "Verificador Universal", que revela el "arma secreta" de OpenAI que puede usarse para ampliar la brecha competitiva. El “Verificador Universal” de OpenAI puede afectar directamente la competitividad del mercado del modelo GPT-5. El 4 de agosto, el medio tecnológico The Information informó, citando a personas familiarizadas con el asunto, que esta tecnología ha sido utilizada en el proceso de desarrollo de GPT-5.

El mecanismo central de la tecnología ha sido comparado con un "juego de probador-verificador". En resumen, permite que un modelo de IA desempeñe el papel de "verificador" para verificar y juzgar las respuestas generadas por otro modelo "probador". A través de esta confrontación interna y retroalimentación, la calidad de los resultados del modelo se mejora sistemáticamente. Este proceso automatizado tiene como objetivo resolver el cuello de botella del aprendizaje por refuerzo (RL) que es difícil de verificar en campos subjetivos como la escritura creativa o campos complejos como las pruebas matemáticas.

Los investigadores internos de OpenAI han confirmado indirectamente la eficacia de los métodos relacionados en la plataforma social X. El investigador Noam Brown dijo que las técnicas son "generales" y permiten que los modelos grandes "funcionen mejor en tareas que son difíciles de verificar". Esto también indica que OpenAI está tratando de superar el punto central de la aplicación comercial de la IA: la credibilidad.

El juego “probador-verificador”

Los detalles técnicos del "Verificador universal" se elaboraron por primera vez en un artículo titulado "El juego Prover-Verifier mejora la legibilidad de modelos de lenguaje grandes" publicado por OpenAI en julio de 2024. Este método construye un exquisito marco interno de entrenamiento adversario, detrás del cual se encuentra un modelo de "juego probador-verificador".

Los dos roles de "probador y verificador" en este marco son como dividir dos "personalidades" dentro de un modelo:

Durante el proceso de capacitación, el modelo "verificador" mejora continuamente sus capacidades de "falsificación" al aprender a distinguir entre soluciones correctas e incorrectas. Al mismo tiempo, el modelo "probador" se optimiza en función de la retroalimentación del "verificador" y aprende a generar respuestas correctas que son más convincentes y difíciles de falsificar. El documento establece claramente que el validador es lo suficientemente pequeño para una implementación a gran escala y está "diseñado para futuras implementaciones de GPT".

Un investigador dijo a The Information que este mecanismo es similar a las redes generativas adversarias (GAN), que utilizan un "discriminador" para distinguir los datos reales de los datos generados por IA, lo que obliga al "generador" a seguir mejorando.


¿El “legado técnico” del Super Alignment Team?

Vale la pena señalar que esta tecnología clave se conoce como el "legado técnico" del antiguo equipo "Super Alignment" de OpenAI. Entre los seis autores que publicaron el artículo "El juego Prover-Verifier mejora la legibilidad de modelos de lenguaje grandes", actualmente solo Yining Chen y Nat McAleese permanecen en OpenAI.

Se informa que el equipo fue dirigido por el cofundador de la empresa, Ilya Sutskever, y se creó para estudiar cómo controlar la superinteligencia que pueda aparecer en el futuro. Sin embargo, se disolvió rápidamente después de que Sutskever y otro responsable, Jan Leike, se marcharan.

Esto añade una capa de contexto dinámico complejo dentro de la empresa a la aplicación de esta tecnología. Aunque el equipo ya no existe, sus resultados técnicos aparentemente se han integrado en el camino principal de desarrollo de productos de OpenAI para resolver los problemas de alineación y confiabilidad del modelo actual.

Las expectativas del GPT-5 son altas

Este avance tecnológico está directamente relacionado con el tan esperado GPT-5. La información en las redes sociales muestra que algunas personas creen que el modelo de sistema de autocrítica que se puso a prueba en la función auxiliar del código GPT-4 ahora se ha integrado oficialmente en el "próximo modelo principal" de GPT-5. Esto ha elevado las expectativas externas para GPT-5 a un nuevo nivel.

El propio CEO de OpenAI, Sam Altman, también promocionó GPT-5 en un podcast reciente, diciendo que es "más inteligente que nosotros en casi todos los aspectos", lo que aumenta aún más las expectativas del mercado. Al mismo tiempo, competidores como xAI y Google también han adoptado el aprendizaje por refuerzo como una vía técnica clave para mejorar las capacidades del modelo y han duplicado su inversión. En este contexto, el "Verificador Universal" no es sólo una innovación técnica de OpenAI, sino que también se considera su activo principal para mantener su ventaja en la feroz competencia de la inteligencia artificial. Su efecto final será probado en el mercado después del lanzamiento de GPT-5.

Avances y desafíos coexisten

El valor más importante de un "validador universal" es su "universalidad". Según los informes, esta tecnología no solo ha ayudado a los modelos OpenAI a avanzar en áreas como la programación de software donde se puede verificar fácilmente si las respuestas son correctas o incorrectas, sino que también ha mostrado mejoras en áreas más subjetivas como la escritura creativa. Esto significa que las capacidades de la IA están penetrando desde el campo objetivo al campo subjetivo.

Por ejemplo, en pruebas matemáticas complejas, un verificador puede garantizar que cada paso siga las reglas de la lógica formal y sea coherente entre sí, en lugar de limitarse a comprobar la respuesta final. Según los informes, es probable que los recientes resultados revolucionarios del modelo OpenAI en la competencia de la Olimpiada Internacional de Matemáticas se beneficien de tecnologías como el "verificador universal". El investigador principal de OpenAI, Alexander Wei, dijo en la plataforma social X que el método de aprendizaje por refuerzo utilizado por la empresa es de "propósito general", lo que sugiere que puede verificar la calidad de las respuestas en categorías más subjetivas.

Sin embargo, el camino hacia los avances tecnológicos no es fácil. Según informes anteriores de los medios, la investigación y el desarrollo de GPT-5 se enfrentan a graves desafíos, incluida la creciente escasez de datos de entrenamiento de alta calidad y la disminución de los beneficios de mejora del rendimiento que aporta el preentrenamiento a gran escala. Además, el problema de la atenuación del rendimiento después de que el modelo se implementa desde las pruebas internas hasta la implementación pública aún existe. Por ejemplo, el modelo "o3" que tuvo un buen desempeño en las pruebas internas experimentó una caída significativa en el rendimiento en aplicaciones reales. Estos factores han generado incertidumbre sobre si GPT-5 podrá finalmente lograr el avance esperado.