OpenAI anunció hoy el lanzamiento de dos nuevos modelos abiertos para el campo de la seguridad de la IA: gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Estos modelos de clasificación de seguridad están optimizados en función de la serie de modelos abiertos gpt-oss publicada anteriormente y también están abiertos bajo la licencia Apache 2.0, lo que permite que cualquiera pueda usarlos, modificarlos e implementarlos libremente.

La característica más importante del nuevo modelo es que proporciona a los desarrolladores la capacidad de realizar inferencias y clasificaciones directamente basadas en políticas de seguridad personalizadas, abandonando el sistema de seguridad de "talla única". Los desarrolladores pueden ingresar sus propias políticas de seguridad y contenido para detectar durante la inferencia, y el modelo clasificará según las políticas y dará razones razonadas. Las políticas se pueden cambiar a medida que se utilizan y se pueden ajustar de manera flexible para mejorar el rendimiento. gpt-oss-safeguard puede clasificar mensajes de usuarios, respuestas de chat e incluso conversaciones completas.

OpenAI señala que este nuevo tipo de modelo es especialmente adecuado para las siguientes situaciones:

  • Los peligros potenciales están surgiendo o evolucionando y las políticas deben adaptarse rápidamente;

  • Algunas áreas son muy granulares y difíciles de manejar para los pequeños clasificadores tradicionales;

  • Los desarrolladores carecen de una gran cantidad de muestras de alta calidad y tienen dificultades para capacitar clasificadores de alto nivel para diversos riesgos en la plataforma;

  • La calidad y la interpretabilidad de los resultados de la clasificación se priorizan sobre el desempeño retrasado.

Cabe señalar que gpt-oss-safeguard también tiene ciertas limitaciones. OpenAI declaró que si la plataforma tiene una gran cantidad de muestras etiquetadas y puede entrenar clasificadores tradicionales, este último aún puede ser mejor que gpt-oss-safeguard en escenarios complejos o de alto riesgo, y el modelo personalizado será más preciso. Además, este nuevo modelo tiene una velocidad de procesamiento lenta y un gran consumo de recursos, lo que lo hace inadecuado para la visualización de contenidos a gran escala en tiempo real.

Actualmente, gpt-oss-safeguard-120b y gpt-oss-safeguard-20b están disponibles para descarga gratuita:

https://huggingface.co/collections/openai/gpt-oss-safeguard