OpenAI lanza un nuevo modelo de peso abierto para garantizar la IA security

OpenAI anunció hoy el lanzamiento de dos nuevos modelos abiertos para el campo de la seguridad de la IA: gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Estos modelos de clasificación de seguridad están optimizados en función de la serie de modelos abiertos gpt-oss publicada anteriormente y también están abiertos bajo la licencia Apache 2.0, lo que permite que cualquiera pueda usarlos, modificarlos e implementarlos libremente.

La característica más importante del nuevo modelo es que proporciona a los desarrolladores la capacidad de realizar inferencias y clasificaciones directamente basadas en políticas de seguridad personalizadas, abandonando el sistema de seguridad de "talla única". Los desarrolladores pueden ingresar sus propias políticas de seguridad y contenido para detectar durante la inferencia, y el modelo clasificará según las políticas y dará razones razonadas. Las políticas se pueden cambiar a medida que se utilizan y se pueden ajustar de manera flexible para mejorar el rendimiento. gpt-oss-safeguard puede clasificar mensajes de usuarios, respuestas de chat e incluso conversaciones completas.

OpenAI señala que este nuevo tipo de modelo es especialmente adecuado para las siguientes situaciones:

Los peligros potenciales están surgiendo o evolucionando y las políticas deben adaptarse rápidamente;
Algunas áreas son muy granulares y difíciles de manejar para los pequeños clasificadores tradicionales;
Los desarrolladores carecen de una gran cantidad de muestras de alta calidad y tienen dificultades para capacitar clasificadores de alto nivel para diversos riesgos en la plataforma;
La calidad y la interpretabilidad de los resultados de la clasificación se priorizan sobre el desempeño retrasado.

Cabe señalar que gpt-oss-safeguard también tiene ciertas limitaciones. OpenAI declaró que si la plataforma tiene una gran cantidad de muestras etiquetadas y puede entrenar clasificadores tradicionales, este último aún puede ser mejor que gpt-oss-safeguard en escenarios complejos o de alto riesgo, y el modelo personalizado será más preciso. Además, este nuevo modelo tiene una velocidad de procesamiento lenta y un gran consumo de recursos, lo que lo hace inadecuado para la visualización de contenidos a gran escala en tiempo real.

Actualmente, gpt-oss-safeguard-120b y gpt-oss-safeguard-20b están disponibles para descarga gratuita:

https://huggingface.co/collections/openai/gpt-oss-safeguard