¡El tan publicitado agente de OpenAI acaba de ser lanzado oficialmente! Introducción oficial:Operadores uno de nuestros primeros agentes. Estas IA pueden hacer el trabajo por usted de forma independiente.Simplemente dale una tarea y la ejecutará.. Por ejemplo, dale una lista de compras y Operador podrá ayudarte a comprar cosas buenas de forma completamente autónoma.


Puede ver que las manos del operador han abandonado el teclado y que el propio operador completa todas las operaciones en la pantalla.

También puedes utilizarlo para hacer reservas en restaurantes:


Tan pronto como terminó la transmisión en vivo de Ultraman, el presidente de OpenAI, Brockman, no podía esperar para anunciar:

2025 es el año del agente inteligente.


Y esta vez, Operador anunció oficialmente que se lanzará pronto, pero por el momento solo está disponible para usuarios Pro. Sí, esa es la gran membresía que cuesta 200 dólares estadounidenses (aproximadamente 1.458 RMB) al mes.

Después de ver la transmisión en vivo, los internautas todavía estaban muy emocionados y lo llamaron "Jueves loco".


Pero...


Bueno, Operador es muy popular, pero sería aún mejor si fuera de código abierto. DeepSeek y Meta van a ser dogos.

Juega con el navegador sin ayuda humana

No hay pruebas, veamos primero la demostración oficial para ver qué tan "independiente" es el Operador.

Se puede utilizar en casi cualquier sitio web sin asistencia humana.


¿Te gusta encontrar una receta de linguini de almejas en Allrecipes y agregar todos los ingredientes a mi carrito de Instacart?


La lógica que opera es la misma que la de los humanos: qué imágenes ve y qué botones debe hacer clic.

Esto es diferente de otros agentes que utilizan API o interfaces de programación. Se basa en cadenas de pensamiento basadas en texto para el razonamiento.


Después de confirmar el menú, ¿a qué tienda debes acudir para realizar tu pedido?

El humano además da instrucciones, utilizando las de Gus, y luego el Operador irá al sitio web correspondiente para comenzar a realizar pedidos.


Al encontrarse con operaciones de inicio de sesión, pago y otras operaciones, el Operador devolverá los derechos de operación al usuario.

En pruebas de usuarios reales, algunos blogueros descubrieron que si Reddit bloqueaba al operador, agregaría la palabra clave "Reddit" a su búsqueda para encontrar publicaciones relevantes.


Los usuarios también pueden agregar instrucciones personalizadas para obtener una experiencia personalizada. Por ejemplo, configure su aerolínea preferida al reservar vuelos.

El Operador permite a los usuarios guardar indicaciones para un acceso rápido en la página de inicio, lo que lo hace ideal para tareas repetitivas como reponer existencias en un sitio de compras.

El operador también puede ejecutar varias tareas al mismo tiempo, como abrir varias páginas web, pedir una taza esmaltada personalizada en Etsy y reservar un camping en Hipcamp.


La capa inferior de Operador usa un nuevo modelo.Agente que usa computadora (CUA).

Al combinar las capacidades visuales de GPT-4o con el aprendizaje avanzado por refuerzo de inferencia, CUA permite la interacción GUI.

El operador puede ver el contenido de la interfaz web y utilizar todas las operaciones permitidas por el mouse y el teclado. Esto le permite operar automáticamente sin la necesidad de una integración API personalizada.

Si encuentra problemas o errores,Los operadores pueden autocorregirse utilizando capacidades de razonamiento. y devuelve el control al usuario cuando se atasca y necesita ayuda.

CUA logró SOTA en los puntos de referencia WebArena y WebVoyager.


Actualmente, los miembros Pro en EE. UU. ya pueden utilizar Operador a través de operator.chatgpt.com. Los usuarios de pago como Plus, Team, Enterprise y Fat Friends en otras regiones tendrán que esperar, pero OpenAI promete integrar estas funciones en ChatGPT en el futuro.

OpenAI entra en el “Nivel 3”

En julio de 2024, OpenAI lanzó el "Proceso de cinco pasos de AI a AGI":

Nivel1: Chatbots, la IA puede interactuar con las personas de forma conversacional.

Nivel2: Reasoners, la tecnología de inteligencia artificial resuelve problemas a nivel humano.

Nivel 3: Agentes, la IA puede realizar algunas tareas de acción como un sistema.

Nivel4: Innovadores, la IA puede desarrollar IA innovadora.

Nivel5: Organizaciones, la IA puede completar el trabajo realizado por una organización.

En su definición y planificación en ese momento, OpenAI declaró que solo estaba en la etapa de Nivel 1 y se estaba acercando al Nivel 2.

Y ahora, con el lanzamiento de Operador, Ultraman anunció:

Este es el comienzo de nuestra entrada al Nivel 3.

Vale la pena señalar que, como se mencionó al principio, OpenAI silenciosamente destacó un punto importante: el operador todavía es solo "primer lote”en lugar del único agente inteligente.

Durante la transmisión en vivo, Ultraman también anunció:

También lanzaremos agentes adicionales en las próximas semanas y meses.


Una cosa más

Justo antes de la transmisión en vivo de OpenAI de hoy, hay un pequeño dato.

Dos horas antes del lanzamiento del Operador, OpenAI envió un tweet afirmando que había solucionado el problema de las altas tasas de error en ChatGPT y API.


Otro tiro en falso (doge) entre los internautas.


Otra buena noticia es que Ultraman también anunció que la versión gratuita de ChatGPT podrá utilizar o3-mini.