Los modelos de IA de última generación compiten entre sí en el comercio de acciones, lo que genera más pérdidas y menos ganancias. El trabajo más difícil en la industria financiera todavía depende de personas reales

La inteligencia artificial (IA) no está lista para reemplazar a su administrador de fondos, y una serie de pruebas públicas ilustran por qué. En una nueva serie de competiciones comerciales en las que participan los principales modelos de IA del mundo, el rendimiento de la IA hasta ahora no ha sido excelente. La mayoría de los sistemas sufrieron pérdidas.Operan con demasiada frecuencia y toman decisiones completamente diferentes cuando reciben exactamente las mismas instrucciones.. Y nadie sabe todavía si estos defectos desaparecerán a medida que el modelo se actualice de forma iterativa, o si revelan una brecha fundamental entre los grandes modelos lingüísticos y el funcionamiento real de los mercados.

Tomemos como ejemplo Alpha Arena, dirigida por la startup tecnológica Nof1. La plataforma enfrenta a ocho importantes sistemas de inteligencia artificial de vanguardia en cuatro competencias, incluidos Claude de Anthropic, Gemini de Google, ChatGPT de OpenAI y Grok de Elon Musk. Cada sistema fue financiado con 10.000 dólares antes de cada juego y luego negoció de forma independiente acciones tecnológicas estadounidenses durante dos semanas. Los desafíos incluyen operar con múltiples señales, adoptar estrategias defensivas, reaccionar al desempeño de la competencia y operar con un alto apalancamiento.

La cartera general acabó perdiendo alrededor de un tercio de su dinero. Entre los 32 conjuntos de resultados, el modelo logró rentabilidad sólo 6 veces. Grok 4.20 logra los mejores resultados en un desafío que proporciona información sobre el desempeño de los competidores. Sólo realizó 158 transacciones; Qianwen de Alibaba realizó 1.418 transacciones bajo el mismo mensaje.

Alpha Arena es sólo uno de un número creciente de experimentos relacionados. Estos experimentos están probando si los grandes modelos lingüísticos pueden hacer el trabajo más difícil en finanzas: ganarle al mercado. Si bien las competencias están lejos de ser académicamente rigurosas, son la demostración más pública hasta ahora de lo que sucede cuando estos sistemas intentan asumir algunos de los trabajos más lucrativos y riesgosos de Wall Street.

Estos resultados preliminares son importantes porque el comercio es uno de los pocos trabajos en las finanzas que sigue cauteloso a la hora de entregarlo por completo a la IA. En los últimos años, gigantes de la industria, desde JPMorgan Chase hasta Balyasny Asset Management, han utilizado esta tecnología en casi todos los demás aspectos. Hoy en día, los grandes modelos de lenguaje se utilizan en instituciones cuantitativas para analizar noticias, en fondos de cobertura para redactar memorandos, en grandes bancos para identificar fraudes y más. Pero cuando se trata de transacciones reales de oro y plata, la "participación humana" sigue siendo el credo de la industria, y parece comprensible.

Jay Azhang, fundador de Nof1

El fundador de Nof1, Jay Azhang, dijo: "Los modelos de lenguaje grandes por sí solos no pueden generar dinero. Básicamente, se necesita un conjunto muy complejo de marcos de restricciones, sistemas de soporte y plataformas de datos para darles la oportunidad de jugar".

Dijo que los modelos de lenguaje grandes son buenos para realizar investigaciones y también son buenos para encontrar y llamar a herramientas apropiadas para ciertas tareas. Pero todavía no saben cuán importante es cada una de las muchas variables que influyen en los movimientos de los precios de las acciones, incluidas las calificaciones de los analistas, el uso de información privilegiada y los cambios en el sentimiento del mercado. Tienden a programar mal las operaciones, dimensionar incorrectamente las posiciones y comprar y vender con demasiada frecuencia.

El blog de IA Flat Circle rastreó 11 plataformas competitivas relacionadas con el mercado, todas las cuales tienen al menos un modelo que es rentable. Pero entre estas 11 plataformas, sólo los modelos medianos de dos plataformas lograron rentabilidad, lo que indica que la mayoría de los modelos tuvieron dificultades para ganarle al mercado.

Este resultado refleja el desempeño humano, ya que se sabe que la mayoría de los fondos administrados activamente también tienen un desempeño inferior al del mercado. Y al igual que los humanos, estos modelos son propensos a sufrir sesgos importantes. Múltiples concursos han demostrado que los sistemas de IA toman decisiones muy diferentes cuando reciben las mismas instrucciones, lo que tiene importantes implicaciones para las instituciones que los implementan. Azhang dio un ejemplo. En la última ronda de competencia en Alpha Arena, Claude tendía principalmente a estar largo, Gemini no era reacio a las ventas en corto y Qianwen estaba más dispuesto a asumir riesgos con la ayuda de un alto apalancamiento.

"Tienen su propia 'personalidad' y hay que gestionarlos como un analista humano", dijo Doug Clinton, que dirige Intelligent Alpha. Los resultados pueden mejorarse si los modelos son conscientes de que presentan ciertos sesgos, afirmó. Intelligent Alpha tiene un fondo impulsado por grandes modelos lingüísticos que publica su propio punto de referencia sobre qué tan bien la IA predice las ganancias corporativas.

El punto de referencia de Intelligent Alpha proporciona 10 modelos de IA con acceso a presentaciones financieras, pronósticos de analistas, minutos de llamadas de ganancias, datos macroeconómicos y hasta 10 búsquedas web. Los modelos de lenguaje grandes se desempeñan de manera más agresiva en esta prueba debido a su enfoque más limitado. En el cuarto trimestre de 2025, la precisión del ChatGPT de OpenAI para juzgar la dirección de los cambios esperados en las ganancias alcanzó el 68%, estableciendo el mejor resultado hasta la fecha. Por lo general, estos modelos continúan mejorando con cada nuevo lanzamiento, dijo Clinton.