La inteligencia artificial (IA) no está lista para reemplazar a su administrador de fondos, y una serie de pruebas públicas ilustran por qué. En una nueva serie de competiciones comerciales en las que participan los principales modelos de IA del mundo, el rendimiento de la IA hasta ahora no ha sido excelente. La mayoría de los sistemas sufrieron pérdidas. Comercian con demasiada frecuencia y toman decisiones completamente diferentes cuando reciben exactamente las mismas instrucciones . Y nadie sabe todavía si estos defectos desaparecerán a medida que el modelo se actualice de forma iterativa, o si revelan una brecha fundamental entre los grandes modelos lingüísticos y el funcionamiento real de los mercados.

Tomemos como ejemplo el Alpha Arena dirigido por la startup tecnológica Nof1. La plataforma enfrenta a ocho importantes sistemas de inteligencia artificial de vanguardia en cuatro competencias, incluidos Claude de Anthropic, Gemini de Google, ChatGPT de OpenAI y Grok de Elon Musk. Cada sistema fue financiado con 10.000 dólares antes de cada juego y luego negoció de forma independiente acciones tecnológicas estadounidenses durante dos semanas. Los desafíos incluyen operar con múltiples señales, adoptar estrategias defensivas, reaccionar al desempeño de la competencia y operar con un alto apalancamiento.

La cartera general terminó perdiendo alrededor de un tercio de su capital. Entre los 32 conjuntos de resultados, el modelo logró rentabilidad sólo 6 veces. Grok 4.20 logra los mejores resultados en un desafío que proporciona información sobre el desempeño de los competidores. Sólo realizó 158 transacciones; Qianwen de Alibaba realizó 1.418 transacciones bajo el mismo mensaje.

Alpha Arena es solo uno de un número creciente de experimentos relacionados. Estos experimentos están probando si los grandes modelos lingüísticos pueden hacer el trabajo más difícil en finanzas: ganarle al mercado. Si bien las competencias están lejos de ser académicamente rigurosas, son la demostración más pública hasta ahora de lo que sucede cuando estos sistemas intentan asumir algunos de los trabajos más lucrativos y riesgosos de Wall Street.

La razón por la que estos resultados preliminares son importantes es que el comercio es uno de los pocos trabajos en finanzas que todavía se muestra cauteloso a la hora de entregarlo por completo a la IA. En los últimos años, gigantes de la industria, desde JPMorgan Chase hasta Balyasny Asset Management, han utilizado esta tecnología en casi todos los demás aspectos. Hoy en día, los grandes modelos de lenguaje se utilizan en instituciones cuantitativas para analizar noticias, en fondos de cobertura para redactar memorandos, en grandes bancos para identificar fraudes y más. Pero cuando se trata de transacciones reales de oro y plata, la “participación humana” sigue siendo el credo de la industria, y parece comprensible.

Nof1创始人Jay Azhang
El fundador de Nof1, Jay Azhang

El fundador de Nof1, Jay Azhang, dijo: "El gran modelo de lenguaje en sí mismo realmente no puede generar dinero. Básicamente, se necesita un conjunto muy complejo de marcos de restricciones, sistemas de soporte y plataformas de datos para darles una oportunidad de jugar."

Dijo que los modelos de lenguaje grandes son buenos para realizar investigaciones y también son buenos para encontrar y llamar a herramientas apropiadas para ciertas tareas. Pero todavía no saben cuán importante es cada una de las muchas variables que influyen en los movimientos de los precios de las acciones, incluidas las calificaciones de los analistas, el uso de información privilegiada y los cambios en el sentimiento del mercado. Tienden a programar mal las operaciones, dimensionar incorrectamente las posiciones y comprar y vender con demasiada frecuencia.

El blog de AI Flat Circle rastreó 11 plataformas competitivas relacionadas con el mercado, todas las cuales tienen al menos un modelo que ha alcanzado rentabilidad. Pero entre estas 11 plataformas, sólo los modelos medianos de dos plataformas lograron rentabilidad, lo que indica que la mayoría de los modelos tuvieron dificultades para ganarle al mercado.

Este resultado es consistente con el desempeño humano, ya que se sabe que la mayoría de los fondos administrados activamente también tienen un desempeño inferior al del mercado. Y al igual que los humanos, estos modelos son propensos a sufrir sesgos importantes. Múltiples concursos han demostrado que los sistemas de IA toman decisiones muy diferentes cuando reciben las mismas instrucciones, lo que tiene importantes implicaciones para las instituciones que los implementan. Azhang dio un ejemplo. En la última ronda de competencia en Alpha Arena, Claude tendía principalmente a estar largo, Gemini no era reacio a las ventas en corto y Qianwen estaba más dispuesto a asumir riesgos con la ayuda de un alto apalancamiento.

Doug Clinton, que dirige Intelligent Alpha, dijo: "Tienen su propia 'personalidad' y hay que gestionarlos como lo haría con un analista humano". Los resultados pueden mejorarse si se hace consciente al modelo de que presenta algún tipo de sesgo, afirmó. Intelligent Alpha tiene un fondo impulsado por grandes modelos lingüísticos que publica su propio punto de referencia sobre qué tan bien la IA predice las ganancias corporativas.

El punto de referencia de Intelligent Alpha proporciona 10 modelos de IA con acceso a presentaciones financieras, pronósticos de analistas, minutos de llamadas de ganancias, datos macroeconómicos y hasta 10 búsquedas web. Los modelos de lenguaje grandes se desempeñan de manera más agresiva en esta prueba debido a su enfoque más limitado. En el cuarto trimestre de 2025, la precisión del ChatGPT de OpenAI para juzgar la dirección de los cambios esperados en las ganancias alcanzó el 68%, estableciendo el mejor resultado hasta la fecha. Por lo general, estos modelos continúan mejorando con cada nuevo lanzamiento, dijo Clinton.