El gran modelo de Google de "levantarse temprano para ver el mercado nocturno" ¿Está realmente "muy por delante" esta vez?

Google, que fue el primero en lanzar la arquitectura Transformer, alguna vez se quedó atrás en la competencia de modelos grandes. Afortunadamente, a medida que Gemini continúa evolucionando, Google regresa al primer escalón. El 26 de marzo se lanzó Gemini2.5Pro. ¡Este modelo encabezó las listas principales tan pronto como se lanzó y estaba 39 puntos por encima del segundo lugar en ChatbotArena!

Gemini2.5Pro es un modelo de inferencia. Según Google, las capacidades de razonamiento se refieren no sólo a la clasificación y la predicción, sino a la capacidad del sistema para analizar información, sacar conclusiones lógicas, incorporar contexto y matices y tomar decisiones informadas.

Se informa que Gemini2.5Pro actualmente admite una ventana de contexto de 1 millón de tokens y pronto lanzará una ventana de contexto de 2 millones de tokens, heredando y llevando adelante las ventajas del modelo Gemini: capacidades multimodales nativas y longitud de contexto ultralarga.

Esto le permite comprender conjuntos de datos masivos y manejar problemas complejos de múltiples fuentes de información, incluidos texto, audio, imágenes, videos e incluso repositorios de código completos.

En ChatbotArena (desarrollado por investigadores de SkyLab y LMSYS en la Universidad de California, Berkeley, y utilizado principalmente para evaluar el rendimiento de grandes modelos de lenguaje basados en las preferencias humanas), Gemini2.5Pro ocupó el primer lugar con una ventaja significativa en todas las categorías, y fue 39 puntos más alto que el seguido de cerca Grok-3.

Al mismo tiempo, Gemini2.5Pro también ganó el único campeonato en los tres campos principales de escritura creativa, seguimiento de instrucciones y consultas largas.

Además, Gemini2.5Pro encabezó con éxito la clasificación de Vision Arena.

En el campo del desarrollo web, como primer modelo con una potencia comparable a Claude3.7Sonnet, Gemini2.5Pro obtuvo con éxito el segundo lugar en el ámbito del desarrollo web (WebDevArena).

No solo eso, Gemini2.5Pro también funciona bien en pruebas comparativas de matemáticas y ciencias como Humanity's LastExam (notools), GPQA y AIME2025.

El último examen de la humanidad (sin herramientas) significa "el último examen de la humanidad (sin herramientas)". La frase "sin herramientas" aquí significa que no se permite el uso de herramientas externas, como motores de búsqueda, bases de datos, etc., durante el examen. Experimentos anteriores han demostrado que la precisión de los LLM de última generación en HLE es generalmente inferior al 10%, y existen problemas como desequilibrio de confianza y capacidad, baja eficiencia de razonamiento, etc., lo que indica la brecha entre las capacidades de los LLM actuales y las capacidades de vanguardia de los expertos humanos en problemas académicos cerrados. En este contexto, la puntuación de Gemini2.5Pro del 18,8% es muy destacada.

Se informa que Gemini2.5Pro se abrió para usuarios de GeminiAdvanced en las aplicaciones Google AI Studio y Gemini, y se lanzará en VertexAI.

Anunciará planes de precios en las próximas semanas y los usuarios podrán aplicar el modelo a entornos de producción a gran escala con cuotas de uso más altas.