Si pudiera resumir el ritmo actual del círculo de modelos grandes de IA en una palabra, "velocidad de DeepSeek" no podría ser más apropiado. Menos de cinco días después del lanzamiento de la versión de sólo texto de V4, el funcionario organizó un bombardeo de precios de "tres rondas de caídas consecutivas de precios". Antes de que la industria pudiera recuperarse, ya había surgido la siguiente carta de triunfo: el V4 "completo" con capacidades multimodales, que oficialmente entraba en la cuenta atrás para su lanzamiento.
El investigador principal revela personalmente: la capacidad visual nativa está llegando
Chen Xiaokang, un miembro principal del equipo multimodal de DeepSeek, publicó recientemente un artículo sobre la plataforma X, anunciando claramente que está por llegar la "nueva versión de DeepSeek V4". Combinado con el contexto actual, es casi seguro que esta "nueva versión" será la tan esperada versión multimodal.
Desde el lanzamiento de V4, la mayor discusión acalorada y un rastro de arrepentimiento en la industria apuntan a lo mismo: en la primera ola solo se lanzaron dos modelos de solo texto, Flash (rápido) y Pro (experto). Las capacidades de texto puro son ciertamente la base, pero en el ámbito de los grandes modelos actuales, la “multimodalidad nativa” ha sido durante mucho tiempo el boleto a los niveles más altos. Sin comprensión visual de imágenes y videos, el límite superior del modelo en escenas reales complejas quedará firmemente bloqueado. El lanzamiento de la versión multimodal esta vez es un paso clave para que DeepSeek compense la última deficiencia.
La APP ya ha dado una pista: no se trata de correr puntos, se trata de “asequibilidad”

Los usuarios cuidadosos han descubierto que después de la reciente actualización del cliente DeepSeek, la barra de selección de modelo ha agregado silenciosamente tres opciones independientes: "Rápido", "Experto" y "Visual". Los dos primeros corresponden a Flash y Pro de V4, y la opción "Visual", que ha estado en estado "por activar", es obviamente una interfaz reservada para la próxima nueva versión multimodal V4.
¿En cuanto a qué rango puede alcanzar este V4 multimodal en términos de potencia dura? Aún no hay datos específicos disponibles. Sin embargo, refiriéndose al desempeño dominante de V4 Pro en el campo del texto plano, la industria generalmente predice que sus capacidades visuales estarán al menos firmemente en el primer escalón; sin embargo, esto nunca ha sido lo que más le importa a DeepSeek.
La verdadera baza: “bajar” el precio de la multimodalidad
Para DeepSeek, que siempre ha tomado un camino poco convencional, subir ciegamente a las clasificaciones no es el objetivo principal. “Bajar el precio de los grandes modelos multimodales al precio de la col para que los desarrolladores y los usuarios comunes realmente puedan permitírselo” es su verdadera baza. Recordemos que V4 realizó "tres rondas de recortes de precios" apenas cinco días después de su lanzamiento. Si el costo de las llamadas API multimodales posteriores también se reduce al precio mínimo, la reorganización de la industria será mucho más intensa que la guerra de precios en el campo del texto plano.
Resumen de una frase: La llegada de la versión multimodal V4 no es solo una capacidad complementaria, sino también el punto de partida para que DeepSeek anule la tabla de precios de pistas multimodales.