El 18 de junio, cuando abra la página web y la aplicación de DeepSeek, casi todos los usuarios encontrarán que hay un modo de reconocimiento de imágenes a la derecha del modo rápido y el modo experto anteriores. Esto significa que muchos usuarios que no han sido probados en escala de grises finalmente pueden usar DeepSeek para procesar imágenes.

En la actualidad, DeepSeek no ha publicado oficialmente una introducción pública y la interfaz del modelo todavía muestra "la función de comprensión de imágenes bajo prueba interna". Se especula que esta vez se trata de una prueba completa. Sin embargo, Chen Xiaokang, jefe del equipo multimodal de DeepSeek, mencionó hoy en las redes sociales que el modo visual se lanzó oficialmente en páginas web y aplicaciones, "pruebe estos nuevos ojos".

Vale la pena mencionar que hace solo 5 días, Chen Xiaokang siguió el punto caliente y envió la "pata de pato verde" de Auntie Goose Leg a DeepSeek para su identificación. A juzgar por la respuesta, DeepSeek pudo identificar que no se trataba de una pata de ganso y también sugirió que el color verde puede representar un peligro para la seguridad alimentaria. "Si hubiera existido DeepSeek en aquel entonces, no habría habido una 'Guerra de los Patos' este año". Bromeó.

En esta área de comentarios, algunos usuarios preguntaron por qué la función visual aún no estaba disponible. En ese momento, Chen Xiaokang respondió: "Sólo un pequeño número de usuarios pueden utilizar la escala de grises (prueba)". A finales de abril de este año, el modo de reconocimiento de imágenes DeepSeek lanzó una prueba en escala de grises y se abrió a una amplia gama de usuarios en mayo. Sin embargo, muchos usuarios todavía no lo usaban hasta que parecía que estaba abierto a todos los usuarios para realizar pruebas.
¿Qué tan efectivo es DeepSeek en el reconocimiento de imágenes? Un reportero de China Business News comenzó y lo experimentó, y los efectos fueron diferentes en diferentes situaciones.
Envié a DeepSeek un dibujo arquitectónico del Bund en Shanghai y le pregunté dónde estaba. DeepSeek dio una respuesta normal en 16 segundos. Analizó los cuatro edificios principales y también respondió que el puente de arco blanco es "probablemente el puente Zhapu Road", que es un ángulo fotográfico clásico.

Sin embargo, es posible que DeepSeek no pueda reconocer al popular portero caboverdiano Vozinha en estos días. DeepSeek pasó más de un minuto pensando profundamente. Durante el proceso de reflexión, Cabo Verde fue mencionado varias veces, pero no podía corresponder al jugador específico. Al final, dio una respuesta completamente equivocada.

Esto puede deberse a que Woznia no era muy conocida antes y no estaba incluida en los datos de entrenamiento del modelo grande. Al mismo tiempo, el modo de reconocimiento de imágenes de DeepSeek no tiene una función de búsqueda en línea, por lo que no puede identificar figuras actuales.
El periodista notó que en las plataformas sociales aparecían comentarios de usuarios que durante mucho tiempo habían estado cubiertos por pruebas de escala de grises. La capacidad de reconocimiento de imágenes de DeepSeek superó el nivel promedio de los modelos nacionales, pero en comparación con los mejores modelos extranjeros, todavía había una brecha en la comprensión de imágenes complejas y el razonamiento detallado.
Específicamente, en escenarios como capturas de pantalla diarias, mensajes de error, tablas, documentos y contenido de páginas web, el reconocimiento de imágenes de DeepSeek es básicamente suficiente y muy rápido. Pero si se trata de una imagen más compleja, como un diagrama de flujo lógico de múltiples capas o un diagrama de datos complejo, la precisión comenzará a disminuir. Sin embargo, los usuarios mencionados anteriormente creen que considerando el precio y la apertura, aún vale la pena usar DeepSeek.
Precisamente el 30 de abril, DeepSeek publicó un informe sobre tecnología multimodal, "Thinking with Visaul Primitives", que explica los detalles detrás de la tecnología multimodal. Pero pronto todos descubrieron que el funcionario eliminó el almacén multimodal y el texto original del documento de la noche a la mañana, y que la interfaz de Github ya estaba en estado "404".
En ese momento, hubo muchas especulaciones del mundo exterior. Algunos creían que DeepSeek aún no estaba listo, mientras que otros creían que el documento revelaba demasiada información. En el artículo, DeepSeek cree que el modelo multimodal actual colapsa en tareas complejas no debido a la invisibilidad (brecha de percepción), sino debido a una "señalización inexacta" (brecha de citas). El futuro de la inteligencia multimodal no consiste sólo en “ver más píxeles”, sino en construir un puente de referencia preciso e inequívoco entre el lenguaje y la visión.
Actualmente, DeepSeek no ha anunciado públicamente el lanzamiento del modo de reconocimiento de imágenes. Los detalles técnicos de este modo y más novedades aún deben esperar a la presentación oficial.