Solo han pasado 5 días desde que se lanzó DeepSeek V4 y hay nuevas acciones casi todos los días. Ayer, los investigadores predijeron que llegarían capacidades multimodales y hoy ya existe una prueba en escala de grises. Mucha gente ha descubierto que la página web de DeepSeek ha agregado un modo de reconocimiento de imágenes, lo que significa que puede comprender información de la imagen. Aunque esta capacidad no mejorará directamente el rendimiento de programación y razonamiento de la IA, será muy conveniente de usar. Si encuentra problemas en la vida diaria, puede cargar capturas de pantalla directamente y dejar que DeepSeek las analice por sí mismo. Es más fácil que describir el problema usted mismo.
Los internautas que han llegado a Grayscale también utilizan información de imágenes profesionales.Por ejemplo, utilicé imágenes de tomografía computarizada tomadas en el hospital para verificar las capacidades de reconocimiento de imágenes de DeepSeek y los resultados me sorprendieron.

La imagen CT subida por @brick, un internauta de la comunidad Linux.do, proviene de un artículo profesional. Después de ser analizada por DeepSeek, puede determinar con precisión el contenido de la imagen y realizar un análisis profesional.Al final se produjeron varios resultados que ofrecían posibles direcciones para la enfermedad, incluidos varios tipos diferentes de posibilidades de neumonía.
Hay una conclusión clara en el artículo donde se encuentra esta imagen de TC. En comparación, se puede ver que el análisis de DeepSeek sigue siendo muy confiable y puede asumir el papel de un médico de inteligencia artificial en este sentido.
Sin embargo, la IA es IA después de todo. Puede ayudar a todos a analizar la situación. Estos exámenes médicos importantes y la confirmación de enfermedades requieren análisis y confirmación por parte de hospitales y médicos.
Si no es una enfermedad grave, puede utilizar la IA para ser médico y tratar problemas médicos comunes. También existen muchas aplicaciones de IA entrenadas por grandes modelos médicos profesionales. Basta con utilizarlos para juzgar los problemas y dar sugerencias cuando se encuentren problemas. No es necesario ir al hospital y hacer cola por pequeños problemas.
Volviendo al tema de DeepSeek, también han realizado investigaciones multimodales antes y la tecnología OCR de código abierto incluso ha alcanzado el nivel más alto del mundo. Por lo tanto, también vale la pena esperar las capacidades visuales, que pueden mejorar aún más el rango de capacidad y el límite de uso del modelo grande DeepSeek V4.