El último análisis de datos de aplicaciones muestra que en 2026, el protagonista que realmente puede impulsar el crecimiento de las descargas de aplicaciones móviles de IA ha pasado de los modelos grandes más "inteligentes" a funciones visuales con imágenes generativas como núcleo. Según las estadísticas de Appfigures, las actualizaciones de versiones que utilizan modelos de imágenes como punto de venta generan alrededor de 6,5 veces más descargas nuevas que las "actualizaciones periódicas" que se centran en mejoras del lenguaje o de la capacidad de razonamiento.
Este cambio marca un cambio claro en el enfoque de la ola de IA. Al principio, lo que empujaba a los usuarios a probar aplicaciones de IA era principalmente la iteración de modelos de diálogo y la mejora de métodos de interacción como la voz. Estas funciones siguen siendo importantes hoy en día, pero ya no logran despertar significativamente el interés de los usuarios en un corto período de tiempo como lo hacían en el pasado. Por el contrario, las funciones que generan directamente contenido visual que se puede compartir tienen más probabilidades de atraer la atención en las redes sociales y las tiendas de aplicaciones.
Los últimos ritmos de productos de varias plataformas principales confirman esta tendencia. Después de que la aplicación Gemini de Google lanzara el modelo de imagen Nano Banana, el número de instalaciones aumentó significativamente; Dentro de los 28 días posteriores al lanzamiento del modelo de imagen Flash Gemini 2.5, hubo más de 22 millones de nuevas descargas y la tasa de crecimiento fue aproximadamente cuatro veces mayor que su promedio anterior durante el mismo período de tiempo. Esta serie de actualizaciones muestra que incluso si los cambios en el modelo subyacente en sí no son trascendentales, siempre que haya nueva jugabilidad en el lado de la imagen "visible", será suficiente para mover la curva de descargas en el corto plazo.

ChatGPT de OpenAI ha experimentado un crecimiento similar después de integrar las capacidades de generación de imágenes GPT-4o. En los primeros 28 días después del lanzamiento de la nueva función, la aplicación registró más de 12 millones de nuevas instalaciones. Los datos comparativos de Appfigures señalan que este pico de descarga es aproximadamente 4,5 veces el aumento provocado por las actualizaciones de modelos anteriores, como GPT‑4o, GPT‑4.5 y GPT‑5, lo que confirma aún más que para la mayoría de los nuevos usuarios, las funciones de imágenes “visibles” son más innovadoras que las mejoras en el rendimiento del texto que son difíciles de percibir intuitivamente.
Este modelo de crecimiento impulsado por contenido visual no se limita a imágenes estáticas. El producto de IA de Meta, Vibes, que se centra en videos de formato corto generados por IA, generó alrededor de 2,6 millones de descargas adicionales a la aplicación en su primer mes desde su lanzamiento en septiembre de 2025. Aunque en la forma enfatiza el video, en esencia sigue siendo una herramienta visual de IA que busca "producción rápida y fácil intercambio". Esta y la función de generación de imágenes apuntan conjuntamente en la misma dirección: utilizar una retroalimentación visual más directa para acortar el camino del usuario desde la curiosidad hasta la difusión.

Sin embargo, un aumento en las descargas no equivale automáticamente a un aumento en los ingresos. Los datos también revelaron una brecha obvia entre “crecimiento y realización”. Tomando a Gemini como ejemplo, aunque Nano Banana logró un sólido rendimiento en nuevas instalaciones dentro de los 28 días posteriores a su lanzamiento, solo contribuyó con aproximadamente 181.000 dólares estadounidenses en gastos estimados por parte del consumidor durante el mismo período. Vibes de Meta es igualmente impresionante a la hora de impulsar el número de instalaciones instaladas, pero hay pocas señales de que vaya a impulsar el correspondiente crecimiento de los ingresos. Esto muestra que, para la mayoría de los productos, la función de imagen se parece más a una "herramienta de adquisición de clientes" que a un motor de monetización directa.
En este punto, ChatGPT es una de las pocas excepciones que "rompe la maldición". Su modelo de imagen GPT-4o no solo atrajo una gran cantidad de nuevos usuarios, sino que también aumentó significativamente las conversiones pagas: dentro de los 28 días posteriores a la entrada en funcionamiento de la nueva función, el gasto estimado de los usuarios de la aplicación fue aproximadamente $70 millones más alto que los niveles iniciales. Este conjunto de datos muestra que la función de imagen tiene el potencial de emprender la doble tarea de "atraer nuevos usuarios" y "monetizar" al mismo tiempo, pero sólo si su posicionamiento y diseño de carga en la estructura del producto son lo suficientemente claros como para que los usuarios estén dispuestos a pagar por ello y no simplemente considerarlo como un "filtro de juguete" gratuito.

No todos los productos de IA populares dependen de capacidades de imagen para impulsar el crecimiento. El modelo R1 lanzado por DeepSeek en enero de 2025, sin capacidades destacadas de imagen o vídeo, también generó alrededor de 28 millones de descargas en un corto período de tiempo. La diferencia es que esta ola de aumento se debe más a la atención de la industria y a los efectos del tema, especialmente la discusión generalizada causada por su ruta de capacitación de bajo costo y caminos técnicos relacionados en el círculo tecnológico, que a un tipo específico de características visuales generativas.
Aun así, a juzgar por los datos generales actuales, la tendencia es bastante clara: en escenarios móviles, las funciones visuales de IA se están convirtiendo en el primer punto de entrada para que una gran cantidad de usuarios accedan a una aplicación de IA. Para los usuarios comunes, las imágenes y videos cortos que se pueden generar rápidamente y compartir de inmediato suelen ser más atractivos que la "mejora de inferencias" y la "actualización de modelos" más abstractas. La evolución de las capacidades subyacentes del modelo sigue siendo importante, pero cada vez más está "oculta" en un segundo plano. Lo que en última instancia determina si los usuarios están dispuestos a descargar, probar o incluso recomendar una aplicación son a menudo funciones de imágenes y vídeos explícitas y fáciles de difundir.