Google anunció recientemente la expansión de la función de búsqueda de archivos en la API de Google Gemini, brindando a los desarrolladores capacidades de generación mejorada de recuperación multimodal (RAG) más completas. El núcleo de esta actualización incluye: soporte para recuperación mixta de imágenes y texto, soporte para filtrado de metadatos personalizado, nuevo soporte de referencia a nivel de página y accesibilidad y precisión mejoradas de los sistemas de inteligencia artificial en escenarios como bases de conocimiento empresarial, preguntas y respuestas sobre documentos y agentes.
Según el blog oficial de Google, la nueva versión de la función de búsqueda de archivos ya no se limita a la búsqueda vectorial de texto tradicional, sino que se basa en la capacidad de incrustación multimodal unificada construida en Gemini Embedding 2, que puede comprender simultáneamente el contenido visual y el contenido de texto en imágenes, archivos PDF y documentos. Los desarrolladores no necesitan crear bases de datos vectoriales complejas, canales de incrustación o sistemas de segmentación de documentos, y pueden completar el flujo de trabajo RAG completo directamente en la API de Gemini.

En los sistemas RAG tradicionales, el contenido visual como imágenes, gráficos, capturas de pantalla y dibujos de diseño suele ser difícil de indexar de manera efectiva, lo que resulta en una falta de comprensión contextual en las respuestas de la IA. La nueva capacidad de búsqueda de archivos multimodal de Gemini API puede identificar de forma nativa el contenido de las imágenes y crear un índice de búsqueda junto con el texto. Por ejemplo, las empresas pueden cargar archivos PDF que contengan imágenes de productos, cuadros de datos o diagramas de arquitectura técnica, y la IA puede comprender simultáneamente la información visual y las descripciones de texto al responder.
Google dice que esta capacidad es particularmente adecuada para crear asistentes de conocimiento a nivel empresarial, robots de servicio al cliente, sistemas de análisis de documentos y agentes de inteligencia artificial. Los desarrolladores pueden hacer que los modelos realicen inferencias basadas en documentos internos sin la necesidad de mantenimiento adicional de sistemas independientes de recuperación de imágenes. Para las empresas con una gran cantidad de datos mixtos de imágenes y texto, esto significa una menor complejidad de implementación y una mayor precisión de recuperación.
Otra característica nueva es el filtrado de metadatos personalizado. Los desarrolladores pueden agregar metadatos como etiquetas, categorías, horas y departamentos a los archivos cargados, de modo que puedan filtrarse según los metadatos durante la recuperación posterior para mejorar la precisión y la eficiencia. Esto también es más adecuado para la gestión de bases de conocimientos a gran escala y reduce la entrada de contenido irrelevante a la ventana contextual.
Otra característica importante son las citas a nivel de página. Al generar respuestas, Gemini AI puede marcar claramente de qué página del documento proviene la información, en lugar de simplemente hacer referencia vaga a todo el archivo. Esto permite a los usuarios hacer clic para ver la página del documento específico después de obtener la respuesta para juzgar la exactitud del contenido y leer el documento completo para obtener más información.
Actualmente, la nueva versión de la función de búsqueda de archivos API de Google Gemini está abierta a todos los desarrolladores. Los desarrolladores interesados pueden abrir la API Gemini a través de plataformas como Google AI Studio y Google Cloud para experimentarla.
Guía para desarrolladores: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878