Los investigadores que trabajan para Apple y los de la Universidad de Columbia lanzaron silenciosamente un LLM multimodal de código abierto en octubre, una versión de investigación llamada "Ferret" que se puede consultar utilizando regiones de imágenes. Ferret fue lanzado en Github en octubre prácticamente desapercibido y sin ningún lanzamiento público o acción promocional. El código de Ferret se lanzó con Ferret-Bench el 30 de octubre y se lanzó una versión de punto de control el 14 de diciembre.

Aunque al principio no recibió mucha atención, el lanzamiento del sábado se convirtió en un gran problema para los investigadores de inteligencia artificial, informó VentureBeat. Bart DeWitte, que dirige una organización sin fines de lucro de medicina basada en IA, publicó sobre la versión "perdida" de X, calificándola de "prueba del compromiso de Apple con la investigación impactante de la IA".

La versión de código abierto de Ferret está bajo una licencia no comercial, por lo que no se puede comercializar en su estado actual. Sin embargo, siempre existe la posibilidad de que se pueda utilizar de alguna manera en un futuro producto o servicio de Apple.

El científico investigador de IA/ML de Apple, Gan Zhe, explicó el propósito de Ferret en un tweet de octubre como un sistema que puede "hacer referencia y posicionar cualquier cosa, en cualquier lugar y con cualquier granularidad" en una imagen. También puede hacer esto utilizando cualquier área con forma de la imagen.

En pocas palabras, el modelo analiza el área dibujada en la imagen, determina los elementos dentro de ella que son útiles para la consulta del usuario y los identifica, dibujando un cuadro delimitador alrededor de los elementos detectados. Luego puede utilizar los elementos identificados como parte de la consulta y responder de manera típica.

Por ejemplo, al resaltar un animal en una imagen y preguntarle al LLM qué animal es, el LLM puede determinar la especie del animal y determinar si el usuario se refiere a un animal del grupo. Luego puede proporcionar más respuestas utilizando el contexto de otros elementos detectados en la imagen.

El anuncio es importante para los investigadores porque indica que Apple quiere ser más abierta sobre su trabajo en IA, en lugar de adoptar la postura misteriosa que ha tenido en el pasado.

La infraestructura también es un problema para Apple, porque si bien está trabajando para aumentar la cantidad de servidores de IA que tiene, es posible que aún no tenga la escala suficiente para competir con empresas como ChatGPT. Si bien Apple podría asociarse con otras empresas para ampliar sus capacidades, el otro camino es hacer lo que acaba de hacer y lanzar un modelo de código abierto.

Se puede encontrar una observación interesante en la información publicada en Github. r/Apple de Reddit descubrió que Ferret estaba "entrenado en 8 GPU A100 y 80 GB de memoria". Dado el historial de Apple de admitir GPU NVIDIA, esto se considera un respaldo poco común para el fabricante de GPU.