Los ejecutivos de MetaPlatforms dijeron a Reuters en una entrevista que la compañía utilizó publicaciones públicas en Facebook e Instagram para entrenar algunas de las funciones de su nuevo asistente virtual de inteligencia artificial Meta, pero excluyó las publicaciones privadas compartidas sólo con familiares y amigos en un esfuerzo por respetar la privacidad del consumidor.

Meta tampoco utiliza chats privados en su servicio de mensajería como datos de entrenamiento para sus modelos y ha tomado medidas para filtrar detalles privados del conjunto de datos públicos utilizados para el entrenamiento, dijo Nick Clegg, presidente de asuntos globales de Meta, al margen de la conferencia anual Connect de la compañía esta semana.

"Hemos tratado de excluir conjuntos de datos donde la información personal está abrumadoramente presente", dijo Clegg, y agregó que la "gran mayoría" de los datos que Meta utiliza para la capacitación están disponibles públicamente.

Citando a LinkedIn como ejemplo, señaló que Meta intencionalmente no utiliza el contenido del sitio debido a preocupaciones de privacidad.

Los comentarios de Clegg se producen cuando empresas de tecnología como Meta, OpenAI y Google de Alphabet han sido criticadas por utilizar información extraída de Internet para entrenar sus modelos de inteligencia artificial sin permiso.

Las dos empresas están sopesando cómo lidiar con material privado o protegido por derechos de autor que sus sistemas de inteligencia artificial pueden copiar en el proceso, al tiempo que enfrentan demandas de autores que los acusan de infracción de derechos de autor.

El director ejecutivo, Mark Zuckerberg, presentó el miércoles el primer lote de herramientas de inteligencia artificial orientadas al consumidor de la compañía en la conferencia anual de productos de Meta "Connect", siendo MetaAI el producto más importante. La conferencia de este año se centró en la inteligencia artificial, a diferencia de conferencias anteriores que se centraron en la realidad aumentada y la realidad virtual.

Meta dice que el asistente utiliza un modelo personalizado basado en el poderoso modelo de lenguaje a gran escala Llama2, que estuvo disponible para uso comercial en julio de este año, así como un nuevo modelo llamado Emu que genera imágenes basadas en indicaciones de texto.

El producto podrá generar texto, audio e imágenes, y podrá acceder a información en tiempo real mediante la cooperación con el motor de búsqueda Bing de Microsoft. Las publicaciones públicas de Facebook e Instagram utilizadas para entrenar MetaAI también incluyen texto y fotografías.

Un portavoz de Meta dijo a Reuters que las publicaciones se utilizaron para entrenar las capacidades de generación de imágenes de Emu, mientras que la función de chat se basó en Llama2 con la adición de conjuntos de datos anotados disponibles públicamente.

La interacción con MetaAI también se puede utilizar para mejorar funciones futuras, dijo el portavoz. Meta impone restricciones de seguridad sobre lo que pueden generar las herramientas MetaAI, como prohibir la creación de imágenes realistas de figuras públicas.

Con respecto al material protegido por derechos de autor, Clegg dijo que esperaba "una cantidad significativa de litigios" sobre si "el contenido creativo cae dentro de la doctrina de uso justo existente", que permite el uso limitado de obras protegidas para fines tales como comentarios, investigación y parodia.

Algunas empresas con herramientas de generación de imágenes facilitan la replicación de personajes icónicos como Mickey Mouse, mientras que otras pagan por las imágenes o evitan intencionalmente incluirlas en sus datos de entrenamiento.

OpenAI, por ejemplo, firmó este verano un acuerdo de seis años con el proveedor de contenidos Shutterstock para utilizar la biblioteca de imágenes, vídeos y música de la empresa para formación.

Cuando se le preguntó si Meta tomó alguna medida para evitar la copia de imágenes protegidas por derechos de autor, un portavoz de Meta señaló que los nuevos términos de servicio prohíben el contenido generado por el usuario que viole la privacidad y los derechos de propiedad intelectual.