Apple revela su estrategia de entrenamiento de modelos de IA: desde web scraping a gran escala hasta transacciones autorizadas en secreto y contenido sintético

La conferencia WWDC se centró en el diseño líquido, el próximo nuevo lenguaje de diseño visual para su sistema operativo, y Apple también anunció la próxima generación de modelos básicos de IA que admitirán tanto el dispositivo como la nube. Después de la conferencia, el gigante tecnológico parece preparado para comprender mejor la estrategia de inteligencia artificial de Apple a través de un informe técnico detallado que brindará a los usuarios y a la comunidad tecnológica información sobre el proceso de capacitación y optimización de sus modelos. Apple enfatizó en el informe que realmente se centra en la privacidad y la eficiencia al entrenar modelos.

Aunque no es muy importante en el campo actual de la inteligencia artificial, Apple ha publicado un informe detallado sobre su modelo básico llamado "Modelo de lenguaje básico de inteligencia de Apple - Informe técnico 2025", que proporciona una introducción en profundidad a los elementos clave del último modelo de inteligencia artificial. Este informe cubre casi todo, desde la arquitectura del modelo hasta la fase de capacitación, la fase posterior a la capacitación y cómo ajustar el modelo. El informe también explora los métodos utilizados para garantizar mejoras técnicas del modelo para aumentar la eficiencia del modelo y evitar violaciones de la privacidad.

Si bien Apple ha compartido anteriormente modelos de IA en dispositivos disponibles para los desarrolladores y los 3 mil millones de parámetros que tiene, la limitación es que su estructura ha sido escasa hasta ahora. Según se informa, el modelo se divide en varias partes para mejorar la eficiencia. La primera parte se llama Bloque 1 y contiene más del 60% de los componentes básicos (llamados capas de transformación). Luego, la IA comprende las principales expresiones del idioma y genera respuestas.

La segunda parte, llamada Bloque 2, es más liviana debido a la eliminación de dos componentes técnicos que consumen mucha memoria: clave y proyección de valor. Gracias a esta estrategia, Apple pudo reducir la huella de memoria del modelo en aproximadamente un 38% e incluso acelerar el tiempo de respuesta del modelo. La compañía ha estado investigando cómo mejorar el rendimiento de sus modelos de IA de forma nativa y hace unos años exploraron la idea de ejecutar un modelo que fuera más grande que la capacidad de memoria del dispositivo. Si bien no terminaron adoptando la solución establecida, han estado buscando formas de lidiar con las limitaciones del hardware y otros desafíos.

En cuanto al lado del servidor del modelo de IA, Apple asegura que su sistema de computación en la nube privada adopta una arquitectura personalizada. Este enfoque se llama Expertos mixtos en órbita paralela (PT-MoE) y es una estrategia inteligente que, en pocas palabras, divide grandes modelos de IA en partes más pequeñas llamadas expertos. Ahora, al dividir el modelo en una combinación de expertos, no es necesario ejecutarlo por completo cada vez; en cambio, puede centrarse únicamente en expertos relevantes para la tarea actual. Solo se activan aquellas partes del modelo con experiencia en el dominio, lo que ahorra rendimiento y aumenta la eficiencia.

Además, Apple también ha diseñado una nueva arquitectura Transformer llamada "Parallel Track Transformer", que tiene múltiples pistas que funcionan de forma independiente y que funcionan juntas solo en puntos clave. Por este motivo, este modelo no experimenta latencia en todo el sistema. El gigante tecnológico también ha abordado uno de los mayores puntos débiles de Apple Intelligence: el soporte limitado de idiomas.

Con el nuevo modelo, Apple ha mejorado significativamente sus capacidades multilingües. Para ampliar el soporte de idiomas, Apple ha aumentado la proporción de datos que no están en inglés en el proceso de capacitación del 8% al 30%, cubriendo contenido real y contenido generado por IA, mejorando así la comprensión del modelo y admitiendo una gama más amplia de idiomas. Esto hará que funciones como las herramientas de escritura funcionen mejor. Al entrenar el nuevo sistema de inteligencia artificial, Apple depende en gran medida de los datos web recopilados por Applebot, su rastreador web propio, que también se ha utilizado en modelos anteriores. Curiosamente, dado que Apple respeta la privacidad, si un sitio web no quiere ser rastreado, su contenido no se utilizará.

La empresa utiliza una variedad de técnicas para entrenar sus modelos; utilizando principalmente datos web públicos como material de capacitación. Apple tiende a filtrar contenido irrelevante y centrarse en conjuntos de datos útiles y relevantes. Asimismo, el gigante tecnológico depende de los editores para el contenido con licencia, aunque reveló los nombres de las empresas de medios de las que depende. La empresa también utiliza modelos más pequeños para recopilar datos sintéticos, especialmente cuando se trata de tareas de lenguaje de imágenes, ejecución de código o instrucciones, para un mejor ajuste.

Este enfoque múltiple también implica datos visuales, ya que el gigante tiene más de 10 mil millones de pares de imágenes y leyendas, incluidas capturas de pantalla y notas escritas a mano. También utiliza su propio modelo para generar subtítulos más ricos. Todos estos métodos de formación ayudan a Apple a crear modelos más inteligentes y potentes. El enfoque de Apple para entrenar sus modelos de IA es muy claro. Es una estrategia de equilibrio que garantiza que el sistema siga siendo potente y versátil sin comprometer su valor fundamental: la privacidad.