En octubre de 2024, AMD e Intel establecieron conjuntamente el Grupo Asesor del Ecosistema x86 (Grupo Asesor del Ecosistema x86) para reunir a los líderes de la industria para promover conjuntamente el futuro de la arquitectura informática x86. Cuando se creó EAG, anunció cuatro funciones principales: FRED, AVX10, ChkTag y ACE.Ahora AMD e Intel publicaron conjuntamente el documento técnico de ACE, promocionando oficialmente este conjunto de instrucciones conocido como "Arquitectura de aceleración de matriz estándar x86" entre la comunidad de desarrolladores.

El objetivo principal de ACE es sencillo: mejorar el rendimiento de multiplicación de matrices de chips x86 en órdenes de magnitud.
La multiplicación de matrices es la unidad informática básica de las redes neuronales y los grandes modelos de lenguaje. Aunque los conjuntos de instrucciones SIMD existentes, como AVX10, pueden completar operaciones matriciales, existen cuellos de botella obvios en la densidad y escalabilidad informática.
Al introducir un mecanismo de aceleración matricial basado en operaciones de productos externos, ACE logra una densidad computacional que es 16 veces mayor que la operación de acumulación múltiple AVX10 equivalente mientras consume el mismo vector de entrada.
En términos de compatibilidad con formatos de datos, ACE cubre de forma nativa los principales estándares de precisión actuales en el campo de la IA, incluidos INT8, OCP FP8, OCP MXFP8, OCP MXINT8 y BF16.
Como conjunto de instrucciones ampliado de AVX10, la adaptación ecológica del software de ACE ya está en progreso. Las bibliotecas subyacentes de Deep Learning y HPC, las bibliotecas de computación científica de Python como NumPy y SciPy, y los principales marcos de aprendizaje automático como PyTorch y TensorFlow han comenzado a trabajar en la integración.
AMD e Intel enfatizaron en el documento técnico que el concepto de diseño de ACE es de baja fricción y amplia cobertura. Desde portátiles hasta supercomputadoras, los desarrolladores no necesitan reescribir código para diferentes plataformas de hardware.
Esto contrasta marcadamente con la solución de migrar la informática de IA a aceleradores dedicados, que a menudo requiere adaptación de código adicional y costos de migración.
