El ex desarrollador principal de Windows, Dave Plummer, ejecutó con éxito el modelo Transformer en una computadora PDP-11/44 de 47 años y completó el entrenamiento de IA con una CPU de 6 MHz y una memoria de 64 KB.El modelo ejecutado por este PDP-11 se llama ATTN-11, escrito por Damien Boureille en lenguaje ensamblador PDP-11, para implementar un transformador de una sola capa y un solo cabezal, que contiene solo 1216 parámetros.

La tarea del modelo parece simple, es decir, ingresar una cadena de números y generar el resultado inverso.Pero para completar esta tarea, el modelo debe aprender de forma independiente las reglas estructurales de la inversión de secuencia. Plummer cree que esto captura exactamente la esencia funcional de los grandes modelos modernos como ChatGPT.
Para funcionar en hardware extremadamente limitado, ATTN-11 ha realizado muchas optimizaciones extremas. La precisión de la propagación directa se reduce a números de punto fijo de 8 bits y se optimiza cada ciclo de CPU.
Finalmente, Plummer utilizó una placa de caché paraDespués de unos 350 pasos de entrenamiento, el modelo alcanzó el 100% de precisión y todo el proceso duró unos 3,5 minutos.

Plummer describe el proceso de formación en el vídeo:"El modelo comienza siendo estúpido, con grandes pérdidas, y luego, en algún momento, los pesos comienzan a converger, el mecanismo de atención descubre el mapeo de inversión y la máquina cruza esa línea invisible entre adivinar y saber".
Su punto central es que la esencia de la IA moderna no es un poder misterioso, sino que "la máquina actualiza repetidamente la fuerza de miles de conexiones ponderadas, haciendo que la siguiente respuesta sea un poco menos incorrecta que la última vez".
Plummer finalmente señaló que a medida que los recursos informáticos se conviertan cada vez más en un cuello de botella, las empresas que puedan volver a la búsqueda definitiva de eficiencia y optimización tendrán una mayor ventaja en la futura competencia de la IA.
