La empresa de chips Taalas graba modelos de IA en circuitos de chips, logrando un rendimiento asombroso de 17.000 tokens por segundo

Taalas, una startup de chips con sede en Toronto, Canadá, anunció recientemente la finalización de una nueva financiación por valor de 169 millones de dólares (la financiación total supera los 219 millones de dólares). Al mismo tiempo, la compañía también anunció oficialmente que saldría del modo sigiloso y comenzaría a demostrar su última tecnología central.

La tecnología central de Taalas es codificar (grabar) parte de la estructura de un modelo de lenguaje grande (LLM) (especialmente los pesos y la lógica de cálculo) directamente en el chip de silicio para crear un chip altamente personalizado, en lugar de cargar el modelo en la memoria para que se ejecute como una GPU tradicional.

Este enfoque de solidificación a nivel de hardware convierte grandes modelos de lenguaje en "el chip en sí es el modelo", por lo que puede escupir caracteres a una velocidad extremadamente exagerada al realizar cálculos del modelo. Por ejemplo, la velocidad de inferencia de un solo usuario del chip Taalas HC1 alcanza más de 17.000 tokens/segundo.

Una metáfora fácil de entender:

Las GPU tradicionales cargan el modelo en la memoria y luego lo leen y calculan durante el tiempo de ejecución. En este caso, el modelo es como un libro colocado en una estantería. Cada vez que se calcula, el chip tiene que sacar repetidamente el libro de la estantería, leerlo, calcularlo y volver a escribirlo. Todo el proceso es más largo y consume más energía.

El chip H1C graba el contenido del libro directamente en la pared del chip (implementado a través de transistores y cableado fijo). Una vez que se enciende el chip, el circuito en sí se convierte en un modelo y el flujo de datos sigue una ruta fija sin leer repetidamente la memoria. Equivale a que el propio chip sea el modelo.

Hablando de eso, esta tecnología es en realidad muy similar a los conjuntos de puertas de la década de 1990. La innovación de Taalas radica en el uso de esta antigua tecnología para abordar la complejidad inherente causada por la escasez y cuantificación de los parámetros LLM.

El principio técnico del chip como modelo:

La mayor parte de este enfoque de solidificación a nivel de hardware se basa en ASIC estructurados y máscaras personalizadas. La idea central es grabar los pesos y las estructuras de cálculo del modelo directamente en el chip de silicio mediante transistores y líneas metálicas.

Taalas primero hizo una base de chip casi completa (alrededor de 100 capas de estructura de metal/transistor). La mayor parte de la lógica y el almacenamiento se han completado, dejando solo las dos últimas capas de metal (máscara) para la personalización final.

Cambiar estas dos capas de metal puede escribir los pesos del modelo específico y parte de la ruta del flujo de datos. Esto es como el patrón de las dos últimas capas de lámina de cobre en una placa de circuito impreso que determina las funciones específicas. El costo y el tiempo son mucho menores que rediseñar completamente el chip.

La empresa diseñó una estructura especial que puede almacenar pesos de 4 bits y realizar operaciones de multiplicación con muy pocos transistores. Los pesos no se escriben en la memoria de lectura y escritura, sino en valores codificados como la memoria ROM de solo lectura mediante el uso de una máscara para determinar si el transistor es conductor o no.

En los cálculos reales, no es necesario leer pesos, multiplicadores ni sumas. En cambio, el circuito mismo completa las operaciones de multiplicación y suma, porque las conexiones del circuito y los transistores se han configurado de acuerdo con los pesos. La pequeña cantidad restante de flexibilidad se basa en SRAM (memoria estática de acceso aleatorio de alta velocidad) para almacenar el caché de contexto.

Desventajas de grabar el modelo en el chip:

Los especialistas en informática ya deberían saber por los principios técnicos anteriores que esta tecnología también tiene desventajas fundamentales, es decir, el modelo no se puede cambiar ni actualizar después de estar grabado en el chip, es decir, el chip solo puede usar este modelo.

El primer chip HC1 está grabado con la versión Llama 3.1 8B, lo que significa que este chip solo puede usar este modelo desde el comienzo del tape-out. Sin embargo, la industria actual de la IA se está desarrollando muy rápidamente y están surgiendo varios modelos nuevos en una corriente interminable. Este enfoque de no poder cambiar y actualizar el modelo es la mayor desventaja.

Sin embargo, Taalas dijo que todo el proceso de personalización de chips a través de una máscara de metal de dos capas solo toma alrededor de 2 meses, lo que significa que, al menos desde la perspectiva de los chips, es relativamente fácil diseñar nuevos chips y ejecutar nuevos modelos. Esto debería ayudar a reducir los costos y es posible que los clientes deban seguir comprando chips iterativos según sus propias necesidades.