Los investigadores de NVIDIA han lanzado una nueva tecnología, KVTC (KV Cache Transformation Coding), que puede reducir el uso de memoria de modelos de lenguaje grandes (LLM) para rastrear el historial de conversaciones hasta 20 veces sin modificar el modelo en sí.Se espera que este avance resuelva el problema de la memoria insuficiente durante el razonamiento de conversaciones largas en modelos de lenguaje grandes.Reduce en gran medida los costos de hardware para que las empresas utilicen IA, al mismo tiempo que acelera hasta 8 veces el tiempo que tarda el modelo en generar una respuesta por primera vez.

En pocas palabras,El núcleo de la tecnología KVTC es el caché KV detrás de la compresión de modelos de lenguaje grandes; es equivalente a la "memoria a corto plazo" del modelo AI.. Podemos pensar en el caché KV como estudiantes que toman notas: cuando el modelo procesa el diálogo, escribirá la información clave (es decir, clave y valor). La próxima vez que se genere una respuesta, no es necesario volver a calcular todo el diálogo desde cero y la velocidad de respuesta se puede mejorar considerablemente.
Pero el problema es que cuanto más larga sea la conversación, más grande será la "nota", e incluso se ampliará hasta varios GB, ocupando mucha memoria de la GPU, lo que ralentizará el modelo y limitará sus capacidades de procesamiento.
Adrian Lancuki, ingeniero senior de aprendizaje profundo de NVIDIA, dijo: "Al inferir modelos de lenguaje grandes, el cuello de botella en el rendimiento a menudo no está en la potencia informática, sino en la memoria de la GPU". Esos cachés KV no utilizados temporalmente siempre ocuparán valiosos recursos de la GPU, lo que obligará al sistema a transferirlos a la memoria de la CPU o al disco duro. Esto no sólo aumentará la carga de la transmisión de datos, sino que también puede causar nuevos problemas de retraso. Estos costos adicionales eventualmente se reflejarán en las tarifas de uso de la empresa.
En comparación con la tecnología de compresión existente, KVTC no tiene limitaciones obvias. Se basa en la idea familiar de compresión de imágenes JPEG y puede lograr una compresión eficiente mediante tres simples pasos de "análisis de componentes principales, cuantificación adaptativa y codificación de entropía".
Lo que es más conveniente es que esta tecnología no requiere cambios en la configuración principal ni en el código del modelo. Es un diseño “no intrusivo” y las empresas pueden implementarlo rápidamente. Su principal ventaja es que puede capturar las características de "datos altamente relevantes" del caché KV, eliminar datos redundantes mientras conserva información clave y descomprimirlos en bloques y capa por capa sin afectar la respuesta en tiempo real del modelo.
Múltiples rondas de pruebas han demostrado queEl rendimiento de KVTC supera con creces los métodos convencionales existentes. En una variedad de modelos con parámetros que van desde 1,5 mil millones a 70 mil millones (incluida la serie Llama 3, R1-Qwen 2.5, etc.), incluso si la memoria se comprime 20 veces, la precisión del modelo casi no se ve afectada, con una pérdida de menos del 1%, que es casi lo mismo que sin compresión.; Sin embargo, si el método de compresión tradicional sólo comprime 5 veces, habrá una disminución significativa en la precisión.
además,Al procesar 8000 solicitudes de token en la GPU H100, se necesitan 3 segundos para generar la primera respuesta sin usar KVTC, y solo 380 milisegundos después de usarlo, lo que es 8 veces más rápido.
Cabe señalar que KVTC es más adecuado para diálogos largos y escenarios de interacción de múltiples rondas, como asistentes de programación, razonamiento iterativo de agentes, etc. Si el diálogo es corto, es difícil ejercer su valor de compresión.
Actualmente, NVIDIA planea integrar esta tecnología en el administrador de bloques KV del marco Dynamo, haciéndolo compatible con los principales motores de inferencia de código abierto como vLLM.
Los conocedores de la industria creen que a medida que la duración de la conversación que los modelos de lenguaje grandes pueden manejar continúa aumentando, las tecnologías de compresión estandarizadas como KVTC pueden volverse tan populares como la compresión de video en el futuro, lo que ayudará a que la IA se aplique más ampliamente.