En noticias no reveladas anteriormente, los ingenieros de OpenAI revelaron a algunos colegas internos a principios de este mes que a través de una serie de nuevas optimizaciones técnicas, habían encontrado una manera deLos costos de ejecución de inferencia de modelos se reducen a más de la mitadplan.

Después de que los ingenieros aplicaron esta nueva tecnología al escenario ChatGPT donde los visitantes que no habían registrado una cuenta gratuita/paga accedieron a ChatGPT, la potencia informática de las tarjetas gráficas NVIDIA requerida durante los períodos pico fue de solo unos pocos cientos de yuanes. Este número fue menor de lo esperado. (Por supuesto, OpenAI ha establecido un límite de frecuencia de llamadas para este tipo de visitantes anónimos y el uso general de ChatGPT por parte de este grupo no es alto).
Actualmente, OpenAI no ha revelado los detalles técnicos específicos utilizados para esta mejora de la eficiencia. La industria especula que los métodos de optimización comúnmente utilizados incluyen: cuantificación del modelo, almacenamiento en caché de valores clave (que permite al modelo recordar información de cálculos anteriores y evitar operaciones repetidas), procesamiento por lotes de solicitudes (responder a las consultas de los usuarios en lotes en lugar de procesarlas una por una), programación de solicitudes a modelos livianos de bajo consumo o submódulos de modelos para completar las respuestas, etc.
Sin embargo, cuando OpenAI lance un modelo de nueva generación con parámetros más grandes a finales de este año, el efecto de reducción de costos generado por este lote de tecnologías de optimización puede verse debilitado, porque el costo de funcionamiento del modelo de parámetros grandes en sí será significativamente mayor.
Este tipo de tecnología de optimización de inferencia se llamaTecnología de duplicación de potencia informática, que también es el foco de los principales laboratorios de IA. El director ejecutivo de Anthropic, Dario Amodei, ha mencionado públicamente el concepto en podcasts desde al menos mediados de 2023. Dijo en ese momento que la empresa limitaba estrictamente el alcance del personal interno que conocía un único conjunto de soluciones de optimización de la potencia informática. Una vez que sus pares copiaran la tecnología relevante, daría a otros laboratorios de IA una ventaja competitiva. (La tecnología de duplicación de potencia informática también puede referirse a varios métodos de optimización de la eficiencia en la fase de entrenamiento del modelo).
La importancia de este tipo de tecnología de optimización se ha vuelto cada vez más destacada. Actualmente, las principales empresas de I+D de IA se enfrentan en general a una escasez de potencia informática de servidores. Incluso si una empresa firma un contrato para construir un centro de datos nuevo o arrendar uno, a menudo pasan meses o incluso años desde el inicio del proyecto hasta el lanzamiento oficial. (OpenAI también está trabajando con Broadcom para desarrollar por sí mismo chips dedicados para la operación de modelos grandes, tratando de reducir aún más los costos de inferencia, con el objetivo de lograr reducciones de costos en comparación con los chips comerciales de Nvidia).
Tras la implementación de la optimización tecnológica de OpenAI, el mercado también está prestando gran atención a cómo las empresas afrontarán los costes ahorrados en potencia informática. Por un lado, OpenAI puede transmitir dividendos a los usuarios: aumentar el límite de llamadas de ChatGPT para suscriptores de pago o reducir el precio de las interfaces modelo abiertas a los desarrolladores. Hoy en día, el precio de compra de la versión anterior del modelo se ha reducido a una fracción del precio original, y la optimización de la inferencia es una de las razones principales.
Esto consolidará aún más el posicionamiento de mercado de OpenAI como un proveedor de servicios modelo rentable. Recientemente, el producto competidor Anthropic ha sido controvertido debido al alto precio del modelo, a pesar de que el efecto de salida del modelo es mejor.
Por otro lado, OpenAI también puede optar por utilizar los ingresos por reducción de costos para aumentar su margen de beneficio bruto, mientras que el margen de beneficio bruto de la empresa está determinado principalmente por el costo de la potencia informática de inferencia. El margen de beneficio bruto de OpenAI en el primer trimestre de este año fue del 39%, un aumento del 33% en el mismo período del año pasado, pero todavía hay una gran brecha con respecto al margen de beneficio bruto objetivo del 52% al final del año.
Para alcanzar su objetivo anual, la empresa necesita alcanzar un margen bruto promedio del 56% durante el resto del año. Los ingresos de Anthropic aumentaron considerablemente en el primer semestre de este año y se espera que obtenga ganancias inesperadas este trimestre, lo que confirma plenamente la velocidad de mejora del margen de beneficio bruto durante el ciclo de auge de la industria.
En esta etapa, OpenAI no tiene voz absoluta en la fijación de precios, pero esta tecnología de optimización de inferencia ampliará significativamente su camino hacia la mejora del margen de beneficio bruto.