Las proteínas son moléculas naturales que realizan funciones celulares críticas en el cuerpo y son componentes básicos de todas las enfermedades. La caracterización de proteínas puede revelar mecanismos de enfermedad, incluidas formas de ralentizarla o revertirla, mientras que la creación de proteínas puede conducir al desarrollo de fármacos y terapias completamente nuevas.

acceso:

Página de inicio oficial del centro comercial de Microsoft China

Sin embargo, el proceso actual de diseño de proteínas en el laboratorio es costoso desde una perspectiva computacional y de recursos humanos. Requiere idear una estructura proteica que realice una tarea específica en el cuerpo y luego encontrar una secuencia de proteínas (la secuencia de aminoácidos que componen una proteína) que pueda "plegarse" en esa estructura. (Las proteínas deben plegarse correctamente en una forma tridimensional para poder realizar su función prevista).

No tiene por qué ser tan complicado.

Esta semana, Microsoft lanzó EvoDiff, un marco general que, según la compañía, puede generar proteínas "diversas" y de "alta fidelidad" basadas en secuencias de proteínas. A diferencia de otros marcos de generación de proteínas, EvoDiff no requiere ninguna información estructural de la proteína objetivo, eliminando lo que suele ser el paso más laborioso.

Kevin Yang, investigador principal de Microsoft, dijo que una vez que EvoDiff sea de código abierto, podrá usarse para crear enzimas para nuevos tratamientos y métodos de administración de medicamentos, así como nuevas enzimas para reacciones químicas industriales.

"Nuestra visión es que EvoDiff ampliará las capacidades de ingeniería de proteínas más allá del paradigma estructura-función hacia un diseño programable que priorice la secuencia", dijo Yang, uno de los cocreadores de EvoDiff, a TechCrunch en una entrevista por correo electrónico. "Con EvoDiff, demostramos que es posible que en realidad no necesitemos estructura, sino más bien 'la secuencia de proteínas es todo lo que necesitamos', para diseñar nuevas proteínas de forma controlable".

En el corazón del marco EvoDiff hay un modelo de 640 parámetros entrenado con datos de todas las diferentes especies y clases funcionales de proteínas. (Los parámetros son lo que el modelo de IA aprende de los datos de entrenamiento y esencialmente definen la habilidad del modelo para manejar el problema, en este caso, generar proteínas). Los datos para entrenar el modelo provienen del conjunto de datos OpenFold de alineaciones de secuencias y de UniRef50, un subconjunto del conjunto de datos UniProt, una base de datos de secuencias de proteínas e información funcional mantenida por el consorcio UniProt.

EvoDiff es un modelo de difusión cuya estructura es similar a muchos modelos modernos de generación de imágenes, como la difusión estable y DALL-E2. EvoDiff aprende a restar gradualmente el ruido de una proteína inicial que consiste casi exclusivamente en ruido, lo que le permite acercarse lentamente, paso a paso, a la secuencia de la proteína.

El proceso por el cual EvoDiff genera proteínas.

Los modelos de difusión se han utilizado cada vez más en áreas más allá de la generación de imágenes, desde el diseño de nuevas proteínas (como EvoDiff) hasta la composición de música e incluso la síntesis de voz.

"Si hay algo que aprender [de EvoDiff], creo que es que podemos (y debemos) generar proteínas a partir de secuencias porque permitimos versatilidad, escala y modularidad", dijo por correo electrónico Ava Amini, otra colaboradora de EvoDiff e investigadora principal de Microsoft. "Nuestro marco de difusión nos brinda la capacidad de hacer esto y también nos permite controlar cómo se diseñan estas proteínas para lograr objetivos funcionales específicos".

Según lo que señala Amini, EvoDiff no sólo crea nuevas proteínas sino que también llena "vacíos" en los diseños de proteínas existentes. Por ejemplo, si una determinada parte de una proteína se une a otra proteína, el modelo puede generar una secuencia de aminoácidos de la proteína alrededor de esa parte que cumpla una serie de criterios.

Debido a que EvoDiff diseña proteínas en un "espacio de secuencia" en lugar de en una estructura proteica, también puede sintetizar "proteínas desordenadas" que finalmente no logran plegarse en su estructura tridimensional final. Al igual que las proteínas que funcionan normalmente, las proteínas desordenadas desempeñan funciones importantes en la biología y las enfermedades, como mejorar o reducir la actividad de otras proteínas.

Es importante señalar que la investigación detrás de EvoDiff no ha sido revisada por pares, al menos no todavía. Sarah AlAMDari, científica de datos de Microsoft involucrada en el proyecto, admitió que "todavía queda mucho trabajo de ampliación por hacer" antes de que el marco pueda ponerse en uso comercial.

"Este es sólo un modelo de 640 millones de parámetros, y si lo ampliamos a miles de millones de parámetros, podríamos ver una mejora en la calidad de la generación", dijo Alamdari por correo electrónico. "Si bien demostramos algunas estrategias generales, para lograr un control más preciso, nos gustaría que EvoDiff estuviera condicionado al texto, información química u otros medios para especificar las características deseadas".

A continuación, el equipo de EvoDiff planea probar el modelo en proteínas generadas en el laboratorio para ver si funcionan. Si funciona, comenzarán a trabajar en el marco de próxima generación.