Los matemáticos utilizan inteligencia artificial y un nuevo algoritmo de agrupación para identificar variantes emergentes de COVID-19

Científicos de las Universidades de Manchester y Oxford han desarrollado un marco de inteligencia artificial que puede identificar y rastrear variantes nuevas y preocupantes de COVID-19 y ayudar a lidiar con otras infecciones en el futuro.El marco combina técnicas de reducción de dimensionalidad con un nuevo algoritmo de agrupamiento interpretable llamado CLASSIX desarrollado por matemáticos de la Universidad de Manchester. De esta manera, a partir de datos masivos se pueden identificar rápidamente grupos de genomas virales que puedan plantear riesgos en el futuro.

Imagen estilizada de los resultados de agrupación de CLASSIX superpuestos a la ilustración del coronavirus. Fuente: Alissa Eckert, Universidad de Manchester, CDC/MSMI; Dan Higgins

La investigación, publicada esta semana en Proceedings of the National Academy of Sciences (PNAS), podría respaldar los métodos tradicionales de seguimiento de la evolución viral, como el análisis filogenético, que actualmente requieren una curación manual exhaustiva.

Roberto Cahuantzi, investigador de la Universidad de Manchester, primer autor y autor correspondiente del artículo, dijo: "Desde la aparición de COVID-19, hemos visto múltiples oleadas de nuevas variantes, mayor transmisibilidad, evasión de la respuesta inmune y mayor gravedad de la enfermedad. Los científicos ahora estamos intensificando nuestros esfuerzos para atacar estas nuevas variantes preocupantes, como alfa, delta y omega, en sus primeras etapas. Si podemos encontrar una manera rápida y efectiva de responder de manera más agresiva, como desarrollar vacunas, es posible eliminar variantes incluso antes de que se formen".

Diagrama esquemático de los pasos del método propuesto de identificación de variantes de COVID-19. Fuente: Universidad de Manchester

Como muchos otros virus de ARN, el COVID-19 tiene una alta tasa de mutación y un corto período de tiempo entre generaciones, lo que significa que puede evolucionar extremadamente rápido. Esto significa que identificar nuevas cepas que puedan causar problemas en el futuro requerirá un gran esfuerzo.

Actualmente, hay casi 16 millones de secuencias disponibles en la base de datos GISAID (Iniciativa global para compartir todos los datos de la influenza), que proporciona datos genómicos de los virus de la influenza.

Mapear la evolución y la historia de todos los genomas de COVID-19 a partir de estos datos requiere actualmente una cantidad significativa de tiempo humano y de computadora.

El método descrito permite la automatización de tales tareas. A los investigadores les llevó sólo uno o dos días procesar 5,7 millones de secuencias de alta cobertura utilizando una computadora portátil moderna estándar; algo que no es posible con los métodos existentes, y la reducción de los requisitos de recursos dio a más investigadores la capacidad de identificar cepas de patógenos relevantes.

Thomas House, profesor de ciencias matemáticas en la Universidad de Manchester, dijo: "La cantidad sin precedentes de datos genéticos producidos durante la pandemia requiere que mejoremos nuestros métodos y los analicemos a fondo. Los datos todavía están creciendo rápidamente, pero si no se muestran los beneficios de cotejar estos datos, estos datos pueden eliminarse o eliminarse".

"Sabemos que el tiempo de los expertos humanos es limitado, por lo que nuestro enfoque no debería reemplazar completamente el trabajo de los humanos, sino trabajar junto con ellos para completar el trabajo más rápido y liberar a nuestros expertos para que trabajen en otros trabajos de desarrollo importantes".

El método propuesto funciona contando la secuencia genética del virus COVID-19 en "palabras" más pequeñas representadas por números (llamados 3-mers). Luego utiliza técnicas de aprendizaje automático para agrupar secuencias similares basadas en patrones de palabras.

Stefan Güttel, profesor de Matemáticas Aplicadas en la Universidad de Manchester, dijo: "El algoritmo de agrupamiento que desarrollamos, CLASSIX, es mucho menos exigente desde el punto de vista computacional que los métodos tradicionales y es totalmente interpretable, es decir, proporciona explicaciones tanto textuales como visuales de los grupos calculados".

Roberto Cahuantzi agregó: "Nuestro análisis es una prueba de concepto que demuestra el uso potencial de métodos de aprendizaje automático como herramienta de alerta temprana para la detección temprana de variantes principales emergentes sin depender de filogenias generadas. Si bien la filogenia sigue siendo el 'estándar de oro' para comprender la ascendencia viral, estos métodos de aprendizaje automático pueden acomodar órdenes de magnitud más secuencias que los métodos filogenéticos actuales a un bajo costo computacional".

Compilado de: ScitechDaily