Centrarse en la investigación acelerada sobre proteínas desconocidas: una base de datos genética humana de la que no sabemos casi nada

Investigadores británicos han desarrollado una nueva base de datos de acceso público que esperan que se reduzca con el tiempo. Esto se debe a que la base de datos reúne miles de proteínas poco estudiadas codificadas por genes del genoma humano, cuya existencia se conoce pero cuyas funciones se desconocen en su mayor parte.

La base de datos, llamada "unknome", es el resultado de una investigación realizada por Matthew Freeman de la Escuela Dunn de Patología de la Universidad de Oxford, Reino Unido, y Sean Munro del Laboratorio de Biología Molecular MRC en Cambridge, Reino Unido, y sus colegas. Estudiaron algunas de las proteínas de la base de datos y descubrieron que la mayoría contribuye a funciones celulares importantes, incluido el desarrollo y la resistencia al estrés.

La secuenciación del genoma humano ha demostrado claramente que el genoma humano codifica miles de posibles secuencias de proteínas cuyas identidades y funciones siguen siendo desconocidas hasta el día de hoy. Las razones de esto son multifactoriales, incluida una tendencia a centrar los escasos fondos de investigación en objetivos conocidos y la falta de herramientas, incluidos anticuerpos, para estudiar la función de estas proteínas en las células.

Pero los autores creen que ignorar estas proteínas es arriesgado porque es probable que algunas proteínas, quizás muchas, desempeñen funciones importantes en procesos celulares clave y podrían proporcionar información y servir como objetivos para la intervención terapéutica.

Para facilitar una exploración más rápida de esta clase de proteínas, los autores crearon la base de datos Unknome, que asigna a cada proteína una puntuación de "conocimiento" que refleja información de la literatura científica sobre función, conservación entre especies, compartimentación subcelular y otros elementos.

Según este sistema, existen miles de proteínas con un "grado conocido" cercano a cero. Estos incluyen proteínas de organismos modelo, así como proteínas del genoma humano. La base de datos está abierta a todos y es personalizable, lo que permite a los usuarios proporcionar sus propias ponderaciones para diferentes elementos y así generar su propio conjunto de puntuaciones de conocimiento para priorizar su propia investigación.

Para probar la utilidad de la base de datos, los autores seleccionaron 260 genes en humanos que tienen genes similares en moscas y tienen una puntuación de conocimiento de 1 o menos en ambas especies, lo que indica que casi no se sabe nada sobre ellos. La eliminación completa de muchos de estos genes es incompatible con la vida de las moscas; La eliminación parcial o específica de tejido ha revelado que la mayoría de los genes contribuyen a funciones importantes que afectan la fertilidad, el desarrollo, el crecimiento de los tejidos, el control de la calidad de las proteínas o la resistencia al estrés.

Los hallazgos muestran que, a pesar de décadas de investigación detallada, aún quedan por comprender miles de genes de moscas incluso en el nivel más básico, y lo mismo ocurre claramente con el genoma humano. "Estos genes no caracterizados no deben ignorarse", afirmó Munro. "Nuestra base de datos proporciona una plataforma poderosa, versátil y eficiente para identificar y seleccionar genes importantes de función desconocida para su análisis, acelerando así el cierre de la brecha de conocimiento biológico representada por genomas desconocidos". "

Munro añadió: "Las funciones de miles de proteínas humanas siguen sin estar claras, pero la investigación tiende a centrarse en aquellas que ya se comprenden bien. Para ayudar a resolver este problema, creamos una base de datos 'Unknome', que clasifica las proteínas según lo bien que se conocen, y luego analiza funcionalmente un subconjunto de estas misteriosas proteínas para mostrar cómo la ignorancia impulsa el descubrimiento biológico".