Pasar al contenido principal
#IIBCEinvestiga

Avances para comprender los procesos biológicos mediante la predición de la función de los genes

Utilizando inteligencia artificial, un grupo de investigación liderado por Diego Silvera y Flavio Pazos del IIBCE, junto a colegas de la Facultad de Ingeniería de la Udelar y el Instituto de Investigaciones Biomédicas de Buenos Aires (asociado al Max Planck), del Instituto Pasteur de Montevideo y en colaboración con la empresa Pento, lograron predecir las funciones de miles de genes en cinco organismos eucariotas modelo. Para esto entrenaron modelos de aprendizaje por computadora exclusivamente con variables predictivas derivadas de la ubicación de los genes a lo largo de los genomas a los que pertenecen.
Flavio Pazos en su laboratorio del Instituto Clemente Estable

El objetivo de la investigación no fue obtener el método con el mejor desempeño predictivo, sino explorar hasta qué grado la ubicación de un gen, por sí sola, puede servir para predecir sus funciones. Sorprendentemente encontraron que, no solo se pueden predecir las funciones de los genes exclusivamente a partir de su ubicación, sino que en algunos casos estas predicciones son incluso mejores que las que se obtienen utilizando metodologías estándar.  

Si tenemos en cuenta toda la información genética de un individuo y buscamos la función que cumple cada región o unidad funcional básica, un gen, encontramos un vacío de conocimiento, ya que aún desconocemos la función de la mayoría de los genes. 

Para ampliar nuestro conocimiento al respecto existen distintas aproximaciones. Una de ellas es la predicción computacional, donde los mejores resultados se derivan de utilizar métodos basados en aprendizaje automático y la integración de distintos tipos de datos. Estos datos suelen incluir características derivadas de la secuencia de genes, la estructura tridimensional de las proteínas, o las interacciones entre ellas.

Video: Predicción de la función de genes utilizando aprendizaje automático 

 

Enlace a la publicación científica sobre este trabajo

https://www.nature.com/articles/s41598-022-15329-w

 

Información complementaria

Predicción de función de genes

 

Determinar las funciones biológicas de los genes o de las proteínas que codifican, es uno de los principales objetivos de la biología moderna, ya que aporta información clave para comprender procesos que involucran el desarrollo de todos los seres vivos. Esto es de enorme importancia para las actividades cuyos productos y servicios involucran conocimiento y capacidad de control sobre procesos biológicos, como la salud y la industria farmacéutica, la producción ganadera y agrícola y de biocombustibles.

Sin embargo, menos del 1% de las secuencias genéticas conocidas tiene una función determinada experimentalmente. En el caso de nuestra especie, Homo sapiens, aún se desconoce la función de aproximadamente un tercio de sus 20.000 genes. 

Mediante la predicción computacional de funciones de genes se obtienen catálogos que pueden dirigir la validación experimental a genes con alta probabilidad de participar en cierto proceso biológico particular, ahorrando así tiempo y recursos. Según los estudios comparativos disponibles, los métodos que logran el mejor desempeño en la predicción de función de genes son los que se basan en los principios del aprendizaje automático. 

Aprendizaje automático

El aprendizaje automático es una rama de la inteligencia artificial que desarrolla algoritmos para que un computador pueda aprender. Estos algoritmos pueden formular predicciones, inferir relaciones causales o estructuras en los datos, que no son evidentes al ojo humano. 

El aprendizaje automático ha tenido un auge muy importante en los últimos años, debido a la expansión acelerada del poder de cómputo y de la cantidad de datos disponibles en las más diversas áreas. Una de sus aplicaciones más habituales es la clasificación, esto es, decidir cuándo algo pertenece o no a una categoría de cosas. Para ello se entrena un modelo con un conjunto de ejemplos con valor de salida conocido -la muestra de entrenamiento-, para que aprenda a predecir el valor de salida de nuevos casos de los que solo se conoce el valor de las variables predictivas.

Dada su utilidad para el análisis y la interpretación de grandes volúmenes de datos, el aprendizaje automático es cada vez más utilizado en el campo de las biociencias. Por ejemplo, PubMed contiene 2,410 revisiones que abordan el uso de aprendizaje automático en diversos problemas de las biociencias publicadas en el año 2021.

Los modelos para la predicción de función biológica basados en aprendizaje automático supervisado son entrenados con grupos de genes o proteínas que tienen cierta función experimentalmente bien establecida. Una vez entrenados, estos modelos le asignan a cada nuevo gen o proteína que se les presente, una probabilidad de tener esa función, en base a variables predictivas asociadas a los genes. 

 

Las variables predictivas utilizadas son diversas e incluyen la secuencia, la presencia de dominios o de sitios de unión a factores de transcripción, la estructura de las proteínas codificadas y sus redes de interacción, los patrones de expresión en distintas condiciones, tiempos o tejidos o los patrones de co-localización en varios genomas. 

 

El aporte que hace esta investigación es demostrar la utilidad de un nuevo tipo de variable predictiva que nunca había sido usada en organismos eucariotas: la ubicación de un gen respecto a los demás genes del genoma al que pertenece.

 

Videos

Enlaces relacionados

Etiquetas