Crédito:CC0 Public Domain
Los científicos informáticos de la Universidad Carnegie Mellon han adoptado un método de aprendizaje profundo que ha revolucionado el reconocimiento facial y otras aplicaciones basadas en imágenes en los últimos años y han redirigido su poder para explorar la relación entre genes.
El truco, ellos dicen, es transformar cantidades masivas de datos de expresión genética en algo más parecido a una imagen. Redes neuronales convolucionales (CNN), que son expertos en analizar imágenes visuales, A continuación, puede inferir qué genes están interactuando entre sí. Las CNN superan a los métodos existentes en esta tarea.
El informe de los investigadores sobre cómo las CNN pueden ayudar a identificar genes relacionados con enfermedades y vías genéticas y de desarrollo que podrían ser objetivos de medicamentos se publica hoy en el Actas de la Academia Nacional de Ciencias . Pero Ziv Bar-Joseph, profesor de biología computacional y aprendizaje automático, dijeron las aplicaciones para el nuevo método, llamado CNNC, podría ir mucho más allá de las interacciones genéticas.
La nueva información descrita en el documento sugiere que CNNC podría implementarse de manera similar para investigar la causalidad en una amplia variedad de fenómenos. incluyendo datos financieros y redes sociales, dijo Bar-Joseph, quien fue coautor del artículo con Ye Yuan, investigador postdoctoral en el Departamento de Machine Learning de CMU.
"CNN, que se desarrollaron hace una década, son revolucionarios, ", Dijo Bar-Joseph." Todavía estoy asombrado con Google Fotos, que los usa para el reconocimiento facial, ", agregó mientras se desplazaba por las fotos en su teléfono inteligente, mostrando cómo la aplicación podía identificar a su hijo a diferentes edades, o identificar a su padre basándose en una imagen de la parte posterior derecha de su cabeza. "A veces damos por sentada esta tecnología porque la usamos todo el tiempo. Pero es increíblemente poderosa y no está restringida a imágenes. Todo es cuestión de cómo representa sus datos".
En este caso, él y Yuan estaban analizando las relaciones genéticas. Los aproximadamente 20, 000 genes en humanos funcionan en conjunto, por lo que es necesario saber cómo los genes trabajan juntos en complejos o redes para comprender el desarrollo humano o las enfermedades.
Una forma de inferir estas relaciones es observar la expresión génica, que representa los niveles de actividad de los genes en las células. Generalmente, si el gen A está activo al mismo tiempo que el gen B está activo, esa es una pista de que los dos están interactuando, Dijo Yuan. Todavía, es posible que esto sea una coincidencia o que ambos sean activados por un tercer gen C. Se han desarrollado varios métodos previos para desentrañar estas relaciones.
Emplear CNN para ayudar a analizar las relaciones genéticas, Yuan y Bar-Joseph utilizaron datos de expresión de una sola célula, experimentos que pueden determinar el nivel de cada gen en una sola célula. Los resultados de cientos de miles de estos análisis unicelulares se organizaron luego en forma de una matriz o histograma de modo que cada célula de la matriz representara un nivel diferente de coexpresión para un par de genes.
Presentar los datos de esta manera agregó un aspecto espacial que hizo que los datos fueran más parecidos a una imagen y, por lo tanto, más accesible a las CNN. Mediante el uso de datos de genes cuyas interacciones ya se habían establecido, los investigadores pudieron entrenar a las CNN para que reconocieran qué genes interactuaban y cuáles no se basaban en los patrones visuales en la matriz de datos, Dijo Yuan.
"Es muy, muy difícil de distinguir entre causalidad y correlación, "Yuan dijo, pero el método CNNC demostró ser estadísticamente más preciso que los métodos existentes. Él y Bar-Joseph anticipan que CNNC será una de varias técnicas que los investigadores eventualmente implementarán para analizar grandes conjuntos de datos.
"Este es un método muy general que podría aplicarse a varios análisis, ", Dijo Bar-Joseph. La principal limitación son los datos:cuantos más datos haya, mejor funcionan las CNN. La biología celular es adecuada para usar CNNC, ya que un experimento típico puede involucrar a decenas de miles de células y generar una gran cantidad de datos.