Crédito:CC0 Public Domain
Imagina que tu feed de Facebook plantea un acertijo tentador. Se le presentan algunos fragmentos sobre una persona:color de ojos, color de pelo, la edad, y altura, y solo tiene un minuto para elegir el nombre y la identidad de la persona entre cientos de perfiles. Si tu haces eso, ganas $ 100 millones.
Pero solo conoce a 10 de estas personas por su nombre. Para los demás solo tiene una escasez de datos para trabajar. Algunos son jóvenes y otros no tanto. Algunas son rubias y otras morenas. Algunos de sus nombres suenan familiares, pero no puedes precisar cómo los conoces.
Este tipo de escenario, una tarea aparentemente imposible con una recompensa enorme, enfrenta a los investigadores de la PNNL que estudian la metabolómica. Ese es el estudio de pequeñas moléculas que subyacen e informan cada aspecto de nuestras vidas, incluida la producción de energía, el destino del planeta, y nuestra salud.
Los científicos estiman que se conocen menos del 1 por ciento de las moléculas pequeñas. Una biblioteca típica de metabolómica disponible comercialmente tiene tal vez 5, 000 compuestos, pero los científicos saben que hay miles de millones más.
¿Cómo "identifican" algo sobre lo que saben tan poco? Es como pedirle a Galileo que identifique estrellas en el espacio profundo que eran imposibles de detectar cuando usó uno de los primeros telescopios hace más de 400 años.
Ingrese DarkChem, un proyecto de investigación financiado por Deep Learning for Scientific Discovery Agile Investment de PNNL. Un equipo dirigido por Ryan Renslow está trayendo inteligencia artificial a la mesa para abordar la vasta, paisaje desconocido de metabolitos que atormentan a investigadores como Tom Metz, quien lidera el esfuerzo de metabolómica de PNNL.
"Ahora, solo estamos echando un vistazo a lo que es potencialmente cognoscible y nos despedimos de datos muy interesantes porque no podemos identificar la gran mayoría de los metabolitos que detecta nuestra tecnología, ", dijo Metz." El aprendizaje profundo está proporcionando una nueva forma de resolver el rompecabezas ".
Renslow y sus colegas Sean Colby y Jamie Nunez han adoptado principios de aprendizaje profundo comúnmente utilizados en aplicaciones como la traducción de idiomas y los han aplicado a esta materia oscura del mundo molecular.
Los primeros resultados son dignos de mención:la red DarkChem del equipo puede calcular una característica clave de una molécula en milisegundos y con un 13 por ciento menos de errores. en comparación con 40 horas en una supercomputadora que ejecuta el software insignia de química cuántica de PNNL, NWChem.
"Nos sorprendió lo bien que le fue a DarkChem, "dijo Renslow.
La red no se limita a analizar datos para compilar resultados. Bastante, la red se basa en inteligencia artificial. DarkChem fue desarrollado para que pueda descubrir cosas nuevas que aún son desconocidas para los humanos.
De fútbol y sección transversal de colisión
En este caso, el equipo capacitó al programa para comprender y predecir una propiedad química conocida como sección transversal de colisión (CCS). Mientras que CCS se enmascara como un acrónimo científico intimidante, Cualquiera que haya visto un partido de fútbol ha visto algo como CCS en acción.
Imagínese a un portador de pelotas aplastando a los jugadores rivales. Un jugador más pequeño podría tener menos colisiones, pero cuando chocan con un oponente, el efecto es diferente que cuando Marshawn Lynch, parecido a Hulk, entra en modo bestia y se sacude varios impactos.
Aprendes mucho sobre los jugadores de fútbol al verlos chocar entre sí.
Del mismo modo, el seguimiento de las colisiones entre los iones de metabolitos que viajan a través de un instrumento de laboratorio lleno de moléculas de gas les dice a los científicos mucho sobre las estructuras de los iones de los metabolitos:su tamaño, su masa, y otras características. CCS es la medida matemática de esa acción, y es fundamental para desbloquear la estructura química en fase gaseosa, la verdadera "identificación", de una molécula.
Renslow y su equipo entrenaron a DarkChem para calcular CCS para estructuras químicas, luego lo soltó para hacer el cálculo de más de 50 millones de compuestos, una parte de la biblioteca de PubChem. El programa resolvió esa tarea en un instante.
Si bien es un paso adelante prometedor, el equipo está más entusiasmado con las implicaciones para todas esas pequeñas moléculas aún no identificadas.
La red puede funcionar tanto hacia adelante como hacia atrás, es decir, puede resolver el CCS de una molécula y predecir otras propiedades, pero también puede generar nuevas estructuras químicas en función de las propiedades que se buscan. Por ejemplo, El equipo de Renslow ha utilizado DarkChem para presentar varias estructuras químicas novedosas que tienen potencial para influir en el receptor NMDA, que está involucrado en la memoria y otras funciones cerebrales importantes.
La red no se limita a memorizar datos. De hecho, el equipo agrega intencionalmente algo de confusión numérica a los desafíos que enfrenta la red para evitar que memorice.
"Es como enseñarle a una computadora a reconocer a un perro, ", dijo Renslow." Simplemente podría memorizar la imagen, pero quieres que la red pueda reconocer una variedad de perros, para que puedas voltear la imagen al revés, estíralo un poco, cambiar sus colores. Altera la imagen, de modo que el programa se ve obligado a generalizar y confiar en el conocimiento y las reglas que ha aprendido ".
Enseñar a la red a aprender
Para crear la red, el equipo utilizó una forma de inteligencia artificial llamada aprendizaje por transferencia, donde la red aprende de un conjunto de datos y luego aplica su conocimiento a otro conjunto de datos. La formación constaba principalmente de tres pasos:
El programa examinó más de 50 millones de moléculas conocidas en PubChem, aprender los conceptos básicos de la química y cómo representar estructuras químicas matemáticamente. Pero la base de datos carecía de información sobre CCS, una medida crucial para comprender los metabolitos.
Luego, el equipo expuso DarkChem a un conjunto de datos CCS computacionales desarrollado por PNNL, alrededor de 700, 000 moléculas. Esto ayudó a capacitar al programa sobre cómo vincular la información general que había aprendido sobre la estructura química con la CAC.
Finalmente, el equipo ajustó la red con un pequeño conjunto de datos robusto de aproximadamente 1, 000 estructuras químicas cuyas medidas de CCS se han determinado mediante un minucioso trabajo en el laboratorio.
La capacidad de calcular CCS para moléculas desconocidas, moléculas cuyo único indicio de existencia puede ser una delgada línea de un experimento de espectrometría de masas, agrega una característica importante para ayudar a los científicos a diferenciar un metabolito de otro. Para iluminar la materia molecular oscura.
"Cada dimensión que agrega le brinda un mejor poder de resolución, "dijo Colby, que está ayudando a explorar otras posibles características moleculares para que DarkChem las analice, como espectros infrarrojos, patrones de fragmentación, y datos de superficies accesibles a disolventes.
Es análogo a perfeccionar nuestra capacidad para identificar a miles de conocidos en Facebook.
"Puedes decir que alguien es hombre y usa anteojos, ", dijo Renslow." Pero si puede agregar que tiene 54 años y conduce un Mercedes rojo, restringes a los candidatos.
"No es muy diferente con los metabolitos. Seguimos agregando características que podemos medir, y eventualmente solo hay una molécula en el universo que se ajusta a esa combinación de datos, "añadió.