Dos colonias de bacterias que han formado anillos de color púrpura debido al impulso genético que los investigadores les han implantado. Un nuevo modelo de aprendizaje automático acelera enormemente esta ciencia al predecir la interacción de docenas de variables biológicas. Crédito:Lingchong You, Universidad de Duke
Los ingenieros biomédicos de la Universidad de Duke han ideado un enfoque de aprendizaje automático para modelar las interacciones entre variables complejas en bacterias diseñadas que, de otro modo, serían demasiado engorrosas de predecir. Sus algoritmos se pueden generalizar a muchos tipos de sistemas biológicos.
En el nuevo estudio, los investigadores entrenaron una red neuronal para predecir los patrones circulares que serían creados por un circuito biológico incrustado en un cultivo bacteriano. El sistema funcionó 30, 000 veces más rápido que el modelo computacional existente.
Para mejorar aún más la precisión, el equipo ideó un método para volver a entrenar el modelo de aprendizaje automático varias veces para comparar sus respuestas. Luego lo usaron para resolver un segundo sistema biológico que es computacionalmente exigente de una manera diferente, mostrar que el algoritmo puede funcionar para desafíos dispares.
Los resultados aparecen en línea el 25 de septiembre en la revista. Comunicaciones de la naturaleza .
"Este trabajo se inspiró en que Google mostró que las redes neuronales podían aprender a vencer a un humano en el juego de mesa Go, "dijo Lingchong You, profesor de ingeniería biomédica en Duke.
"Aunque el juego tiene reglas simples, hay demasiadas posibilidades para que una computadora calcule la mejor opción siguiente de manera determinista, "Usted dijo." Me preguntaba si tal enfoque podría ser útil para hacer frente a ciertos aspectos de la complejidad biológica que enfrentamos ".
El desafío al que se enfrentaban usted y su asociado postdoctoral Shangying Wang era determinar qué conjunto de parámetros podría producir un patrón específico en un cultivo de bacterias siguiendo un circuito genético diseñado.
Una colonia de bacterias modificada genéticamente para incluir un circuito genético forma un anillo púrpura a medida que crece. Los investigadores están utilizando el aprendizaje automático para descubrir interacciones entre docenas de variables que afectan las propiedades del anillo, como su grosor, qué tan rápido se forma y la cantidad de anillos que se forman. Crédito:Lingchong You, Universidad de Duke
En trabajos anteriores, Su laboratorio programó bacterias para producir proteínas que, dependiendo de las particularidades del crecimiento de la cultura, interactuar entre sí para formar anillos. Controlando variables como el tamaño del entorno de crecimiento y la cantidad de nutrientes aportados, los investigadores descubrieron que podían controlar el grosor del anillo, cuánto tiempo tardó en aparecer y otras características.
Al cambiar cualquier número de docenas de posibles variables, los investigadores descubrieron que podían hacer más, como provocar la formación de dos o incluso tres anillos. Pero debido a que una sola simulación por computadora tomó cinco minutos, se volvió poco práctico buscar un gran espacio de diseño para obtener un resultado específico.
Para su estudio, el sistema constaba de 13 variables bacterianas como las tasas de crecimiento, difusión, degradación de proteínas y movimiento celular. Solo para calcular seis valores por parámetro, una sola computadora tomaría más de 600 años. Ejecutarlo en un clúster de computadoras paralelo con cientos de nodos podría reducir ese tiempo de ejecución a varios meses, pero el aprendizaje automático puede reducirlo a horas.
"El modelo que utilizamos es lento porque tiene que tener en cuenta los pasos intermedios en el tiempo a una velocidad lo suficientemente pequeña para ser precisa, "dijo usted." Pero no siempre nos preocupan los pasos intermedios. Solo queremos los resultados finales para ciertas aplicaciones. Y podemos (volver a) averiguar los pasos intermedios si encontramos interesantes los resultados finales ".
Para saltar a los resultados finales, Wang recurrió a un modelo de aprendizaje automático llamado red neuronal profunda que puede realizar predicciones de manera eficaz en órdenes de magnitud más rápido que el modelo original. La red toma las variables del modelo como entrada, inicialmente asigna pesos y sesgos aleatorios, y escupe una predicción de qué patrón formará la colonia bacteriana, omitiendo por completo los pasos intermedios que conducen al patrón final.
Si bien el resultado inicial no se acerca a la respuesta correcta, las ponderaciones y los sesgos se pueden modificar cada vez que se introducen nuevos datos de entrenamiento en la red. Dado un conjunto de "entrenamiento" lo suficientemente grande, la red neuronal eventualmente aprenderá a hacer predicciones precisas casi siempre.
Para manejar los pocos casos en los que el aprendizaje automático se equivoca, A usted y a Wang se les ocurrió una forma de comprobar rápidamente su trabajo. Para cada red neuronal, el proceso de aprendizaje tiene un elemento de aleatoriedad. En otras palabras, nunca aprenderá de la misma manera dos veces, incluso si está entrenado con el mismo conjunto de respuestas.
Cada uno de estos gráficos representa una sección transversal de una colonia bacteriana. Los picos predicen dónde la colonia producirá proteínas púrpuras que forman anillos debido a un circuito genético artificial. Los gráficos de la parte superior fueron creados por un algoritmo de aprendizaje automático, mientras que los de la parte inferior se crearon mediante una simulación más completa. Coinciden muy bien, excepto el último. Crédito:Universidad de Duke
Los investigadores entrenaron cuatro redes neuronales separadas y compararon sus respuestas para cada instancia. Descubrieron que cuando las redes neuronales entrenadas hacen predicciones similares, estas predicciones estaban cerca de la respuesta correcta.
"Descubrimos que no teníamos que validar cada respuesta con el modelo computacional estándar más lento, ", dijo usted." En su lugar, esencialmente usamos la 'sabiduría de la multitud' ".
Con el modelo de aprendizaje automático entrenado y corroborado, los investigadores se propusieron utilizarlo para hacer nuevos descubrimientos sobre su circuito biológico. En los 100 iniciales, 000 simulaciones de datos utilizadas para entrenar la red neuronal, solo uno produjo una colonia bacteriana con tres anillos. Pero con la velocidad de la red neuronal, Tú y Wang no solo pudieron encontrar muchos más trillizos, pero determine qué variables fueron cruciales para producirlas.
"La red neuronal pudo encontrar patrones e interacciones entre las variables que de otro modo hubieran sido imposibles de descubrir, "dijo Wang.
Como colofón a su estudio, Wang y tú probaron su enfoque en un sistema biológico que funciona al azar. La resolución de tales sistemas requiere que un modelo de computadora repita los mismos parámetros muchas veces para encontrar el resultado más probable. Si bien esta es una razón completamente diferente para los largos tiempos de ejecución computacional que su modelo inicial, los investigadores encontraron que su enfoque aún funcionaba, mostrando que es generalizable a muchos sistemas biológicos complejos diferentes.
Los investigadores ahora están tratando de utilizar su nuevo enfoque en sistemas biológicos más complejos. Además de ejecutarlo en computadoras con GPU más rápidas, están tratando de programar el algoritmo para que sea lo más eficiente posible.
"Entrenamos la red neuronal con 100, 000 conjuntos de datos, pero eso pudo haber sido exagerado, ", dijo Wang." Estamos desarrollando un algoritmo en el que la red neuronal puede interactuar con simulaciones en tiempo real para ayudar a acelerar las cosas ".
"Nuestro primer objetivo fue un sistema relativamente simple, ", dijo You." Ahora queremos mejorar estos sistemas de redes neuronales para proporcionar una ventana a la dinámica subyacente de circuitos biológicos más complejos ".