Crédito:CC0 Public Domain
Para fabricar medicamentos, los químicos deben encontrar las combinaciones adecuadas de productos químicos para producir las estructuras químicas necesarias. Esto es más complicado de lo que parece, ya que las reacciones químicas típicas emplean varios componentes diferentes, y cada químico involucrado en una reacción agrega otra dimensión a los cálculos.
En un mundo ideal, A los químicos les gustaría predecir qué combinación de productos químicos proporcionaría el mayor rendimiento de producto y evitaría subproductos no deseados u otras pérdidas. pero predecir el resultado de estas reacciones multidimensionales ha demostrado ser un desafío.
Un grupo de investigadores dirigido por Abigail Doyle, el profesor de química A. Barton Hepburn en la Universidad de Princeton, y el Dr. Spencer Dreher de Merck Research Laboratories, ha encontrado una manera de predecir con precisión los rendimientos de la reacción variando hasta cuatro componentes de la reacción, utilizando una aplicación de inteligencia artificial conocida como aprendizaje automático. Han convertido su método en software que han puesto a disposición de otros químicos. Publicaron su investigación el 15 de febrero en la revista Ciencias .
"El software que desarrollamos puede funcionar para cualquier reacción, cualquier sustrato, ", dijo Doyle." La idea era dejar que alguien aplicara esta herramienta y, con suerte, desarrollarla con otras reacciones ".
Se invierten vastos recursos y tiempo para fabricar moléculas sintéticas, a menudo de una manera en gran medida ad hoc, ella dijo. Usando este nuevo software, Los químicos pueden identificar combinaciones de productos químicos y sustratos de alto rendimiento de manera más económica y eficiente.
"Esperamos que esta sea una herramienta valiosa para acelerar la síntesis de nuevos medicamentos, "dijo Derek Ahneman, quien completó su doctorado en química. en el laboratorio de Doyle en 2017 y ahora trabaja para IBM.
"Muchos de estos algoritmos de aprendizaje automático existen desde hace bastante tiempo, "dijo Jesús Estrada, un estudiante de posgrado en el laboratorio de Doyle que contribuyó a la investigación y al artículo. "Sin embargo, dentro de la comunidad de la química orgánica sintética, realmente no hemos aprovechado las interesantes oportunidades que ofrece el aprendizaje automático ".
"Como químicos, tradicionalmente nos hemos alejado del análisis multidimensional, ", dijo Doyle." Solo miramos una variable a la vez, o un solo conjunto de condiciones para una variedad de sustratos ".
Cuando Ahneman le dijo a Doyle que quería usar el aprendizaje automático para abordar el problema multidimensional, ella lo animó. "Siempre, especialmente para mis estudiantes más talentosos, trato de darles rienda suelta en el último año de su doctorado, ", dijo." Este es el proyecto que me propuso ".
Doyle y Ahneman se propusieron modelar el rendimiento de la reacción mientras modificaban cuatro componentes de reacción diferentes, un esfuerzo exponencialmente más difícil que modificar una variable a la vez.
"Al principio, sabíamos que habría muchos desafíos que superar, Ahneman dijo. "No estábamos seguros de que fuera posible".
Históricamente, Un obstáculo para el desarrollo de modelos multidimensionales ha sido la recopilación de datos suficientes sobre el rendimiento de las reacciones para crear un "conjunto de entrenamiento, ", dijo. Pero recientemente, Merck ha inventado sistemas robóticos que pueden ejecutar miles de reacciones en el orden de los días.
Otro desafío ha sido calcular descriptores cuantitativos para cada sustancia química, para usar como entradas para el modelo. Por lo general, estos descriptores se han calculado uno por uno, lo que no habría sido práctico para la gran cantidad de combinaciones químicas que querían utilizar.
Superaron esta limitación escribiendo código que usaba un programa existente, Espartano, para calcular y luego extraer descriptores para cada producto químico utilizado en el modelo.
Una vez que tuvieron sus descriptores cuantitativos, probaron varios enfoques estadísticos. Primero, utilizan regresión lineal, el estándar de la industria, pero descubrió que no podía predecir con precisión el rendimiento de la reacción. Luego, exploraron múltiples modelos comunes de aprendizaje automático y descubrieron que uno llamado "bosque aleatorio" ofrecía predicciones de rendimiento sorprendentemente precisas.
Un modelo de bosque aleatorio funciona seleccionando al azar pequeñas muestras del conjunto de datos de entrenamiento y usando esa muestra para construir un árbol de decisiones. Luego, cada árbol de decisión individual predice el rendimiento de una reacción determinada, y luego el resultado se promedia entre los árboles para generar una predicción de rendimiento general.
Otro gran avance se produjo cuando los investigadores descubrieron que con bosques aleatorios, "los rendimientos de las reacciones se pueden predecir con precisión utilizando los resultados de 'solo' cientos de reacciones (en lugar de miles), un número que los químicos sin robots pueden realizar ellos mismos, "Ahneman dijo.
Además, encontraron que los modelos forestales aleatorios pueden predecir los rendimientos de compuestos químicos no incluidos en el conjunto de capacitación.
"Las técnicas utilizadas son completamente de vanguardia, "dijo Chloé-Agathe Azencott, investigador de aprendizaje automático en el Centro de Biología Computacional de la Universidad de Ciencias y Letras de París, que no participó en la investigación. "Las gráficas de correlación en el documento son lo suficientemente buenas como para que podamos imaginarnos confiando en estas predicciones en el futuro, lo que limitará la necesidad de costosos experimentos de laboratorio ".
"Estos resultados son emocionantes, porque sugieren que este método se puede utilizar para predecir el rendimiento de reacciones en las que nunca se ha elaborado el material de partida, lo que ayudaría a minimizar el consumo de productos químicos cuya fabricación requiere mucho tiempo, "Ahneman dijo." En general, esta metodología es prometedora para (1) predecir el rendimiento de las reacciones utilizando materiales de partida aún no elaborados y (2) predecir las condiciones óptimas para una reacción con un material de partida y un producto conocidos ".
Después de que Ahneman terminó su carrera, Estrada continuó la investigación. El objetivo era crear software que fuera accesible no solo para expertos en informática como Ahneman y Estrada, sino también para la comunidad de química sintética en general. dijo Doyle.
Explicó cómo funciona el software:"Dibuja las estructuras, los materiales de partida, catalizadores, bases—and the software will figure out shared descriptors between all of them. That's your input. The outcome is the yields of the reactions. The machine learning matches all those descriptors to the yields, with the goal that you can put in any structure and it will tell you the outcome of the reaction.
"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.