Crédito:Pixabay/CC0 Dominio público
Los ingenieros químicos y los científicos de materiales buscan constantemente el próximo material, químico y fármaco revolucionario. El auge de los enfoques de aprendizaje automático está acelerando el proceso de descubrimiento, que de otro modo podría llevar años. "Idealmente, el objetivo es entrenar un modelo de aprendizaje automático en algunas muestras químicas existentes y luego permitirle producir tantas moléculas fabricables de la misma clase como sea posible, con propiedades físicas predecibles", dice Wojciech Matusik, profesor de ingeniería eléctrica. e informática en el MIT. "Si tiene todos estos componentes, puede construir nuevas moléculas con propiedades óptimas y también sabe cómo sintetizarlas. Esa es la visión general que la gente en ese espacio quiere lograr".
Sin embargo, las técnicas actuales, principalmente el aprendizaje profundo, requieren extensos conjuntos de datos para entrenar modelos, y muchos conjuntos de datos químicos específicos de clases contienen un puñado de compuestos de ejemplo, lo que limita su capacidad para generalizar y generar moléculas físicas que podrían crearse en el mundo real.
Ahora, un nuevo artículo de investigadores del MIT e IBM aborda este problema utilizando un modelo gráfico generativo para construir nuevas moléculas sintetizables dentro de la misma clase química que sus datos de entrenamiento. Para hacer esto, tratan la formación de átomos y enlaces químicos como un gráfico y desarrollan una gramática gráfica, una analogía lingüística de sistemas y estructuras para el orden de las palabras, que contiene una secuencia de reglas para construir moléculas, como monómeros y polímeros. Usando la gramática y las reglas de producción que se infirieron del conjunto de entrenamiento, el modelo no solo puede aplicar ingeniería inversa a sus ejemplos, sino que también puede crear nuevos compuestos de una manera sistemática y eficiente en datos. "Básicamente construimos un lenguaje para crear moléculas", dice Matusik. "Esta gramática es esencialmente el modelo generativo".
Los coautores de Matusik incluyen a los estudiantes graduados del MIT Minghao Guo, quien es el autor principal, y Beichen Li, así como Veronika Thost, Payal Das y Jie Chen, miembros del personal de investigación de IBM Research. Matusik, Thost y Chen están afiliados al MIT-IBM Watson AI Lab. Su método, al que llamaron gramática gráfica eficiente en datos (DEG), se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
"Queremos utilizar esta representación gramatical para la generación de monómeros y polímeros, porque esta gramática es explicable y expresiva", dice Guo. "Con solo unas pocas reglas de producción, podemos generar muchos tipos de estructuras".
Se puede pensar en una estructura molecular como una representación simbólica en un gráfico:una cadena de átomos (nodos) unidos por enlaces químicos (bordes). En este método, los investigadores permiten que el modelo tome la estructura química y colapse una subestructura de la molécula hasta un nodo; esto puede ser dos átomos conectados por un enlace, una secuencia corta de átomos enlazados o un anillo de átomos. Esto se hace repetidamente, creando las reglas de producción a medida que avanza, hasta que queda un solo nodo. Luego, las reglas y la gramática podrían aplicarse en orden inverso para recrear el conjunto de entrenamiento desde cero o combinarse en diferentes combinaciones para producir nuevas moléculas de la misma clase química.
"Los métodos de generación de gráficos existentes producirían un nodo o un borde secuencialmente a la vez, pero estamos buscando estructuras de nivel superior y, específicamente, explotando el conocimiento de la química, de modo que no tratemos los átomos y enlaces individuales como una unidad. Esto simplifica el proceso de generación y también hace que el aprendizaje sea más eficiente con los datos", dice Chen.
Además, los investigadores optimizaron la técnica para que la gramática de abajo hacia arriba fuera relativamente simple y directa, de modo que fabricara moléculas que pudieran fabricarse.
“Si cambiamos el orden de aplicación de estas reglas de producción, obtendríamos otra molécula; además, podemos enumerar todas las posibilidades y generar toneladas de ellas”, dice Chen. "Algunas de estas moléculas son válidas y otras no, por lo que el aprendizaje de la gramática en sí es en realidad descubrir una colección mínima de reglas de producción, de modo que se maximice el porcentaje de moléculas que realmente se pueden sintetizar". Si bien los investigadores se concentraron en tres conjuntos de entrenamiento de menos de 33 muestras cada uno (acrilatos, extensores de cadena e isocianatos), notaron que el proceso podría aplicarse a cualquier clase química.
Para ver cómo funcionaba su método, los investigadores probaron DEG con otros modelos y técnicas de última generación, analizando los porcentajes de moléculas únicas y químicamente válidas, la diversidad de las creadas, la tasa de éxito de la retrosíntesis y el porcentaje de moléculas pertenecientes a la clase de monómero de los datos de entrenamiento.
"Demostramos claramente que, en cuanto a la capacidad de síntesis y la pertenencia, nuestro algoritmo supera a todos los métodos existentes por un margen muy amplio, mientras que es comparable con otras métricas ampliamente utilizadas", dice Guo. Además, "lo sorprendente de nuestro algoritmo es que solo necesitamos alrededor del 0,15 por ciento del conjunto de datos original para lograr resultados muy similares en comparación con los enfoques de última generación que se entrenan en decenas de miles de muestras. Nuestro algoritmo puede manejar específicamente el problema de la escasez de datos".
En el futuro inmediato, el equipo planea abordar la ampliación de este proceso de aprendizaje de gramática para poder generar gráficos grandes, así como producir e identificar sustancias químicas con las propiedades deseadas.
En el futuro, los investigadores ven muchas aplicaciones para el método DEG, ya que es adaptable más allá de generar nuevas estructuras químicas, señala el equipo. Un gráfico es una representación muy flexible y muchas entidades se pueden simbolizar de esta forma:robots, vehículos, edificios y circuitos electrónicos, por ejemplo. "Esencialmente, nuestro objetivo es desarrollar nuestra gramática, de modo que nuestra representación gráfica pueda usarse ampliamente en muchos dominios diferentes", dice Guo, ya que "DEG puede automatizar el diseño de entidades y estructuras novedosas", dice Chen.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT. Búsqueda de una gramática de materiales para ayudar en el descubrimiento de catalizadores