Un equipo de investigadores del MIT, la Universidad de Massachusetts en Amherst, y la Universidad de California en Berkeley esperan cerrar la brecha de automatización de la ciencia de los materiales, con un nuevo sistema de inteligencia artificial que analizaría minuciosamente los artículos de investigación para deducir "recetas" para producir materiales particulares. Crédito:Chelsea Turner / MIT
En años recientes, Los esfuerzos de investigación como la Iniciativa del genoma de materiales y el Proyecto de materiales han producido una gran cantidad de herramientas computacionales para diseñar nuevos materiales útiles para una variedad de aplicaciones, desde la energía y la electrónica hasta la aeronáutica y la ingeniería civil.
Pero el desarrollo de procesos para producir esos materiales ha seguido dependiendo de una combinación de experiencia, intuición, y revisiones manuales de literatura.
Un equipo de investigadores del MIT, la Universidad de Massachusetts en Amherst, y la Universidad de California en Berkeley esperan cerrar esa brecha de automatización de la ciencia de los materiales, con un nuevo sistema de inteligencia artificial que analizaría minuciosamente los artículos de investigación para deducir "recetas" para producir materiales particulares.
"Los científicos de materiales computacionales han avanzado mucho en el 'qué' hacer:qué material diseñar en función de las propiedades deseadas, "dice Elsa Olivetti, el Profesor Asistente de Estudios Energéticos de Atlantic Richfield en el Departamento de Ciencia e Ingeniería de Materiales (DMSE) del MIT. "Pero debido a ese éxito, el cuello de botella se ha desplazado a, 'Okey, ahora, ¿cómo lo hago? '"
Los investigadores visualizan una base de datos que contiene recetas de materiales extraídas de millones de artículos. Los científicos e ingenieros pueden ingresar el nombre de un material objetivo y cualquier otro criterio:materiales precursores, condiciones de reacción, procesos de fabricación, y busque recetas sugeridas.
Como paso hacia la realización de esa visión, Olivetti y sus colegas han desarrollado un sistema de aprendizaje automático que puede analizar un trabajo de investigación, deducir cuál de sus párrafos contiene recetas de materiales, y clasifique las palabras en esos párrafos de acuerdo con sus roles dentro de las recetas:nombres de los materiales de destino, cantidades numéricas, nombres de equipos, condiciones de operación, adjetivos descriptivos, y similares.
En un artículo que aparece en el último número de la revista. Química de Materiales , También demuestran que un sistema de aprendizaje automático puede analizar los datos extraídos para inferir características generales de clases de materiales, como los diferentes rangos de temperatura que requiere su síntesis, o características particulares de materiales individuales, como las diferentes formas físicas que tomarán. cuando sus condiciones de fabricación varían.
Olivetti es el autor principal del artículo, y ella se une a Edward Kim, un estudiante de posgrado del MIT en DMSE; Kevin Huang, un postdoctorado de DMSE; Adam Saunders y Andrew McCallum, informáticos en UMass Amherst; y Gerbrand Ceder, un profesor de canciller en el Departamento de Ciencia e Ingeniería de Materiales en Berkeley.
Llenar los huecos
Los investigadores entrenaron su sistema utilizando una combinación de técnicas de aprendizaje automático supervisadas y no supervisadas. "Supervisado" significa que los datos de entrenamiento introducidos en el sistema son anotados primero por humanos; el sistema intenta encontrar correlaciones entre los datos brutos y las anotaciones. "Sin supervisión" significa que los datos de entrenamiento no están anotados, y, en cambio, el sistema aprende a agrupar los datos de acuerdo con similitudes estructurales.
Dado que la extracción de recetas de materiales es una nueva área de investigación, Olivetti y sus colegas no podían permitirse el lujo de grandes conjuntos de datos anotados acumulados durante años por diversos equipos de investigadores. En lugar de, tenían que anotar sus datos ellos mismos; en última instancia, unos 100 papeles.
Según los estándares de aprendizaje automático, ese es un conjunto de datos bastante pequeño. Para mejorarlo, utilizaron un algoritmo desarrollado en Google llamado Word2vec. Word2vec analiza los contextos en los que ocurren las palabras (los roles sintácticos de las palabras dentro de las oraciones y las otras palabras que las rodean) y agrupa las palabras que tienden a tener contextos similares. Entonces, por ejemplo, si un artículo contenía la frase "Calentamos el tetracloruro de titanio a 500 C, "y otro contenía la frase" El hidróxido de sodio se calentó a 500 C, "Word2vec agruparía" tetracloruro de titanio "e" hidróxido de sodio "juntos.
Con Word2vec, los investigadores pudieron ampliar enormemente su conjunto de formación, ya que el sistema de aprendizaje automático podía inferir que una etiqueta adjunta a cualquier palabra dada probablemente se aplicaría a otras palabras agrupadas con ella. En lugar de 100 papeles, los investigadores pudieron así entrenar su sistema en alrededor de 640, 000 papeles.
La punta del iceberg
Para probar la precisión del sistema, sin embargo, tenían que confiar en los datos etiquetados, ya que no tenían ningún criterio para evaluar su desempeño en los datos sin etiquetar. En esas pruebas, el sistema pudo identificar con un 99 por ciento de precisión los párrafos que contenían recetas y etiquetar con un 86 por ciento de precisión las palabras dentro de esos párrafos.
Los investigadores esperan que el trabajo adicional mejore la precisión del sistema, y en el trabajo en curso, están explorando una batería de técnicas de aprendizaje profundo que pueden hacer más generalizaciones sobre la estructura de las recetas de materiales. con el objetivo de diseñar automáticamente recetas para materiales no considerados en la literatura existente.
Gran parte de la investigación previa de Olivetti se ha concentrado en encontrar formas más rentables y ambientalmente responsables de producir materiales útiles. y espera que una base de datos de recetas de materiales pueda ayudar a ese proyecto.
"Este es un trabajo histórico, "dice Ram Seshadri, el profesor Fred y Linda R. Wudl de ciencia de materiales en la Universidad de California en Santa Bárbara. "Los autores han asumido el difícil y ambicioso desafío de capturar, a través de métodos de IA, estrategias empleadas para la preparación de nuevos materiales. El trabajo demuestra el poder del aprendizaje automático, pero sería exacto decir que el juez eventual del éxito o del fracaso requeriría convencer a los practicantes de que la utilidad de tales métodos puede permitirles abandonar sus enfoques más instintivos.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.