En BigSMILES, Los fragmentos poliméricos están representados por una lista de unidades repetidas encerradas entre corchetes. Las estructuras químicas de las unidades repetidas se codifican utilizando la sintaxis normal de SMILES, pero con descriptores de enlace adicionales que especifican cómo se conectan las diferentes unidades repetidas para formar polímeros. Este diseño simple de sintaxis permitiría la codificación de macromoléculas en una amplia gama de químicas. Crédito:Tzyy-Shyang Lin
Tener un pacto pero robusto, El identificador de base estructural o el sistema de representación de las estructuras moleculares es un factor habilitador clave para compartir y difundir de manera eficiente los resultados dentro de la comunidad de investigadores. Dichos sistemas también sientan las bases esenciales para el aprendizaje automático y otras investigaciones basadas en datos. Si bien se han realizado avances sustanciales para las moléculas pequeñas, la comunidad de polímeros ha tenido problemas para encontrar un sistema de representación eficiente.
Para moléculas pequeñas, la premisa básica es que cada especie química distinta corresponde a una estructura química bien definida. Esto no es válido para los polímeros. Los polímeros son moléculas intrínsecamente estocásticas que a menudo son conjuntos con una distribución de estructuras químicas. Esta dificultad limita la aplicabilidad de todas las representaciones deterministas desarrolladas para moléculas pequeñas. En un artículo publicado el 12 de septiembre en Ciencia Central ACS , investigadores del MIT, Universidad de Duke, y la Universidad Northwestern informan sobre un nuevo sistema de representación que es capaz de manejar la naturaleza estocástica de los polímeros, llamado BigSMILES.
"BigSMILES aborda un desafío significativo en la representación digital de polímeros, "explica Connor Coley Ph.D. '19, coautor del artículo. "Los polímeros son casi siempre conjuntos de múltiples estructuras químicas, generado a través de procesos estocásticos, por lo que no podemos utilizar las mismas estrategias para escribir sus estructuras que para las moléculas pequeñas ".
Los coautores son Coley; el profesor asociado de ingeniería química Bradley D. Olsen en el MIT; Warren K. Lewis Profesor de Ingeniería Química Klavs F. Jensen en MIT; la profesora asistente de química Julia A. Kalow en la Universidad Northwestern; el profesor asociado de química Jeremiah A. Johnson en el MIT; El profesor de química William T. Miller Stephen L. Craig de la Universidad de Duke; el estudiante de posgrado Eliot Woods de la Universidad Northwestern; el estudiante de posgrado Zi Wang de la Universidad de Duke; el estudiante de posgrado Wencong Wang del MIT; la estudiante de posgrado Haley K. Beech del MIT; el investigador visitante Hidenobu Mochigase en el MIT; y la estudiante de posgrado Tzyy-Shyang Lin en MIT.
Hay varias notaciones de línea para comunicar la estructura molecular, siendo el más popular el sistema simplificado de entrada de línea de entrada molecular (SMILES). SMILES generalmente se considera la variante más legible por humanos, con, con mucho, el soporte de software más amplio. En la práctica, SMILES proporciona un conjunto simple de representaciones que son adecuadas como etiquetas para datos químicos y como un identificador compacto de memoria para el intercambio de datos entre investigadores. Como sistema basado en texto, SMILES también se adapta naturalmente a muchos algoritmos de aprendizaje automático basados en texto. Estas características han hecho de SMILES una herramienta perfecta para traducir el conocimiento de la química en una forma amigable para las máquinas. y se ha aplicado con éxito para la predicción de propiedades de moléculas pequeñas y la planificación de síntesis asistida por computadora.
Polímeros sin embargo, se han resistido a la descripción de éste y otros lenguajes estructurales. Esto se debe a que la mayoría de los lenguajes estructurales como SMILES se han diseñado para describir moléculas o fragmentos químicos que son gráficos atomísticos bien definidos. Dado que los polímeros son moléculas estocásticas, no tienen representaciones únicas de SMILES. Esta falta de una convención de nomenclatura o identificación unificada para materiales poliméricos es uno de los principales obstáculos que ralentizan el desarrollo del campo de la informática de polímeros. Si bien fue pionero en los esfuerzos en informática de polímeros, como el Polymer Genome Project, han demostrado la utilidad de las extensiones SMILES en la informática de polímeros, el rápido desarrollo de nueva química y el rápido desarrollo de la informática de materiales y la investigación basada en datos hacen que sea importante la necesidad de una convención de nomenclatura universalmente aplicable para los polímeros.
"El aprendizaje automático presenta una enorme oportunidad para acelerar el desarrollo y el descubrimiento de productos químicos, "dice Lin He, subdirector interino de la división de química de la National Science Foundation (NSF). "Esta herramienta ampliada para etiquetar estructuras, Diseñado específicamente para abordar los desafíos únicos inherentes a los polímeros, mejora en gran medida la capacidad de búsqueda de datos estructurales químicos, y nos acerca un paso más a aprovechar la revolución de los datos ".
Los investigadores han creado una nueva construcción basada en la estructura como una adición a la representación SMILES de gran éxito que puede tratar la naturaleza aleatoria de los materiales poliméricos. Dado que los polímeros son moléculas de alta masa molar, esta construcción se llama BigSMILES. En BigSMILES, Los fragmentos poliméricos están representados por una lista de unidades repetidas encerradas entre corchetes. Las estructuras químicas de las unidades repetidas se codifican utilizando la sintaxis normal de SMILES, pero con descriptores de enlace adicionales que especifican cómo se conectan las diferentes unidades repetidas para formar polímeros. Este diseño simple de sintaxis permitiría la codificación de macromoléculas en una amplia gama de químicas diferentes, incluyendo homopolímero, copolímeros aleatorios y copolímeros de bloque, y una variedad de conectividad molecular, que van desde polímeros lineales hasta polímeros de anillo e incluso polímeros ramificados. Como en SMILES, Las representaciones de BigSMILES son compactas, cadenas de texto autocontenidas.
"La estandarización de la representación digital de estructuras poliméricas con BigSMILES fomentará el intercambio y la agregación de datos de polímeros, mejorar la calidad del modelo a lo largo del tiempo y reforzar los beneficios de su uso, "dice Jason Clark, los materiales lideran en Innovación Abierta para Químicos y Materiales Renovables en Braskem, que no estuvo asociado con la investigación. "BigSMILES es una contribución significativa al campo, ya que aborda la necesidad de un sistema flexible para representar estructuras poliméricas complejas de forma digital".
Clark agrega, "Los desafíos que enfrenta la industria del plástico en el contexto de la economía circular comienzan con la fuente de materias primas y continúan hasta la gestión del final de su vida útil. Para abordar estos desafíos se requiere el diseño innovador de materiales a base de polímeros, que tradicionalmente ha sufrido largos ciclos de desarrollo. Los avances en inteligencia artificial y aprendizaje automático han demostrado ser prometedores para acelerar el ciclo de desarrollo de aplicaciones que utilizan aleaciones metálicas y pequeñas moléculas orgánicas. Motivar a la industria del plástico a buscar un enfoque paralelo ". Las representaciones digitales de BigSMILES facilitan la evaluación de las relaciones estructura-desempeño mediante la aplicación de métodos de ciencia de datos, él dice, en última instancia, acelerar la convergencia a las estructuras o composiciones de polímeros que ayudarán a habilitar la economía circular.
"Se puede construir una multitud de estructuras poliméricas complicadas mediante la composición de tres nuevos operadores básicos y símbolos originales SMILES, "dice Olsen, "Campos completos de la química, ciencia de los Materiales, e ingeniería, incluida la ciencia de los polímeros, biomateriales, química de materiales, y gran parte de la bioquímica, se basan en macromoléculas que tienen estructuras estocásticas. Básicamente, se puede pensar en esto como un nuevo lenguaje sobre cómo escribir la estructura de moléculas grandes ".
"Una de las cosas que me entusiasman es cómo la entrada de datos podría eventualmente vincularse directamente a los métodos sintéticos utilizados para fabricar un polímero en particular, "dice Craig, "Por eso, existe la oportunidad de capturar y procesar más información acerca de las moléculas de la que normalmente se encuentra disponible en las caracterizaciones estándar. Si esto se puede hacer, permitirá todo tipo de descubrimientos ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.