• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Química
    Creación automática de bases de datos para el descubrimiento de materiales:innovación a partir de la frustración

    Generación automática de una base de datos espectral de absorción ultravioleta-visible (UV-vis) a través de una ruta de datos químicos computacionales y experimentales dual utilizando la supercomputadora Theta de ALCF. Crédito:Jacqueline Cole y Ulrich Mayer / Universidad de Cambridge

    Una colaboración entre la Universidad de Cambridge y Argonne ha desarrollado una técnica que genera bases de datos automáticas para respaldar campos específicos de la ciencia utilizando inteligencia artificial y computación de alto rendimiento.

    Buscar en montones de literatura científica bits y bytes de información para respaldar una idea o encontrar la clave para resolver un problema específico ha sido durante mucho tiempo un asunto tedioso para los investigadores. incluso después de los albores del descubrimiento basado en datos.

    Jacqueline Cole conoce el ejercicio, demasiado bien. Jefe de Ingeniería Molecular de la Universidad de Cambridge, Reino Unido, Ha pasado gran parte de su carrera buscando materiales con propiedades ópticas que se presten a una recolección de luz más eficiente. como moléculas de colorante que algún día puedan alimentar ventanas solares.

    "Sabía que gran parte de la información se almacenaba de forma muy fragmentada en la literatura, "recuerda". Pero si comparabas miles y miles de documentos, entonces podrías crear tu propia base de datos ".

    Así que Cole y sus colegas de Cambridge y el Laboratorio Nacional Argonne del Departamento de Energía de EE. UU. (DOE) hicieron precisamente eso, exponer el proceso en la revista Datos científicos .

    El papel, dice Cole, es una descripción de cómo construir una base de datos usando procesamiento de lenguaje natural (NLP) y computación de alto rendimiento, gran parte de este último realizado en Argonne Leadership Computing Facility (ALCF), una instalación para usuarios de la Oficina de Ciencias del DOE.

    Entre los factores que hacen que la base de datos sea única se encuentran la escala del proyecto y el hecho de que comprende datos tanto experimentales como calculados sobre ambas estructuras materiales, que describe la base atómica o química de una cosa, y propiedades del material, la funcionalidad proporcionada por esas diferentes estructuras.

    "Probablemente sea la primera compilación de una base de datos a una escala tan masiva, con 5, 380 pares iguales de datos experimentales y calculados, "dice Cole." Y debido a que es una cantidad tan grande, sirve como un depósito por derecho propio y realmente abre la puerta a la predicción de nuevos materiales ".

    Muchos nuevos las grandes bases de datos se basan exclusivamente en cálculos, un inconveniente inherente es que no están validados por datos experimentales. El último, quizás lo más significativo, proporciona una imagen precisa de los estados excitados del material, que definen el estado dinámico de los electrones y se utilizan para calcular las propiedades funcionales de un material:propiedades ópticas, en este caso.

    Este catálogo en ciernes de estados excitados puede ayudar a calcular las propiedades de los materiales que aún no se han concebido. ampliando aún más la base de datos.

    "Imagine que uno desea descubrir un nuevo tipo de material óptico que se adapte a una aplicación funcional a medida, y nuestra base de datos no contiene esa propiedad óptica en particular, "explica Cole." Calculamos la propiedad óptica de interés a partir de los estados excitados que están disponibles para cada propiedad en nuestra base de datos, y crear un material con funciones personalizadas ".

    El equipo realizó cálculos químicos cuánticos en cada estructura para la que habían extraído datos sobre materiales ópticos. utilizando la supercomputadora Theta de ALCF, creando así la base de datos de estructuras pareadas experimentales y calculadas y sus propiedades ópticas.

    "Uno de los mayores desafíos fue extraer candidatos químicos que pudieran servir como colorantes para células solares de 400, 000 artículos científicos, "dice Álvaro Vázquez-Mayagoitia, un científico computacional en la división de Ciencias Computacionales de Argonne. "Desarrollamos un marco distribuido para aplicar métodos de inteligencia artificial, como los que se utilizan en el procesamiento del lenguaje natural, en las supercomputadoras de clase mundial de la ALCF ".

    Para extraer automáticamente esa información y depositarla en la base de datos, el equipo recurrió a la nueva aplicación de minería de datos llamada ChemDataExtractor. Una herramienta de PNL, fue diseñado para extraer texto específicamente de la literatura de química y materiales, dónde, Cole dice, "la información está esparcida en muchos miles de documentos y está presente en formas muy fragmentadas y desestructuradas".

    No uno para búsquedas manuales de artículos, Cole describe el impulso para desarrollar la aplicación como innovación a partir de la frustración. Inicialmente, probó paquetes de PNL más genéricos, pero señaló que "no solo fallan, fallan espectacularmente ".

    El problema está en la traducción, no tanto desde una postura de lenguaje humano, pero del lenguaje de la ciencia, aunque existen algunas similitudes.

    Un escritor, por ejemplo, podría utilizar un programa de reconocimiento de voz, una forma de PNL, para transcribir notas o entrevistas. El programa se entrena principalmente en la voz del escritor, recogiendo patrones y matices, y comienza a transcribir con bastante precisión. Ahora lanza una entrevista con un sujeto con acento extranjero y las cosas comienzan a ponerse torpes.

    En el mundo de Cole, la lengua extranjera es la ciencia, cada dominio un país diferente. En la actualidad, tienes que entrenar el programa en un solo "idioma, "di química, y aún entonces, tienes que aprender los dialectos particulares de esa ciencia.

    Los químicos inorgánicos pueden plantear una fórmula utilizando representaciones desconocidas de los símbolos de elementos químicos conocidos, mientras que los químicos orgánicos prefieren los bocetos químicos numerados dentro de un cuadro de ilustración. La información de cualquiera de ellos suele resultar demasiado difícil de extraer para la mayoría de los programas de minería.

    "Y eso es solo un poco de química, ", señala Cole." Debido a que la forma en que la gente describe las cosas es tan diversa, la diversidad en la especificidad del dominio es absolutamente crítica ".

    Con ese fin, la base de datos del equipo es uno de los atributos espectrales de absorción ultravioleta visible (UV / vis), que proporciona un recurso disponible abiertamente para los usuarios que buscan encontrar materiales con colores espectrales preferidos.

    Mientras que el equipo está utilizando la nueva base de datos para descubrir tintes orgánicos que podrían reemplazar los tintes metal-orgánicos tradicionales en las células solares, ya se han dirigido a frentes más amplios para su uso.

    Útil como fuente de datos de entrenamiento para métodos de aprendizaje automático que predicen nuevos materiales ópticos, también puede resultar una opción simple de recuperación de datos para los usuarios de espectroscopía de absorción UV / vis, una herramienta que se utiliza ampliamente en los laboratorios de investigación de todo el mundo como técnica central para caracterizar nuevos materiales.

    "Los protocolos utilizados en este proyecto ya se están implementando para tipos de proyectos similares, "agrega Vázquez-Mayagoitia". Por ejemplo, el equipo recientemente aprovechó los recursos informáticos de ChemDataExtractor y ALCF para producir bases de datos expansivas de posibles sustancias químicas de la batería, y compuestos magnéticos y superconductores ".

    La investigación de la base de datos de materiales ópticos aparece en el artículo "Conjunto de datos comparativos de los atributos experimentales y computacionales de los espectros de absorción UV / vis" en Scientific Data. Otros autores incluyen a Edward J. Beard de la Universidad de Cambridge, y Ganesh Sivaraman y Venkatram Vishwanath del Laboratorio Nacional Argonne.

    Se ha publicado un artículo que detalla su trabajo con materiales magnéticos y superconductores en Materiales computacionales npj . La base de datos de materiales de la batería que contiene más de 290, 000 registros de datos se han publicado en Datos científicos .


    © Ciencia https://es.scienceaq.com