El lenguaje Crystal permite a la IA diseñar materiales novedosos con las propiedades deseadas
Figura 1. La analogía entre SONRISAS y REBANADAS. Crédito:Hang Xiao
Durante la última década, los modelos generativos de aprendizaje profundo se han aplicado con éxito al diseño de nuevas moléculas de fármacos, rutas de síntesis orgánica y moléculas funcionales adaptadas a dispositivos electrónicos/optoelectrónicos. Esto se debe en gran medida a la disponibilidad de la representación SMILES para moléculas, una representación invertible e invariante muy adecuada para modelos de procesamiento del lenguaje natural como redes neuronales recurrentes, transformadores, etc.
Sin embargo, diseñar sólidos inorgánicos cristalinos con las propiedades deseadas sigue siendo un desafío formidable. Esto se debe principalmente a la falta de una representación cristalina "equivalente a SMILES" para unir materiales periódicos de estado sólido y arquitecturas de aprendizaje profundo de última generación.
Los métodos anteriores para el diseño de cristales inversos se basaban principalmente en cuadrículas de vóxeles 3D o coordenadas espaciales absolutas para representar estructuras. Pero estos enfoques carecen intrínsecamente de invariancia rotacional. También hay intentos de utilizar gráficos cristalinos, que son invariantes pero no invertibles debido a la ausencia de información explícita sobre periodicidad o composición. Para abordar este desafío, propusimos una nueva representación de cristal llamada SLICES. El estudio se publica en la revista Nature Communications. .
La idea central detrás de SLICES
La motivación clave detrás del desarrollo de SLICES es crear una representación cristalina que sea invertible e invariante, análoga a la representación SMILES utilizada ampliamente para el diseño molecular inverso (Figura 1). La invertibilidad significa que la representación se puede convertir sin ambigüedades a la estructura cristalina original. Esto es esencial para que los modelos generativos realicen un diseño inverso, donde los modelos crean nuevas estructuras cristalinas que se decodifican a partir de la representación.
La invariancia indica que la representación permanece sin cambios bajo traslaciones, rotaciones y permutaciones de la estructura cristalina. Satisfacer las invariancias permite que la representación se centre exclusivamente en codificar la información topológica y compositiva esencial de un sistema en lugar de características superficiales que cambian bajo las transformaciones. Esto reduce la redundancia y mejora la eficiencia del aprendizaje.
Al satisfacer la invertibilidad y las invariancias, SLICES permite la exploración eficiente del vasto espacio de compuestos químicos para materiales cristalinos utilizando modelos generativos profundos.
Cómo SLICES representa los cristales
Conceptualmente, SLICES codifica la topología y composición de estructuras cristalinas en cadenas, de forma muy similar a como SMILES convierte gráficos moleculares en notaciones lineales. Más específicamente, SLICES aprovecha el concepto matemático de "gráficos de cocientes etiquetados" para representar estructuras cristalinas periódicas. Los átomos y enlaces dentro de una celda unitaria se asignan a nodos y bordes del gráfico de cociente. Se asignan etiquetas adicionales a los bordes que indican los vectores de desplazamiento periódicos necesarios para conectar átomos equivalentes en celdas unitarias vecinas.
Un ejemplo es la estructura cristalina del diamante (Figura 1), que contiene dos átomos de carbono unidos en la celda unitaria primitiva. La cadena SLICES codifica explícitamente los símbolos atómicos "C" y la etiqueta de borde "001" que denota el enlace periódico que se propaga a lo largo de la dirección [001]. Al analizar la cadena SLICES, se pueden obtener tanto la composición como la conectividad de la estructura del diamante.
En particular, SLICES solo codifica información de topología y composición. Atributos como coordenadas atómicas y parámetros de red no están integrados explícitamente. Esto hace que SLICES sea invariante a traslaciones, rotaciones y permutaciones de índices atómicos por diseño.