Crédito:Angewandte Chemie
Las bases de datos que contienen grandes cantidades de datos experimentales están disponibles para los investigadores en una amplia variedad de disciplinas químicas. Sin embargo, un equipo de investigadores descubrió que los datos disponibles no logran predecir los rendimientos de nuevas síntesis utilizando inteligencia artificial (IA) y aprendizaje automático. Su estudio publicado en la revista Angewandte Chemie International Edition sugiere que esto se debe en gran parte a la tendencia de los científicos a no informar sobre experimentos fallidos.
Aunque los modelos basados en IA han sido particularmente exitosos en la predicción de estructuras moleculares y propiedades de los materiales, arrojan predicciones bastante inexactas para la información relacionada con el rendimiento de los productos en síntesis, como descubrieron Frank Glorius y su equipo de investigadores en Westfälische Wilhelms-Universität Münster, Alemania. .
Los investigadores atribuyen esta falla a los datos utilizados para entrenar los sistemas de IA. "Curiosamente, la predicción de los rendimientos de las reacciones (reactividad) es mucho más desafiante que la predicción de las propiedades moleculares. Los reactivos, las cantidades, las condiciones, la ejecución experimental, todo determina el rendimiento y, por lo tanto, el problema de la predicción del rendimiento se convierte en un problema de datos. -intensivo", explica Glorius. Entonces, a pesar de la gran cantidad de literatura y resultados disponibles, los investigadores se dieron cuenta de que los datos no son aptos para realizar predicciones precisas del rendimiento esperado.
El problema no se debe sólo a la falta de experimentos. Por el contrario, el equipo identificó tres posibles causas de datos sesgados. En primer lugar, los resultados de las síntesis químicas pueden ser erróneos debido a errores experimentales. En segundo lugar, cuando los químicos planifican sus experimentos, pueden, consciente o inconscientemente, introducir sesgos basados en la experiencia personal y la confianza en métodos bien establecidos. Finalmente, dado que se cree que solo las reacciones con un resultado positivo contribuyen al progreso, las reacciones fallidas se informan con menos frecuencia.
Para averiguar cuál de estos tres factores tuvo la mayor influencia, Glorius y el equipo alteraron deliberadamente los conjuntos de datos para cuatro reacciones orgánicas diferentes, de uso común (y, por lo tanto, ricas en datos). Aumentaron artificialmente el error experimental, redujeron el tamaño de los conjuntos de muestreo de datos o eliminaron los resultados negativos de los datos. Sus investigaciones demostraron que el error experimental tenía la menor influencia en el modelo, mientras que la contribución de la falta de resultados negativos fue fundamental.
El grupo espera que estos hallazgos alienten a los científicos a informar siempre sobre los experimentos fallidos, así como sobre sus éxitos. Esto mejoraría la disponibilidad de datos para entrenar la IA y, en última instancia, ayudaría a acelerar la planificación y hacer que la experimentación sea más eficiente. Glorius agrega que "el aprendizaje automático en química (molecular) aumentará drásticamente la eficiencia y se necesitarán menos reacciones para lograr un objetivo determinado, por ejemplo, una optimización. Esto empoderará a los químicos y los ayudará a realizar procesos químicos, y el mundo, más sostenible". Los químicos usan la energía de la luz para producir pequeños anillos moleculares