La inteligencia artificial se está convirtiendo en una herramienta fundamental en la investigación química, ofreciendo métodos novedosos para abordar desafíos complejos con los que luchan los enfoques tradicionales. Un subtipo de inteligencia artificial que se ha utilizado cada vez más en química es el aprendizaje automático, que utiliza algoritmos y modelos estadísticos para tomar decisiones basadas en datos y realizar tareas para las que no ha sido programada explícitamente.
Sin embargo, para hacer predicciones fiables, el aprendizaje automático también exige grandes cantidades de datos, que no siempre están disponibles en la investigación química. Los conjuntos de datos químicos pequeños simplemente no proporcionan suficiente información para que estos algoritmos se entrenen, lo que limita su eficacia.
Los científicos del equipo de Berend Smit en la EPFL han encontrado una solución en modelos de lenguaje grandes como GPT-3. Esos modelos están previamente entrenados en cantidades masivas de textos y son conocidos por sus amplias capacidades para comprender y generar textos similares a los humanos. GPT-3 forma la base de ChatGPT, la inteligencia artificial más popular.
El estudio, publicado en Nature Machine Intelligence , revela un enfoque novedoso que simplifica significativamente el análisis químico utilizando inteligencia artificial. Contrariamente al escepticismo inicial, el método no plantea directamente cuestiones químicas sobre el GPT-3.
"GPT-3 no ha visto la mayor parte de la literatura química, por lo que si le hacemos a ChatGPT una pregunta química, las respuestas generalmente se limitan a lo que se puede encontrar en Wikipedia", dice Kevin Jablonka, investigador principal del estudio.
"En lugar de eso, ajustamos GPT-3 con un pequeño conjunto de datos convertidos en preguntas y respuestas, creando un nuevo modelo capaz de proporcionar información química precisa".
Este proceso implica proporcionar a GPT-3 una lista seleccionada de preguntas y respuestas. "Por ejemplo, para las aleaciones de alta entropía, es importante saber si una aleación se presenta en una sola fase o tiene múltiples fases", dice Smit. "La lista seleccionada de preguntas y respuestas es del tipo:P='¿Es (nombre de la aleación de alta entropía) monofásico?' A='Sí/No'".
Continúa:"En la literatura, hemos encontrado muchas aleaciones cuya respuesta se conoce, y utilizamos estos datos para ajustar GPT-3. Lo que obtenemos es un modelo de IA refinado que está entrenado para responder solo a esta pregunta. con un sí o un no."
En las pruebas, el modelo, entrenado con relativamente pocas preguntas y respuestas, respondió correctamente a más del 95% de problemas químicos muy diversos, superando a menudo la precisión de los modelos de aprendizaje automático de última generación. "La cuestión es que esto es tan fácil como hacer una búsqueda bibliográfica, lo que funciona para muchos problemas químicos", dice Smit.
Uno de los aspectos más llamativos de este estudio es su sencillez y rapidez. Los modelos tradicionales de aprendizaje automático requieren meses para desarrollarse y exigen un amplio conocimiento. Por el contrario, el método desarrollado por Jablonka dura cinco minutos y no requiere ningún conocimiento.
Las implicaciones del estudio son profundas. Introduce un método tan sencillo como realizar una búsqueda bibliográfica, aplicable a diversos problemas químicos. La capacidad de formular preguntas como "¿Es alto el rendimiento de un [químico] elaborado con esta (receta)?" y recibir respuestas precisas puede revolucionar la forma en que se planifica y lleva a cabo la investigación química.
En el artículo, los autores dicen:"Además de una búsqueda bibliográfica, consultar un modelo fundamental (por ejemplo, GPT-3,4) podría convertirse en una forma rutinaria de iniciar un proyecto aprovechando el conocimiento colectivo codificado en estos modelos fundamentales". O, como lo expresa sucintamente Smit, "Esto va a cambiar la forma en que hacemos química".
Más información: Kevin Maik Jablonka, ¿Es GPT todo lo que necesita para el descubrimiento de datos bajos en química?, Nature Machine Intelligence (2024). DOI:10.1038/s42256-023-00788-1
Información de la revista: Inteligencia de la máquina natural
Proporcionado por Ecole Polytechnique Federale de Lausanne