Los investigadores construyen una IA que descubre enzimas
Residuos de aminoácidos resaltados por la red neuronal DeepECtransformer. Crédito:Comunicaciones de la naturaleza (2023). DOI:10.1038/s41467-023-43216-z
Si bien E. coli es uno de los organismos más estudiados, aún no se ha revelado claramente la función del 30% de las proteínas que componen E. coli. Para ello, se utilizó una inteligencia artificial para descubrir 464 tipos de enzimas a partir de proteínas que se desconocían, y los investigadores verificaron las predicciones de tres tipos de proteínas que fueron identificadas con éxito mediante ensayos enzimáticos in vitro.
Un equipo de investigación conjunto, que incluye a Gi Bae Kim, Ji Yeon Kim, el Dr. Jong An Lee y el Distinguido Profesor Sang Yup Lee del Departamento de Ingeniería Química y Biomolecular del KAIST, y el Dr. Charles J. Norsigian y el Profesor Bernhard O. Palsson de El Departamento de Bioingeniería de la UCSD ha desarrollado DeepECtransformer, una inteligencia artificial que puede predecir las funciones enzimáticas a partir de la secuencia de proteínas. Además, el equipo ha establecido un sistema de predicción mediante la utilización de IA para identificar de forma rápida y precisa la función de la enzima.
El trabajo del equipo se describe en el artículo titulado "Anotación funcional de genes codificadores de enzimas mediante aprendizaje profundo con capas transformadoras". El artículo fue publicado el 14 de noviembre en Nature Communications. .
Las enzimas son proteínas que catalizan reacciones biológicas e identificar la función de cada enzima es esencial para comprender las diversas reacciones químicas que existen en los organismos vivos y las características metabólicas de esos organismos.
El número de la Comisión de Enzimas (CE) es un sistema de clasificación de funciones enzimáticas diseñado por la Unión Internacional de Bioquímica y Biología Molecular, y para comprender las características metabólicas de varios organismos, es necesario desarrollar una tecnología que pueda analizar rápidamente las enzimas y los números CE. de las enzimas presentes en el genoma.
Se han desarrollado varias metodologías basadas en el aprendizaje profundo para analizar las características de las secuencias biológicas, incluida la predicción de la función de las proteínas, pero la mayoría de ellas tienen el problema de una caja negra, donde el proceso de inferencia de la IA no se puede interpretar.
También se han informado varios sistemas de predicción que utilizan IA para la predicción de la función enzimática, pero no resuelven este problema de caja negra o no pueden interpretar el proceso de razonamiento a un nivel detallado (por ejemplo, el nivel de residuos de aminoácidos en la secuencia de la enzima). ).