Un nuevo modelo desarrollado por investigadores del MIT crea representaciones más fáciles de calcular de cómo los aminoácidos individuales determinan la función de una proteína, que podría usarse para diseñar y probar nuevas proteínas. Crédito:Instituto de Tecnología de Massachusetts
Un modelo de aprendizaje automático de investigadores del MIT analiza computacionalmente cómo los segmentos de cadenas de aminoácidos determinan la función de una proteína, lo que podría ayudar a los investigadores a diseñar y probar nuevas proteínas para el desarrollo de fármacos o la investigación biológica.
Las proteínas son cadenas lineales de aminoácidos, conectados por enlaces peptídicos, que se pliegan en estructuras tridimensionales extremadamente complejas, dependiendo de la secuencia y las interacciones físicas dentro de la cadena. Esa estructura, Sucesivamente, determina la función biológica de la proteína. Conocer la estructura tridimensional de una proteína, por lo tanto, es valioso para, decir, predecir cómo las proteínas pueden responder a ciertos medicamentos.
Sin embargo, a pesar de décadas de investigación y el desarrollo de múltiples técnicas de imagen, conocemos sólo una fracción muy pequeña de las posibles estructuras proteicas:decenas de miles de millones. Los investigadores están comenzando a utilizar modelos de aprendizaje automático para predecir las estructuras de proteínas en función de sus secuencias de aminoácidos. lo que podría permitir el descubrimiento de nuevas estructuras proteicas. Pero esto es un desafío ya que diversas secuencias de aminoácidos pueden formar estructuras muy similares. Y no hay muchas estructuras sobre las que entrenar los modelos.
En un documento presentado en la Conferencia Internacional sobre Representaciones del Aprendizaje en mayo, Los investigadores del MIT desarrollan un método para "aprender" representaciones fácilmente computables de cada posición de aminoácido en una secuencia de proteínas. inicialmente utilizando la estructura de la proteína 3-D como guía de entrenamiento. Luego, los investigadores pueden usar esas representaciones como entradas que ayuden a los modelos de aprendizaje automático a predecir las funciones de los segmentos de aminoácidos individuales, sin necesitar nunca más datos sobre la estructura de la proteína.
En el futuro, el modelo podría usarse para mejorar la ingeniería de proteínas, dando a los investigadores la oportunidad de concentrarse mejor y modificar segmentos de aminoácidos específicos. El modelo incluso podría alejar a los investigadores de la predicción de la estructura de las proteínas por completo.
"Quiero marginar la estructura, "dice el primer autor Tristan Bepler, estudiante de posgrado en el grupo de Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). "Queremos saber qué hacen las proteínas, y conocer la estructura es importante para eso. Pero, ¿podemos predecir la función de una proteína dada solo su secuencia de aminoácidos? La motivación es alejarse de las estructuras específicas de predicción, y avanzar hacia [encontrar] cómo las secuencias de aminoácidos se relacionan con la función ".
Junto a Bepler está la coautora Bonnie Berger, el profesor Simons de matemáticas en el MIT con un puesto de profesor conjunto en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, y jefe del grupo de Computación y Biología.
Aprendiendo de la estructura
En lugar de predecir la estructura directamente, como lo intentan los modelos tradicionales, los investigadores codificaron la información estructural de la proteína predicha directamente en representaciones. Para hacerlo utilizan similitudes estructurales conocidas de proteínas para supervisar su modelo, a medida que el modelo aprende las funciones de aminoácidos específicos.
Entrenaron su modelo en unos 22, 000 proteínas de la base de datos de Clasificación Estructural de Proteínas (SCOP), que contiene miles de proteínas organizadas en clases por similitudes de estructuras y secuencias de aminoácidos. Para cada par de proteínas, calcularon una puntuación de similitud real, es decir, qué tan cerca están en estructura, basado en su clase SCOP.
Luego, los investigadores alimentaron su modelo de pares aleatorios de estructuras de proteínas y sus secuencias de aminoácidos. que fueron convertidos en representaciones numéricas llamadas incrustaciones por un codificador. En el procesamiento del lenguaje natural, Las incrustaciones son esencialmente tablas de varios cientos de números combinados de una manera que corresponde a una letra o palabra en una oración. Las dos incrustaciones más similares son, es más probable que las letras o palabras aparezcan juntas en una oración.
En el trabajo de los investigadores, cada incrustación en el par contiene información sobre qué tan similar es cada secuencia de aminoácidos a la otra. El modelo alinea las dos incrustaciones y calcula una puntuación de similitud para luego predecir qué tan similares serán sus estructuras tridimensionales. Luego, el modelo compara su puntaje de similitud pronosticado con el puntaje de similitud real del SCOP para su estructura, y envía una señal de retroalimentación al codificador.
Simultaneamente, el modelo predice un "mapa de contacto" para cada inserción, que básicamente dice qué tan lejos está cada aminoácido de todos los demás en la estructura 3-D predicha de la proteína, esencialmente, ¿hacen contacto o no? El modelo también compara su mapa de contacto previsto con el mapa de contacto conocido de SCOP, y envía una señal de retroalimentación al codificador. Esto ayuda al modelo a aprender mejor dónde se encuentran exactamente los aminoácidos en la estructura de una proteína, que actualiza aún más la función de cada aminoácido.
Básicamente, los investigadores entrenan su modelo pidiéndole que prediga si las incrustaciones de secuencias emparejadas compartirán o no una estructura de proteína SCOP similar. Si la puntuación prevista del modelo se acerca a la puntuación real, sabe que va por buen camino; que no, se ajusta.
Diseño de proteínas
En el final, para una cadena de aminoácidos introducida, el modelo producirá una representación numérica, o incrustado, para cada posición de aminoácido en una estructura 3-D. Los modelos de aprendizaje automático pueden usar esas incrustaciones de secuencias para predecir con precisión la función de cada aminoácido en función de su "contexto" estructural tridimensional predicho:su posición y contacto con otros aminoácidos.
Por ejemplo, los investigadores utilizaron el modelo para predecir qué segmentos, Si alguna, pasar a través de la membrana celular. Dada solo una secuencia de aminoácidos, El modelo de los investigadores predijo todos los segmentos transmembrana y no transmembrana con mayor precisión que los modelos más avanzados.
"El trabajo de Bepler y Berger es un avance significativo en la representación de las propiedades estructurales locales de una secuencia de proteínas, "dice Serafim Batzoglou, profesor de informática en la Universidad de Stanford. "La representación se aprende utilizando métodos de aprendizaje profundo de última generación, que han logrado grandes avances en la predicción de la estructura de proteínas en sistemas como RaptorX y AlphaFold. Este trabajo tiene la máxima aplicación en la salud humana y la farmacogenómica, ya que facilita la detección de mutaciones deletéreas que alteran las estructuras de las proteínas ".
Próximo, los investigadores tienen como objetivo aplicar el modelo a más tareas de predicción, como averiguar qué segmentos de secuencia se unen a moléculas pequeñas, que es fundamental para el desarrollo de fármacos. También están trabajando en el uso del modelo para el diseño de proteínas. Usando sus incrustaciones de secuencia, ellos pueden predecir, decir, en qué longitudes de onda de color emitirá fluorescencia una proteína.
"Nuestro modelo nos permite transferir información de estructuras proteicas conocidas a secuencias con estructura desconocida. Usando nuestras incrustaciones como características, podemos predecir mejor la función y permitir un diseño de proteínas basado en datos más eficiente, ", Dice Bepler." A un alto nivel, ese tipo de ingeniería de proteínas es el objetivo ".
Berger agrega:"Nuestros modelos de aprendizaje automático nos permiten aprender el 'lenguaje' del plegamiento de proteínas, uno de los problemas originales del 'Santo Grial', a partir de un número relativamente pequeño de estructuras conocidas".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.