Las cadenas de aminoácidos se pliegan en proteínas. Crédito:LadyofHats/Wikimedia Commons
Todos los organismos vivos utilizan proteínas, que abarcan un gran número de moléculas complejas. Realizan una amplia gama de funciones, desde permitir que las plantas usen la energía solar para producir oxígeno hasta ayudar a su sistema inmunológico a luchar contra los patógenos y permitir que sus músculos realicen trabajo físico. Muchos medicamentos también se basan en proteínas.
Sin embargo, para muchas áreas de investigación biomédica y desarrollo de fármacos, no existen proteínas naturales que puedan servir como puntos de partida adecuados para construir nuevas proteínas. Los investigadores que diseñaron nuevos medicamentos para prevenir la infección por COVID-19, o desarrollaron proteínas que pueden activar o desactivar genes o convertir células en computadoras, tuvieron que crear nuevas proteínas desde cero.
Este proceso de diseño de proteínas de novo puede ser difícil de hacer bien. Los ingenieros de proteínas como yo hemos estado tratando de descubrir formas de diseñar nuevas proteínas de manera más eficiente y precisa con las propiedades que necesitamos.
Afortunadamente, una forma de inteligencia artificial llamada aprendizaje profundo puede proporcionar una forma elegante de crear proteínas que no existían antes:la alucinación.
Diseñando proteínas desde cero
Las proteínas se componen de cientos a miles de bloques de construcción más pequeños llamados aminoácidos. Estos aminoácidos están conectados entre sí en largas cadenas que se pliegan para formar una proteína. El orden en el que estos aminoácidos están conectados entre sí determina la estructura y función únicas de cada proteína.
El mayor desafío al que se enfrentan los ingenieros de proteínas cuando diseñan nuevas proteínas es encontrar una estructura proteica que realice la función deseada. Para solucionar este problema, los investigadores suelen crear plantillas de diseño basadas en proteínas naturales con una función similar. Estas plantillas tienen instrucciones sobre cómo crear los pliegues únicos de cada proteína en particular. Sin embargo, debido a que se debe crear una plantilla para cada pliegue individual, esta estrategia lleva mucho tiempo, requiere mucho trabajo y está limitada por las proteínas disponibles en la naturaleza.
En los últimos años, varios grupos de investigación, incluido el laboratorio en el que trabajo, han desarrollado una serie de redes neuronales profundas dedicadas:programas informáticos que utilizan múltiples capas de procesamiento para "aprender" de los datos de entrada para hacer predicciones sobre un resultado deseado.
Cuando el resultado deseado es una nueva proteína, se colocan en la red millones de parámetros que describen diferentes facetas de una proteína. Lo que se predice es una secuencia de aminoácidos elegida al azar mapeada en la estructura 3D más probable que tomaría esa secuencia.
Las predicciones de red para una secuencia aleatoria de aminoácidos son borrosas, lo que significa que la estructura final de la proteína no es muy clara, mientras que tanto las proteínas naturales como las creadas desde cero producen estructuras proteicas mucho más definidas.
Alucinando nuevas proteínas
Estas observaciones apuntan a una forma en que se pueden generar nuevas proteínas desde cero:ajustando entradas aleatorias a la red hasta que las predicciones produzcan una estructura bien definida.
El método de generación de proteínas que desarrollamos mis colegas y yo es conceptualmente similar a los métodos de visión por computadora como DeepDream de Google, que encuentra y mejora los patrones en las imágenes.
Estos métodos funcionan tomando redes entrenadas para reconocer rostros humanos u otros patrones en imágenes, como la forma de un animal o un objeto, e invirtiéndolas para que aprendan a reconocer estos patrones donde no existen. En DeepDream, por ejemplo, la red recibe imágenes de entrada arbitrarias que se ajustan hasta que la red puede reconocer una cara o alguna otra forma en la imagen. Si bien la imagen final no se parece mucho a una cara para una persona que la mira, lo sería para la red neuronal.
Los productos de esta técnica a menudo se denominan alucinaciones, y así es como llamamos también a nuestras proteínas diseñadas.
Nuestro método comienza pasando una secuencia aleatoria de aminoácidos a través de una red neuronal profunda. Las predicciones resultantes son inicialmente borrosas, con estructuras poco claras, como se esperaba de las secuencias aleatorias. A continuación, introducimos una mutación que cambia un aminoácido de la cadena por otro diferente y pasa esta nueva secuencia a través de la red nuevamente. Si este cambio le da a la proteína una estructura más definida, mantenemos el aminoácido e introducimos otra mutación en la secuencia.
Con cada repetición de este proceso, las proteínas se acercan cada vez más a la forma real que tendrían si se produjeran en la naturaleza. Se requieren miles de repeticiones para crear una proteína completamente nueva.
Usando este proceso, generamos 2000 nuevas secuencias de proteínas que se predijo que se doblarían en estructuras bien definidas. De estos, seleccionamos más de 100 que tenían la forma más distinta para recrear físicamente en el laboratorio. Finalmente, elegimos tres de los principales candidatos para un análisis detallado y confirmamos que coincidían mucho con las formas predichas por nuestros modelos alucinados.
¿Por qué alucinar nuevas proteínas?
Nuestro enfoque de alucinaciones simplifica enormemente la tubería de diseño de proteínas. Al eliminar la necesidad de plantillas, los investigadores pueden enfocarse directamente en crear una proteína basada en las funciones deseadas y dejar que la red se encargue de descubrir la estructura para ellas.
Nuestro trabajo abre múltiples caminos para que los investigadores exploren. Nuestro laboratorio está investigando actualmente cómo utilizar mejor este enfoque de alucinación para generar aún más especificidad en la función de las proteínas diseñadas. Nuestro enfoque también se puede ampliar fácilmente para diseñar nuevas proteínas utilizando otras redes neuronales profundas desarrolladas recientemente.
Las aplicaciones potenciales de las proteínas de novo son muy amplias. Con redes neuronales profundas, los investigadores podrán crear aún más proteínas que pueden descomponer los plásticos para reducir la contaminación ambiental, identificar y responder a las células no saludables y mejorar las vacunas contra los patógenos existentes y nuevos, solo por nombrar algunos.