Los investigadores del MIT han desarrollado un modelo de aprendizaje automático que selecciona mejor las moléculas candidatas para la terapéutica, al mismo tiempo que permite la modificación automatizada de la estructura molecular para una mayor potencia. La innovación tiene potencial para acelerar el desarrollo de fármacos. Crédito:Instituto de Tecnología de Massachusetts
El diseño de nuevas moléculas para productos farmacéuticos es principalmente un manual, proceso lento que es propenso a errores. Pero los investigadores del MIT ahora han dado un paso hacia la automatización completa del proceso de diseño, lo que podría acelerar drásticamente las cosas y producir mejores resultados.
El descubrimiento de fármacos se basa en la optimización de clientes potenciales. En este proceso, los químicos seleccionan una molécula objetivo ("principal") con potencial conocido para combatir una enfermedad específica, luego modifique sus propiedades químicas para una mayor potencia y otros factores.
A menudo, los químicos utilizan conocimientos expertos y realizan ajustes manuales de moléculas, sumando y restando grupos funcionales (átomos y enlaces responsables de reacciones químicas específicas) uno por uno. Incluso si utilizan sistemas que predicen propiedades químicas óptimas, los químicos todavía necesitan realizar cada paso de modificación ellos mismos. Esto puede llevar horas para cada iteración y es posible que aún no produzca un candidato a fármaco válido.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) y del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) han desarrollado un modelo que selecciona mejor las moléculas de plomo candidatas en función de las propiedades deseadas. También modifica la estructura molecular necesaria para lograr una mayor potencia, mientras se asegura que la molécula siga siendo químicamente válida.
Básicamente, el modelo toma como entrada datos de la estructura molecular y crea directamente gráficos moleculares:representaciones detalladas de una estructura molecular, con nodos que representan átomos y aristas que representan enlaces. Divide esos gráficos en grupos más pequeños de grupos funcionales válidos que utiliza como "bloques de construcción" que le ayudan a reconstruir con mayor precisión y modificar mejor las moléculas.
"La motivación detrás de esto fue reemplazar el ineficiente proceso de modificación humana de diseñar moléculas con iteración automatizada y asegurar la validez de las moléculas que generamos, "dice Wengong Jin, un doctorado estudiante de CSAIL y autor principal de un artículo que describe el modelo que se presentará en la Conferencia Internacional de Aprendizaje Automático de 2018 en julio.
Junto a Jin en el papel están Regina Barzilay, el profesor de electrónica de Delta en CSAIL y EECS y Tommi S. Jaakkola, el Profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en CSAIL, EECS, y en el Institute for Data, Sistemas y Sociedad.
La investigación se llevó a cabo como parte del Consorcio de Aprendizaje Automático para el Descubrimiento y la Síntesis de Productos Farmacéuticos entre el MIT y ocho compañías farmacéuticas. anunció en mayo. El consorcio identificó la optimización de clientes potenciales como un desafío clave en el descubrimiento de fármacos.
"Hoy dia, es realmente un oficio, que requiere muchos químicos expertos para tener éxito, y eso es lo que queremos mejorar, "Dice Barzilay." El siguiente paso es llevar esta tecnología de la academia para usarla en casos reales de diseño farmacéutico, y demostrar que puede ayudar a los químicos humanos a realizar su trabajo, lo que puede ser un desafío ".
"La automatización del proceso también presenta nuevos desafíos de aprendizaje automático, "Dice Jaakkola." Aprender a relacionarse, modificar, y generar gráficos moleculares impulsa nuevas ideas y métodos técnicos ".
Generando gráficos moleculares
Los sistemas que intentan automatizar el diseño de moléculas han surgido en los últimos años, pero su problema es la validez. Esos sistemas, Jin dice:a menudo generan moléculas que no son válidas según las reglas químicas, y no producen moléculas con propiedades óptimas. Esto esencialmente hace inviable la automatización completa del diseño de moléculas.
Estos sistemas funcionan con notaciones lineales de moléculas, llamados "sistemas simplificados de entrada de línea de entrada molecular, "o SONRISAS, donde largas hileras de letras, números, y los símbolos representan átomos o enlaces individuales que pueden ser interpretados por software de computadora. A medida que el sistema modifica una molécula de plomo, expande su representación de cadena símbolo por símbolo, átomo por átomo, y enlace por enlace, hasta que genera una cadena SMILES final con mayor potencia de una propiedad deseada. En el final, el sistema puede producir una cadena SMILES final que parece válida bajo la gramática SMILES, pero en realidad no es válido.
Los investigadores resuelven este problema construyendo un modelo que se ejecuta directamente en gráficos moleculares, en lugar de cadenas de SONRISAS, que se puede modificar de manera más eficiente y precisa.
La potencia del modelo es un autocodificador variacional personalizado:una red neuronal que "codifica" una molécula de entrada en un vector, que es básicamente un espacio de almacenamiento para los datos estructurales de la molécula, y luego "decodifica" ese vector en un gráfico que coincide con la molécula de entrada.
En la fase de codificación, el modelo divide cada gráfico molecular en grupos, o "subgrafos, "cada uno de los cuales representa un bloque de construcción específico. Dichos clústeres se construyen automáticamente mediante un concepto común de aprendizaje automático, llamado descomposición de árboles, donde un gráfico complejo se asigna a una estructura de árbol de grupos, "lo que proporciona un andamio del gráfico original, "Dice Jin.
Tanto la estructura del árbol de andamio como la estructura del gráfico molecular están codificadas en sus propios vectores, donde las moléculas se agrupan por similitud. Esto facilita la búsqueda y modificación de moléculas.
En la fase de decodificación, el modelo reconstruye el gráfico molecular de una manera "gruesa a fina", aumentando gradualmente la resolución de una imagen de baja resolución para crear una versión más refinada. Primero genera el andamio estructurado en árbol, y luego ensambla los grupos asociados (nodos en el árbol) en un gráfico molecular coherente. Esto asegura que el gráfico molecular reconstruido sea una réplica exacta de la estructura original.
Para la optimización de clientes potenciales, el modelo puede modificar las moléculas de plomo basándose en una propiedad deseada. Lo hace con la ayuda de un algoritmo de predicción que puntúa cada molécula con un valor de potencia de esa propiedad. En el papel, por ejemplo, los investigadores buscaron moléculas con una combinación de dos propiedades:alta solubilidad y accesibilidad sintética.
Dada una propiedad deseada, el modelo optimiza una molécula líder mediante el uso del algoritmo de predicción para modificar su vector y, por lo tanto, estructura:editando los grupos funcionales de la molécula para lograr una puntuación de potencia más alta. Repite este paso para múltiples iteraciones, hasta que encuentre la puntuación de potencia predicha más alta. Luego, el modelo finalmente decodifica una nueva molécula del vector actualizado, con estructura modificada, compilando todos los clústeres correspondientes.
Válido y más potente
Los investigadores entrenaron su modelo en 250, 000 gráficos moleculares de la base de datos ZINC, una colección de estructuras moleculares tridimensionales disponibles para uso público. Probaron el modelo en tareas para generar moléculas válidas, encontrar las mejores moléculas de plomo, y diseñar moléculas novedosas con potencias crecientes.
En la primera prueba, El modelo de los investigadores generó moléculas 100 por ciento químicamente válidas a partir de una distribución de muestra, en comparación con los modelos SMILES que generaron un 43 por ciento de moléculas válidas de la misma distribución.
La segunda prueba involucró dos tareas. Primero, el modelo buscó en toda la colección de moléculas para encontrar la mejor molécula líder para las propiedades deseadas:solubilidad y accesibilidad sintética. En esa tarea, el modelo encontró una molécula de plomo con un 30 por ciento más de potencia que los sistemas tradicionales. La segunda tarea implicó modificar 800 moléculas para una mayor potencia, pero son estructuralmente similares a la molécula de plomo. Al hacerlo, el modelo creó nuevas moléculas, se asemeja mucho a la estructura del cliente potencial, promediando una mejora de más del 80 por ciento en la potencia.
A continuación, los investigadores tienen como objetivo probar el modelo en más propiedades, más allá de la solubilidad, que son más relevantes desde el punto de vista terapéutico. Ese, sin embargo, requiere más datos. "Las empresas farmacéuticas están más interesadas en propiedades que luchan contra objetivos biológicos, pero tienen menos datos sobre ellos. Un desafío es desarrollar un modelo que pueda funcionar con una cantidad limitada de datos de entrenamiento, "Dice Jin.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.