La IA servirá para desarrollar un sistema de control de red que no solo detecta y reacciona ante problemas, sino que también puede predecirlos y evitarlos. Crédito:CC0 Public Domain
Los investigadores del MIT han desarrollado un sistema criptográfico que podría ayudar a las redes neuronales a identificar candidatos a fármacos prometedores en conjuntos de datos farmacológicos masivos. manteniendo la privacidad de los datos. La computación segura realizada a una escala tan masiva podría permitir una amplia combinación de datos farmacológicos sensibles para el descubrimiento predictivo de fármacos.
Conjuntos de datos de interacciones fármaco-objetivo (DTI), que muestran si los compuestos candidatos actúan sobre las proteínas diana, son fundamentales para ayudar a los investigadores a desarrollar nuevos medicamentos. Los modelos se pueden entrenar para procesar conjuntos de datos de DTI conocidos y luego, usando esa información, encontrar nuevos candidatos a fármacos.
En años recientes, empresas farmacéuticas, universidades y otras entidades se han abierto a agrupar datos farmacológicos en bases de datos más grandes que pueden mejorar en gran medida el entrenamiento de estos modelos. Debido a cuestiones de propiedad intelectual y otras preocupaciones de privacidad, sin embargo, estos conjuntos de datos siguen siendo de alcance limitado. Los métodos de criptografía para proteger los datos son tan intensivos en computación que no escalan bien a conjuntos de datos más allá, decir, decenas de miles de DTI, que es relativamente pequeño.
En un artículo publicado en Ciencias , Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) describen una red neuronal entrenada y probada de forma segura en un conjunto de datos de más de un millón de DTI. La red aprovecha las herramientas criptográficas modernas y las técnicas de optimización para mantener la privacidad de los datos de entrada. mientras se ejecuta de forma rápida y eficiente a escala.
Los experimentos del equipo muestran que la red funciona más rápido y con mayor precisión que los enfoques existentes; puede procesar conjuntos de datos masivos en días, mientras que otros marcos criptográficos tardarían meses. Es más, la red identificó varias interacciones novedosas, incluido uno entre el medicamento contra la leucemia imatinib y una enzima ErbB4, cuyas mutaciones se han asociado con el cáncer, que podría tener importancia clínica.
"Las personas se dan cuenta de que necesitan agrupar sus datos para acelerar en gran medida el proceso de descubrimiento de fármacos y permitirnos, juntos, para lograr avances científicos en la solución de importantes enfermedades humanas, como cáncer o diabetes. Pero no tienen buenas formas de hacerlo, "dice la autora correspondiente Bonnie Berger, el Profesor Simons de Matemáticas e investigador principal en CSAIL. "Con este trabajo, proporcionamos una forma para que estas entidades agrupen y analicen sus datos de manera eficiente a gran escala ".
Junto a Berger en el artículo están los coautores Brian Hie y Hyunghoon Cho, tanto estudiantes graduados en ingeniería eléctrica e informática como investigadores del grupo de Computación y Biología de CSAIL.
Datos de "uso compartido secreto"
El nuevo artículo se basa en trabajos anteriores de los investigadores para proteger la confidencialidad del paciente en estudios genómicos, que encuentran vínculos entre variantes genéticas particulares y la incidencia de enfermedades. Que los datos genómicos podrían potencialmente revelar información personal, por lo que los pacientes pueden mostrarse reacios a inscribirse en los estudios. En ese trabajo, Berger, Cho, y un ex Ph.D. de la Universidad de Stanford. El estudiante desarrolló un protocolo basado en un marco de criptografía llamado "intercambio secreto, "que analiza de forma segura y eficiente conjuntos de datos de un millón de genomas. Por el contrario, las propuestas existentes podrían manejar solo unos pocos miles de genomas.
El uso compartido secreto se utiliza en el cálculo multiparte, donde los datos confidenciales se dividen en "recursos compartidos" separados entre varios servidores. A lo largo de la computación, cada parte siempre tendrá solo su parte de los datos, que parece completamente aleatorio. Colectivamente, sin embargo, los servidores aún pueden comunicarse y realizar operaciones útiles sobre los datos privados subyacentes. Al final del cálculo, cuando se necesita un resultado, las partes combinan sus acciones para revelar el resultado.
"Utilizamos nuestro trabajo anterior como base para aplicar el intercambio secreto al problema de la colaboración farmacológica, pero no funcionó de inmediato, "Dice Berger.
Una innovación clave fue la reducción de la computación necesaria en la formación y las pruebas. Los modelos de descubrimiento de fármacos predictivos existentes representan las estructuras químicas y proteicas de los DTI como gráficos o matrices. Estos enfoques, sin embargo, escalar cuadráticamente, o al cuadrado, con el número de DTI en el conjunto de datos. Básicamente, El procesamiento de estas representaciones se vuelve extremadamente intensivo desde el punto de vista informático a medida que aumenta el tamaño del conjunto de datos. "Si bien eso puede estar bien para trabajar con datos sin procesar, si lo intentas en un cálculo seguro, es inviable "Dice Hie.
En cambio, los investigadores entrenaron una red neuronal que se basa en cálculos lineales, que escalan de manera mucho más eficiente con los datos. "Necesitábamos absolutamente escalabilidad, porque estamos tratando de proporcionar una forma de agrupar datos [en] conjuntos de datos mucho más grandes, "Cho dice.
Los investigadores entrenaron una red neuronal en el conjunto de datos STITCH, que tiene 1,5 millones de DTI, convirtiéndolo en el mayor conjunto de datos disponible públicamente de su tipo. Entrenando, la red codifica cada compuesto de fármaco y estructura de proteína como una simple representación de vector. Esto esencialmente condensa las estructuras complicadas como unos y ceros que una computadora puede procesar fácilmente. De esos vectores, la red entonces aprende los patrones de interacciones y no interacciones. Alimentado con nuevos pares de compuestos y estructuras de proteínas, la red luego predice si interactuarán.
La red también tiene una arquitectura optimizada para la eficiencia y la seguridad. Cada capa de una red neuronal requiere alguna función de activación que determina cómo enviar la información a la siguiente capa. En su red, los investigadores utilizaron una función de activación eficiente llamada unidad lineal rectificada (ReLU). Esta función requiere solo una comparación numérica segura de una interacción para determinar si enviar (1) o no enviar (0) los datos a la siguiente capa, sin revelar nunca nada sobre los datos reales. Esta operación puede ser más eficiente en el cálculo seguro en comparación con funciones más complejas, por lo que reduce la carga computacional al tiempo que garantiza la privacidad de los datos.
"La razón por la que es importante es que queremos hacer esto dentro del marco de intercambio secreto ... y no queremos aumentar la sobrecarga computacional, "Dice Berger. Al final, "no se revelan parámetros del modelo y todos los datos de entrada:los medicamentos, objetivos, e interacciones, se mantienen privadas ".
Encontrar interacciones
Los investigadores compararon su red con varios de última generación, modelos de texto plano (sin cifrar) en una parte de DTI conocidos de DrugBank, un conjunto de datos popular que contiene aproximadamente 2, 000 DTI. Además de mantener la privacidad de los datos, La red de investigadores superó a todos los modelos en precisión de predicción. Solo dos modelos de línea de base podrían escalar razonablemente al conjunto de datos STITCH, y el modelo de los investigadores logró casi el doble de precisión que esos modelos.
Los investigadores también probaron pares de fármaco-objetivo sin interacciones enumeradas en STITCH, y encontró varias interacciones farmacológicas clínicamente establecidas que no estaban incluidas en la base de datos, pero deberían estarlo. En el papel, los investigadores enumeran las predicciones más sólidas, incluyendo:droloxifeno y un receptor de estrógeno, que alcanzó los ensayos clínicos de fase III como tratamiento para el cáncer de mama; y seocalcitol y un receptor de vitamina D para tratar otros cánceres. Cho y Hie validaron de forma independiente las interacciones novedosas de mayor puntuación a través de organizaciones de investigación por contrato.
Próximo, los investigadores están trabajando con socios para establecer su canal de colaboración en un entorno del mundo real. "Estamos interesados en crear un entorno para una computación segura, para que podamos ejecutar nuestro protocolo seguro con datos reales, "Cho dice.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.