Intel colabora con Novartis en el uso de redes neuronales profundas (DNN) para acelerar la detección de alto contenido, un elemento clave del descubrimiento temprano de fármacos. El equipo de colaboración redujo el tiempo para entrenar modelos de análisis de imágenes de 11 horas a 31 minutos, una mejora de más de 20 veces.
El cribado de alto contenido de fenotipos celulares es una herramienta fundamental que respalda el descubrimiento temprano de fármacos. El término "alto contenido" significa el amplio conjunto de miles de funciones predefinidas (como el tamaño, forma, textura) que se extraen de imágenes utilizando técnicas clásicas de procesamiento de imágenes. El cribado de alto contenido permite el análisis de imágenes microscópicas para estudiar los efectos de miles de tratamientos genéticos o químicos en diferentes cultivos celulares.
La promesa del aprendizaje profundo es que las características de imagen relevantes que pueden distinguir un tratamiento de otro se aprenden "automáticamente" a partir de los datos. Al aplicar una aceleración profunda de la red neuronal, Los biólogos y científicos de datos de Intel y Novartis esperan acelerar el análisis de pantallas de imágenes de alto contenido. En este trabajo conjunto, el equipo se centra en imágenes microscópicas completas en lugar de utilizar un proceso separado para identificar primero cada célula en una imagen. Las imágenes de microscopía completas pueden ser mucho más grandes que las que se encuentran normalmente en los conjuntos de datos de aprendizaje profundo. Por ejemplo, Las imágenes utilizadas en esta evaluación son más de 26 veces más grandes que las imágenes que se utilizan normalmente del conocido conjunto de datos de animales ImageNet. objetos y escenas.
Modelos de redes neuronales convolucionales profundas, para analizar imágenes microscópicas, normalmente funcionan en millones de píxeles por imagen, millones de parámetros en el modelo y posiblemente miles de imágenes de entrenamiento a la vez. Eso constituye una alta carga computacional. Incluso con capacidades computacionales avanzadas en la infraestructura informática existente, La exploración más profunda de los modelos DNN puede resultar prohibitiva en términos de tiempo.
Para resolver estos desafíos, la colaboración está aplicando técnicas de aceleración de redes neuronales profundas para procesar múltiples imágenes en mucho menos tiempo mientras se extrae una mayor comprensión de las características de la imagen que el modelo finalmente aprende.
El equipo de colaboración con representantes de Novartis e Intel ha demostrado una mejora de más de 20 veces1 en el tiempo para procesar un conjunto de datos de imágenes de 10K para capacitación. Usando el conjunto de datos Broad Bioimage Benchmark Collection 021 (BBBC-021), el equipo ha logrado un tiempo total de procesamiento de 31 minutos con más del 99 por ciento de precisión.
Para este resultado, el equipo usó ocho servidores basados en CPU, una interconexión de tejido de alta velocidad, y TensorFlow1 optimizado. Al explotar el principio fundamental del paralelismo de datos en la formación de aprendizaje profundo y la capacidad de utilizar plenamente los beneficios del soporte de gran memoria en la plataforma del servidor, el equipo pudo escalar a más de 120 imágenes de 3.9 megapíxeles por segundo con 32 trabajadores de TensorFlow.
Si bien los métodos de aprendizaje profundo supervisados son esenciales para acelerar la clasificación de imágenes y acelerar el tiempo de comprensión, Los métodos de aprendizaje profundo dependen de grandes conjuntos de datos etiquetados por expertos para entrenar los modelos. El tiempo y el esfuerzo manual necesarios para crear estos conjuntos de datos suelen ser prohibitivos. Los métodos de aprendizaje profundo no supervisados, que pueden aplicarse a imágenes de microscopía no etiquetadas, prometen revelar conocimientos novedosos para la biología celular y, en última instancia, el descubrimiento de fármacos. Este será el foco de los esfuerzos continuos en el futuro.