• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El nuevo enfoque de IA cierra la brecha de datos escasos que puede obstaculizar los enfoques de aprendizaje profundo

    La red de aprendizaje profundo de PNNL aborda problemas químicos difíciles con la ayuda de un entrenamiento previo. Crédito:Timothy Holland / PNNL

    Los científicos han desarrollado una red neuronal profunda que evita un problema que ha obstaculizado los esfuerzos por aplicar la inteligencia artificial para abordar la química compleja:una escasez de datos químicos etiquetados con precisión. El nuevo método brinda a los científicos una herramienta adicional para aplicar el aprendizaje profundo para explorar el descubrimiento de fármacos. nuevos materiales para la fabricación, y una amplia gama de otras aplicaciones.

    Predecir las propiedades y reacciones químicas entre millones y millones de compuestos es una de las tareas más abrumadoras a las que se enfrentan los científicos. No existe una fuente de información completa de la que pueda basarse un programa de aprendizaje profundo. Generalmente, tal escasez de una gran cantidad de datos limpios es un obstáculo para un proyecto de aprendizaje profundo.

    Los científicos del Laboratorio Nacional del Noroeste del Pacífico del Departamento de Energía descubrieron una forma de solucionar el problema. Crearon un sistema de preentrenamiento, una especie de tutorial de vía rápida en el que equipan el programa con información básica sobre química, equiparlo para aprender de sus experiencias, luego desafíe el programa con enormes conjuntos de datos.

    El trabajo fue presentado en KDD2018, la Conferencia sobre Descubrimiento del Conocimiento y Minería de Datos, en Londres.

    Gatos perros, y datos limpios

    Para redes de aprendizaje profundo, Los datos abundantes y claros han sido durante mucho tiempo la clave del éxito. En el diálogo entre perros y gatos que anima las discusiones sobre los sistemas de inteligencia artificial, Los investigadores reconocen la importancia de los "datos etiquetados:una foto de un gato está marcada como un gato, un perro está marcado como un perro, etcétera. Tener muchos muchas fotos de perros y gatos, claramente marcado como tal, es un buen ejemplo del tipo de datos que a los científicos de IA les gusta tener. Las fotos proporcionan puntos de datos claros que una red neuronal puede utilizar para aprender a medida que comienza a diferenciar a los gatos de los perros.

    Crédito:Laboratorio Nacional del Noroeste del Pacífico

    Pero la química es más compleja que separar gatos de perros. Cientos de factores afectan la promiscuidad de una molécula, y miles de interacciones pueden ocurrir en un instante. Los investigadores de inteligencia artificial en química a menudo se enfrentan a conjuntos de datos pequeños pero completos o conjuntos de datos enormes pero inconsistentes:piense en 100 imágenes claras de chihuahuas o 10 millones de imágenes de manchas peludas. Ninguno de los dos es ideal o incluso viable solo.

    Entonces, los científicos crearon una forma de cerrar la brecha, combinando lo mejor de "datos escasos pero buenos" con "datos grandes pero deficientes".

    El equipo, dirigido por el ex científico de la PNNL Garrett Goh, empleó una técnica conocida como aprendizaje supervisado basado en reglas. Los científicos apuntan a la red neuronal a un vasto depósito de datos químicos conocido como ChEMBL, y generan etiquetas basadas en reglas para cada una de estas muchas moléculas, por ejemplo, calcular la masa de la molécula. La red neuronal procesa los datos sin procesar, aprender los principios de la química que relacionan la molécula con las huellas dactilares químicas básicas. Tomando la red neuronal entrenada en los datos basados ​​en reglas, los científicos lo presentaron con el pequeño, pero de alta calidad, conjunto de datos que contiene las propiedades finales que se van a predecir.

    El entrenamiento previo dio sus frutos. El programa, llamado ChemNet, alcanzó un nivel de conocimiento y precisión tan exacto o más que los mejores modelos actuales de aprendizaje profundo disponibles al analizar moléculas para determinar su toxicidad, su nivel de actividad bioquímica relacionada con el VIH, y su nivel de un proceso químico conocido como solvatación. El programa lo hizo con muchos menos datos etiquetados que sus contrapartes y logró los resultados con menos cálculo, lo que se traduce en un rendimiento más rápido.


    © Ciencia https://es.scienceaq.com