• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Enseñar a las computadoras a guiar la ciencia:el método de aprendizaje automático ve bosques y árboles

    Crédito:CC0 Public Domain

    Si bien puede ser la era de las supercomputadoras y los "macrodatos", "sin métodos inteligentes para extraer todos esos datos, es solo una cantidad limitada de detritos digitales. Ahora, los investigadores del Laboratorio Nacional Lawrence Berkeley del Departamento de Energía (Berkeley Lab) y la Universidad de California en Berkeley han ideado un método novedoso de aprendizaje automático que permite a los científicos obtener conocimientos de sistemas de complejidad previamente intratable en un tiempo récord.

    En un artículo publicado recientemente en el procedimientos de la Academia Nacional de Ciencias ( PNAS ), los investigadores describen una técnica llamada "bosques aleatorios iterativos, "que, según dicen, podría tener un efecto transformador en cualquier área de la ciencia o la ingeniería con sistemas complejos, incluida la biología, medicina de precisión, ciencia de los Materiales, ciencia medioambiental, y fabricación, para nombrar unos pocos.

    "Toma una célula humana, por ejemplo. Hay 10 170 posibles interacciones moleculares en una sola célula. Eso crea considerables desafíos informáticos en la búsqueda de relaciones, "dijo Ben Brown, jefe del Departamento de Biología de Ecosistemas Moleculares de Berkeley Lab. "Nuestro método permite la identificación de interacciones de alto orden al mismo costo computacional que los efectos principales, incluso cuando esas interacciones son locales con efectos marginales débiles".

    Brown y Bin Yu de UC Berkeley son los principales autores principales de "Bosques aleatorios iterativos para descubrir interacciones de orden superior predictivas y estables". Los co-primeros autores son Sumanta Basu (anteriormente un postdoctorado conjunto de Brown y Yu y ahora profesor asistente en la Universidad de Cornell) y Karl Kumbier (estudiante de doctorado de Yu en el Departamento de Estadística de UC Berkeley). El artículo es la culminación de tres años de trabajo que los autores creen que transformará la forma en que se hace ciencia. "Con nuestro método podemos obtener información radicalmente más rica de la que hemos podido obtener de una máquina de aprendizaje, "Dijo Brown.

    Las necesidades del aprendizaje automático en la ciencia son diferentes a las de la industria, donde el aprendizaje automático se ha utilizado para cosas como jugar al ajedrez, fabricar coches autónomos, y predecir el mercado de valores.

    "El aprendizaje automático desarrollado por la industria es excelente si desea realizar operaciones de alta frecuencia en el mercado de valores, "Dijo Brown." No te importa por qué eres capaz de predecir que las acciones subirán o bajarán. Solo quieres saber que puedes hacer predicciones ".

    Pero en ciencia Las preguntas que rodean por qué un proceso se comporta de cierta manera son críticas. Comprender el "por qué" permite a los científicos modelar o incluso diseñar procesos para mejorar o lograr un resultado deseado. Como resultado, El aprendizaje automático para la ciencia necesita mirar dentro de la caja negra y comprender por qué y cómo las computadoras llegaron a las conclusiones a las que llegaron. Un objetivo a largo plazo es utilizar este tipo de información para modelar o diseñar sistemas para obtener los resultados deseados.

    En sistemas muy complejos, ya sea de una sola celda, el cuerpo humano, o incluso un ecosistema completo:hay una gran cantidad de variables que interactúan de manera no lineal. Eso hace que sea difícil, si no imposible, construir un modelo que pueda determinar la causa y el efecto. "Desafortunadamente, en biología, te encuentras con interacciones de orden 30, 40, 60 todo el tiempo ", Dijo Brown." Es completamente intratable con los enfoques tradicionales del aprendizaje estadístico ".

    El método desarrollado por el equipo dirigido por Brown y Yu, Bosques aleatorios iterativos (iRF), se basa en un algoritmo llamado bosques aleatorios, una herramienta de modelado predictivo popular y eficaz, traducir los estados internos del aprendiz de caja negra a una forma interpretable por humanos. Su enfoque permite a los investigadores buscar interacciones complejas desacoplando el orden, o tamaño, de interacciones del costo computacional de identificación.

    "No hay diferencia en el costo computacional de detectar una interacción de orden 30 versus una interacción de orden dos, "Dijo Brown." Y eso es un cambio radical ".

    En el artículo de PNAS, los científicos demostraron su método en dos problemas genómicos, el papel de los potenciadores de genes en el embrión de la mosca de la fruta y el empalme alternativo en una línea celular de origen humano. En ambos casos, el uso de iRF confirmó los hallazgos anteriores y al mismo tiempo descubrió interacciones de orden superior no identificadas previamente para el estudio de seguimiento.

    Brown dijo que ahora están usando su método para diseñar sistemas láser de matriz en fase y optimizar sistemas agrícolas sostenibles.

    "Creemos que este es un paradigma diferente para hacer ciencia, "dijo Yu, profesor en los departamentos de Estadística e Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley. "Hacemos predicciones, pero introducimos estabilidad además de la predicción en iRF para aprender de manera más confiable la estructura subyacente en los predictores ".

    "Esto nos permite aprender a diseñar sistemas para la optimización orientada a objetivos y simulaciones específicas y experimentos de seguimiento con mayor precisión, "Añadió Brown.

    En un comentario de PNAS sobre la técnica, Danielle Denisko y Michael Hoffman de la Universidad de Toronto escribieron:"iRF es muy prometedor como una forma nueva y eficaz de detectar interacciones en una variedad de entornos, y su uso nos ayudará a asegurarnos de que ninguna rama u hoja quede sin remover ".


    © Ciencia https://es.scienceaq.com