• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Entrenamiento más inteligente de redes neuronales

    (De izquierda a derecha) El profesor asistente del MIT Michael Carbin y el estudiante de doctorado Jonathan Frankle. Crédito:Jason Dorfman / MIT CSAIL

    Estos días, Casi todos los productos basados ​​en inteligencia artificial de nuestras vidas se basan en "redes neuronales profundas" que aprenden automáticamente a procesar datos etiquetados.

    Para la mayoría de organizaciones e individuos, aunque, el aprendizaje profundo es difícil de penetrar. Para aprender bien Las redes neuronales normalmente tienen que ser bastante grandes y necesitan conjuntos de datos masivos. Este proceso de capacitación generalmente requiere varios días de capacitación y costosas unidades de procesamiento de gráficos (GPU) y, a veces, incluso hardware de diseño personalizado.

    Pero, ¿y si en realidad no tienen que ser tan grandes? ¿después de todo?

    En un nuevo periódico Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han demostrado que las redes neuronales contienen subredes que tienen hasta una décima parte del tamaño, pero que pueden capacitarse para hacer predicciones igualmente precisas, y en ocasiones pueden aprender a hacerlo incluso más rápido que el originales.

    El enfoque del equipo no es particularmente eficiente ahora:deben capacitar y "podar" la red completa varias veces antes de encontrar la subred exitosa. Sin embargo, El profesor asistente del MIT, Michael Carbin, dice que los hallazgos de su equipo sugieren que, si podemos determinar con precisión qué parte de la red original es relevante para la predicción final, los científicos podrían algún día saltarse este costoso proceso por completo. Tal revelación tiene el potencial de ahorrar horas de trabajo y facilitar la creación de modelos significativos por parte de programadores individuales. y no solo las grandes empresas de tecnología.

    "Si la red inicial no tuviera que ser tan grande en primer lugar, ¿Por qué no puedes crear uno que tenga el tamaño adecuado al principio? ", dice el estudiante de doctorado Jonathan Frankle, quien presentó su nuevo artículo en coautoría con Carbin en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR) en Nueva Orleans. El proyecto fue nombrado uno de los dos mejores artículos de ICLR, de aproximadamente 1, 600 presentaciones.

    El equipo compara los métodos tradicionales de aprendizaje profundo con una lotería. Entrenar grandes redes neuronales es como intentar garantizar que ganarás la lotería comprando a ciegas todos los billetes posibles. Pero, ¿y si pudiéramos seleccionar los números ganadores desde el principio?

    "Con una red neuronal tradicional, se inicializa aleatoriamente esta gran estructura, y después de entrenarlo con una gran cantidad de datos, funciona mágicamente, "Carbin dice." Esta gran estructura es como comprar una gran bolsa de boletos, a pesar de que solo hay una pequeña cantidad de boletos que realmente lo harán rico. La ciencia restante es averiguar cómo identificar los boletos ganadores sin ver primero los números ganadores ".

    El trabajo del equipo también puede tener implicaciones para el llamado "aprendizaje por transferencia, "donde se construyen redes capacitadas para una tarea como el reconocimiento de imágenes para luego ayudar con una tarea completamente diferente.

    El aprendizaje por transferencia tradicional implica entrenar una red y luego agregar una capa más en la parte superior que esté entrenada para otra tarea. En muchos casos, una red entrenada para un propósito es capaz de extraer algún tipo de conocimiento general que luego puede usarse para otro propósito.

    Por toda la publicidad que han recibido las redes neuronales, a menudo no se habla mucho de lo difícil que es entrenarlos. Debido a que su formación puede resultar prohibitivamente cara, los científicos de datos tienen que hacer muchas concesiones, sopesando una serie de compensaciones con respecto al tamaño del modelo, la cantidad de tiempo que se tarda en entrenar, y su ejecución final.

    Para probar la llamada "hipótesis del billete de lotería" y demostrar la existencia de estas subredes más pequeñas, el equipo necesitaba una forma de encontrarlos. Comenzaron utilizando un enfoque común para eliminar las conexiones innecesarias de las redes capacitadas para hacerlas encajar en dispositivos de bajo consumo como los teléfonos inteligentes:"podaron" las conexiones con los "pesos" más bajos (cuánto prioriza la red esa conexión).

    Su innovación clave fue la idea de que las conexiones que se eliminaron después de capacitar a la red podrían nunca haber sido necesarias en absoluto. Para probar esta hipótesis, intentaron entrenar exactamente la misma red de nuevo, pero sin las conexiones podadas. En tono rimbombante, ellos "restablecen" cada conexión al peso que se le asignó al comienzo del entrenamiento. Estos pesos iniciales son vitales para ayudar a ganar un billete de lotería:sin ellos, las redes podadas no aprenderían. Podando cada vez más conexiones, determinaron cuánto se podría eliminar sin dañar la capacidad de aprendizaje de la red.

    Para validar esta hipótesis, repitieron este proceso decenas de miles de veces en muchas redes diferentes en una amplia gama de condiciones.

    "Fue sorprendente ver que restablecer una red de buen rendimiento a menudo da como resultado algo mejor, "dice Carbin." Esto sugiere que lo que hicimos la primera vez no era exactamente óptimo, y que hay espacio para mejorar la forma en que estos modelos aprenden a mejorarse a sí mismos ".

    Como siguiente paso, el equipo planea explorar por qué ciertas subredes son particularmente expertas en el aprendizaje, and ways to efficiently find these subnetworks.

    "Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com