Crédito:CC0 Public Domain
La construcción de un modelo de red neuronal para cada nuevo conjunto de datos es la máxima pesadilla para todo científico de datos. ¿Qué pasaría si pudiera pronosticar la precisión de la red neuronal antes gracias a la experiencia y la aproximación acumuladas? Este fue el objetivo de un proyecto reciente en IBM Research y el resultado es TAPAS o Predictor de precisión sin tren para búsqueda de arquitectura (haga clic para ver una demostración). Su truco es que puede estimar, en fracciones de segundo, rendimiento de clasificación para conjuntos de datos de entrada invisibles, sin entrenamiento para la clasificación de imágenes y texto.
A diferencia de los enfoques propuestos anteriormente, TAPAS no solo se calibra con la información de la red topológica, sino también en la caracterización de la dificultad del conjunto de datos, lo que nos permite volver a sintonizar la predicción sin ningún tipo de entrenamiento.
Esta tarea fue particularmente desafiante debido a la heterogeneidad de los conjuntos de datos utilizados para entrenar redes neuronales. Pueden tener clases completamente diferentes, estructuras, y tamaños, añadiendo a la complejidad de llegar a una aproximación. Cuando mis colegas y yo pensamos en cómo abordar esto, intentamos no pensar en esto como un problema para una computadora, sino pensar en cómo un humano predeciría la precisión.
Entendimos que si le preguntabas a un humano con algún conocimiento de aprendizaje profundo si una red sería buena o mala, esa persona naturalmente tendría una intuición al respecto. Por ejemplo, reconoceríamos que dos tipos de capas no se mezclan, o que después de un tipo de capa, siempre hay otro que sigue y mejora la precisión. Así que consideramos si agregar características similares a estas intuiciones humanas en una computadora podría ayudarla a hacer un trabajo aún mejor. Y teníamos razón.
Probamos TAPAS en dos conjuntos de datos realizados en 400 segundos en una sola GPU, y nuestras redes mejor descubiertas alcanzaron un 93,67% de precisión para CIFAR-10 y un 81,01% para CIFAR-100, verificado por formación. Estas redes funcionan de manera competitiva con otras redes de vanguardia descubiertas automáticamente, pero solo necesitó una pequeña fracción del tiempo para la solución y los recursos computacionales. Nuestro predictor logra un rendimiento que supera las 100 redes por segundo en una sola GPU, creando así la oportunidad de realizar búsquedas de arquitectura a gran escala en pocos minutos. Creemos que esta es la primera herramienta que puede hacer predicciones basadas en datos invisibles.
TAPAS es uno de los motores de IA en la nueva capacidad innovadora de IBM llamada NeuNetS como parte de AI OpenScale, que puede sintetizar redes neuronales personalizadas en dominios de texto e imágenes.
En NeuNetS, los usuarios cargarán sus datos en IBM Cloud y luego TAPAS puede analizar los datos y calificarlos en una escala de 0-1 en términos de complejidad de la tarea, 0 significa difícil y 1 simple. A continuación, TAPAS comienza a recopilar conocimientos de su biblioteca de referencia en busca de conjuntos de datos similares basados en lo que subió el usuario. Entonces, basado en esto, TAPAS puede predecir con precisión cómo funcionará una nueva red en el nuevo conjunto de datos, muy similar a cómo lo determinaría un humano.
La demanda actual de habilidades en ciencia de datos ya supera la oferta actual, convirtiéndose en una barrera real para la adopción de la IA en la industria y la sociedad. TAPAS es un hito fundamental para el derribo de este muro. IBM y el Laboratorio de Investigación de Zurich están trabajando para hacer que las tecnologías de IA sean tan fáciles de usar, como unos pocos clics en un mouse. Esto permitirá que los usuarios no expertos creen e implementen modelos de IA en una fracción del tiempo que se tarda hoy en día y sin sacrificar la precisión. Es más, estas herramientas aprenderán gradualmente sobre la utilización en dominios especializados y mejorarán automáticamente con el tiempo, cada vez mejor.
Esta historia se vuelve a publicar por cortesía de IBM Research. Lea la historia original aquí.