Durante años, Investigadores del MIT y la Universidad de Brown han estado desarrollando un sistema interactivo que permite a los usuarios arrastrar y soltar y manipular datos en cualquier pantalla táctil. incluidos los teléfonos inteligentes y las pizarras digitales interactivas. Ahora, han incluido una herramienta que genera de forma instantánea y automática modelos de aprendizaje automático para ejecutar tareas de predicción en esos datos. Crédito:Melanie Gonick
En el Hombre de Acero películas, Tony Stark usa una computadora holográfica para proyectar datos 3-D en el aire, manipularlos con sus manos, y encontrar soluciones a sus problemas de superhéroe. En la misma vena, investigadores del MIT y la Universidad de Brown han desarrollado un sistema de análisis de datos interactivo que se ejecuta en pantallas táctiles y permite a todos, no solo a los genios, multimillonario filántropos de playboy:abordan problemas del mundo real.
Durante años, los investigadores han estado desarrollando un sistema interactivo de ciencia de datos llamado Northstar, que se ejecuta en la nube pero tiene una interfaz compatible con cualquier dispositivo de pantalla táctil, incluidos los teléfonos inteligentes y las grandes pizarras interactivas. Los usuarios alimentan los conjuntos de datos del sistema, y manipular, combinar, y extraer funciones en una interfaz fácil de usar, usando sus dedos o un bolígrafo digital, para descubrir tendencias y patrones.
En un artículo presentado en la conferencia ACM SIGMOD, los investigadores detallan un nuevo componente de Northstar, llamado VDS para "científico de datos virtual, "que genera instantáneamente modelos de aprendizaje automático para ejecutar tareas de predicción en sus conjuntos de datos. Doctores, por ejemplo, puede usar el sistema para ayudar a predecir qué pacientes tienen más probabilidades de tener ciertas enfermedades, mientras que los propietarios de negocios pueden querer pronosticar las ventas. Si usa una pizarra digital interactiva, todos también pueden colaborar en tiempo real.
El objetivo es democratizar la ciencia de datos facilitando la realización de análisis complejos, de forma rápida y precisa.
"Incluso el propietario de una cafetería que no conozca la ciencia de datos debería poder predecir sus ventas durante las próximas semanas para determinar cuánto café comprar. "dice el coautor y líder del proyecto Northstar desde hace mucho tiempo, Tim Kraska, profesor asociado de ingeniería eléctrica y ciencias de la computación en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) y codirector fundador del nuevo Laboratorio de Sistemas de Datos y AI (DSAIL). "En las empresas que tienen científicos de datos, hay muchos intercambios entre científicos de datos y no expertos, por lo que también podemos reunirlos en una sala para realizar análisis juntos ".
VDS se basa en una técnica cada vez más popular en inteligencia artificial llamada aprendizaje automático automatizado (AutoML), lo que permite a las personas con conocimientos limitados en ciencia de datos entrenar modelos de IA para hacer predicciones basadas en sus conjuntos de datos. En la actualidad, la herramienta lidera la competencia de aprendizaje automático automático DARPA D3M, que cada seis meses decide cuál es la herramienta AutoML de mejor rendimiento.
Junto a Kraska en el papel están:el primer autor Zeyuan Shang, un estudiante graduado, y Emanuel Zgraggen, un postdoctorado y colaborador principal de Northstar, ambos de EECS, CSAIL, y DSAIL; Benedetto Buratti, Yeounoh Chung, Philipp Eichmann, y Eli Upfal, todo Brown; y Carsten Binnig, quien recientemente se mudó de Brown a la Universidad Técnica de Darmstadt en Alemania.
Crédito:Melanie Gonick
Un "lienzo ilimitado" para la analítica
El nuevo trabajo se basa en años de colaboración en Northstar entre investigadores del MIT y Brown. Durante cuatro años, los investigadores han publicado numerosos artículos que detallan los componentes de Northstar, incluida la interfaz interactiva, operaciones en múltiples plataformas, acelerar los resultados, y estudios sobre el comportamiento de los usuarios.
Northstar comienza como un espacio en blanco, interfaz blanca. Los usuarios cargan conjuntos de datos en el sistema, que aparecen en un cuadro de "conjuntos de datos" a la izquierda. Cualquier etiqueta de datos completará automáticamente un cuadro de "atributos" separado a continuación. También hay un cuadro de "operadores" que contiene varios algoritmos, así como la nueva herramienta AutoML. Todos los datos se almacenan y analizan en la nube.
A los investigadores les gusta demostrar el sistema en un conjunto de datos públicos que contiene información sobre los pacientes de la unidad de cuidados intensivos. Considere a los investigadores médicos que deseen examinar las co-ocurrencias de ciertas enfermedades en ciertos grupos de edad. Arrastran y sueltan en el medio de la interfaz un algoritmo de verificación de patrones, que al principio aparece como un cuadro en blanco. Como entrada, se mueven a la caja de características de enfermedad etiquetadas, decir, "sangre, "" infeccioso, "y" metabólicas ". Los porcentajes de esas enfermedades en el conjunto de datos aparecen en el cuadro. Luego, arrastran la función "edad" a la interfaz, que muestra un gráfico de barras de la distribución de edad del paciente. Dibujar una línea entre los dos cuadros los une. Marcando con un círculo los rangos de edad, el algoritmo calcula inmediatamente la co-ocurrencia de las tres enfermedades entre el rango de edad.
"Es como un gran lienzo ilimitado donde puedes diseñar cómo quieres todo, "dice Zgraggen, quien es el inventor clave de la interfaz interactiva de Northstar. "Luego, puede vincular elementos para crear preguntas más complejas sobre sus datos ".
Aproximación a AutoML
Con VDS, los usuarios ahora también pueden ejecutar análisis predictivos en esos datos al obtener modelos personalizados para sus tareas, como la predicción de datos, clasificación de imágenes, o analizar estructuras gráficas complejas.
Usando el ejemplo anterior, dicen que los investigadores médicos quieren predecir qué pacientes pueden tener enfermedades de la sangre basándose en todas las características del conjunto de datos. Arrastran y sueltan "AutoML" de la lista de algoritmos. Primero producirá una caja en blanco, pero con una pestaña "objetivo", bajo el cual soltarían la característica de "sangre". El sistema encontrará automáticamente las canalizaciones de aprendizaje automático con el mejor rendimiento, presentado como pestañas con porcentajes de precisión constantemente actualizados. Los usuarios pueden detener el proceso en cualquier momento, refinar la búsqueda, y examinar las tasas de error de cada modelo, estructura, cálculos, Y otras cosas.
Crédito:Melanie Gonick
Según los investigadores, VDS es la herramienta AutoML interactiva más rápida hasta la fecha, Gracias, en parte, a su "motor de estimación" personalizado. El motor se encuentra entre la interfaz y el almacenamiento en la nube. El motor aprovecha crea automáticamente varias muestras representativas de un conjunto de datos que se pueden procesar progresivamente para producir resultados de alta calidad en segundos.
"Junto con mis coautores, pasé dos años diseñando VDS para imitar cómo piensa un científico de datos, "Shang dice, lo que significa que identifica instantáneamente qué modelos y pasos de preprocesamiento debe o no debe ejecutarse en ciertas tareas, basado en varias reglas codificadas. Primero elige de una gran lista de esas posibles canalizaciones de aprendizaje automático y ejecuta simulaciones en el conjunto de muestra. Al hacerlo, recuerda los resultados y refina su selección. Después de entregar resultados aproximados rápidos, el sistema refina los resultados en el back-end. Pero los números finales suelen estar muy cerca de la primera aproximación.
"Para usar un predictor, no desea esperar cuatro horas para obtener sus primeros resultados. Quieres ver ya lo que está pasando y si detecta un error, puede corregirlo inmediatamente. Normalmente, eso no es posible en ningún otro sistema, ", Dice Kraska. El estudio de usuarios anterior de los investigadores, De hecho, "muestre que en el momento en que se demora en dar resultados a los usuarios, comienzan a perder el compromiso con el sistema ".
Los investigadores evaluaron la herramienta en 300 conjuntos de datos del mundo real. En comparación con otros sistemas AutoML de última generación, Las aproximaciones de VDS fueron tan precisas, pero se generaron en segundos, que es mucho más rápido que otras herramientas, que operan en minutos a horas.
Próximo, los investigadores buscan agregar una función que alerta a los usuarios sobre posibles sesgos o errores de datos. Por ejemplo, para proteger la privacidad del paciente, a veces, los investigadores etiquetarán conjuntos de datos médicos con pacientes de 0 (si no conocen la edad) y 200 (si un paciente tiene más de 95 años). Pero los novatos pueden no reconocer tales errores, lo que podría alterar por completo sus análisis.
"Si es un usuario nuevo, you may get results and think they're great, " Kraska says. "But we can warn people that there, De hecho, may be some outliers in the dataset that may indicate a problem."
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.