• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Las herramientas de análisis de big data de próxima generación darán sentido a la transmisión de datos en tiempo real

    Elke Rundensteiner, Derecha, profesor de informática en el Instituto Politécnico de Worcester (WPI), y la estudiante de doctorado Allison Rozet, de pie junto a un banco de pruebas de vehículos autónomos utilizado en la investigación en WPI. Las herramientas de análisis que están desarrollando Rundensteiner y Rozet podrían hacer que los automóviles sin conductor sean más seguros al analizar la transmisión de datos de los vehículos en tiempo real. Crédito:Instituto Politécnico de Worcester

    Una nueva herramienta analítica de big data que están desarrollando científicos informáticos en el Instituto Politécnico de Worcester (WPI) ayudará a las empresas a tener sentido, en tiempo real, del diluvio de datos que les fluye como agua de una manguera contra incendios.

    Con tres años, $ 499, Beca 753 de la National Science Foundation, Elke Rundensteiner, profesor de informática y director del programa de ciencia de datos de WPI, dirige un equipo de estudiantes de ciencias de la computación y de datos que está construyendo una herramienta de análisis de tendencias de eventos de próxima generación conocida como SETA (Scalable Event Trend Analytics). Este software de código abierto se utilizará no solo para encontrar patrones en tiempo real, flujos de datos de gran volumen ("datos en movimiento"), sino analizar esos patrones y darles sentido sobre la marcha para tomar decisiones justo a tiempo.

    SETA podría permitir grandes empresas, paginas de redes sociales, centros de detección de fraudes, redes de vehículos autónomos, gobiernos y otros usuarios para aprovechar el flujo continuo de big data a medida que ingresa y transformarlo en información procesable que podría permitirles ser cada vez más receptivos y competitivos. "En un mundo donde los macrodatos se aceleran continuamente en volumen y velocidad, El análisis de datos de transmisión en tiempo real se ha vuelto cada vez más crítico, "dijo Rundensteiner, un experto reconocido internacionalmente en el procesamiento de flujos de datos escalables.

    El procesamiento de eventos es una forma de rastrear y analizar los flujos de información entrantes, como compras en línea, la subida y bajada del precio de una acción, el tiempo que los usuarios permanecen en un sitio web, o si los trabajadores de la salud se lavan las manos antes de ingresar a las habitaciones de los pacientes. Se trata de marcar eventos importantes en los datos entrantes, para que una organización pueda responder a ellos en tiempo real. SETA podrá manejar consultas y análisis complejos, al mismo tiempo que proporciona a los usuarios información resumida más barata y más rápida de lo que es posible actualmente.

    La mayoría de las herramientas de análisis de datos existentes no están diseñadas para funcionar con datos de transmisión, Rundensteiner señaló. En lugar de, la información debe almacenarse en una base de datos estática antes de que pueda ser analizada, introduciendo un retraso que podría impedir la detección rápida, por ejemplo, del inicio de un brote de enfermedad infecciosa en un hospital. Las herramientas de Rundensteiner operan sobre los datos a medida que se generan, permitiendo detectar incluso patrones complejos en tiempo real, para que las decisiones críticas se puedan tomar rápidamente.

    "Los flujos de datos están aumentando a un ritmo espectacular, empresas abrumadoras que no pueden entender sus datos en tiempo real, ", Dijo Rundensteiner." Al encontrar formas de manejar estas transmisiones en vivo, estamos abriendo nuevos caminos en el análisis de datos. Puede guardar todos estos macrodatos en una base de datos estática y consultarlos más tarde, pero si desea detectar una compra fraudulenta con tarjeta de crédito mientras está sucediendo o alertar a una red de autos autónomos sobre un accidente que se avecina, necesita analizar esa información a medida que se transmite a una velocidad de decenas de miles de datos por microsegundo ".

    Con el nuevo premio, Rundensteiner se basará en su investigación anterior patrocinada por NSF en análisis de flujo de eventos, que se centró en encontrar patrones en la transmisión de datos. Ese trabajo (en colaboración con ex estudiantes de doctorado, Olga Poppe, un científico investigador en Microsoft Gray Systems Lab, Chuan Lei, un miembro del personal de investigación en IBM Almaden Research Center, y Di Wang, un científico investigador en Facebook), produjo herramientas de análisis que permitieron a los usuarios consultar un flujo de datos para secuencias de eventos relativamente simples. Pero si el software encuentra muchas instancias de secuencias iguales o similares y las muestra todas, el usuario a menudo se abruma y pierde los patrones importantes o las tendencias generales a través de los patrones.

    En lugar de mostrar las secuencias detectadas una por una, la nueva herramienta que Rundensteiner está desarrollando agregará esos patrones y mostrará al usuario cuántas veces ocurre cada uno. "Al mostrar un pico de actividad anormal, el sistema le permite ver muy rápidamente lo que está sucediendo, ", dijo." A veces me interesa más la desviación del conteo típico de patrones porque entonces sé instantáneamente si está sucediendo algo anormal. Si un automóvil autónomo se desvía, eso podría no significar nada. Pero si mil coches en el mismo tramo de carretera muestran un comportamiento desviado, entonces está sucediendo algo real. Luego, puede profundizar en ese subconjunto particular de datos para explorar este comportamiento inesperado ".

    El desarrollo de herramientas para profundizar en estos agregados de patrones es otro elemento de la investigación sobre SETA. Rundensteiner quiere capacitar a los usuarios para que busquen patrones mucho más sofisticados. Por ejemplo, mientras que su herramienta anterior podría usarse para buscar una secuencia de una longitud fija (digamos, casos de un vehículo que activa los frenos, desviándose y luego parando), ella quiere hacerlo posible, con una única consulta de flujo simple, para detectar secuencias que involucran un número ilimitado de instancias (un automóvil que se desvía un número desconocido de veces, frenando repetidamente, y luego parando por ejemplo). Si bien el número de posibles coincidencias con una consulta de este tipo podría crecer exponencialmente debido a la complejidad del lenguaje de consulta, los resultados prometen ser más útiles, ella dijo.

    Para crear nuevas herramientas de análisis de tendencias de eventos, Rundensteiner primero debe diseñar un nuevo lenguaje de consulta, que se utiliza para buscar y recuperar patrones en los datos. Al permitir que los usuarios busquen patrones más complicados, el nuevo idioma hará que la herramienta sea mucho más fácil de usar. También está construyendo un nuevo "motor de consulta" para procesar estas consultas sofisticadas y encontrar los patrones o eventos solicitados. Un motor distribuido, se ejecutará en varios servidores a través de una red en la nube, aumentando drásticamente su velocidad.

    "Construir ese motor es una parte clave del proyecto, ", dijo." Tradicionalmente, un motor puede generar todas las respuestas a una consulta, almacenarlos, y luego empezar a contarlos. Eso consume mucho tiempo y es demasiado caro. La tecnología actual puede tardar horas, o incluso más, para procesar una consulta complicada. El nuestro tardará unos segundos. No tiene sentido hacer estas grandes preguntas si tienes que esperar días para obtener las respuestas ".

    El nuevo software de análisis de tendencias de eventos, que está desarrollando con Allison Rozet, un doctorado candidato en ciencia de datos, se probará utilizando conjuntos de datos y aplicaciones del mundo real proporcionados por un centro de atención médica y una empresa de procesamiento de transacciones financieras.

    "En el campo de la salud, esto podría salvar vidas, ", Dijo Rundensteiner." Podríamos detectar patrones que muestran cómo se está propagando la infección. Pudimos ver cuando por ejemplo, el personal no se pone batas quirúrgicas ni se lava las manos. Por lo tanto, podemos ver los problemas a medida que se desarrollan, para que podamos ver dónde se originan los problemas. Estamos creando mejores herramientas para obtener las respuestas que necesitamos de una creciente avalancha de información entrante ".


    © Ciencia https://es.scienceaq.com