• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El sistema LearnedSketch AI para la estimación de frecuencia mejora las estimaciones de las consultas de búsqueda de tendencias

    Crédito:Stuart Miles / Freerange

    Si miras bajo el capó de Internet, encontrará muchos engranajes que lo hacen posible.

    Por ejemplo, tome una empresa como AT&T. Deben comprender íntimamente qué datos de Internet van a dónde van para poder adaptarse mejor a los diferentes niveles de uso. Pero no es práctico monitorear con precisión cada paquete de datos, porque las empresas simplemente no tienen cantidades ilimitadas de espacio de almacenamiento. (Los investigadores en realidad llaman a esto el "problema de Britney Spears, "llamado así por los esfuerzos de larga data de los motores de búsqueda para contar los temas de tendencia).

    Debido a esto, Las empresas de tecnología utilizan algoritmos especiales para estimar aproximadamente la cantidad de tráfico que se dirige a diferentes direcciones IP. Los algoritmos tradicionales de estimación de frecuencia implican "hashing, "o dividir elementos de forma aleatoria en diferentes grupos. Pero este enfoque descarta el hecho de que hay patrones que se pueden descubrir en grandes volúmenes de datos, como por qué una dirección IP tiende a generar más tráfico de Internet que otra.

    Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han ideado una nueva forma de encontrar dichos patrones utilizando el aprendizaje automático.

    Su sistema utiliza una red neuronal para predecir automáticamente si un elemento específico aparecerá con frecuencia en un flujo de datos. Si lo hace, se coloca en un cubo separado de los llamados "grandes bateadores" para concentrarse; si no es así, se maneja mediante hash.

    "Es como una situación de triaje en una sala de emergencias, donde priorizamos los problemas más grandes antes de llegar a los más pequeños, "dice el profesor del MIT Piotr Indyk, coautor de un nuevo artículo sobre el sistema que se presentará en mayo en la Conferencia Internacional sobre Representaciones del Aprendizaje en Nueva Orleans, Luisiana. "Al conocer las propiedades de los grandes bateadores a medida que entran, podemos hacer una estimación de frecuencia de manera mucho más eficiente y con mucho menos error ".

    En pruebas, El equipo de Indyk demostró que su enfoque basado en el aprendizaje tenía hasta un 57% menos de errores para estimar la cantidad de tráfico de Internet en una red. y hasta un 71% menos de errores al estimar el número de consultas para un término de búsqueda determinado.

    El equipo llama a su sistema "LearnedSketch, "porque lo ven como un método para" dibujar "los datos en un flujo de datos de manera más eficiente. Según su conocimiento, es el primer enfoque basado en el aprendizaje automático del mundo no solo para la estimación de frecuencia en sí, sino para una clase más amplia de los llamados algoritmos de "transmisión" que se utilizan en todo, desde los sistemas de seguridad hasta el procesamiento del lenguaje natural.

    LearnedSketch podría ayudar a las empresas de tecnología a procesar de manera más eficaz todo tipo de datos significativos, desde temas de tendencia en Twitter hasta picos en el tráfico web que podrían sugerir futuros ataques distribuidos de denegación de servicio. Las empresas de comercio electrónico podrían usarlo para mejorar las recomendaciones de productos:si LearnedSketch descubriera que los clientes tienden a realizar compras más comparativas de productos electrónicos domésticos que de juguetes, podría dedicar automáticamente más recursos a garantizar la precisión de sus recuentos de frecuencia para la electrónica.

    "Todos estamos familiarizados con las aplicaciones de aprendizaje automático orientadas al consumidor, como el procesamiento del lenguaje natural y la traducción del habla, "dice Sergei Vassilvitskii, un científico informático que estudia el aprendizaje automático algorítmico y no participó en el proyecto. "Esta línea de trabajo, por otra parte, es un ejemplo interesante de cómo utilizar el aprendizaje automático para mejorar el propio sistema informático central ".

    Lo que también sorprende de LearnedSketch es que, a medida que aprende a contar elementos, la estructura que aprende se puede generalizar incluso a elementos invisibles. Por ejemplo, para predecir qué conexiones a Internet tienen más tráfico, el modelo aprende a agrupar diferentes conexiones por el prefijo de su IP de destino. Esto se debe a que los lugares que generan mucho tráfico, como grandes empresas y universidades, tienden a compartir un prefijo particular.

    "Combinamos el modelo con algoritmos clásicos para que nuestro algoritmo herede las garantías del peor de los casos de los algoritmos clásicos de forma natural, "dice el estudiante de doctorado Chen-Yu Hsu, coautor del nuevo artículo. "Este tipo de resultados muestran que el aprendizaje automático es en gran medida un enfoque que podría usarse junto con los paradigmas algorítmicos clásicos como 'divide y vencerás' y la programación dinámica".

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com