Crédito:CC0 Public Domain
En un momento en el que confiamos en Internet en un grado sin precedentes en nuestra vida diaria, un equipo de investigadores de la UM dirigido por Mosharaf Chowdhury y Harsha Madhyastha ha encontrado una forma para que las empresas de tecnología, bancos y sistemas de salud para exprimir más capacidad de nuestra infraestructura existente.
Un cambio en el diseño de la herramienta de software de big data Apache Spark podría permitir que los mayores usuarios de potencia informática del mundo realicen tareas masivas hasta 16 veces más rápido mientras aligeran su carga en Internet. Chowdhury es profesor asistente y Madhyastha es profesor asociado, tanto de informática como de ingeniería. La modificación, llamado Sol, ahora está disponible para descargar en GitHub.
Spark es un marco electrónico de código abierto que sirve como administrador de tareas, coordinando vastas redes de computadoras individuales para trabajar juntas como una sola máquina en grandes tareas informáticas. Una de las herramientas de este tipo más utilizadas en el mundo, lo utilizan todas las principales empresas de tecnología, así como los bancos, empresas de telecomunicaciones, gobiernos y muchos otros.
Cuando Spark se construyó hace una década, la mayor parte de este trabajo se llevó a cabo en grandes centros de datos, donde se ubicaron grandes bancos de máquinas en un solo sitio. Pero hoy, se utiliza cada vez más para conectar máquinas distribuidas por todo el mundo y conectadas por Internet.
Chowdhury ayudó a construir Spark durante su tiempo como estudiante de posgrado en la Universidad de California Berkeley. Explica que reparte el trabajo en máquinas individuales utilizando un componente llamado motor de ejecución. Fue diseñado principalmente para grandes centros de datos, donde grupos de máquinas en la misma red local podrían comunicarse rápidamente entre sí. Pero es menos eficiente cuando las máquinas están a miles de kilómetros de distancia, conectado por la tubería relativamente estrecha de Internet.
"El motor de ejecución existente de Spark toma decisiones sobre dónde enviar el trabajo en el último minuto; solo después de que la CPU indica que está lista para más trabajo, envía una nueva tarea, ", Dijo Chowdhury." Ese enfoque maximiza la flexibilidad, y tiene sentido cuando una tarea se aloja en un solo centro de datos. Pero esa comunicación lleva mucho más tiempo entre máquinas que están conectadas a Internet. El enfoque de último minuto a menudo deja las CPU subutilizadas, lo que significa que están sentados esperando el trabajo ".
Entonces Chowdhury y Madhyastha, trabajando con los asistentes de investigación de estudiantes graduados Fan Lai y Jie You, así como con el estudiante universitario Xiangfeng Zhu, escribió un nuevo motor de ejecución llamado Sol. Sol adopta un enfoque más proactivo; en lugar de esperar a que las CPU indiquen que están listas para un nuevo trabajo, adivina cuáles serán los siguientes en la fila y les impulsa activamente nuevas tareas. También indica a las máquinas que procesen los datos localmente cuando sea posible en lugar de moverlos constantemente entre máquinas.
Esto significa menos mezcla de datos y comandos entre máquinas, reducir la carga en Internet y acelerar el procesamiento de datos. El equipo de Chowdhury ha descubierto que acelera drásticamente la computación, haciendo que las tareas comunes sean de cuatro a 16 veces más rápidas.
Si bien la versión disponible actualmente es una versión de investigación del software en lugar de un producto más pulido, Chowdhury dice que lanzarlo en su forma actual es una forma de impulsar la investigación en un momento en el que la velocidad es esencial.
"Fan Lai ya está disponible para ayudar a aquellos que quieran probarlo, ", dijo." Estamos haciendo todo lo posible para movernos rápidamente ".
El artículo se titula "Sol:Computación distribuida rápida sobre redes lentas".