ShareBackup podría mantener los datos en el carril rápido

El científico informático de la Universidad de Rice, Eugene Ng, dirigió el desarrollo de ShareBackup, una solución de hardware y software para ayudar a los centros de datos a recuperarse de fallas sin ralentizar las aplicaciones. Crédito:Jeff Fitlow / Rice University

Cualquiera que haya maldecido alguna vez a una red de computadoras porque se ralentizó apreciará el remedio ofrecido por los científicos de la Universidad de Rice.

El científico informático de Rice, Eugene Ng, y su equipo dicen que su solución mantendrá los datos en la vía rápida cuando inevitablemente ocurran fallas.

Ng presentó ShareBackup, una estrategia que permitiría que los conmutadores de respaldo compartidos en los centros de datos asuman el tráfico de la red en una fracción de segundo después de una falla del conmutador de software o hardware.

Presentará un artículo revisado por pares sobre el trabajo esta semana en la conferencia SIGCOMM 2018 en Budapest, Hungría. El documento está en línea y disponible para descargar.

Ng dijo que la idea resolvería una molestia común entre los profesionales de datos, científicos y todos los que dependen de una red para obtener resultados día tras día.

"Una red de datos consta de servidores y conmutadores de red, "dijo Ng, profesor de ciencias de la computación e ingeniería eléctrica e informática. "Los conmutadores mueven los paquetes de datos a donde deben ir. Pero las cosas fallan, especialmente en centros de datos a gran escala con miles de piezas de hardware ".

La respuesta habitual a un interruptor fallido es desviar el flujo de datos a otra línea. "Generalmente, la red tiene varias rutas para conectar servidores, por lo que como si hubiera un cierre en la autopista, lo rodearíamos. Este es un convencional enfoque natural que tiene mucho sentido:desvías el camino alrededor del fracaso para llegar a donde necesitas ir ".

Pero a veces ese otro camino está congestionado y todo se ralentiza. "Los centros de datos no son Internet; no se trata de personas que navegan por sitios web, ", Dijo Ng." Se trata de admitir aplicaciones de uso intensivo de datos, como la minería de datos o el aprendizaje automático. Y muchas de estas aplicaciones tienen plazos de ejecución estrictos, así que desviar el tráfico a ciegas podría ser algo incorrecto en un centro de datos ".

En lugar de la costosa opción de instalar conmutadores redundantes en una red, La estrategia del laboratorio de Ng colocaría conmutadores rápidos y software en ubicaciones estratégicas que podrían captar el tráfico de un conmutador fallido en un microsegundo. Cuando ese problema se resuelva, El software del equipo hace que el interruptor de respaldo esté disponible para manejar otra falla.

El conmutador es lo suficientemente rápido:el tiempo de recuperación de fallas es de 0,73 milisegundos, incluida la latencia del hardware y los sistemas de control, que la mayoría de los usuarios nunca sabrían que parte del sistema ha fallado.

"La realidad es que la fracción de dispositivos que fallan en un momento dado es muy pequeña, y la mayoría de estas fallas se pueden solucionar con cosas como reiniciar el dispositivo, ", Dijo Ng." A veces, el software se estropea y un simple ciclo de energía lo traerá de vuelta. Estos fallos también pueden no durar mucho.

"Estas son las características que intentamos aprovechar, ", dijo." Por eso, podemos salirse con la suya con muy pocos dispositivos que respalden una gran cantidad de dispositivos ".

Ng dijo que ShareBackup podría ahorrar tiempo y dinero a los centros de datos no solo al mantener el ancho de banda completo, sino también al ayudar a analizar los problemas. incluidas las configuraciones incorrectas que comúnmente conducen a fallas en la red.

"Parte de nuestro trabajo es ayudar a los centros de datos a descubrir qué salió mal en la red, ", dijo." Una vez que se activa la copia de seguridad, puede sacar el dispositivo defectuoso de la red de producción y probarlo para identificar qué componente causó el problema.

"Ahora, si sacamos dos dispositivos y no podemos averiguar cuál salió mal, ambos necesitan ser reemplazados, ", dijo." Es muy probable que sólo uno de los dispositivos tenga el problema. Nuestro software puede diagnosticar estos dispositivos de forma semiautomática, y si una de las partes es buena, se puede restablecer ".

Google aclara la política de seguimiento de la ubicación

Esta empresa de tecnología automotriz de Silicon Valley está llevando un arma secreta a las calles de Sacramento

Electrónica