El equipo está utilizando un análisis profundo de cálculos paralelos para acelerar el aprendizaje automático a escala. Crédito:Onur Oymak / Alamy
Al deconstruir y analizar los métodos probados utilizados en cálculos masivamente paralelos, una colaboración dirigida por KAUST ha desarrollado un marco innovador para cálculos paralelos eficientes a escala. El marco tiene especial relevancia para los tipos de procesamiento necesarios para la optimización en el aprendizaje automático.
"Paralelizar" una tarea de optimización o procesamiento de datos permite que la tarea se distribuya entre muchos nodos computacionales. Idealmente, esto dividiría el tiempo necesario para el cálculo por el número de nodos reclutados para la tarea. Sin embargo, con la paralelización surge la necesidad de pasar cantidades crecientes de información entre los nodos, lo que significa que el grado ideal de aceleración nunca se alcanza en la práctica.
"En optimización distribuida, un problema común es el cuello de botella de la comunicación, "explica Konstantin Mishchenko del Visual Computing Center." Imagina que tienes una computadora con cuatro núcleos, y desea ejecutar su programa en paralelo en una computadora nueva con 16 núcleos. Naturalmente, esperaría que la nueva computadora fuera aproximadamente cuatro veces más rápida. Pero, a pesar de que la nueva computadora tiene cuatro veces la potencia de cálculo total, gran parte se utiliza sincronizando los núcleos en cada actualización del modelo. Este cuello de botella de comunicación reduce el efecto positivo de aumentar el número de núcleos y se vuelve severo cuando escalamos el número de núcleos a cientos o miles ".
Una investigación reciente del grupo de Peter Richtárik ha abordado este problema de dos maneras:mejorando la compresión de la información transmitida en cada sincronización y generalizando el algoritmo de aprendizaje para que pueda usarse con cualquier esquema de compresión.
"Lo más difícil de entender fue por qué las ideas existentes siempre funcionan, "dice Mishchenko." Comúnmente, los investigadores primero adivinan qué truco se debe utilizar, y solo más tarde comenzamos a comprender por qué funciona. Esto es exactamente lo que hicimos:utilizando contraejemplos simples, volvimos a analizar dos trucos conocidos y nos dimos cuenta de que hay una mejor manera de utilizarlos ".
Esas técnicas, llamada cuantificación y esparcimiento aleatorio, son métodos de compresión que normalmente se utilizan de forma aislada. Combinando ambos, y de manera crucial, solo comprimiendo la diferencia entre la nueva información y la actualización anterior, el equipo demostró matemáticamente que es posible un esquema de compresión más eficiente con menos pérdida de información.
"El punto más importante es que esta nueva técnica, donde comprimimos la diferencia entre la información actual y la anterior, y no solo la nueva información en sí, asegura que se pierda menos información cuando realizamos una compresión, ", dice Mishchenko." Y hemos demostrado y observado en experimentos que el escalado con nuestro método está más cerca del ideal ".
El otro hallazgo generaliza el algoritmo de aprendizaje para una variedad de tareas de optimización diferentes de una manera que permite su uso con cualquier esquema de compresión.
"Nuestra motivación fue crear una teoría general que no se base en ningún esquema de compresión específico para comprender los efectos de la compresión en el entrenamiento distribuido, "dice Samuel Horvath del equipo de investigación.
El uso de esta teoría permite construir algoritmos para la computación distribuida sin los problemas de optimización incompleta y dependencia de esquemas de compresión específicos que enfrentan los métodos existentes.
"Este trabajo nos ayuda a comprender mejor los efectos de los diferentes métodos de compresión y nos ayuda a elegir el esquema de compresión adecuado para el problema dado. "dice Horvath.