(De izquierda a derecha) Fuad Jamour, Panos Kalnis y Yanzhao Chen están construyendo sistemas y algoritmos para procesar y analizar conjuntos de datos muy grandes. Crédito:2019 KAUST
Para resolver uno de los obstáculos clave en la ciencia del big data, Los investigadores de KAUST han creado un marco para buscar conjuntos de datos muy grandes que se ejecutan fácilmente en diferentes arquitecturas informáticas. Su logro permite a los investigadores concentrarse en hacer avanzar el motor de búsqueda, o motor de consulta, en sí mismo en lugar de codificar minuciosamente para plataformas informáticas específicas.
Los macrodatos son uno de los aspectos más prometedores y desafiantes del mundo actual, con gran cantidad de información. Mientras que los enormes y en constante expansión conjuntos de información, como datos recopilados en línea o información genética, podría contener información valiosa para la ciencia y la humanidad, procesar e interrogar todos estos datos requiere técnicas muy sofisticadas.
Se han explorado muchos enfoques diferentes para consultar macrodatos. Pero uno de los más poderosos y computacionalmente efectivos se basa en analizar datos con una estructura de triple almacén sujeto-predicado-objeto de la forma (por ejemplo, manzana, es un, Fruta). Esta estructura se presta a ser tratada como un grafo con aristas y vértices, y esta característica se ha utilizado para codificar motores de consulta para arquitecturas informáticas específicas para una máxima eficiencia. Sin embargo, tales enfoques específicos de la arquitectura no se pueden portar fácilmente a diferentes plataformas, Limitando las oportunidades de innovación y avance en analítica.
"Los sistemas informáticos modernos proporcionan diversas plataformas y aceleradores, y programarlos puede resultar intimidante y llevar mucho tiempo, "dicen Fuad Jamour y Yanzhao Chen, Doctor. candidatos en el grupo de Panos Kalnis en el Centro de Investigación de Computación Extrema de KAUST. "Nuestro grupo de investigación se centra en la construcción de sistemas y algoritmos para procesar y analizar conjuntos de datos muy grandes. Esta investigación aborda el deseo de escribir un programa una vez y luego usarlo en diferentes plataformas".
En lugar de los enfoques de indexación relacional exhaustiva o transversal de gráficos utilizados anteriormente, el grupo consultó datos de triple almacén utilizando un enfoque matemático aplicado llamado álgebra de matriz dispersa.
"Nuestro artículo describe el primer motor de consulta de gráficos de investigación con álgebra matricial en su núcleo para abordar el problema de la portabilidad, "dice Jamour." La mayoría de los motores de consulta de gráficos existentes están diseñados para computadoras individuales o pequeños sistemas de memoria distribuida. Y trasladar los motores existentes a grandes sistemas de memoria distribuida, como supercomputadoras, implica un esfuerzo de ingeniería significativo. Nuestro esquema de álgebra de matriz dispersa se puede utilizar para construir escalable, motores de consulta de gráficos portátiles y eficientes ".
Los experimentos del equipo en conjuntos de datos sintéticos y reales a gran escala lograron un rendimiento comparable con, o mejor que, enfoques especializados existentes para consultas complejas. Su esquema también tiene la capacidad de escalar a infraestructuras informáticas muy grandes que manejan conjuntos de datos de hasta 512 mil millones de triples.
"Estas ideas pueden facilitar la creación de componentes de análisis en bases de datos de gráficos con un rendimiento de vanguardia, que actualmente tiene una gran demanda, "dice Chen.