• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El archivo de conjunto de datos gratuito ayuda a los investigadores a encontrar rápidamente una aguja en un pajar

    Ahmed Eldawy. Crédito:UC Riverside

    Digamos que está realizando una investigación que requiere millones de tweets geoetiquetados. O quizás eres un periodista que quiere trazar un mapa de los asesinatos en Chicago desde 2001 hasta el presente. Necesita encontrar grandes conjuntos de datos espacio-temporales, pero ¿dónde?

    Si bien hay cientos de conjuntos de datos disponibles públicamente, localizarlos puede llevar meses de búsqueda. Cuando se encuentran fuentes potenciales, rara vez brindan suficiente información para que un investigador decida si el conjunto realmente contiene el tipo de datos que necesitan sin descargar el archivo, a menudo enorme, y clasificarlo primero.

    Gracias a un informático de la Universidad de California, Orilla, encontrar el conjunto de datos correcto ahora es tan fácil como marcar un sitio web, y no cuesta absolutamente nada.

    Ahmed Eldawy, profesor asistente de ciencias de la computación en la Facultad de Ingeniería Marlan and Rosemary Bourns, y su grupo pasó los últimos tres años buscando en Internet conjuntos de datos espaciotemporales públicos, estudiando sus atributos, y resumir los resultados de cada conjunto en mapas interactivos que muestran al usuario exactamente lo que está obteniendo.

    "Las personas que trabajan en ciencia de datos necesitan conjuntos de datos, pero pueden pasar mucho tiempo buscándolos, ", Dijo Eldawy." Quería construir un archivo que pudieran encontrar fácilmente ".

    Llamado repositorio activo espacio-temporal de la UCR, o UCR STAR, el archivo está disponible como un servicio para la comunidad de investigación para proporcionar un fácil acceso a grandes conjuntos de datos espacio-temporales a través de una interfaz exploratoria interactiva. Los usuarios pueden buscar y filtrar esos conjuntos de datos como si estuvieran comprando para su investigación, excepto que todo es gratis.

    "La interfaz del mapa visualiza los datos, para que pueda ver si encaja bien, ", Dijo Eldawy." Es como un catálogo de conjuntos de datos ".

    En el corazón de UCR STAR, el mapa proporciona una interfaz exploratoria interactiva para el conjunto de datos. Similar a Google Maps u otros mapas web, los usuarios pueden acercar y alejar y desplazarse para obtener una descripción general rápida de la distribución de datos, cobertura, y precisión.

    Los detalles importantes se muestran una vez que se selecciona un conjunto de datos, como la página de inicio original, un enlace a la fuente de descarga original, tamaño en bytes, número de registros, formato de archivo, y otra información útil. La función de descarga de subconjuntos permite a los usuarios descargar rápidamente los datos en una región geográfica determinada, lo que reduce el tamaño de la descarga. También pueden incrustar su vista personalizada en una página web o compartir el enlace a través de las redes sociales y marcarlo para volver a visitarlo más tarde.

    UCR STAR contiene 102 conjuntos de datos y 5 mil millones de registros. Los conjuntos de datos se mapearon utilizando Da Vinci, un marco de código abierto construido sobre Apache Spark que Eldawy diseñó para trabajar con datos espaciales. Se puede acceder mejor al sitio web de UCR STAR a través de un navegador de escritorio, pero también tiene una interfaz limitada para dispositivos móviles.


    © Ciencia https://es.scienceaq.com