Crédito:CC0 Public Domain
Modelado predictivo de conjuntos de datos muy grandes, como las mediciones ambientales, en un área amplia puede ser un ejercicio muy intensivo desde el punto de vista computacional. Estas demandas computacionales se pueden reducir significativamente aplicando varias aproximaciones, pero ¿a qué costo la precisión? Los investigadores de KAUST ahora han desarrollado herramientas estadísticas que ayudan a eliminar las conjeturas de este proceso de aproximación.
"En estadísticas espaciales, Se necesita mucho tiempo para adaptar un modelo de proceso estándar a grandes conjuntos de datos utilizando los métodos más precisos basados en verosimilitud. "dice Yiping Hong, quien dirigió la investigación. "Los métodos de aproximación pueden reducir significativamente el tiempo de cálculo y los recursos informáticos".
En lugar de modelar la relación entre cada par de observaciones utilizando explícitamente un modelo de proceso estándar, Los métodos de aproximación intentan adoptar una estructura de modelado alternativa para describir las relaciones en los datos. Este enfoque es menos preciso pero más amigable desde el punto de vista computacional. El método de estimación de mosaico de rango bajo (TLR) desarrollado por KAUST, por ejemplo, aplica una aproximación por bloques para reducir el tiempo de cálculo.
"Por lo tanto, es necesario determinar algunos parámetros de ajuste, como cuántos bloques se deben dividir y la precisión de la aproximación del bloque, "dice Hong". Para esto, Desarrollamos tres criterios para evaluar la pérdida de eficiencia de predicción, o la pérdida de información, cuando el modelo es aproximado ".
Ante la falta de medidas informativas para evaluar el impacto de la aproximación, Hong, junto con el científico computacional Sameh Abdulah y los estadísticos Marc Genton y Ying Sun, desarrollado por su cuenta. Las tres medidas:la pérdida media de eficiencia, la especificación errónea media y una raíz cuadrada media de la especificación errónea media:juntos proporcionan información sobre el "ajuste" de los parámetros de aproximación al conjunto de datos, incluida la variabilidad de la predicción, y no solo la evaluación punto por punto dada por el criterio de predicción convencional.
"Podemos utilizar nuestros criterios para comparar el rendimiento de predicción del método TLR con diferentes parámetros de ajuste, lo que nos permite sugerir los mejores parámetros para usar, "dice Hong.
El equipo aplicó el método a un conjunto de datos reales de mediciones de humedad del suelo de alta resolución en la cuenca del Mississippi. Al ajustar los parámetros de afinación utilizando las nuevas medidas, la aproximación TLR proporcionó estimaciones que están muy cerca de las estimaciones exactas de máxima verosimilitud, con un tiempo computacional significativamente más corto.
"Nuestro criterio, que fueron desarrollados para elegir el parámetro de ajuste para TLR, también se puede utilizar para ajustar otros métodos de aproximación, "dice Hong." Ahora planeamos comparar el rendimiento de otros métodos de aproximación desarrollados para grandes conjuntos de datos espaciales, lo que proporcionará una guía valiosa para el análisis de datos reales ".