Los instrumentos de monitoreo de PM2.5 en el State Key Laboratory of Atmospheric Boundary Layer Physics and Atmospheric Chemistry (LAPC), Instituto de Física Atmosférica, Academia china de ciencias. Crédito:TANG Xiao
Los datos de monitoreo de la calidad del aire ambiental constituyen la fuente más importante para la conciencia pública sobre la calidad del aire, y se utilizan ampliamente en muchos campos de investigación, como mejorar el pronóstico de la calidad del aire y el análisis de episodios de neblina. Sin embargo, hay valores atípicos entre dichos datos de seguimiento, debido a averías del instrumento, la influencia de entornos hostiles, y la limitación de los métodos de medición.
En la práctica, La inspección manual se aplica a menudo para identificar estos valores atípicos. Sin embargo, a medida que la cantidad de datos crece rápidamente, este método se vuelve cada vez más engorroso.
Para lidiar con el problema, Dr. Wu Huangjian y el profesor asociado Tang Xiao del Instituto de Física Atmosférica, Academia china de ciencias, proponer un método de detección de valores atípicos totalmente automático basado en la probabilidad de residuos. El método adopta múltiples métodos de regresión, y los residuos de regresión se utilizan para discriminar valores atípicos. Basado en las desviaciones estándar de los residuos, se pueden calcular las probabilidades de los residuos, y las observaciones con probabilidades pequeñas se etiquetan como valores atípicos y se eliminan mediante un programa de computadora. Sus hallazgos se publican en Avances en ciencias atmosféricas .
"Al introducir las probabilidades de los residuos, se pueden usar varias reglas para identificar valores atípicos en el mismo marco, "dice el Dr. Wu". Por ejemplo, asumiendo que los residuos de la regresión espacial y la regresión temporal obedecen a una distribución normal bivariada, las consistencias espaciales y temporales se pueden evaluar simultáneamente para una mejor identificación de los valores atípicos ".
El método puede marcar datos potencialmente erróneos en las observaciones por hora de 1436 estaciones del Centro Nacional de Monitoreo Ambiental de China (CNEMC) en un minuto. En efecto, se ha utilizado en el sistema de pronóstico de la calidad del aire de CNEMC, y se integrará en el sistema de gestión de datos. La esperanza es que los valores atípicos en los datos de calidad del aire en tiempo real del sistema se eliminen en un futuro próximo.
El método está publicado en Avances en ciencias atmosféricas .