El modelo de efectos mixtos permite una identificación más precisa de los puntos críticos en los que las variables atmosféricas se relacionan de manera diferente en comparación con otras áreas. Crédito:John Wiley &Sons Ltd.
Un método más confiable para identificar regiones con diferentes relaciones entre la contaminación del aire y las condiciones climáticas mejora la detección de puntos críticos de contaminación.
La relación entre las condiciones climáticas y la contaminación del aire es compleja y puede variar enormemente de un lugar a otro. Esto dificulta identificar las fuentes de contaminación y predecir su comportamiento en la atmósfera. Si bien los científicos de datos y los estadísticos han logrado un progreso significativo en la lucha con este problema, los enormes volúmenes de datos ambientales y multitud de variables, como la velocidad del viento, componente de temperatura y contaminación, requieren compromisos para hacer que el problema sea manejable.
Por ejemplo, la mayoría de los enfoques existentes para detectar "puntos calientes" en la correlación entre variables en datos espaciales implican la construcción de una cuadrícula en la que la relación entre las variables en una celda se trata independientemente de todas las demás. Aunque esto no es del todo realista —a menudo hay dependencia entre áreas espaciales, particularmente en los datos meteorológicos y de contaminación del aire— es extraordinariamente difícil encontrar puntos calientes espaciales y determinar la estructura de dependencia espacial al mismo tiempo.
Ying Sun y Junho Lee del Laboratorio de Estadística Ambiental de KAUST han dado un salto adelante al abordar este problema con el desarrollo de un "modelo de efectos mixtos" para la detección de puntos críticos.
Este mapa muestra cómo el modelo de efectos mixtos divide el noreste de EE. UU. En bloques, permitiéndoles identificar "puntos calientes". Crédito:John Wiley &Sons Ltd
"Abordamos el problema mediante el uso de una estructura de bloque espacial simple para aproximar la dependencia espacial, ", dice Lee." Esto nos permite encontrar puntos calientes espaciales que muestran patrones distintos al tiempo que reduce la tasa de falsos positivos debido a la dependencia espacial ".
El enfoque, desarrollado en colaboración con Howard Chang de la Universidad de Emory en los Estados Unidos, implica dividir la región en bloques y aplicar secuencialmente efectos aleatorios a los bloques para desentrañar fuertes correlaciones de la variabilidad de fondo o "ruido". Esto tiene el beneficio adicional de poder identificar cualquier número de clústeres de puntos de acceso en los datos, incluidos los grupos que pueden superponerse.
"El principal desafío fue cómo decidir un tamaño de bloque apropiado para los efectos aleatorios, ", dice Lee." Nos decidimos por hacer coincidir el tamaño del bloque con el rango de dependencia espacial de los datos ".
El equipo aplicó su método para analizar los datos de contaminación del aire en el noreste de Estados Unidos. Encontraron que en verano las concentraciones de material particulado a escala micrométrica en el aire (PM2.5) aumentaron con la temperatura y disminuyeron con la humedad relativa en la mayor parte de la región.
"Sin embargo, con nuestro enfoque, podríamos encontrar áreas distintas con la tendencia opuesta, como en el área de la bahía de Chesapeake, donde hay una asociación negativa entre PM2.5 y temperatura, y alrededor de Maine, donde existe una correlación positiva entre PM2.5 y la humedad relativa, "dice Lee.