Resumen: La estimación de los recursos del suelo a una escala diferente en las que se hacen las observaciones es un problema de importancia que sigue generando investigaciones relacionadas. Un aumento en la escala significa un aumento en la variación del parámetro, y esto puede causar problemas al interactuar con la no linealidad en un proceso o modelo. Cambiar la resolución espacial agregando o desagregando datos conlleva el riesgo de resultados contradictorios. Para demostrar este hecho se tomaron datos de Conductividad Eléctrica Aparente con el sensor EM38-MK2 en posición vertical al suelo de forma simultánea con los dos dipolos a dos profundidades relativas (0.75m y 1.5m), asociados a una misma coordenada. Se evaluaron tamaños de agregación espacial desde una rejilla de 5m*5m hasta 70m*70m, con razón aritmética de 5m. Se usaron coordenadas representativas para generar la matriz de pesos espaciales basada en el: i) centro de la grilla, ii) valor medio de las coordenadas que interceptan espacialmente cada celda, y iii) valor del centroide de los puntos agregados por cada celda. Para analizar el patrón de autocorrelación espacial se usó el índice de Moran Montecarlo para los residuales del modelo ajustado. Los resultados mostraron que a medida que se aumenta el tamaño de la rejilla, la dependencia espacial univariada comienza a disminuir para todas las coordenadas representativas, siendo la coordenada del centro de la celda la más afectada. Para una profundidad específica del sensor, se recomienda el uso de la coordenada del centroide y en agregaciones que superen los 20m para mantener la estructura de dependencia espacial que pudiera ser natural en esta variable y conveniente en procesos de modelado mediante regresión espacial.
Palabras clave: Agregación espacial, matriz de pesos espaciales, modelo de regresión espacial.
Abstract: Estimating soil resources at a different scale on which observations are made is a major problem that continues to generate related research. An increase in scale means an increase in the variation of the parameter, and this can cause problems when interacting with non-linearity in a process or model. Changing the spatial resolution by adding or disaggregating data carries the risk of conflicting results. To demonstrate this fact, Apparent Electrical Conductivity data were taken with the EM38-MK2 sensor in a vertical position to the ground simultaneously with the two dipoles at two relative depths (0.75m and 1.5m), associated with the same coordinate. Spatial aggregation sizes were evaluated from a fishnet of 5m*5m to 70m*70m, with an arithmetic ratio of 5m. Representative coordinates were used to generate the matrix of spatial weights based on the: i) center of the grid, ii) mean value of the coordinates that spatially intercept each cell, and iii) value of the centroid of the points added by each cell. To analyze the spatial autocorrelation pattern, the Moran Montecarlo index was used for the residuals of the adjusted model. The results showed that as the size of the grid is increased, the univariate spatial dependence begins to decrease for all representative coordinates, with the coordinate of the center of the cell being the most affected. For a specific sensor depth, the use of the centroid coordinate and in aggregations that exceed 20m is recommended to maintain the spatial dependency structure that could be natural in this variable and convenient in spatial regression modeling processes.
Keywords: Spatial data aggregation, matrix of spatial weights, spatial regression model.
Artículos de investigación
Efecto de la coordenada representativa de la agregación en datos de conductividad eléctrica aparente y su relación con medidas de dependencia espacial
Effect of the representative coordinate of the aggregation on apparent electrical conductivity data and its relationship with measures of spatial dependence
Recepción: 03 Diciembre 2019
Aprobación: 03 Noviembre 2020
Autor de correspondencia: aqedarghanco@unal.edu.co
Obtener estimaciones de los recursos del suelo a una escala diferente de las que se hacen las observaciones sigue siendo un problema en el modelado espacial. Son conocidas las complicaciones existentes cuando se interpretan patrones de algunas propiedades del suelo mediante sensores (Western & Blöschl, 1999), por lo que se prefiere el uso de datos de campo, los cuales son siempre muestras puntuales, lo que dificulta generar relaciones con i) los promedios del área de estudio, ii) información que se encuentran muy espaciados entre sí, iii) generar agregaciones de alguna forma para facilitar su manipulación, iv) se procura generar algún tipo de interpolación que provea de alguna forma de visualización. Este cambio de resolución espacial agregando o desagregando los datos conlleva el riesgo de simulaciones sesgadas debido a datos modificados que tienen propiedades estadísticas diferentes al nivel original no agregado (Maraun, 2013).
Hoffmann, et al., (2016), reportaron algunos datos edáficos suelen generarse mediante promedios, empleando modelos que generalmente muestran promedios sesgados de las variables respuesta, empeorándose a medida que se aumenta la agregación.
Sin duda los datos agregados son menos costosos desde el punto de vista computacional, pero están asociados con la pérdida de información sobre la variabilidad espacial, lo que puede introducir sesgos (Zhao, et al., 2015).
El uso de datos agregados se asocia a alteraciones de las relaciones estadísticas entre las variables, lo que muy seguramente puede influir en el modelado. Este problema es bien conocido entre la comunidad de modelización, donde a menudo se aplican diferentes alternativas de corrección (Ehret, et al., 2012).
La agregación espacial de datos de entrada se usa cada vez más para las evaluaciones agroambientales (Folberth, et al., 2016). La cuantificación de la incertidumbre causada por la agregación de datos de entrada en relación con otras fuentes de incertidumbre de aumento de escala es esencial para diseñar esquemas de agregación adecuados y producir resultados confiables de aumento de escala (Grosz, et al., 2017), en este sentido, es necesario desarrollar métodos que representen los efectos de agregación observados en métodos de estimación de incertidumbre
La caracterización de la variabilidad espacial del suelo es fundamental para la comprensión de los procesos de suelos a diferentes escalas. La medición espacial de la Conductividad Eléctrica Aparente del suelo (CEa) es un medio para estimar la variabilidad espacial basada en sensores que puede proporcionar un indicador indirecto de propiedades importantes del suelo (Corwin & Lesch, 2005). Varias de estas propiedades están relacionadas con la distribución y disponibilidad del agua, algunas incluyen la capacidad de retención de agua del suelo, la tasa de infiltración del agua, la textura, la estructura, la densidad aparente, la materia orgánica, la profundidad del suelo y la presencia de capas de suelo restrictivas (Sudduth, et al., 2001).
En objetivo fue buscar procedimientos que puedan mostrar algún patrón útil que sugiera que soporte de la escala debe ser usado para modelar la CEa, se probaron tres coordenadas diferentes de centros que pueden generarse dentro de los polígonos después de algún tipo de agregación mediante rejillas, con las cuales se construyó la matriz de pesos espaciales que fueron usadas en los modelos de regresión espacial. Los resultados sugieren el uso del centroide como coordenada representativa en la agregación de 45m45m, en esta se cumple el supuesto de normalidad de los residuales del modelo de regresión espacial, y es en donde se presentó un menor criterio de información de Akaike.
La medición de la CEa se realizó a un lote de 27.34 ha, ubicado en el municipio de Puerto López (Meta) en Colombia (Figura 1), con coordenadas 4°12'02'' de latitud Norte y 72°29'09'' de longitud Oeste a una altura aproximada de 212 msnm. De acuerdo con el sistema de clasificación de Köppen pertenece al clima tropical lluvioso de sabana (Aw).
La CEa es una medida de la capacidad del suelo para conducir una corriente eléctrica (Terrón, et al., 2011). El sensor EM38-MK2 utiliza la inducción electromagnética para medir la CEa de una columna de suelo, sin entrar en contacto con este, hasta una profundidad de observación específica (Sudduth, et al., 2001). El sensor ofrece la medición tanto en cuadratura de fase (conductividad) y en fase (susceptibilidad magnética) componentes dentro de dos rangos de profundidad distintos, todos al mismo tiempo. Además, posee dos bobinas receptoras, separadas por 1.0 m y 0.5 m del trasmisor, que proporciona datos con una profundidad efectiva de 1.5 m y 0.75 m respectivamente cuando se coloca en la orientación del dipolo vertical; 0.75 m y 0.375 m, cuando la orientación del dipolo es horizontal, respectivamente (GEONICS, 2012). Para este caso, se tomó la información en la orientación vertical del dipolo, contenida a una profundidad de 0.75 m (CEa-075), por ser una de las más encontradas en su mapeo debido a que en esta profundidad se encuentra gran parte del desarrollo de las raíces de los cultivos (Silva, et al., 2019; Rao, et al., 2019; Guo, et al., 2012).
La toma de datos en campo de la CEa se realizó con el equipo EM38-MK2 el cual fue calibrado in situ bajo la metodología GEONICS (2012); se realizó un muestreo denso en pasadas paralelas al área de estudio, conectando el sensor a una unidad Hemisphere GPS XF101 DGPS (Juniper Systems, Inc., Logan, UT), el cual registró la ubicación de cada medición en coordenadas WGS84 (World Geodetic System 1984). El sensor reportó 18526 puntos georreferenciados en el área a una distancia media entre pasada de 30 m a una velocidad promedio de recorrido del tractor de 3.0 km/h.
Para la generación de la red cuadrada se empleó la herramienta “Create Fishnet” de ArcGIS 10.5.1 (ESRI, 2017), se evaluaron tamaños de agregación espacial desde una red de 5m * 5m hasta 70m*70m, con razón aritmética de 5m. Se determinaron tres tipos de coordenadas representativas con el fin de evaluar los modelos de regresión espacial, específicamente en la matriz de pesos espaciales de cada una de las redes creadas. Se usó la media de la CEa-075 de cada celda para las coordenadas representativas evaluadas.
Esta coordenada representativa se asoció al centro de la celda de cada una de las redes evaluadas, y fue calculada con la herramienta “Calculate Geometry” (ESRI, 2017) del polígono, generado para cada red (Mitra & Sharma, 2018).
En cada red y para cada celda, existe varios datos georreferenciados de CEa-075, que interceptan espacialmente a cada celda. Se uso la herramienta “Joins and Relates”, tomando como resumen de atributos “Attribute to be Summarized”, el valor de la media, de los puntos georeferenciados para cada celda, obteniendo el valor de la media para cada celda de cada red (Eteje & Oluyori, 2020).
El concepto de centroide es el equivalente multivariado de la media. Al igual que la media, el centroide de una nube de puntos minimiza la suma de las distancias al cuadrado desde los puntos de la nube hasta un punto en el espacio (Abdi, 2009). La coordenada del centroide geométrico se determinó usando la metodología del centroide de una región plana (Deakin, et al., 2002).
Los modelos de regresión espacial se usan comúnmente para analizar procesos espaciales en una red (Li, et al., 2007). Siguiendo la notación de Ord (1975), especifica un modelo autorregresivo para un vector de observaciones (en este caso, de CEa) en una serie de ubicaciones de áreas, las cuales quedan conformadas por las celdas de la rejilla utilizada, en particular, en la actual investigación se usa el valor de la media de la CEa-075. Para ilustrar el efecto de la agregación con diferentes coordenadas para el centro geométrico del polígono de agregación se partió del modelo espacial escrito como (Ecuación 1):
donde Y representa la variable respuesta asociada a la CEa agregada en cada celda como la media de las conductividades que se agrupan por celda; es conocido como el coeficiente espacial autoregresivo; es el coeficiente de autocorrelación espacial; Wu representa el efecto de interacción entre los disturbios de diferentes unidades; WY denota al efecto de interacción endógena e involucra la matriz de pesos espaciales W=Wij generada a partir de las distancias dijentre los centros de polígonos usados para representar cada celda de la agregación espacial, la cual es una matriz no negativa normalizada de dimensión n*n y describe la configuración espacial u orden de las unidades en la muestra, específicamente a cada celda de la agregación.
Para este caso la matriz de pesos evaluada fue determinada con una función de disminución de la distancia de potencia negativa, con la expresión W=dij-b . En términos matemáticos, si es un punto para el que tenemos una medida registrada de un atributo y es un punto sin medida registrada, se usa b=1 como parámetro que determina la velocidad a la que el peso W asignado al punto j disminuye con la distancia de i (Longley, et al., 2015).
Una vez normalizada W,, y siendo Wmin el menor peso no nulo en W; es un vector de unos asociado con el intercepto que debe ser estimado, es un vector de los disturbios, donde se asume para que son independientes e idénticamente distribuidos para todo , los cuales tienen media cero, varianza , con distribución normal; de este modo representa los disturbios que muestran una estructura de dependencia espacial (Elhorst,2014).
Puede notarse en la ecuación (1) que este modelo, no se está incorporando el efecto de interacción atribuible a variables exógenas esto debido a que la única variable medida en campo fue la CEa, además, el interés en este documento es estudiar meramente el efecto de la agregación en la estructura de dependencia y en la estimación de , buscando eliminar el efecto de variables exógenas para entender mejor el efecto de la agregación y su efecto en la dependencia espacial de los residuales, la cual se probó con el índice global de Moran (I de Moran) (Moran, 1948) de la librería spdep de R (Bivand, et al., 2015). el Índice de Moran varía entre –1 y 1; un valor cercano a 1 indica una alta autocorrelación positiva, mientras que valores cercanos a –1 indican autocorrelación negativa, por el contrario, un valor próximo a cero significa que no existe un patrón espacial o que la dispersión de las observaciones en el espacio es completamente aleatoria (Fu, et al., 2011).
Por lo tanto, el modelo evaluado fue el Autorregresivo puro (Purely autoregressive model – spautolm), el cual asume que β = 0 y ρ = 0. De esa manera, el modelo se reduce a un modelo sin variables explicativas exógenas expresado en la ecuación (2) (Arbia, 2014):
La posición de la coordenada representativa (p.e. agregación 30m*30m) para una de las redes cuadradas calculadas se ilustra en la figura 2; muestra las ubicaciones de la coordenada representativas evaluadas, (Xg,Yg), (Xm,Ym), y (Xc,Yc) para una misma celda, observando que la ubicación es distinta, debido al procedimiento de cálculo de la coordenada.
En la figura 3, se visualiza las agregaciones realizadas a partir de 5m*5m, hasta 60m*60m, donde también se pudo determinar que para la coordenada representativa (Xg,Yg), existieron puntos que se ubicaron espacialmente por fuera del contorno convexo del área de estudio.
Para la cuantificación de la magnitud de estructuración espacial de cada una de las agregaciones y teniendo como coordenadas representativas (Xg,Yg); (Xm,Ym); (Xc,Yc), se determinó el I de Moran.
En la tabla 1, se observa los resultados del modelo Autoregresivo puro (Purely autoregressive model - spautolm), donde todos los modelos generaron p-valor inferiores al 1% para todas las coordenadas representativas, al igual que el I Moran Montecarlo de los residuales del modelo. Uno de los supuestos de los modelos de regresión espacial es que los residuales generados cumplan el supuesto de normalidad, lo cual se alcanzó a partir de la agregación de 20m*20m (con p-valor > 0.01) para todas las coordenadas representativas.
En la tabla 2, fueron obtenidas otras medidas de ajuste de los modelos tal como el AIC, RMSE y MAE, además se determinó el coeficiente de correlación Spearman (rs) para la CEa-075 y la CEa-075* (Conductividad Eléctrica Aparente estimada a una profundidad relativa de 0.75m), pues el interés estuvo más en la monotonía y no solo en la linealidad de la relación, para evaluar el comportamiento estadístico de la coordenada representativa.
Los valores de RMSE y MAE para las coordenadas (Xm,Ym) y (Xc,Yc), fue siempre menor que para (Xg,Yg) en todas las agregaciones espaciales evaluadas, pero en la figura 4 no se observó una diferencia significativa entre (Xm,Ym) y (Xc,Yc), debido a que estos valores son casi coincidentes en las cuatro primeras cifras significativas (Tabla 2).
En la tabla 2 se observa que en general para todas las agregaciones el AIC es menor para la coordenada (Xc,Yc), acompañado de una mayor correlación CEa-075 y CEa-075*, por lo tanto, basados en las medidas estadísticas (AIC, RMSE y MAE) la coordenada representativa más conveniente para los datos de CEa-075, para el área de estudio es la asociada al centroide (Xc,Yc).
Los resultados mostraron que a medida que se aumenta el tamaño de la rejilla (agregación espacial), la dependencia espacial univariada comienza a disminuir para todas las coordenadas representativas, pero para las coordenadas (Xm,Ym) y (Xc,Yc), esta disminución es menos pronunciada. El modelo Autorregresivo puro resultó adecuado desde un punto de vista estadístico en todas las agregaciones evaluadas y el hecho que se haya evidenciado dependencia espacial hace que tenga mayor valor predictivo para definir regiones similares asociadas a la CEa-075.
A partir de la agregación de 20m*20m, el modelo cumple con los supuestos necesarios para su ajuste en esta matriz de datos, y gracias a la estimación de otras métricas estadísticas tales como el RMSE, MAE, rs y el AIC se pudo seleccionar no solo la mejor agregación sino la mejor coordenada representativa. Estos resultados indicaron que la mejor agregación espacial para este conjunto de datos CEa-075 medidos para el área de estudio es de aproximadamente de 45m*45m con coordenada representativa del centroide (Xc,Yc).
aqedarghanco@unal.edu.co