Artículos
Usando R para una fácil y eficiente predicción de la incertidumbre de simulaciones de modelos ambientales
Revista Hidrolatinoamericana de Jóvenes Investigadores y Profesionales
International Association for Hydro-Environment Engineering and Research, España
ISSN-e: 2520-2960
Periodicidad: Anual
vol. 3, 2019
Recepción: 05 Febrero 2019
Aprobación: 02 Julio 2019
Resumen: Determinar la incertidumbre en modelos medioambientales es una tarea demandante. Se presenta en este trabajo la implementación de la metodología de análisis de incertidumbre DDS-AU en un código de R y se compara la eficiencia del método contra el ampliamente usado GLUE con muestreo uniforme. Se encontró que DDS-AU tiene una mayor eficiencia para encontrar excelentes valores de la función objetivo que la metodología GLUE, incluso en este problema de 10 parámetros. Asimismo, el mejor resultado de la desviación respecto de los caudales observados se obtuvo al usar la metodología DDS-AU. El código se brinda para su libre uso.
Palabras clave: Código, DDS-AU, eficiencia de muestreo, incertidumbre paramétrica, alta dimensionalidad.
Abstract: Assessing the uncertainty in environmental models is a challenging task. We present in this research an implementation of the DDS-AU uncertainty analysis methodology and the developed code. Also, the efficiency of the DDS-AU is contrasted with the widely used GLUE with uniform random sampling. It was found that DDS-AU has a mayor efficiency when trying to find excellent objective function values with GLUE, even in this 10-parameter problem. Moreover, the best deviation of the simulated streamflows respect the observed discharge was obtained with the DDS-AU. The program code is made freely available for its use.
Keywords: Code, DDS-AU, parameter uncertainty, sampling efficiency, high-dimensional.
1. Introducción
La modelación de sistemas ambientales es una herramienta de gran utilidad. En general, la modelación permite: conocer el entendimiento que se tiene del sistema analizado; buscar errores e inconsistencias en los datos, mediciones, o rellenar la información; y probar las implicaciones de cambios en el sistema, lo que se conoce como escenarios. A estas utilidades también se puede incluir el conocimiento del valor de las variables en puntos no instrumentados.
Sin embargo, las modelaciones y las mediciones siempre están sujetas a cierto grado de incertidumbre. Ésta proviene principalmente de la determinación de parámetros, datos ingresados y estructura del modelo. De ellas la que más ampliamente se aborda es la incertidumbre paramétrica, que es estudiada en la mayoría de modelaciones con experimentos de Montecarlo y la ampliamente conocida metodología GLUE (Keith Beven & Binley, 1992).
Los experimentos de Montecarlo se basan en muestreos aleatorios que son altamente ineficientes para identificar buenos conjuntos de parámetros (Tolson & Shoemaker, 2008). Para abordar el problema de la ineficiencia y para reducir los requerimientos computacionales de las simulaciones, se han propuesto la construcción de metamodelos (modelos de modelos), o mejores técnicas de muestreo como el Latin Hypercube Sampling (LHS). Dentro de estos últimos se encuentra la metodología Dynamical Dimension Search (DDS) – Analysis of Uncertainty (DDS-AU), propuesta por Tolson & Shoemaker (2008).
En consecuencia, este trabajo busca presentar los resultados obtenidos del análisis de incertidumbre usando la metodología DDS-AU, desarrollados con una herramienta creada en la plataforma R. Asimismo, se compara el desempeño del algoritmo DDS-AU contra la metodología GLUE con el ampliamente usado muestreo uniforme, en la calibración del modelo TOPMODEL (K Beven, Lamb, Quinn, Romanowicz, & Freer, 1995). La herramienta es de código abierto y está disponible en el siguiente enlace para su libre uso (https://github.com/nduqueg/DDS-Aproximation-of-Uncertainty), bajo el reconocimiento de Tolson & Shoemaker (2008), y de la implementación en R expuesta en este artículo.
2. DDS-AU y descripción del código
La metodología DDS-AU se fundamenta en el marco del concepto de equifinalidad y de los conjuntos de parámetros “comportamentales” (Keith Beven & Binley, 1992). Un umbral subjetivo debe ser definido por el modelador, que generalmente se basa en los resultados de una función objetivo (FO) y en el número de simulaciones realizadas que tiene un comportamiento aceptable, bueno o muy bueno de acuerdo con esa FO. No obstante, DDS-AU busca atacar el problema de la baja probabilidad de muestreo cerca del óptimo global cuando se usa el muestreo uniforme.
Al estar en el marco de la metodología GLUE, el algoritmo DDS-AU se basa en identificar múltiples e independientes conjuntos de parámetros comportamentales. Para ello, utiliza algoritmos DDS aleatorios e independientes (Tolson & Shoemaker, 2007). El algoritmo DDS se creó para obtener un buen resultado con un número limitado de simulaciones en problemas inversos dimensionalmente altos. Éste busca aleatoriamente cerca del mejor resultado que haya obtenido hasta la iteración , pero se caracteriza por ir reduciendo el número de parámetros calibrados a medida que avanzan las iteraciones (Tolson & Shoemaker, 2007). Tolson & Shoemaker (2007) reportan con sus experimentos como el algoritmo DDS tiene, en muchos casos, un mejor desempeño que el ampliamente conocido Shuffled Complex Evolution (SCE) (Duan, Sorooshian, & Gupta, 1992). En consecuencia, DDS-AU escoge como parámetro comportamental el conjunto de parámetros con mejor F.O. para cada DDS independiente.
El código del DDS-AU se implementó como funciones en la plataforma R. Estas incluyen una función para: el algoritmo DDS, el DDS-AU, y una para el post-procesamiento de los resultados del DDS-AU. Siguiendo las sugerencias de Tolson & Shoemaker (2008), el código recibe el número máximo de simulaciones ( ), la cantidad de muestras “comportamentales” que se quieren hallar ( ). Con base en estos datos, genera aleatoriamente el número de iteraciones que realiza cada uno de los DDS independientes en un intervalo. Dicho intervalo se crea basado en un porcentaje que ingresa el usuario y que se relaciona con el número de promedio iteraciones de los DDS independiente; este es igual a:
El intervalo se extiende en el porcentaje hacia valores superiores e inferiores respecto de ese punto central.
3. Área de estudio y datos
La cuenca del río Casanare se encuentra en los llanos de la Orinoquía colombiana. Tiene un área de 14700 km2 en su mayoría sobre las planicies, y la cuenca tiene su parte alta en la cordillera oriental de los Andes colombianos. Para los datos de precipitación, se crearon campos combinando datos del MSWEP y de estaciones en tierra con la metodología Double Smoothing. Para los datos de evapotranspiración, se descargaron los estimados de Penman-Monteith del proyecto eartH2Observe, debido a que no se cuenta con estaciones de temperatura en la zona. El punto de cierre de la cuenca, y que también proporcionó las series de caudales observados, fue la estación Cravo Norte (LM-36027050). Todas las estaciones pluviométricas y limnimétricas usadas, pertenecen al Instituto de Meteorología, Hidrología y Estudios Ambientales (IDEAM).
4. Metodología
Para comparar las dos metodologías de análisis de incertidumbre, se definió como límite un total de 20.000 simulaciones del modelo TOPMODEL, en ambas metodologías. Este modelo se aplicó a la cuenca del río Casanare, calibrando 10 parámetros. Se hizo un muestreo uniforme para el caso de GLUE y para el DDS-AU se implementaron 50, 100 y 200 DDS independientes. Con esto se buscó aumentar o reducir el número de simulaciones en cada DDS, y lograr mejores o peores valores en la F.O (se escogió para este estudio el ampliamente conocido Nash-Sutcliffe Efficiency (NSE). Los resultados de la F.O. se clasificaron mediante la variación del valor del umbral de comportamentales, analizando así la eficiencia del muestreo.
Asimismo, se graficaron las bandas envolventes de los caudales simulados con cada método. Así se obtuvieron métricas asociadas al contenido de datos observados que se encuentran dentro de las bandas de confianza. Las métricas son: el ancho medio, máximo y mínimo; la relación de contenido y la desviación del promedio de las simulaciones respecto de las observaciones. Cabe resaltar que las envolventes se calcularon con los caudales simulados únicamente con conjuntos de parámetros comportamentales. Para este procedimiento, se definió el valor de 0.5 como umbral de los conjuntos comportamentales.
5. Resultados
Figura 1. Simulaciones y cantidad de parámetros comportamentales variando el umbral de comportamentales definido
Para analizar las diferencias entre el muestreo uniforme y el DDS-AU, se halló la cantidad de simulaciones por cada conjunto comportamental. Este cálculo indica la eficiencia de las metodologías de muestreo para hallar parámetros comportamentales. En la Fig. 1, se puede apreciar como dicha cantidad va cambiando a medida que se tienen valores más altos de la F.O. Se puede ver que para conjuntos que están alejados del máximo conocido de la F.O. (0.81), el muestreo uniforme tiene un mejor rendimiento. No obstante, la tendencia cambia después de un NSE de 0.65, en el que los valores comportamentales del DDS-AU con 200 conjuntos independientes obtiene valores más altos de la F.O. con el mismo número de simulaciones.
Igualmente, los DDS-AU con 50, 100 y 200 DDS, tienen una mejor eficiencia que el muestreo uniforme después del umbral de 0.68. Más importante aún, el muestreo uniforme no logró muestrear parámetros con NSE mayores a 0.76, mientras que la mayoría de los conjuntos de parámetros encontrados por los tres DDS-AU presentan F.O. mayores a ese valor. No existen mayores diferencias entre los tres DDS-AU implementados, solamente se debe resaltar que la corrida con 200 DDS presenta un leve menor desempeño que las corridas con 50 y 100 DDS, a causa de que cada uno de los 200 DDS tiene un menor número de iteraciones. Lo anterior se debe a que el límite total de simulaciones fue de 20.000, con lo cual se asignan en promedio 400 iteraciones para los 50 DDS, 200 iteraciones para 100 y 100 iteraciones para los 200 DDS independientes.
Figura 2. Bandas envolventes de las simulaciones obtenidas con las dos metodologías en conjunto con los caudales observados.
En la Fig. 2 se pueden ver las bandas envolventes de las simulaciones. Es claro que las bandas más anchas son las producidas por el muestreo uniforme (GLUE), mientras que las más angostas son producidas por los DDS-AU, siendo la de 50 DDS la más angosta. Puede verse que las bandas producidas por GLUE presentan picos que desvían el desempeño general de las simulaciones, que se producen por ser construidas con conjuntos de parámetros comportamentales que no se encuentran cercanos al óptimo de la F.O. Esto es más claro al calcular el ancho promedio de las bandas, la relación de contenido y la desviación promedio de la amplitud, que para este ejercicio arrojaron que GLUE tiene la mayor relación de contenido con 57% pero el ancho promedio de las bandas es de 2 a 3 veces el ancho de los DDS-AU. Con 200 DDS el contenido de observados fue de 55%. La mejor desviación promedio respecto de los observados se obtuvo usando 100 DDS independientes (113 m3/s).
6. Conclusiones
A partir de las metodologías DDS-AU y del muestreo uniforme se investigó la eficiencia y la representatividad de las simulaciones del modelo TOPMODEL en la cuenca del río Casanare. Se confrontaron las dos metodologías por medio de un número limitado de simulaciones, garantizando así una comparación fidedigna.
Se encontró que, incluso en un problema de solo 10 parámetros, el algoritmo DDS-AU tiene una mayor eficiencia que el muestreo uniforme. Igualmente, para este problema 10-dimensional, una baja cantidad de iteraciones por DDS no conllevo a obtener bajos resultados de la F.O. Para problemas inversos más complejos (modelos físicamente basados o con un gran número de parámetros), la complejidad de la F.O. puede requerir más iteraciones por DDS.
Tener varios conjuntos de parámetros muy cercanos al óptimo de la F.O. no implica que se obtengan más observaciones dentro de las bandas envolventes. Se debe generar un balance entre un muestreo lo suficientemente abundante y con resultados con desempeños eficientes.
Referencias
Beven, K., & Binley, A. (1992). The future of distributed models: model calibration and uncertainty prediction. Hydrological Processes, 6(May 1991), 279-298. https://doi.org/10.1002/hyp.3360060305
Beven, K., Lamb, R., Quinn, P., Romanowicz, R., & Freer, J. (1995). TOPMODEL. En V. P. Singh (Ed.), Computer Models of Watershed Hydrology (pp. 627-668). Highlands Ranch CO, USA: Water Resources Publications.
Duan, Q., Sorooshian, S., & Gupta, H. V. (1992). Effective and efficient global optimization for conceptual rainfall-runoff models. Water Resources Research, 28(4), 1015-1031. https://doi.org/10.1029/91WR02985
Tolson, B. A., & Shoemaker, C. A. (2007). Dynamically dimensioned search algorithm for computationally efficient watershed model calibration. Water Resources Research, 43(1), 1-16. https://doi.org/10.1029/2005WR004723
Tolson, B. A., & Shoemaker, C. A. (2008). Efficient prediction uncertainty approximation in the calibration of environmental simulation models. Water Resources Research, 44(4), 1-19. https://doi.org/10.1029/2007WR005869