Análisis estadístico de la especie de abejas Megachile armaticeps.
Statistical analysis of the solitary bee’s species Megachile armaticeps.
Hombre, Ciencia y Tecnología
Instituto de Información Científica y Tecnológica, Cuba
ISSN-e: 1028-0871
Periodicidad: Trimestral
vol. 25, núm. 2, 2021
Recepción: 29 Octubre 2020
Aprobación: 15 Enero 2021
Resumen: Las abejas son fundamentales en el funcionamiento de los ecosistemas tropicales y son reconocidas por su importancia económica. En Cuba, la apifauna está compuesta en su mayoría por abejas solitarias, lo cual le confiere a este grupo un valor especial desde el punto de vista de su conservación. El objetivo de este trabajo es crear un modelo de regresión logística que permita predecir la presencia o ausencia de la especie Megachile armaticeps, a través de diferentes variables relacionadas con las características ambientales de su hábitat. Los resultados se obtuvieron aplicando el modelo de regresión logística binaria en el software SPSS en su versión 21. Se obtuvo que la estacionalidad de la temperatura, la precipitación del mes más húmedo, la precipitación del mes más seco y la distancia a la costa son las propiedades climáticas que más influyen en su distribución.
Palabras clave: abejas, correlación, distribución, hábitat, regresión.
Abstract: Bees are fundamental at functioning of tropical ecosystems and are recognized for their economic importance. In Cuba, the apifauna is composed mostly of solitary bees, which gives this group a special value from the point of view of its conservation. The objective of this work is to create a logistic regression model that allows predicting the presence or absence of the Megachile armaticeps species, through different variables related to the environmental characteristics of its habitat. The results were obtained by applying the binary logistic regression model in the SPSS software version 21. It was obtained that temperature seasonality, precipitation of the wettest month, precipitation of the driest month and distance to the coast are the climatic properties that most influence its distribution.
Keywords: bees, correlation, distribution, habitat, regression.
Introducción
El 20 de mayo del 2018 se realizó la primera celebración del Día Mundial de las Abejas. Esta celebración nace de una propuesta realizada por la República de Eslovenia en el 2016, la cual fue aprobada en la 40a reunión de la conferencia de la Organización de las Naciones Unidas para la Alimentación y la Agricultura (FAO), y proclamada por la Organización de las Naciones Unidas (ONU) en el 2017 (FAO, 2019). Podemos decir también que el análisis de los patrones de distribución de las especies a nivel mundial ha aportado información valiosa sobre el impacto potencial del cambio climático en la distribución de las especies, específicamente en la capacidad que presentan las poblaciones de migrar para soportar estos cambios previstos.
En Cuba las abejas son consideradas de importancia capital para el crecimiento y la calidad de la producción desde el inicio de los programas de investigación científica para la apicultura, actividad dedicada a la crianza de las abejas y a prestarles los cuidados necesarios con el objetivo de obtener y consumir los productos que son capaces de elaborar y recolectar. Varios son los factores que amenazan a las abejas: la pérdida del hábitat, las prácticas de la agricultura industrializada, el uso de plaguicidas, y los impactos del cambio climático (Videaux, 2015).
Por todo lo antes mencionado, el Instituto de Ecología y Sistemática de Cuba realiza una investigación de 18 especies de abejas solitarias, entre las que se encuentra la especie Megachile armaticeps, a la cual se le miden variables de tipo climático en su hábitat, es por ello que surge la necesidad de encontrar un modelo que permita predecir la presencia- ausencia de la especie de abejas Megachile armaticeps, así como, los factores ambientales que más afectan a esta especie, lo cual constituye el objetivo de la presente investigación.
Materiales y métodos
Recolección de los datos originales:
La información primaria se tomó de las colecciones del Museo Nacional de Historia Natural de Cuba y el Instituto de Ecología y Sistemática, ambos pertenecientes al Ministerio de Ciencia Tecnología y Medioambiente de Cuba. La base de datos aportó registros de 18 especies de abejas solitarias que representa la distribución de éstas en Cuba y las características ambientales del territorio.
La base de datos de las abejas solitarias Megachile armaticeps, representa la distribución de esta especie y contiene 500 observaciones y 24 variables, una de las cuales es binaria. La variable binaria se denomina mapa binario, la cual, representa la variable dependiente dicotómica y sólo toma dos valores, 0 cuando no se encuentra dicha especie en el área y 1 cuando si se encuentra. Las 23 variables restantes denominadas variables independientes o covariables son continuas, las cuales miden en general las características ambientales del área. Estas variables son: temperatura media anual (Bio1), variación diurna promedio (Bio2), isotermalidad (Bio3), estacionalidad de la temperatura (Bio4), temperatura máxima del mes más cálido (Bio5), temperatura mínima del mes más frío (Bio6), variación anual de temperatura (Bio7), temperatura media del trimestre más húmedo (Bio8), temperatura media del trimestre más seco (Bio9), temperatura media del trimestre más cálido (Bio10), temperatura media del trimestre más frío (Bio11), precipitación anual (Bio12), precipitación del mes más seco (Bio13), precipitación del mes más húmedo (Bio14), estacionalidad de las precipitaciones (Bio15), precipitación del trimestre más húmedo (Bio16), precipitación del trimestre más seco (Bio17), precipitación del trimestre más cálido (Bio18), precipitación del trimestre más frío (Bio19), modelo digital de elevación (MDE), pendiente (PEN), distancia a la costa (DISTC) y el índice topográfico (TOPO).
Modelo de regresión logística binaria:
Los modelos de Regresión Logística Binaria son fórmulas estadísticas en las cuales se desea conocer la relación entre una variable dependiente cualitativa, dicotómica y una o más variables explicativas independientes ya sean cualitativas o cuantitativas. El objetivo fundamental es encontrar el mejor ajuste del modelo con el menor número de parámetros y describir la relación entre la variable respuesta y un conjunto de variables explicatorias independientes.
El modelo de Regresión Logística Binaria se define como:
𝑌 = 𝐸 (𝑌/𝑋) + 𝑒
Donde:
𝑒 tiene distribución Bernoulli con media cero y varianza .
La transformación de 𝜋 (𝑋) , conocida como transformación logit o logito, se define mediante la función . Hosmer y Lemeshow en el 2013 plantearon que es una función lineal en los parámetros, continúa y sus valores se encuentran en toda la recta numérica
Clásicamente, la exactitud de una prueba diagnóstica se ha evaluado en función de dos características: la sensibilidad y la especificidad. Sin embargo, éstas varían en función del criterio elegido como punto de corte entre la población. Una forma más global de conocer la calidad de la prueba en el espectro completo de puntos de corte es mediante el uso de curvas ROC (Receiver Operating Characteristic). Siempre que el problema y el resultado de la prueba diagnóstica puedan plantearse en términos de dicotomía (presencia o ausencia, positivo o negativo), la exactitud de la prueba puede definirse en función de su sensibilidad y especificidad.
El punto de corte es un valor límite que permite resumir los resultados en dos categorías: positivo y negativo, presencia o ausencia de cierta característica.
La sensibilidad (S) de una prueba diagnóstica es la probabilidad de que la prueba indique como positivo a aquel que realmente lo es.
La especificidad (E) de una prueba indica la probabilidad de que la prueba clasifique como negativo a aquel que realmente lo es. No existe ninguna manera teórica de medición de estas dos características de una prueba. El único procedimiento es el experimental, sometiendo a un grupo clasificado mediante un método diagnóstico de referencia exacto e independiente a la prueba que se quiere estudiar.
Una curva ROC es una representación gráfica para una prueba de clasificación binaria según varía el umbral de discriminación, es decir, es el resultado de representar en un eje de coordenadas los puntos (x, y) dados por (1-E, S) para cada punto de corte.
El criterio de información de Akaike (AIC) elige dado un conjunto de modelos candidatos para los datos, el modelo que tiene el valor mínimo.
El criterio de información bayesiano (BIC) es similar al AIC excepto que el término de penalidad es más grande. En estas circunstancias, BIC penaliza modelos complejos más fuerte que AIC, favoreciendo la selección de modelos más simples.
Resultados y Discusión
Ajuste de los datos originales al modelo
El estudio descriptivo permitió constatar de forma general que la base de datos tiene más observaciones de ausencia (444) que de presencia (56), por lo que se espera un modelo que posea mayor predicción en la ausencia. Las variables presentan un alto rango excepto distancia a la costa (DISTC) que posee un máximo de 0,57499999 debido a que los valores tomados por esta variable son muy pequeños, además, distancia a la costa y la pendiente (PEN) poseen un mínimo de 0. La desviación típica es alta, distinta de la unidad, evidenciando la alta dispersión en las observaciones, con excepción de DISTC que tiene una desviación menor a 1, la media en todas las variables es distinta de 0. Debido a los problemas identificados a través del análisis descriptivo es necesario estandarizar las variables con el propósito de generar un modelo con los datos de mejor calidad posible.
Las variables explicatorias independientes están relacionadas con las características ambientales del hábitat de esta especie, por ello, se realiza un análisis de correlación de las variables antes de aplicar la regresión logística. Las variables analizadas presentan alta correlación con un nivel de significación de 0.05 donde, Bio5 y Bio15 se correlacionan con todas. A continuación, se muestra un resumen de las variables que no están correlacionadas:
Bio1 con Bio3, Bio4 y DISTC.
Bio3 con Bio1, Bio8, Bio10, MDE, PEN.
Bio4 con Bio1, Bio2 y DISTC.
Bio6 con Bio14 y Bio19.
Bio7 con Bio13.
Bio16 con Bio2, Bio14 y PEN.
Bio18 con Bio8, Bio17, MDE, PEN y TOPO.
DISTC con Bio1, Bio4, Bio8, Bio9, Bio10, Bio11, Bio12, MDE y TOPO.
Al aplicar la técnica de regresión logística mediante el software SPSS versión 21 a la base de datos estudiada, teniendo en cuenta que (X) es la probabilidad de que la especie se encuentre en dicha área y 1- (X) la probabilidad de que no se encuentre en el área, se obtuvo el siguiente modelo:
En la tabla de clasificación podemos comprobar que nuestro modelo tiene una especificidad del 98.2% y una sensibilidad del 83.9%, siendo su capacidad predictiva del 96.6%. Se corrobora que el modelo posee mayor predicción de ausencia.
Observado | Pronosticado | ||
0 | 1 | Porcentaje correcto | |
0 | 436 | 8 | 98.2% |
1 | 9 | 47 | 83.9% |
Porcentaje global | 89.0% | 11.0% | 96.6% |
En el ajuste del modelo se obtuvo que AIC=107.969 y BIC=133.257 por lo que se puede decir que el modelo es adecuado, y con el contraste de la razón de verosimilitud se verifica que no podemos rechazar la hipótesis de que los datos se ajustan al modelo supuesto.
Debido a la existencia de correlación entre algunas variables independientes del modelo obtenido, se incluyeron en el logit las interacciones con el propósito de mejorar la capacidad predictiva del mismo, y el modelo resultante fue:
En la tabla de clasificación podemos comprobar que nuestro modelo tiene una especificidad del 98.4% y una sensibilidad del 85.7%, siendo su capacidad predictiva del 97%.
Observado | Pronosticado | ||
0 | 1 | Porcentaje correcto | |
0 | 437 | 7 | 98.4% |
1 | 8 | 48 | 85.7% |
Porcentaje global | 89.0% | 11.0% | 97.0% |
En el ajuste del modelo se obtuvo que AIC=88.764 y BIC=114.052 por lo que se puede decir que el modelo es adecuado, y con el contraste de la razón de verosimilitud se verifica que no podemos rechazar la hipótesis de que los datos se ajustan al modelo supuesto.
De manera general, los modelos poseen un índice de precisión global y un grado de acuerdo con la observación real muy buenos como se muestra en el gráfico:
El modelo con mayor capacidad predictiva es el Modelo con interacciones como se esperaba, ya que en dicho modelo se analiza la significación e influencia de todas las covariables en el pronóstico de la presencia o ausencia de la especie, los estadísticos informan que el mismo, es el mejor modelo en cuanto a la bondad de ajuste, mayor área bajo la curva ROC y el que más explica la proporción de varianza de la variable dicotómica. Este modelo plantea que las covariables más significativas en la predicción son: estacionalidad de la temperatura (Bio4), precipitación del mes más seco (Bio13), precipitación del mes más húmedo (Bio14) y distancia a la costa (DISTC).
De la información anterior se puede corroborar que la distribución de esta especie depende tanto de la variabilidad ambiental como de su tolerancia. Algunas de las abejas solitarias de esta especie suelen ser muy selectivas en cuanto al hábitat que utilizan y tienden a concentrarse en puntos donde las condiciones son especialmente favorables por la incidencia de la estacionalidad de las temperaturas en el área, así como, la distancia de esta región a la costa, precipitación del mes más seco, precipitación del mes más húmedo y la topografía si se excluye la interacción medio-ambiental. Esto puede ocurrir a lo largo del año o en épocas específicas. Cuanto más se aproximan las condiciones ambientales a las tolerancias mínima y máxima de un organismo, menor será el número de individuos. La estacionalidad de las temperaturas, la distancia a la costa, precipitación del mes más húmedo y la topografía influyen negativamente en su presencia, por lo que son parámetros a tener en cuenta en la elección del área, ya que, restringen su distribución por la baja tolerancia de la misma a estos factores ambientales. La precipitación del mes más seco influye positivamente.
Conclusiones
A partir de los resultados obtenidos mediante la aplicación de las técnicas estadísticas aplicadas a la base de datos de las abejas solitarias Megachile armaticeps, se determinó que los modelos obtenidos tienen mayor capacidad para pronosticar la ausencia de la especie. Existe alta correlación entre las covariables. El modelo de mayor capacidad predictiva es el que posee las interacciones, con un 97%, el cual tiene una especificidad del 98.4% y una sensibilidad del 85.7%. Las variables que influyen en el estudio de esta especie de abejas son: estacionalidad de la temperatura, precipitación del mes más húmedo, precipitación del mes más seco y distancia a la costa. La interacción más fuerte se establece entre estacionalidad de la temperatura y precipitación del mes más seco.
Referencias bibliográficas
Cruz, D. (2015). Distribución y evaluación de los grados de amenaza de abejas solitarias (Hymenoptera: Apoidea). Memoria para optar al Título de Master en Ciencias, Facultad de Biología, Universidad de La Habana, Cuba.
García, C. (2012). Estimación del modelo logístico mixto: revisión y nueva propuesta. Memoria para optar al Título de Master en Ciencias, Escuela de Ciencias y Humanidades, Universidad EAFIT Medellín, Colombia.
Genaro, J. (2008). Origins, composition and distribution of the bees of Cuba (Hymenoptera: Apoidea: Anthophila). Insecta Mundi. 583. Recuperado de https://digitalcommons.unl.edu/insectamundi/583
Hosmer, D. W., Lemeshow, S. & Sturdivant, R. X. (2013). Applied Logistic Regression (3rd ed.). New Jersey: John Wiley and Sons.
Minerva, A. B., Martínez, A. (2011). Análisis Multinivel de movimientos migratorios: consideraciones y estrategia. Investigación Operacional, vol. 32, núm. 1, pp. 20-29.
Organización de las Naciones Unidas para la Alimentación y la Agricultura. (2019). Acción mundial de la FAO sobre servicios de polinización para una agricultura sostenible. Recuperado de http://www.fao.org/pollination/world-bee-day/es/
Pérez, V. (2012). Los modelos multinivel en el análisis de factores de riesgo de sibilancias recurrentes en lactantes. Memoria para optar al Título de Doctor en Ciencias, Universidad de Murcia.
Videaux, M. (2015). Modelo estadístico para el pronóstico de la presencia o ausencia de la especie Agapostemon viridulus en Cuba. Memoria para optar al Título de Licenciado en Matemáticas, Facultad de Matemática-Computación, Universidad de Oriente, Cuba.