Artículos de investigación
Recepción: 01 Abril 2021
Aprobación: 04 Mayo 2021
Publicación: 05 Julio 2021
Autor de correspondencia: erikart@uaeh.edu.mx
Resumen: En este artículo se propone un método basado en topología algebraica para el análisis de colecciones de series de tiempo simultáneas. Cada serie de tiempo corresponde a una variable. Se construye la matriz de correlación de las variables y la red con pesos en las aristas asociada a dicha matriz. A través de variar un parámetro p entre 0 y 1, se obtiene una filtración de complejos simpliciales. El análisis de las cavidades del complejo simplicial se realiza por medio de estudiar los cambios de los números de Betti de los complejos de la filtración. Mediante experimentos computacionales, obtenemos resultados que sugieren que en el caso de que la matriz de correlación provenga de series de tiempo simultáneas que modelen un fenómeno natural, la complejidad de las variaciones de los números de Betti es mucho menor que cuando la matriz de correlación es aleatoria.
Palabras clave: Series de tiempo, topología, homología, redes, complejos simpliciales.
Abstract: In this article, a method based on algebraic topology for the analysis of vector valued time series is proposed. Each time series corresponds to a variable. The correlation matrix for these variables is constructed and the corresponding weighted network is considered. A filtration of simplicial complexes is then obtained by the variation of a parameter p between 0 and 1. The analysis on the number of cavities of the simplicial complex is conducted by means of studding the variation of the Betti numbers of the complexes in the filtration. By means of computer simulations, we get results suggesting that in case the correlation matrix is induced by vector valued time series modeling natural phenomena, the complexity on the variations of the Betti numbers is significantly lower than for random correlation matrices.
Keywords: Time series, topology, homology, networks, simplicial complexes.
1. Introducción
La gran complejidad de las series de tiempo, que aparecen tanto en ciencias naturales como ciencias sociales (i.e. señales electrofisiológicas en neurociencias, redes de tráfico aéreo, estudios epidemiológicos, meteorológicos, entre muchos otros), se traduce en un gran reto al querer encontrar patrones que faciliten su análisis e interpretación. Esto ha motivado la búsqueda de diversos métodos, enfoques y herramientas para estudiarlas, en particular, el empleo de varias teorías de las matemáticas. Entre los esfuerzos para encontrar patrones en las señales se ha recurrido a las gráficas de visibilidad y las gráficas de clanes de la teoría de las gráficas (Rodríguez-Torres et al., 2020; Sannino et al., 2017). Encaminados a encontrar interacciones entre las señales de diversas regiones del cerebro, e incluso entre neuronas, hay trabajos donde se representa a éstas por nodos y las relaciones entre ellas con enlaces entre los nodos. Ya que las relaciones entre los nodos no son únicamente de dos en dos, son mucho más complejas, se requieren formas de medir el nivel de complejidad de estas relaciones formando complejos simpliciales que luego son analizados con teoría de gráficas y topología algebraica (Giusti et al., 2016), por ejemplo, los hoyos o cavidades en los complejos simpliciales son examinados empleando invariantes de la topología algebraica, como son los número de Betti (Sizemore et al., 2019; Reimann et al., 2017). En las últimas décadas han surgido diferentes posibilidades para analizar las relaciones y el dinamismo entre los nodos de redes neuronales, una recopilación de algunos de estos métodos se encuentra en (Battiston et al., 2020). Entre estos métodos, el artículo menciona el estudio de la evolución de la homología de los complejos simpliciales de una filtración al variar un cierto parámetro. Motivados por el interés en el análisis de las correlaciones de colecciones de series de tiempo simultáneas generadas por señales de polisomnografía, en este artículo se propone un método donde se estudian los cambios de los números de Betti de los complejos simpliciales de una filtración obtenida al variar cierto parámetro p entre 0 y 1. Dichos complejos son generados a partir de matrices de correlación asociadas a las series de tiempo simultáneas. Se presentan simulaciones en donde se verifica que nuestro método distingue adecuadamente la complejidad de una matrix aleatoria de una no aleatoria.
Dividimos el resto de este trabajo en tres secciones. En la sección 2 se hace una breve reseña de la topología algebraica y se introducen las nociones de gráficas, complejos simpliciales, homología y los números de Betti. El método para analizar la complejidad de matrices de correlación y sus gráficas asociadas, objeto del presente artículo, se describe en la sección 3. En esta misma sección se presentan ejemplos donde se contrasta la aplicación de nuestro método para matrices aleatoria y matrices no aleatorias. Finalmente, en la sección 4 se incluyen las conclusiones.
2. Topología algebraica
La topología algebraica es la rama de las matemáticas que se encarga del estudio de los invariantes algebraicos mediante los cuales se puede distinguir a dos espacios topológicos esencialmente distintos, o en términos más precisos, distinguir a dos espacios topológicos que no son homeomorfos (Munkres, 1984). Existen varias técnicas topológicas elementales para distinguir cuando dos espacios no son homeomorfos, como son la compacidad, la conectividad y la metrizabilidad. Por ejemplo, podemos afirmar que el intervalo cerrado [0, 1] y el intervalo abierto (0, 1), con sus topologías relativas, no son homeomorfos, pues mientras el primero es compacto el segundo no lo es. Por otro lado, podemos argumentar que el conjunto de los números reales y el plano cartesiano tampoco son homeomorfos, pues si a ambos se les remueve un punto, el primer espacio deja de ser conexo mientras que el segundo lo seguirá siendo.
Sin embargo, mientras más complicados sean los dos espacios que se desean comparar, se vuelve eminentemente más difícil determinar si son o no homeomorfos. Aquí es donde entran en acción las diferentes herramientas de la topología algebraica, mediante las cuales podremos verificar, por ejemplo, que espacios tales como la esfera S2 y el toro T2 no son homeomorfos. Una referencia muy accesible para ver estas ideas es (Collins, 2004), y si se desea profundizar un poco más se puede ver (Munkres, 1975). En este artículo nos concentraremos en los conceptos de complejo simplicial y homología.
2.1. Gráficas
Una gráfica, (también conocida por el nombre de red o grafo), consiste de un conjunto de nodos o vértices donde algunas parejas de nodos se unen por medio de aristas. La noción de gráfica en realidad proviene de una abstracción de las redes que se encuentran en fenómenos naturales y sociales. Por ejemplo, si consideramos al internet como una gráfica o una red, podemos afirmar que las computadoras o modems a los que está conectada son los vértices o nodos, mientras que los cables o conexión wifi serían las aristas. En el caso de redes de amigos, las personas pertenecientes a dicho círculo de amistades pueden considerarse como los vértices mientras que la amistad entre dos de esas personas como la arista correspondiente. Como un último ejemplo se puede pensar en las redes de neuronas en el cerebro: las neuronas serán los vértices y las sinapsis las aristas. (Newman, 2018).
Las gráficas con pesos generalizan a las gráficas del párrafo anterior, en el sentido de que las aristas pueden tener asignado un número real, que usualmente se le llama su peso.
2.2. Complejos simpliciales
Uno de los conceptos fundamentales en la topología algebraica es el de los complejos simpliciales. Los complejos simpliciales pueden interpretarse como generalizaciones de las gráficas, en donde las interacciones entre los nodos no se limitan a la interacción entre dos de ellos. Formalmente los definimos a continuación.
Definición 2.1. Decimos que la colección de conjuntos finitos y no vacíos es un complejo simplicial abstracto si para cualquier elemento A de S todo subconjunto no vacío de A también está en S.
Por ejemplo, la colección S = {{1, 2, 3}, {1, 2}, {1, 3}, {2, 3}, {3, 4}, {1}, {2}, {3}, {4}} es un simplicial abstracto. Una representación gráfica de S se presenta en la figura 1.
Dado un complejo simplicial abstracto S, a cada elemento A en S se le llama simplejo de S y su dimensión es uno menos que su numero de elementos. De manera que si A está en S y tiene n elementos entonces diremos que A es un (n − 1)-simplejo de S. A los subconjuntos no vacíos de A se les conoce como las caras de A. La dimensión de S sera la dimensión más grande entre las dimensiones de sus simplejos. Al conjunto V formado por los elementos v tales que el conjunto {v} pertenece a S se le llamará el conjunto de vértices de S. Por convención no se hace distinción entre un vértice v ∈ V y el 0-simplejo {v} de S.
Una manera conveniente de aterrizar un complejo simplicial abstracto, es por medio de representaciones en , es decir, por medio de complejos simpliciales ‘geométricos’. Para formalizar esta nocion geométrica, comencemos definiendo lo que significa un n-simplejo en .
Definición 2.2.Suponga que {a0 , a1 , . . . , an } es un conjunto de vectores en tales que los vectores a1 − a0 , a2 − a0 , . . . , an − a0 son linealmente independientes (en el sentido de álgebra li- neal). El n-simplejo generado por a0 , a1 , . . . , an se define por
Se observa que los 0-simplejos son puntos, los 1-simplejos son segmentos de recta, los 2-simplejos son triángulos y los 3-simplejos son tetraedros, ver figura 2. A los puntos a0, a1 , . . . , an que definen al n-simplejo σ se les llaman los vértices del simplejo σ, al número n se le conoce como la dimensión de σ. Por otro lado, cualquier k-simplejo (0 ≤ k ≤ n − 1) con vértices en el conjunto {a0 , a1 , . . . , an } será llamado una cara de σ. A la unión de todas las caras propias de σ se le llama la frontera de σ y se denota por ∂σ.
Ahora podemos definir a los complejos simpliciales geométricos.
Definicion 2.3.Un complejo simplicial geométrico es un conjunto K de simplejos en K el cual satisface las siguientes dos condiciones
Mientras que la primera condición para que la colección K de simplejos pueda ser un complejo simplicial puede describirse facilmente como la propiedad de que cada cara de cada simplejo σ en K (a su vez un simplejo en sí mismo) tiene que pertenecer a K, la segunda propiedad es un tanto mas sencillo de explicar geométricamente, por ejemplo, si se tuvieran dos 2-simplejos σ1 y σ2 (dos triángulos) pertenecientes a un complejo simplicial K y que se intersecan entonces la intersección es una cara comun para cada simplejo, como en el inciso (a) de la figura 3. Por otro lado, dos simplejos cuya intersección no es una cara comun, no pueden pertenecer a un complejo simplicial, como en el inciso (b) de la figura 3.
Si K es un complejo simplicial, denotaremos por VK al conjunto de todos los 0-complejos de K. A la colección de todos los subconjuntos de VK se denota por K y resulta ser un complejo simplicial abstracto. Existe una correspondencia biyectiva entre los complejos simpliciales abstractos y los geométricos, cf. (Munkres, 1984, Theorem 3.1).
2.3. Homología y números de Betti
La homología, como parte de la topología algebraica, propone una manera de asociarle a cada espacio topológico X una sucesión de grupos abelianos que se llaman los grupos de homología de X. De modo que si alguna de las parejas correspondientes de grupos abelianos no son isomorfas entonces los espacios no serán homeomorfos. Intuitivamente, estos grupos abelianos se formarán a partir de contar el número de cavidades de diferentes dimensiones que existan en el espacio.
Mas formalmente, suponga que K es un complejo simplicial, como en la definición 2.3. Asociemos a cada n ≥ 0 un espacio vectorial Cn (K) sobre el campo finito F2 = {0, 1} cuya base consista de todos los n-simplejos que pertenecen a K. Ahora, se introduce un mapeo frontera que se define como una transformación lineal ∂n:Cn (K) → Cn−1(K) que asigna a cada n-simplejo σ el elemento en Cn−1 (K) definido como la suma formal sobre todas las caras de σ, es decir
donde la suma es sobre todas las caras de σ. Se define de este modo el n-ésimo grupo de homología módulo 2 de K como el espacio vectorial cociente
A la dimensión βn de Hn (K) como F2-espacio vectorial se le conoce como el n-ésimo número de Betti de K, este número es la cantidad de cavidades de dimensión n en K. Como referencia, se puede consultar el capítulo 8: Homología modulo 2 en (Giblin, 2010).
3. Descripción del método
3.1. Generación de la gráfica de correlación
Presentamos a continuación el procedimiento para la generación de la matriz de correlación y su gráfica asociada, en el caso concreto de un estudio de polisomnografía. Este ejemplo ilustra el método usado en la situación general.
En estudios de polisomnografía, se colocan electrodos para detectar señales electroencefalográficas (EEG), de movimientos oculares (EOG), movimientos musculares en el mentón (EMG) y señales cardiacas (ECG). Uno de los estándares usados para la colocación de electrodos en EEG es el llamado sistema 10-20, en el que se colocan 23 electrodos. Las señales del electroencefalograma se digitalizan, siendo recomendable el uso de altas frecuencias en la digitalización para la supresión de ruido. Rangos en el orden de entre 200 Hz y 500 Hz son usados (vanGilst et al., 2019). En este escenario, se generan series de tiempo simultáneas de tamaño considerable. Por ejemplo, con el sistema 10-20 y un electrodo en cada ojo, y digitalización a 512 Hz se obtienen 25 series de tiempo simultáneas, con 1,843,200 registros por hora de observación. En una noche típica de sueño, el número de registros es de entre 12 y 15 millones por cada electrodo. En general, no es de esperarse que estas series de tiempo simultáneas estén relacionadas unas con otras de manera lineal. Para explorar correlaciones no lineales, una opcion es considerar la variación total en ventanas de alguna duracion determinada, digamos entre uno y diez segundos. La variación total para una serie de tiempo discreta f con dominio en {t0 , t1 , . . . , tN } y codominio en los números reales, se define como
En la situación que nos ocupa,N es el producto de la frecuencia de digitalización por el tamaño de la ventana. La variación total de series de tiempo discretas ha sido aplicada de manera extendida para la reducción de ruido en imágenes digitales (Aubert and Kornprobst, 2006)
Las series de tiempo correspondientes a las variaciones totales, son de tamaño considerablemente menor. De este modo, además de dar información sobre relaciones no lineales que pudiera haber entre las señales de los distintos electrodos, resultan más manipulables. La matriz con la que se propone trabajar, es la matriz de correlación de Pearson para las variables dadas por las variaciones totales de cada uno de los electrodos. Si se estudian las señales de m electrodos, se obtiene una matriz cuadrada y simétrica de tamaño m × m con valores entre −1 y 1, y unos en la diagonal principal.
3.2. Análisis topológico
Dada una gráfica G, decimos que un subconjunto C de vértices es completo si para todos i, j ∈ C se tiene que i es adyacente a j. La propiedad de que un subconjunto de V(G) sea completo es cerrada bajo inclusion, por lo que dada la gráfica G se obtiene un complejo simplicial abstracto asociado que se denota con ∆(G), y que se llama el complejo de completas de G (Kozlov, 2008). Un ejemplo se muestra en la figura 4.
Una gráfica G y su complejo de completos ∆(G). En (a) los conjuntos de vértices (1, 2, 3, 4) y (5, 6, 7) son completos. En (b) (1, 2, 3, 4) forman un 3-simplejo y (5, 6, 7) forman un 2-simplejo.
Supongamos que M es la matriz de correlación de un conjunto de nodos V. Entonces M define una gráfica G que es una gráfica con pesos en el conjunto de vértices V , donde la arista entre los vértices i, j ∈ V tiene peso Mij , (Cormen et al., 2009). Por ejemplo, ver la figura 5.
Si p es un parámetro, definimos Gp como la gráfica con vértices V donde declaramos a los vértices i, j como adyacentes si Mij > p (es decir, si la correlación entre i y j es mayor que p). Al variar p, los complejos simpliciales ∆(Gp) forman una familia indexada donde ∆(Gp1 ) es un subcomplejo de ∆(Gp2 ) si p2 > p1 .
Fijando un número natural n, al variar p tenemos similarmente una familia indexada de grupos abelianos dada por la n-ésima homología Hn (Gp), y por lo tanto también diferentes valores de los números de Betti. El comportamiento de los números de Betti al variar el parámetro p nos da una idea de la complejidad de la matriz M.
3.3. Ejemplos ilustrativos
A continuación, mostramos cuatro modelos para ilustrar el método. Cada uno de estos cuatro modelos, corresponde a una colección de 22 series de tiempo simultáneas, generadas por computadora, con mil observaciones cada una. Estos cuatro modelos se generaron mediante los procedimientos descritos a continuación:
En la figura 6 se ilustran las cuatro matrices de correlación que corresponden a cada uno de estos modelos. Los diagramas que indican la variación de los números de Betti se muestran en la figura 7. Se observa que en el caso de los tres primeros modelos, solamente los valores de los número de Betti β0 y β1 llegan a ser distintos de cero. Esto contrasta fuertemente con el resultado obtenido a partir en el caso del cuarto modelo de la matriz con entradas aleatorias, pues en ese caso se obtienen valores diferentes de cero de β4 para ciertos valores del parámetro. Es decir, la complejidad topológica de los complejos simpliciales es mucho mayor.
Los modelos ilustrativos y sus correspondientes matrices de correlacio´n, fueron generados con R versión 4.0.3. Para efectuar el análisis de las gráficas y los complejos simpliciales obtenidos a partir de las matrices de correlación, usamos el lenguaje de programación Python, junto con sus bibliotecas networkx (https://www.networkx.org/) y mogutda (https://pypi.org/project/mogutda/)
4. Conclusiones
Las gráficas o redes son idóneas para modelar fenómenos naturales y sociales. Con frecuencia el número de vértices es muy grande en tanto que una de las propiedades que resulta útil estudiar es la aparición de comunidades de vértices separadas entre si. En este artículo se propone un método para determinar la complejidad de una matriz de correlación obteniendo en consecuencia una propuesta para cuantificar la aparición de cavidades de diferentes dimensiones. Se muestran ejemplos donde nuestro método propuesto es exitoso para distinguir una matriz aleatoria de una que no lo es.
Un ejemplo de una futura aplicación de nuestro método es a la polisomnografía, donde se generan series de tiempo simultáneas a través de electrodos que registran señales electroencefalográficas. A estas series de tiempo se le asigna la llamada matriz de correlación de Pearson. Con nuestro método, se espera detectar diferencias entre las matrices de correlación de Pearson correspondientes a indiviudos sanos e individuos con algún tipo de transtorno.
Referencias
Aubert, G. and Kornprobst, P. (2006). Mathematical problems in image proces- sing. Springer, New York.
Battiston, F., Cencetti, G., Iacopini, I., Latoral, V., Lucas, M., Patania, A., Young, J. G., and Petri, G. (2020). Networks beyond pairwise interactions: Structure and dynamics. Physics Reports, 874:1–92.
Collins, G. P. (2004). The shapes of space. Scientific America, 1:94–103. Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2009). Introduction to algorithms, page 591. The MIT Press.
Giblin, P. (2010). Graphs, surfaces and homology. Cambridge University Press, New York, 3rd edition.
Giusti, C., Ghrist, R., and Bassett, D. S. (2016). Two’s company, three (or mo- re) is a simplex. Algebraic-topological tools for understanding higher-order structure in neural data. Journal of Computational Neuroscience, 41:1–41.
Kozlov, D. (2008). Combinatorial algebraic topology, volume 21 of Algorithms and Computation in Mathematics. Springer, Berlin.
Munkres, J. R. (1975). Topology. A first course. Prentice-Hall, Englewood Cliffs, New Jersey.
Munkres, J. R. (1984). Elements of algebraic topology. Addison-Wesley Pu- blishing Company, Menlo Park, CA.
Newman, M. (2018). Networks. Oxford University Press, Oxford.
Reimann, M. W., Nolte, M., Scolamiero, M., Turner, K., Perin, R., Chindemi, G., Dłotko, P., Hess, R. L. K., and Markram, H. (2017). Cliques of neurons bound into cavities provide a missing link between structure and function. Frontiers in computational neuroscience, 11:48.
Rodríguez-Torres, E. E., Paredes-Hernández, U., Vázquez-Mendoza, E., Tetlalmatzi-Montiel, M., Beltrán-Parrazal, C. L., and Villarroel-Flores, R. (2020). Characterization and classification of electrophysiological signals represented as visibility graphs using the maxclique graph. Frontiers in bio- engineering and biotechnology, 8:324.
Sannino, S., Sebastiano, S., Lacasa, L., and Marinazzo, D. (2017). Visibi- lity graphs for fMRI data: Multiplex temporal graphs and their modulations across resting-state networks. Network Neuroscience, 1(3):208–221.
Sizemore, A. E., Phillips-Cremins, J. E., Christ, R., and Bassett, D. S. (2019). The importance of the whole: Topological data analysis for the network neu- roscientist. Network Neuroscience, 3(3):665–673.
van Gilst, M. M., van Dijk, J. P., Krijn, R., Hoondert, B., Fonseca, P., van Sloun, R. J. G., Arsenali, B., Vandenbussche, N., Pillen, S., Maass, H., van den Heu- vel, L., Haakma, R., Leufkens, T. R., Lauwerijssen, C., Bergmans, J. W. M., Pevernagie, D., and Overeem, S. (2019). Protocol of the somnia project: an observational study to create a neurophysiological database for advanced clinical sleep monitoring. BMJ Open, 9(11).
Apéndice
Notas de autor
erikart@uaeh.edu.mx