Secciones
Referencias
Resumen
Servicios
Descargas
HTML
ePub
PDF
Buscar
Fuente


ENFOQUE BAYESIANO PARA OBTENER TASAS DE TRANSICION EN UN MODELO DE MARKOV CON DOS ESTADOS RECURRENTES
Revista de la Facultad de Ciencias, vol.. 10, núm. 2, 2021
Universidad Nacional de Colombia

Revista de la Facultad de Ciencias
Universidad Nacional de Colombia, Colombia
ISSN: 2357-5549
Periodicidad: Semestral
vol. 10, núm. 2, 2021

Recepción: 09 Septiembre 2020

Aprobación: 20 Abril 2021

Resumen: La aplicacion de modelos de estados multiples ha sido determinante a la hora de realizar estudios de datos longitudinales, tales como la observation de la progresion de una enfermedad en el tiempo, la recurrencia de una enfermedad, el seguimiento intermitente de la misma, entre otras; usualmente la forma como se mide el avance del fenomeno, es mediante el estado en el cual se pueda encontrar al sujeto en diferentes puntos en el tiempo. Las tasas de transicion entre estados del fenomeno de estudio permiten evaluar si el individuo experimenta un cambio positivo o negativo del mismo, por tanto, se modela la manera como los individuos en cierta poblaciOn transitan de un estado a otro a traves del tiempo lo cual es importante para comprender su dinamica. Las tasas de transicion en un modelo de Markov de dos estados recurrentes en funcion de covariables se obtienen a traves de un enfoque Bayesiano utilizando dos distribuciones apriori (No informativa e informativa); para esto se adopt6 un esquema de analisis basado en el muestreador de Gibbs, mediante un estudio de simulacion y aplicacion a datos reales se ilustr6 el comportamiento de las tasas de transicion bajo estas dos distribuciones y el efecto de una covariable.

Palabras clave: Distribución Apriori, estados recurrentes, modelos de Markov, muestreador de Gibbs, probabilidad de transición, tasas de transición.

Abstract: The application of multi-state models has been a decisive factor for studies of longitudinal data, such as observation of disease progression over time, recurrence of disease, intermittent monitoring, among others; usually the way to measure the progress of the phenomenon is to study the state in which the subject is found at different points in time. The transition rates between states of the phenomenon in study allows to assess whether the individual experiences a positive or negative change in its status,for this reason it is modeled how individuals in a certain popula- tion transit from one state to another through time, which is important to understand its dynamics. The transition rates in a Markov model of two recurrent states according to covariables are obtained by a Bayesian approach using two apriori distributions (Informative and Not Informative); to show this, an analysis scheme based on the Gibbs sampler was taken into account. Based on both a simulation study and an application to real data, it was possible to show the behavior of the transition rates under these two distributions and the effect of a covariable.

Keywords: Apriori distribution, Gibbs sampler, Markov models, recurrent states, transition probability, transition rate.

1. INTRODUCCION

Los fenomenos donde se presenta la recurrencia, - un evento recurrente es aquel que sucede en varias ocasiones para un mismo individuo (Cook & Lawless, 2007; Cardenas & Diaz, 2013) - son mas frecuentes de lo que uno se imagina. Por ejemplo, los resfriados son recurrentes en la medida que una persona sana los contrae, se enferma y luego se alivia de nuevo y esto puede sucederle varias veces durante un determinado periodo de tiempo, o por ejemplo, una maquina empacadora de leche puede fallar y ser puesta en funciona- miento varias veces durante su vida Util (Baena & Salazar, 2006).

Una tecnica que permite modelar las situaciones anteriores es la estimación de tasas de intensidad de transición, o simplemente tasas de transición que caracteriza un proceso de Markov con estados recurrentes las cuales proporcionan información directa del riesgo asociado de pasar de un estado a otro. Es conveniente asumir que estas tasas son funciones constantes del tiempo, (Kay, 1986). En este articulo se estudia una metodología general para modelar la posible interrelación entre el tiempo y la recurrencia de los estados del fenomeno de interes, donde las tasas de transición no dependen del tiempo, pero si dependen de algunas covariables involucradas en objeto de estudio.

Puede ser comun encontrar trabajos de investigacion con modelos de estados multiples en diferentes areas de conocimiento, pero particularmente en el area de la salud son bastante utilizados, estos son de ayuda para medir la progresion de enfermedades cronicas como el cancer (Green & Byar, 2006), el VIH (Guihenneuc et al., 2000) o la Artritis Reumatoide (Iral & Salazar, 2007)) en donde se estiman modelos de regresion expo- nenciales (Green & Byar, 2006), tasas de transicion via algoritmos estocasticos (Guihenneuc et al., 2000), en trabajos como el de Iral & Salazar (2007) se muestra un modelo de Markov con tres estados donde estiman las tasas de transicion por medio de un algoritmo de Newton - Raphson a traves de ecuaciones de Kolmo- gorov, midiendo el efecto de covariables en la estimacion. En Correa et al. (2010) se aborda el problema de estimacion de las tasas de transicion en modelo de Markov de tres estados por el metodo bayesiano MCMC basado en la discretizacion del soporte de la distribucion, el cual es comparado con el reportado en Iral & Salazar (2007), en estudios mas recientes Salazar et al. (2014) propone la estimacion de tasas de transicion en modelos de estados multiples por medio del muestreador de Gibbs y comparado con el algoritmo de Newton - Raphson presentado en Iral & Salazar (2007) y el metodo bayesiano MCMC propuesto en Correa et al. (2010). De estos Ultimos estudios nombrados se tienen que los metodos bayesianos son efectivos y consistentes para abordar este tipo de problemas.



Figura 1: Proceso de Markov con dos estados recurrentes. Fuente: Elaboracion Propia

A diferencia de los estudios mencionados anteriormente este articulo contempla el problema de recurrencia, el cual es tenido en cuenta en el modelo de estados multiples con estados recurrentes, en trabajos como el de Jordan et al. (2008) se aborda la recurrencia a traves de la aplicacion de una cadena de Markov al problema de secuestro, aunque este tipo de problemas es principalmente abordado desde el analisis de supervivencia como por ejemplo Andersen y Gill (1982), Wei et al. (1989), Wang & Chang (1999), Peila et al. (2001), Martinez et el. (2009), Martinez et al. (2011) , Cardenas & Diaz (2013). El aporte mas original de este articulo consiste en la prediccion de las tasas de transicion por medio de estadistica Bayesiana. Especificamente se recurre al muestreador de Gibbs y se usan dos distribuciones Apriori una no informativa (Laplace) y otra informativa(Exponencial). Los detalles de este aporte se discuten en la seccion 2. Por medio de un estudio de simulacion se exploran las ventajas y las desventajas de las metodologias estudiadas (seccion 3), ademas, tambien son estudiadas con datos longitudinales reales acerca de la recurrencia de ataques de virus informaticos a los computadores de una entidad bancaria en la seccion 4 y finalmente, se discuten los mentos y las limitaciones de este enfoque en la seccion 5.

2. EL MODELO

Los procesos de Markov han demostrado ser de mucha utilidad no solo en el estudio de algunas enfermeda- des tales como cirrosis, Alzheimer y esquizofrenia (Hendrie et al., 2001; Harezlak et al., 2003; Eichelsbacher & Ganesh, 2004), cancer (Kay, 1986), entre otras, sino tambien para el analisis de fenomenos sociales como el secuestro (Jordan et al., 2008) y tecnologicos como la recurrencia de ataques informaticos a equipos de computo (Valencia & Salazar, 2012).

Tomando el caso particular de ataques de virus informaticos a equipo informaticos se tiene un modelo de Markov con dos estados, en este caso: Sano e Infectado, los cuales son recurrentes debido a que tienen una probabilidad de regresar al estado anterior o simplemente quedarse en aquel que se encontraba inicialmente. La Figura 1 ilustra mejor el modelo de estados multiples que puede utilizarse en este caso.

Sea X(t) un proceso de Markov (con dos estados recurrentes), sea S el espacio de estados, en el caso bajo

estudio: S = {1, 2},donde se admiten las transiciones 1 1,1 2, 2 1, 2 2 y sea P =[Pii(t)] la matriz

de probabilidades de transicion del proceso de Markov X (t), donde:

Pii(t) = P[Estado j en tlEstado i en t-1]

Es posible relacionar las tasas de transición con las probabilidades de transición por medio de un sistema de ecuaciones diferenciales hacia adelante de Kolmogorov, (Bhat, 1984; Lawless, 2002).

Sea la matriz P de probabilidades de transición asociada al proceso de Markov, la cual esta relacionada con la matriz de tasas de transiciones Q a traves de un sistema de ecuaciones diferenciales de Kolmogorov hacia delante; estas matrices son de orden k x k, donde k representa el numero de estados. Tomando el modelo que se ilustra en la Figura 1 las ecuaciones de Kolmogorov resultantes y sus soluciones exactas son:







La solución a este sistema de ecuaciones esta dada por:

2.1. Tasas de transicion como funcion de covariables

Para el proceso de Markov descrito en la Figura 1, se propone una parametrizacion para las tasas de transicion de acuerdo al modelo de Andersen et al. (1993), tal como lo sugieren Kay (1986), Harezlak

et al. (2003) y Salazar et al. (2003). Dicha parametrizaci6n es de la forma: Xii = el3Tix , donde el vector

mide los efectos del vector de covariables X sobre las tasas de transicion del estado i al estado j. Para el

caso de una sola covariable, usando el modelo de Andersen et al. (1993), las tasas de transicion se expresan

como:




2.2. Funcion de verosimilitud

Suponga un proceso de Markov de primer orden con dos estados recurrentes {1, 2}. Para un sujeto w considere las siguientes notaciones:

Mw :Ndmero de observaciones para el sujeto w.

ft(r, , , } : los tiempos en los cuales el sujeto w es monitoreado.

Si(w) : Estado observado para el sujeto w en el tiempo

(w) (t(w) t(i )) • Probabilidad de transicion para el sujeto w del estado Si_i, • al estado Si en el intervalo de tiempo (tz_i, ti).

T : Es el vector que contiene todos los tiempos de monitoreo de todos los n sujetos.

La contribucion del w-esimo individuo a la verosimilitud esta dada por:






Por lo tanto, la verosimilitud para n sujetos esta dada por:



Haciendo 0 = (X12, A:2'1, P121 1321 ), la verosimilitud se expresa como:



Para obtener una expresi6n que involucre todos los parametros asociados al vector 0, se definen las siguien- tes variables indicadoras (Correa et al., 2010):



Asi, entonces la funcion de verosimilitud se expresa:



Simplificando:



Usando la expresión del modelo de Andersen et al. (1993) se obtiene:

Donde cada una de las probabilidades de transición están dadas por la solución del sistema de ecuaciones diferenciales hacia adelante de Kolmogorov (ecuaciones 2, 3, 4, 5) y las covariables se involucran con la parametrizacion de tipo Andersen et al. (1993) (ecuaciones 6 y 7). Las densidades completas se pueden ver en los anexos de la sección 6.

2.3. Estimacion bayesiana de las tasas de transicion

La metodologia bayesiana es muy titil para obtener aproximaciones de parametros de interes (Gordon, 2001; Hans & Dunson, 2005). El no depender de supuestos asintoticos en las soluciones que se obtienen es una de las ventajas de la metodologia bayesiana y todo el trabajo inferencial se realiza usando la distribuci6n aposteriori (o posterior). La vigencia y utilidad de estos metodos de prediccion justifican su use para obtener estimaciones de las tasas de transicion en un modelo de dos estados recurrentes.

Para utilizar el muestreador de Gibbs de acuerdo a Tanner (1996) se encuentran las distribuciones aposterioris y por medio de estas las densidades condicionales con la cuales se programa el metodo del muestreador de Gibbs.

2.4. Distribuciones posteriores

Por el teorema de Bayes se sabe que la distribución posterior es proporcional a:




De acuerdo al principio de la razón insuficiente de Laplace (Gordon, 2001), si el espacio parametral es finito, se puede utilizar una distribución apriori uniforme para reflejar ignorancia total. Para observar el efecto en las predicciones de las tasas de transición se selecciona una distribución apriori no informativa de la forma 4 (e) = 1 y una distribución apriori informativa exponencial con parametros ti para X12 y a para X21, sea

Independientes y a conocidos.

Por lo tanto las distribuciones posteriores están dadas por:




Para realizar la estimación se deben escribir las probabilidades de transición en terminos de las tasas de transición por medio de las ecuaciones de Kolmogorov y el modelo de Andersen et al. (1993) por medio del cual se mide el efecto de las covariables.

Así, la distribución posterior para el vector de parámetros 0 con una apriori no informativa es de la forma:






Se tiene entonces:



Haciendo:



Se obtienen las condicionales completas:

Y la distribucion posterior para el vector de parametros 0 con una apriori informativa es de la forma:

(131X) oc L(01 X) x te-242roce—k21a

Con 'c y a conocidos, se tiene entonces:




Haciendo:




Se obtienen las condicionales completas:




Así, con las densidades condicionales completas encontradas para cada distribución apriori se implementa el metodo de estimación por medio del muestreador de Gibbs.

3. ESTUDIO DE SIMULACIÓN

Basados en el esquema de muestreo de Correa et al. (2010) se asume un proceso estocastico de Markov de dos estados que se denotaran 1 y 2 donde los estados son recurrentes; por tanto las transiciones son 1 a 1, 1 a 2, 2 a 1 y 2 a 2. Para el muestreador de Gibbs se asume una distribución apriori no informativa (Laplace igual 1) y una distribución apriori informativa (Exponencial con parametros ti = 40 para X12 y a = 91 para X21 con Xi j independientes). Todas las simulaciones se llevaron a cabo usando el sotfware SAS con el procedimiento IML del SAS (2004).

Para ejecutar las simulaciones se tomaron las condiciones descritas a continuación. Primero, se simularon 1000 muestras de tamaños n= 50, 100, 200, 400 unidades que contenian historias aleatorias de transiciones en el modelo de dos estados para los n sujetos simulados; luego para cada tamafio muestral se generaron un maxim() de 3 y 4 medidas repetidas por unidad. La variable edad del equipo de computo se incorpora en el modelo con tres categorías: 1: < 72 semanas, 2: 72 - 117 semanas y 3: > 117 semanas. La parametrización utilizada para las tasas de transición esta basada en el modelo multiplicativo de Andersen et al. (1993), de la forma:




donde X = (gedad). Los valores de los para cada grupo de edad son tomados de los reportados en Correa et al. (2010), las parametrizaciones usadas para obtener los valores de referencia fueron:




3.1. Resultados numericos de las tasas de transicion simuladas

En cada simulacion se evaluo la distribuci6n posterior y se calcularon las respectivas tasas de transicion descritas por el modelo de Andersen et al. (1993) para cada valor de la covariable de interes. Luego, se tomó una muestra aleatoria con reemplazo de tamafio 1000 que contenia, ademas de los valores de cada una de las tasas de transicion, los valores de probabilidad especificados por la distribucion posterior. Usando cada una de estas muestras se calculo el promedio aritmetico, el cual se trato como el respectivo estimador de las tasas de intensidad asociadas al modelo de dos estados recurrentes.

En las Tablas 1 y 2 se puede observar que independiente del mimero de escaneos, cuando el grupo de edad del equipo de cómputo es menor de 72 semanas las tasas de intensidad X21 están sobre estimadas respecto a los valores de referencia siendo menos sobrestimadas las predicciones de la distribución exponencial. Ahora las predicciones para Xi2 en este grupo de edad se muestran muy cercanas a los valores de referencia



Tabla 1: Tasas de Intensidad. Numero de observaciones repetidas = 3



Tabla 2: Tasas de Intensidad. Minero de observaciones repetidas = 4

especialmente para el tamalio de muestra igual a 100.

Para el grupo de edad del equipo de computo entre 72 y 117 semanas y la distribución Laplace, se observa que los valores de referencia de Xi2 se sobre estiman para el tamalio de muestra de 50, mientras que para los tamarios de muestra 100, 200 y 400 el valor predicho esta subestimado, con mas cercania al valor de referencia la predicción cuando el tamailo de muestra es igual a 100. Ahora para la distribución exponencial se tiene que las predicciones Xi2 están subestimadas respecto a los valores de referencia excepto para el tamario de muestra igual a 100. Para X21 en este grupo de edad las predicciones, con ambas distribuciones, se encuentra sobre estimadas pero menos con la distribución exponencial.

En el grupo de edad de mayores a 117 semanas con la distribución Laplace, se tiene que la tasa de intensidad estimada para Xi2 con el tamafio de muestra igual a 50 esta muy cercano al valor de referencia, cuando el tamario de muestra es de 100, 200 y 400 las predicciones para X12 son subestimadas.

Para X21 se puede observar que independiente del grupo de edad y la distribución apriori utilizada se sobre estiman las predicciones respecto a los valores de referencia. Es de notar que las predicciones de X21 realizadas con una distribución exponencial de parametro 91 son menos sobre estimadas que las encontradas con una distribución Laplace. Ademas, se puede observar que a medida que el grupo de edad aumenta se observa un cambio en la predicción de la tasas, por tanto se muestra un efecto de la covariable en la obtención de las mismas.

3.2. Resultados distribucionales de las tasas de transicion simuladas

En la Figura 2 se tiene que la distribución de las estimaciones para X,12 es similar a la distribución de las estimaciones para X21 con una distribución apriori no informativa (Laplace). Se observa, también, que existe una diferencia por grupo de edad lo cual indica un efecto de la covariable en la estimación a nivel distribucional, note que en el grupo de edad 1 las distribución de las predicciones para Xi2 con distribución apriori exponencial con parametro 40 es similar a las obtenidas con la distribución apriori no informativa, pero a medida que cambia el grupo de esta esa similitud va cambiando.

Para las predicciones de X,21 con un distribución apriori exponencial con parametro 91 se tiene un comportamiento distribucional con valores mas altos que los otros valores, ademas es un poco sesgada a la derecha, mientras que para las predicciones de X12 con una distribución apriori exponencial de parametro 40 se tiene un comportamiento distribucional similar al obtenido con la distribución no informativa. Es importante destacar que en este caso también se observa el efecto de covariable edad pues a medida que el grupo de edad del equipo de computo aumenta los valores de las predicciones van disminuyendo.



Figura 2: Densidades Tasas de transición. Fuente: Elaboración Propia

En las gráficas de la Figura 2 también se puede observar que las estimaciones de las tasas con una distribución no informativa tienen un comportamiento distribucional platicurtico con colas no pesadas, en cuanto a la estimación de las tasas con una distribución informativa tienen comportamiento distribucional leptoctirtico. Gráficamente, se muestra una diferencia entre las predicciones con la distribución no informativa y la distribución informativa, por tanto se observa un efecto de la distribución apriori en las predicciones de las tasas.

En las Figuras 3 y 4 se puede observar que las cadenas simuladas se encuentran alrededor de una media y se ven estable a traves del tiempo.

Para las predicciones de Xi2 con tres escaneos se nota que la distribucion no informativa es la que tiene mas cercanía con los valores de referencia mientras que la distribución exponencial con parametro 40, en casi todos los grupos de edad, esta por debajo de los valores de referencia y las predicciones de la distribución apriori no informativa (Figura 5). Para el caso de las predicciones de X21 se puede observar que para el grupo de edad 1 las predicciones con una apriori no informativa están muy por encima de los valores de referencia y los encontrados con distribución apriori exponencial con parametro 91, este comportamiento es identico en los otros grupos de edades del equipo de computo pero es mas evidente en el primer grupo (Figura 6). Este comportamiento no tiene un cambio muy significativo cuando se aumenta el numero de escaneos a cuatro (Figuras 7 y 8).



Figura 3: Cadenas de Markov apriori informativa Tamafio= 400 y medidas repetidas= 4. Fuente: Elaboración Propia



Figura 4: Cadenas de Markov apriori no informativa Tamailo= 400 y medidas repetidas = 4. Fuente: Elaboracion Propia



Figura 5: Estimación Xi2 con 3 escaneos. Fuente: Elaboración Propia



Figura 6: Estimación X21 con 3 escaneos. Fuente: Elaboración Propia



Figura 7: Estimación X12 con 4 escaneos. Fuente: Elaboración Propia



Figura 8: Estimacion X21 con 4 escaneos. Fuente: Elaboracion Propia

4. APLICACIÓN A DATOS REALES

Para ilustrar el modelo aquí expuesto se tomaron los datos recolectados en Valencia & Salazar (2012) de una entidad bancaria, estos provienen de una muestra aleatoria de 274 computadores, se tomó información en un periodo de 11 semanas, cada vez que se le registro información a un computador especifico, se verifico si este estaba en uno de estos dos posibles estados recurrentes: 1-sano 6 2-infectado.

La información recolectada esta relacionada con: Edad de la maquina en meses, marca, clase, si tiene habilitado el puerto USB, cantidad de paginas web visitadas durante el periodo de observación, numero de procesadores, tiempo de navegación y tipo de reloj del procesador. Para el modelo a evaluar solo se tomó en consideración la variable clase, la cual es cualitativa con los siguientes valores: Portatil, CPU, Servidor. En la estructura de los datos utilizados, se tiene: la columna MAQUINA que identifica el código del equipo de computo observado, SEMANA que corresponde a la semana de observación del equipo de computo, la columna EP que indica el estado previo del equipo de computo, la columna EA que indica el estado actual del equipo, la columna DURACIÓN hace referencia al tiempo en semanas que transcurre entre cada observación y finalmente la columna CLASE que hace referencia al tipo de equipo de computo.

La matriz de transición cruda obtenida a partir de los datos, esta dada por Frecuencia (Probabilidad de transición)), ver Tabla 3. La frecuencia, se refiere al numero de cambios de estado observados en todos los computadores del SI (1: sano, 2: infectado. Por ejemplo, dado que un computador esta infectado, la probabilidad de que pase a estar sano es 0.127.



Tabla 3: Matriz de transición cruda

Se considera un modelo de dos estados recurrentes, donde las tasas de transicion seran funciones de la covariable "Clase". Si X denota la variable Clase, el modelo multiplicativo de Andersen et al. (1993) es de la forma:




Para poder incorporar en el modelo esta covariable, es necesario expresarla en una escala cuantitativa, por ejemplo 1 : CPU, 2: Portatil y 3: Servidor. El problema es que esta transformación no es adecuada ya que las nuevas categorías numericas implican una jerarquia, mientras la variable original no es ordinal, y por lo tanto no es adecuado usar una escala numerica en reemplazo de una variable que no es ordinal. Como el interés esta en evaluar el efecto de la covariable sobre la obtención de las tasas de intensidad de transición, se propone un modelo donde se tengan en cuenta las categorías de la variable clase.

Para ello defina las siguientes variables indicadoras:

1; si tipo de computador es CPU

Xl =

0; en otro caso

{ 1; si tipo de computador es Portail

=

0; en otro caso

De esta manera, las tasas de intensidad de transición se expresan como:




El efecto asociado al computador tipo Servidor, se obtiene cuando Xl = 0 y X2 = 0.

Las soluciones del sistema de ecuaciones hacia adelante de Kolmogorov para el modelo de dos estados y la parametrización dada en la ecuación (10), son usadas para construir la función de verosimilitud para el vector de parametros 0. Para este caso particular, dicho vector esta dado por:

Las soluciones del sistema de ecuaciones hacia adelante de Kolmogorov para el modelo de dos estados y la parametrización dada en la ecuación (10), son usadas para construir la función de verosimilitud para el vector de parametros 0. Para este caso particular, dicho vector esta dado por:

0 =(a12,242, 1312, Fl2, a21, XZ1, 1321, F21 )

0 =(a12,242, 1312, Fl2, a21, XZ1, 1321, F21 )

La estimacion de estos parametros se hard usando el muestreador de Gibbs. Se consideran dos situaciones: aprioris uniformes y aprioris exponenciales para X12 y para 1.

Para obtener los valores iniciales para A,12 y para V21, se usan las ecuaciones descritas en sección 2.




donde:

mij: representa el total de transiciones del estado i al estado j , Ti: representa el tiempo total en el estado i para todos los individuos,

p(0)i; : valores iniciales dados por el investigador.

(12)

Encontradas las ecuaciones para el vector de parametros 0 se obtienen las predicciones para estos 8 parametros con las cuales se calculan las tasas de intensidad de transición para 212 y X21 y las respectivas probabilidades de transición. Dado que la información fue recolectada en semanas, se muestra las probabilidades calculadas en un tiempo de una semana (Tabla 6) y dos semanas (Tabla 7) para cada una de las distribuciones aprioris.

De las Tablas 4 y 5 se puede observar que la probabilidades mas altas en los tres tipos de computadores es la de estar en un estado sano, lo cual tiene sentido debido a los mantenimientos preventidos de los equipos de computo, los cuales están basados en mantener actualizado y tener corridas continuas de los sistemas antivirus lo cual influye en la probabilidad de mantenerse en este estado. Puede notarse también que a medida que el tiempo aumenta la probabilidad de quedarse en un estado de Infección disminuye lo cual también es explicado por el procedimiento realizado cuando se detecta un virus.

Cabe notar que el tipo de computadores mas vulnerable a los ataques de virus son los servidores debido a que presentan la probabilidad mas alta de transitar de un estado sano a un estado infectado, teniendo en cuenta que un servidor contiene información importante y de caracter confidencial de las compatifas tiene sentido que sean los mas atacados.

También se puede ver que las probabilidades de pasar de un estado infectado a un estado sano son relevantes y mayores respecto a la probabilidad de pasar de un estado sano a infectado en los tres tipos de computadores esto se debe a que una de las formal de corregir este estado, una vez detectado el virus, es aplicar el antivirus influenciando asi que los equipos tengan una mayor probabilidad de pasar de un estado de infección a un estado sano.

A nivel distribucional (Figura 9) y numerico no se observan diferencias significativas en las predicciones de las tasas de intensidad con las diferentes distribuciones aprioris escogidas para este estudio, cabe notar que en las densidades se percibe el impacto de aplicar un antivirus en la estimación de las tasas.



Tabla 4: Tasas de Intensidad



Tabla 5: Intervalos de Credibilidad



Tabla 6: Probabilidades de Transición con t = 1 Semana



Tabla 7: Probabilidades de Transición con t = 2 Semanas



Figura 9: Densidades Tasas de transición distribuciones aprioris. Fuente: Elaboración Propia

5. CONCLUSIONES

5.1. Respecto al estudio de simulación

Por medio de un estudio de simulación se encontraron las predicciones para cada distribución apriori con diferentes numeros de individuos y diferentes ntimeros de escaneos, el cual se compara con los valores de referencia encontrados, de esto podemos observar que el comportamiento de las predicciones de X21 para los individuos mas jovenes pertenecientes al grupo 1 de edad son sobreestimadas respecto a los valores de referencia pero a medida que incrementa el tamario de muestra el diferencial con valores de referencia disminuye independiente del mimero de medidas repetidas, para las predicciones de X12 en este grupo de edad se observan que para un tamafio de muesta igual a 50 se sobreestiman pero a medida que el tamafio de muestra aumenta la diferencia con los valores de referencia es minima.

Es de notar que la covariable muestra un impacto en la estimación puesto que a medida que el grupo de edad aumenta los valores de referencia son mayores y las estimaciones también.

Respecto al comportamiento de las predicciones con las distribuciones de Laplace (Distribución no In- formativa) y Exponencial con parametros igual a 40 y 91 para X12 y X21 respectivamente (Distribución Informativa), las cuales fueron las escogidas como aprioris, se observan comportamientos diferentes en los tres grupos de edad y también a nivel distribucional principalmente en los picos figura 2 en los 3 grupos de edad, adicional se puede notar que el tamaño de muestra igual a 100 es el que mejor comportamiento presenta respecto a los valores de referencia, note también que los promedios estimados de las tasas de in- tensidad con una distribución apriori no informativa para Xi2 son mas cercanos a los valores de referencia, mientras que para X21 las dos distribuciones aprioris son sobreestimadas pero la distribución a priori informativa es la que mas cerca se encuentra a los valores de referencia (Figura 5 a 8). Por tanto se percibe un efecto en la estimación de las tasas de intensidad con las diferentes distribuciones aprioris estudiadas, por tanto podemos notar que para k12 funciona mejor una distribución Laplace mientras que para X21 ninguna de las dos distribuciones muestra una buen resultado.

5.2. Respecto a la aplicación a datos reales

En cuanto a la aplicación a datos reales tenemos que los equipo de computo mas vulnerables son servidores por tanto se puede recomendar intensificar los escaneos semanales con el fin de reducir la probabilidad de transición de un estado sano a infectado, protegiendo así uno de los activos mas importantes para la entidad, la información confidencial.

Por otro lado notamos que las distribuciones aprioris contempladas en este trabajo no tienen un impacto significativo en la estimación de las tasas de transición y por ende en la probabilidad de transición en estados recurrentes, es de notar que si se percibe un impacto en la estimación de 2L,21 debido al tratamiento aplicado cuando se detecta un virus en el sistema, lo que implica una probabilidad mayor de transitar de un estado infectado a nano en cualquier tipo computador.

Pese a que al introducir mas covariables al modelo se espera una mejor estimación de las tasas de intensidad esto a su vez complejiza el modelo lo cual dificulta la estimación de las tasas e implica un proceso de simulation y computacional arduo que impacta los tiempos haciendolos mas extenso en estos procesos. Sin embargo, para variables categóricas recolectadas longitudinalmente, este tipo de modelamiento muestra ser efectivo siempre y cuando se tengan suficientes datos y namero de medidas repetidas apropiados.

6. ANEXOS

6.1. Densidades Condicionales

Partiendo de la verosimilitud encontrada y haciendo:




Se obtienen las condicionales completas:




Referencias

Andersen, P. & Gill, R. (1982). Cox's regression model for counting processes: A large sample study. Annals of Statistics, 10, 1100-1120.

Andersen, Pk., Borgan, Gill, R. D. & Keiding, N. (1993). Statistical Models Based on Counting Processes. Springer-Verlag. New York, U.S.A.

Baena, J. & Salazar-Uribe, J.C. (2006). Analisis de recurrencia de falla aplicado a la determinacion del tiempo esperado de falla de una empacadora de liquidos en la Cooperativa Lechera Colanta. Memorias XVI Simposio de Estadistica, Bucaramanga, Colombia

Bhat, U. (1984). Elements of applied Stochastic Processes. Wiley.

Cardenas, M. & Diaz, L. G. (2013). Un modelo de sobrevida multivariado para eventos recurrentes por sujeto con evento terminal: desercion de clientes en la industria de las Telecomunicaciones. Departamento de Estadistica, Universidad Nacional de Colombia, Sede Bogota. Bogota, Colombia.

Cook,R J. & Lawless, J. F. (2007). The Statistical Analysis of Recurrent Events. Springer. New York, U.S.A.

Correa, J. C., Salazar-Uribe, J. C. & Iral, R. (2010). Aproximacion bayesiana al problema de la estimacion de las tasas de transicion en un modelo de estados multiples. Memorias XX Simposio de Estadistica, Santa Marta, Colombia.

Eichelsbacher, P. & Ganesh, A. (2004). A shared random efect parameter approach for longitudinal dementia data with non-ignorable missing data. Biometrics, 23, 211-219.

Gordon, P. (2001), Bayesian statistical John Wiley Sons. Chichester.

Green, S. B. & Byar, D. P. (2006). The choice of treatment for cancer patients based on covariate information: Application to prostate Cancer. Bulletin Cancer, 67, 477-488.

Guihenneuc-Jouyaux, C., Richardson, S. & Longini, Jr, IM. (2000), Modeling Markers of Disease Progression by a Hidden Markov Process: Application to Characterizing CD4 Cell Decline. Biometrics, 56(3), 733-741.

Hans, C. & Dunson, D. (2005). Bayesian inference on umbrella orderings. Biometrics, 61, 1018-1026.

Harezlak, J., Gao, S. & Hui, S. L. (2003). An illnes-death stochastic model in the analysis of longitudinal dementia data. Statistics in Medicine, 22, 1465-1475.

Hendrie, H. C., Ogunniyi, A. & Hall, K. S., Baiyewu, 0., Unverzagt, F. W., Gureje, 0. & et al. (2001). Incidence of dementia and Alzheimer disease in 2 communities: Yoruba residing in Ibadan, Nigeria, and African Americans residing in Indianapolis, Indiana. JAMA, 285(6), 739-747.

Iral, R. & Salazar-Uribe, J. C.(2007). Estimación de funciones de intensidad en un modelo de Markov de tres estados bajo el efecto de covariables con datos longitudinales. Tesis de Maestría: Universidad Nacional de Colombia, Sede Medellín

Joly, P. & Commenges, D.(1999). A penalized likelihood approach for a progressive three-state model with censored and truncated data: Application to AIDS Biometrics, 55, 887-890.

Jordan, Y. , Lerma, L.P. and Toro, E.(2008). Aplicación de cadenas de Markov continuas a las estadísticas del secuestro en Colombia. Scientia et Technica, XIV(38), 235-240.

Kay, R.(1986). Treatment Effects in Competing-Risks Analysis of Prostate Cancer Data. Biometrics, 42(1), 203-211.

Lawless, J. F.(2002). Statistical Models and Methods for Lifetime Data. Wiley Series in Probability and Statistics.

Martinez, C., Ramirez, G. & Vasquez, M.(2009). Pruebas no parametricas para comparar curvas de supervivencia de dos grupos que experimentan eventos recurrentes.Revista Ingenieria U.C., 5, 45-55.

Martinez, C., Ramirez, G. & Vasquez, M.(2011). Pruebas estadísticas para comparar curvas de supervivencia de k grupos con eventos recurrentes. Ingeniería Industrial. Actualidad y Nuevas Tendencias, 6, 7-18.

Pella, E., Strawderman, R.& Hollander, M.(2001). Nonparametric estimation with recurrent event data. The computer Journal, 99, 1299-1315.

Salazar-Uribe, J. C., Tyas, S.L., Snowdon, D. A., Desrosiers, M. F., Riley, K. P., Mendiondo, M. S. & Kryscio, R. J. (2003), Estimating intensity functions on multistate Markov models with application to the Nun Study. JSM, San Francisco, EEUU.

Salazar-Uribe, J.C., Iral, R., Calvo, E., Rojas, A., Hincapie, M. E., Anaya, J. M. & Diaz, F. J. (2001), Three state Markov model: comparing three parameterizations of the transition intensity rate. Application to rheumatoid arthritis data. Revista Colombiana de Estadística, 30(2), 213-229.

Salazar-Uribe, J. C., Iral, R., Correa, J. C., Rojas, A. & Anaya, J. M.(2014). Enfoque bayesiano para obtener las tasas de transicion en un modelo de estados multiples. Aplicacion a datos sobre artritis reumatoide.Comunicaciones en Estadistica, 7(2), 201-220.

SAS Institute Inc. (2004). SAS/IML 9.2 User's Guide. Cary, NC: SAS Institute Inc.

Tanner, Martin A. (1996). Tools for Statistical Inference: Methods for the Exploration of Posterior Distributions and Likelihood Functions.Third Edition. Springer Series in Statistics. Springer-Verlag New York.

Valencia, G. A. & Salazar, J. C. (2012). A statistical approach to reduce malware inside an information system in banking sector. Proceeding of the 2012 World Congress in Computer Science, Computer Engineering, and Applied Computing, Las Vegas Nevada, EEUU.

Wang, M. & Chang, S. (1999). Nonparametric estimation of a recurrent survival function. Journal of the American Statistical Association, 94, 146-153.

Wei, L., Lin, D. & Weissfeld, L.(1989). Regression analysis of multivariate incomplete failure time data by modeling marginal distributions. Journal of the American Statistical Association, 84, 1065-1073.



Buscar:
Ir a la Página
IR
Modelo de publicación sin fines de lucro para conservar la naturaleza académica y abierta de la comunicación científica
Visor de artículos científicos generados a partir de XML-JATS4R