Modelo basado en procesos Gaussianos

1. Introducción:

El objetivo de este informe es presentar los resultados de predicción de hospitalizaciones e ingresos en la unidad de cuidados intensivos en Euskadi. El problema se ha planteado como una predicción de series temporales y se ha llevado a cabo mediante procesos Gaussianos. Nuestro modelo es un modelo Bayesiano que no utiliza ningún parámetro relativo a la enfermedad, es decir, no utiliza parámetros como probabilidad de contagio, tiempo desde el contagio hasta la aparición de síntomas, etc. La decisión de no utilizar modelos mas complejos esta basada en la incertidumbre existente en cuanto a los valores de estos parámetros. En este sentido el modelo que planteamos es un modelo principalmente agnóstico que se basa en los datos de los que se dispone. Es posible, sin embargo, introducir información a priori en el modelo, y esto se hace asumiendo un valor esperado para cada uno de los valores a predecir.

El modelo que presentamos aquí tiene bastantes limitaciones. Primero, aunque podría utilizarse para predecir a largo plazo, creemos que predicciones mas allá de cuatro o cinco días van a acumular tantos errores que van a hacer que éstas carezcan de sentido. Por otro lado, el modelo no es capaz de detectar un cambio de tendencia. Si se produce un cambio de este tipo, inicialmente producirá malas estimaciones y, a partir de dos o tres medidas comenzará nuevamente a generar predicciones de calidad.

Predicción de incidencia de las hospitalizaciones:

Predicción de incidencia de ingresos en UCI:

Desde mayo se reportan solamente los casos positivos detectados con PCR. Por tanto, el concepto "Observado (total)" corresponde a los datos reportados hasta antes de mayo y "Observado (PCR)" a los datos reportados de mayo en adelante.

Predicción de prevalencia de las hospitalizaciones:

Predicción de prevalencia de los ingresos en UCI:

2. Procesos Gaussianos:

Un proceso Gaussiano (PG) es un proceso estocastico definido por una colección de variables aleatorias, tal que cualquier conjuto de variables aleatoria finita sigue una distribución Gaussiana multivariable. Puede interpretarse como una distribución sobre funciones, y cada muestra es una función.

Los PGs están definidos por una función de media m(x) y una función de covarianza que depende del kernel semidefinido positivo k(x,x′). Por tanto, un PG puede representarse de la siguiente manera:

asumiendo que x ∈ ℝ^d.

En este caso, se utiliza un modelo bayesiano y se obtiene su distribución a posteriori a partir de un conjunto de datos de entrenamiento. La distribución conjunta de los resultados de entrenamiento f=(f₁, f₂,..., f_n) (donde $f i \in R, i \in {1, ..., n}$ y $n \in N$ ) y los resultados del conjunto de test $f * =(f n+1, f n+2, ..., f n+n*)$ están dados por:

donde N(μ, Σ) es una distribución Gaussiana multivariable, X=(x₁, x₂, ..., x_n) (xi ∈ ℝi,i∈1,...,n y n∈ℕ) corresponde al conjunto de datos de entrenamiento y X_∗=(x_n+1,x_n+2,...,x_n+n∗) al conjunto de datos de test. K(X, X_∗) es la matriz de covarianzas n×n_∗ para cada par (X,X_∗).

La distribución Gaussiana predictiva se obtiene de la distribuci'on condicionada dado el conjunto de datos de entrenamiento y el conjunto de test de entrada:

De cara a modelar de forma adecuada los datos, se consideran diferentes funciones de media como informaci'on a priori para el modelo, que son las siguientes:

Función logística:

donde L es el valor máximo de la curva, k es la tasa de crecimiento de la curva y x₀es el punto medio de la curva sigmoide.

Función Gompertz:

donde a es el valor máximo de la curva, b establece el desplazamiento a lo largo del eje x, y c es la tasa de crecimiento.

3. Selección del modelo:

Para seleccionar los parámetros de estas medias a priori $m (\cdot)$ , se divide el conjunto de datos en dos. Con el primero de ellos se aprenden los valores de los parámetros recorriendo un intervalo de posibles candidatos, y se seleccionan aquellos que minimicen el error de predicción del segundo conjunto, el de validación. Una vez se han optimizado los parámetros, procedemos a aprender un nuevo modelo con todo el conjunto de datos. Aquí el objetivo es ajustar los hiperparámetros del kernel $k (\cdot,\cdot)$ maximizando la verosimilitud marginal. En particular, se han utilizado el kernel exponencial cuadrátrico y el kernel Matern 52:

Kernel exponencial cuadrático:

donde $θ 0$ es el parámetro de amplitud, $θ 1$ de longitud y $θ n$ de ruido.

Kernel Matern 52:

$donde θ 0 es el parámetro de amplitud, θ 1 de longitud y θ n de ruido.$

Entre todos los modelos que se aprenden, el modelo final seleccionado para realizar una predicción es aquel con maxima verosimilitud.