Ir al contenido

Documat


A general framework for prediction in generalized additive models

  • Autores: Alba Carballo González
  • Directores de la Tesis: María Luz Durbán Reguera (dir. tes.) Árbol académico, Dae-Jin Lee (codir. tes.) Árbol académico
  • Lectura: En la Universidad Carlos III de Madrid ( España ) en 2020
  • Idioma: español
  • Tribunal Calificador de la Tesis: Carlo Giovanni Camarda (presid.) Árbol académico, Aurea Grané Chávez (secret.) Árbol académico, María José Rodríguez Álvarez (voc.) Árbol académico
  • Enlaces
  • Resumen
    • Las técnicas de suavizado se han convertido en uno de los enfoques de modelado más populares en el entorno unidimensional y multidimensional. Sin embargo, la predicción fuera del rango de valores conocidos en el contexto de los modelos de suavizado sigue siendo un problema abierto que puede ampliar significativamente el uso de estos modelos en muchas áreas de conocimiento. El objetivo de la tesis es proponer un marco general para la predicción en regresión penalizada, particularmente en el contexto de splines con penalizaciones P-splines (comúnmente llamados P-splines).

      Concretamente, trabajamos con modelos aditivos, que son una clase de métodos de regresión no paramétrica con una amplia gama de aplicaciones en la práctica. Esto es debido a su habilidad para representar relaciones no lineales entre las covariables y la variable respuesta de una forma intuitiva. Una de las principales suposiciones en los modelos aditivos es que el efecto de las covariables sobre la variable dependiente sigue una forma aditiva y cada uno de los efectos es modelado por funciones suaves. Algunas de las áreas en las que se pueden usar modelos aditivos para modelar y predecir son la Epidemiología, Agricultura y Demografía.

      Hay varios métodos que permiten obtener funciones suaves que describen la media de la variable respuesta en función de las variables explicativas. Sin embargo, herramientas importantes como los kernel no son muy usados, y dentro del contexto de splines hay dos inconvenientes, el número de parámetros es el mismo que el número de observaciones, y la elección del número y posición de los knots. Para superar los inconvenientes anteriores, el trabajo desarrollado en la tesis se basa en la metodología de suavizado introducida por Eilers y Marx (1996), los llamados P-splines. La metodología combina los B-splines (el número de parámetros es mucho menor que la dimensión de los datos) y una penalización que penaliza los saltos entre coeficientes adyacentes (el número y posición de los nodos no es crucial).

      Con el fin de proponer un marco general para predecir nuevos valores en regresión penalizada, el Capítulo 1 incluye una revisión de las diferentes propuestas disponibles en la bibliografía y los resultados útiles y necesarios a lo largo del documento: la formulación de un modelo P-spline y su reparametrización como modelo mixto. La relación entre regresión penalizada y modelos mixtos fue establecida hace treinta años. Lo importante de esta equivalencia es el hecho de que el parámetro de suavizado se convierte en el ratio de varianzas y tanto la varianza del error como la de los efectos aleatorios pueden ser estimadas a través métodos de máxima verosimilitud. Por lo tanto, no es necesario estimar el parámetro de suavizado a través de métodos como cross-validation o criterios de información. Lo que permite incluir suavizado en una gran clase de modelos y software ya desarrollado para la estimación en modelos mixtos.

      En el Capítulo 2, generalizamos el enfoque dado por Currie et al. (2004) para predecir con cualquier base de regresión y penalización cuadrática. Para el caso particular de penalizaciones basadas en diferencias entre coeficientes adyacentes, reparametrizamos el modelo P-spline extendido como un modelo mixto y demostramos que el ajuste sigue siendo el mismo que el resultado que obtenemos solo ajustando los datos, también mostramos el papel crucial del orden de penalización, ya que determina la forma de la predicción.

      Además, adaptamos los métodos disponibles en contextos como modelos mixtos (Gilmour et al. 2004) u optimización global (Sacks et al. 1989) para predecir en el contexto de la regresión penalizada y demostramos su equivalencia para el caso particular de P-splines.

      Una extensa sección de ejemplos ilustra la aplicación de la metodología. Utilizamos tres conjuntos de datos reales con características particulares: uno de ellos, sobre biomasa, nos permite mostrar que la predicción también se puede realizar a la izquierda de los datos; otro de ellos, sobre los niveles mensuales de dióxido de azufre, ilustra como la predicción puede tener en cuenta las tendencias temporales y los efectos estacionales utilizando el modelo de modulación suave basado en P-splines sugerido por Eilers et al. (2008); y otro, sobre el nivel anual del mar, muestra que la predicción también se puede realizar en el caso de errores correlalados.

      También presentamos el concepto de memoria de un P-spline como una herramienta para saber cuanta información conocida usamos para predecir nuevos valores. Demostramos el hecho de que la predicción fuera del rango de valores observados, usando P-splines, está dada por la tendencia presente en las últimas observaciones. Por ejemplo, en el caso de datos de mortalidad, las tasas de mortalidad en los últimos años tendrán un fuerte impacto en la predicción de la mortalidad futura. Esto puede ser un problema si, por alguna razón, la tendencia en el pasado reciente es bastante diferente de la tendencia general en los datos. Un investigador o profesional puede decidir llevar a cabo la predicción fuera de muestra, no condicionado por la cantidad óptima de suavizado, pero decidiendo el número de años que deberían influir en la predicción.

      En el tercer capítulo, proponemos un marco general para la predicción en el suavizado multidimensional, ampliamos la propuesta de Currie et al. (2004) para predecir cuando se extiende más de una covariable. La extensión del método de predicción al caso multidimensional no es directa en el sentido de que, en este contexto, el ajuste cambia cuando el ajuste y la predicción se llevan a cabo simultáneamente. Para resolver este problema, proponemos una solución fácil, basada en multiplicadores de Lagrange. La primera parte del capítulo está dedicada a mostrar como se pueden realizar predicciones fuera de la muestra en el contexto de P-splines multidimensionales y las propiedades que satisfacen, bajo ciertas condiciones, los coeficientes que determinan la predicción. En el caso en el que solo se extiende una covariable, nosotros demostramos cuales son los coeficientes del ajuste que determinan la predicción, y que la penalización puede ser modificada para preservar el ajuste. Sin embargo, si modificamos la penalización no estaríamos imponiendo la penalización correctamente y, además, el argumento no podría ser extendido para cuando la predicción se realiza extendiendo las dos covariables, puesto que las matrices involucradas en la obtención de la solución serían singulares. Como una solución general para preservar el ajuste, proponemos imponer restricciones sobre los coeficientes a través de los multiplicadores de Lagrange. Una propuesta que es útil para otros objetivos, como el de incorporar información conocida sobre los valores no observados. La metodología de predicción usando multiplicadores de Lagrange no implica dificultades en el contexto de P-splines, sin embargo en el contexto de modelos mixtos sí. La segunda parte del capítulo está dedicada a extender la metodología al marco de modelos mixtos suaves. Se sabe que cuando un modelo de P-spline se reparametriza como un modelo mixto, la estructura de los coeficientes se pierde, es decir, no se ordenan de acuerdo con la posición de los nodos. Este hecho no es relevante cuando ajustamos los datos, pero si predecimos e imponemos restricciones sobre los coeficientes, necesitamos diferenciar entre los coeficientes que determinan el ajuste y los coeficientes que determinan la predicción. Para hacer eso, definimos una matriz de transformación particular que conserva las matrices del modelo original, es decir, las matrices del modelo son extensiones directas de las matrices del ajuste.

      El método de predicción para modelos con interacción y el uso de restricciones se ilustran con un ejemplo de datos reales sobre el logaritmo de las tasas de mortalidad de la población masculina estadounidense. Mostramos como resolver el problema de cruce de proyecciones de edades adyacentes cuando se predicen tablas de mortalidad. Pues en ocasiones, se dan situaciones en las que la predicción para edades tempranas es mayor que para las edades avanzadas, hecho que no ocurre en el ajuste. Para solucionar el problema de cruce de proyecciones comparamos las soluciones obtenidas con distintos modelos:

      1.- El modelo propuesto en Delwarde et al. (2007), una mejora del conocido modelo Lee-Carter, propuesto en Lee y Carter (1992), que evita los cruces de proyecciones suavizando los parámetros del modelo. El modelo Lee-Carter es uno de los modelos más conocidos para estimar y predecir datos de mortalidad, sin embargo produce cruces de proyecciones no deseados).

      2.- El modelo 2D.

      3.- El modelo 2D imponiendo una restricción, invariancia del ajuste.

      4.- El modelo 2D imponiendo dos restricciones, el ajuste no cambia y la estructura a través de las edades se mantiene. Para imponer esta restricción, tomamos el patrón de los coeficientes en los últimos años y lo proyectamos. Para ello, imponemos que la diferencia entre los coeficientes de cada dos proyecciones consecutivas tiene que ser constante e igual a la diferencia correspondiente a los últimos coeficientes del ajuste.

      Los resultados muestran que la solución obtenida con el modelo 4 es la más coherente.

      La investigación en el Capítulo 4 está motivada por la necesidad de extender la metodología de predicción en el caso multidimensional a modelos más flexibles, los modelos Smooth-ANOVA, que nos permiten incluir términos de interacción que pueden descomponerse como una suma de varias funciones suaves. La construcción de estos modelos a través de B-splines tiene problemas de identificabilidad. Hay varias alternativas para resolver este problema, nosotros lo reparametrizamos como modelos mixtos, siguiendo el trabajo de Lee y Durbán (2011). Las primeras dos secciones del capítulo están dedicadas a presentar los modelos Smooth-ANOVA y mostrar como se puede llevar a cabo la predicción fuera del rango de valores observados en estos modelos. Ilustramos la predicción con modelos Smooth-ANOVA reanalizando un conjunto de datos sobre biomasa. Ahora, el modelo Smooth-ANOVA nos permite representar la función suave como la suma de una función suave para la altura, un término suave para el diámetro y una función suave para la interacción altura-diámetro. Las soluciones obtenidas a través de los distintos modelos muestran que los modelos 2D P-splines son sensibles a la obtención del ajuste y la predicción simultáneamente, es decir, cuando el ajuste cambia con respecto al que se obtiene si solo se realiza el ajuste. Además los grados de libertad son menores para el modelo Smooth-ANOVA, es decir, con el modelo 2D P-spline estamos incorporando complejidad innecesaria al modelo.

      Al final de este capítulo, proporcionamos un estudio de simulación para evaluar la precisión de los modelos de interacción 2D P-spline y los modelos Smooth-ANOVA, con y sin imponer la invariancia del ajuste. Para ello simulamos datos a partir de dos escenarios:

      1.- Escenario 1: un modelo con interacción.

      2.- Escenario 2: un modelo con dos efectos principales e interacción.

      En ambos casos, se simulan 4900 datos en un grid. Las superficies simuladas dependen de dos covariables, cada una de ellas toman 70 valores equidistantes en el intervalo [0,1], y los errores son independientes e idénticamente distribuidos. Para cada escenario y cada modelo se dividen los datos en dos partes, un conjunto de datos de entrenamiento, y otros de prueba. Lo que nos permite comprobar la precisión de los métodos. Para ello, seguimos Hyndman (2006) y calculamos los errores como la diferencia entre las funciones a partir de las que simulamos los datos y el ajuste y la predicción obtenida usando solo los datos de entrenamiento. La medida de error usada es el error absoluto medio.

      A partir de los resultados del estudio de simulación, concluimos que en la mayoría de las situaciones el modelo S-ANOVA restringido se comporta mejor tanto en el ajuste como en la predicción, sin embargo, los resultados dependen del escenario de simulación y del número de dimensiones en las que se realiza la predicción (una o ambas dimensiones).

      En el quinto capítulo generalizamos la metodología desarrollada para modelos lineales generalizados (GLM) en el contexto de P-splines (P-GLM) y modelos mixtos (P-GLMM).

      En ambos marcos, los procedimientos de estimación de coeficientes y parámetros involucran ecuaciones no lineales. Para resolverlos, se utilizan algoritmos iterativos basados en los métodos de Newton-Raphson, independientemente del criterio de estimación utilizado (por ejemplo, en el contexto de GLMMs podemos maximizar la máxima verosimilitud residual (REML) o un REML aproximado (basado en la aproximación de Laplace)). Estos algoritmos iterativos se basan en un modelo teórico normal o en un conjunto de pseudodatos y pesos. Basándonos en esta idea, ampliamos el método Penalized Quasilikelihood (PQL) (Breslow y Clayton (1993)) para ajustar y predecir simultáneamente en el contexto de GLMMs.

      Destacamos que, en el contexto de modelos mixtos (incluso en el caso univariante), para mantener el ajuste, se debe utilizar una transformación que conserve las matrices del modelo original, ya que las diferentes transformaciones tratan con diferentes vectores de trabajo y, por lo tanto, con diferentes soluciones. También mostramos como se pueden imponer restricciones en los modelos P-GLM y P-GLMM. Para ilustrar los procedimientos, utilizamos un conjunto de datos real para predecir las muertes por enfermedad respiratoria a través de modelos 2D P-splines y modelos S-ANOVA (con y sin la restricción el ajuste debe mantenerse).

      A través de modelos 2D con interacción y modelos S-ANOVA mostramos nuestra propuesta para predecir valores fuera del rango de valores observados en el contexto de GLMs. Con un conjunto de datos sobre mortalidad debido a enfermedades respiratorias para edades entre 40 y 90 años, hemos predicho las muertes para edades entre 91 y 100 años. Dividiendo el conjunto de datos en dos (los datos de entrenamiento y los de prueba), hemos comparado los valores predichos con los valore reales, y concluido que los modelos son bastante precisos, los datos reales siguen las tendencias predichas.

      Finalmente, el Capítulo 6 se dedica a resumir las principales conclusiones y a plantear una lista de futuras líneas de trabajo. La investigación desarrollada en la tesis ha destacado algunas cuestiones que implicarían la extensión y mejora de la metodología desarrollada. Por ejemplo, dado que en los modelos con interacción el ajuste cambia cuando este se obtiene junto a la predicción, podría trabajarse en la obtención de penalizaciones que hagan que el ajuste no cambie, usando penalizaciones no discretas basadas en ecuaciones diferenciales. Además, en la tesis se propone el uso de restricciones lineales para mantener el ajuste, una cuestión interesante sería la utilización de restricciones no lineales que permitan incluir otro tipo de restricciones útiles.

      Bibliografía:

      Breslow, N. and Clayton, D. (1993). Approximate inference in generalized linear mixed models. Journal of the American Statistical Association, 88(421):9–25.

      Currie, I., Durbán, M., y Eilers, P. (2004). Smoothing and forecasting mortality rates. Statistical Modelling, 4(4):279–298.

      Delwarde, A., Denuit, M., y Eilers, P. (2007). Smoothing the Lee-Carter and Poisson log-bilinear models for mortality forecasting: a penalized log-likelihood approach. Statistics and Modelling, 7:29–48.

      Gilmour, A., Cullis, B., Welham, S., Gogel, B., y Thompson, R. (2004). An efficient computing strategy for prediction in mixed linear models. Computational Statistics and Data Analysis, 44:571–586.

      Hyndman, R.J. and. Koehler, A. (2006). Another look at measures of forecast accuracy. International Journal of Forecasting, 4(22):679 – 688.

      Lee, D.-J. and Durbán, M. (2011). P-spline ANOVA-type interaction models for spatio-temporal smoothing. Statistical Modelling, 11(1):49–69.

      Lee, R. y Carter, L. (1992). Modelling and forecasting the time series of US mortality. Journal of the American Statistical Association, 87:659–71.

      Sacks, J., Welch, W., Mitchell, T., y Wynn, H. (1989). Design and analysis of computer experiments. Statistical Science, 4(4):409–435.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno