Publication:
Robust estimation and outlier detection in linear models for grouped data

Loading...
Thumbnail Image
Identifiers
Publication date
2011-12
Defense date
2012-02-03
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Statistical models are, implicitly or explicitly, based on certain number of assumptions. Failure of any of these assumptions can be due to the existence of atypical observations in the data that do not follow the model under consideration. In practice, the problem of outlying observations is quite common; therefore it is rather relevant to use estimation methods that appropriately treat them. The literature provides two main alternative approaches to handle this problem. The first one consists of applying robust methods that aim to reduce the impact of outlying observations on the estimation of model parameters. The second approach attempts to use diagnostic methods that identify outlying observations before fitting the model, eliminate them and then employ a non-robust method for model estimation to the remaining clean data. This dissertation treats the problems of robust estimation and outlier detection when data have a grouped structure and most of the data satisfy one of the following models: a linear regression model with fixed group effects or a linear regression model with random group effects. Chapter 1 provides an introduction to the topics addressed in the dissertation, including some background information and motivation. Chapter 2 describes basic robust methods and diagnostic measures for linear regression models. Chapter 3 introduces the linear model with fixed group effects. To reduce the impact of outlying observations, we develop an extension of the method of Peña and Yohai, which is based on the projection of the observations over several directions called principal sensitivity components. Outlying observations appear with extreme coordinates in these directions. Based on these coordinates, a subset of observations is chosen and an estimator based on minimizing a robust scale of the residuals (similarly to S estimators) is obtained. The new extension is called groupwise principal sensitivity components (GPSC). Our extension is compared with other proposals discussed in the literature, namely the RDL1 method proposed by Hubert and Rosseeuw and the M-S estimators elaborated by Maronna and Yohai. We compare these methods through different simulation scenarios and under different types of contamination. Our simulation results show that the GPSC method is able to detect a high percentage of outlying observations and a limited number of false outliers (swamping effect). It is also apt to detect outlying observations in the space of explanatory variables (called high leverage points), including the case of masked outlying observations (masking effect). Chapter 4 introduces the linear model with random group effects, together with some diagnostic measures proposed in the literature, which are based on the assumption that the variance components are known (meaning no being estimated). In practice, variance components are not known and must be estimated from the data. Through some examples we show that the use of non-robust methods for estimating variance components can provide a wrong picture concerning the validation of model assumptions. Chapter 5 considers a linear model with random effects for the groups. Under this model, a robust procedure is proposed for estimation of model parameters (variance components and regression coefficients), and also for the prediction of the random effects. Variance components are estimated by a robustification of Henderson method III (Searle et al., ). The following benefits can be discerned related to the procedure: explicit expressions for the robust estimators are provided, avoiding iterative methods and the need for good starting values; no need for any assumption regarding the shape of the distribution of the response variable apart from the existence of first and second order moments; it is computationally low demanding; finally, the estimation procedure is simply based on the fitting of two simpler linear regression models. As a result, we propose a two-step procedure. In the first step, variance components are estimated using the robustified Henderson method III. In the second step, the fixed regression parameters are estimated and the random effects are predicted in a similar way as in Sinha and Rao. This robust procedure is applied to small area estimation, in which the target is to estimate the population means of the areas. Alternative robust small area estimators are given for these means, based on the robust fitting procedure mentioned before. Chapter 6 provides an extension of the robustified Henderson method III in general linear mixed models. -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Los modelos estadísticos se basan implícita o explícitamente en un cierto número de supuestos. El incumplimiento de alguno de estos supuestos puede deberse a la existencia de observaciones atípicas en los datos que no sigan el modelo considerado. Las observaciones atípicas pueden afectar seriamente las estimaciones de los parámetros del modelo, determinando el ajuste y las predicciones. En la práctica, el problema de las observaciones atípicas es común, por tanto es importante utilizar métodos de estimación que no se vean excesivamente afectados por ellas. En la literatura existen dos enfoques alternativos para abordar este problema. El primero consiste en el uso de métodos robustos, los cuales reduzcan el impacto de las observaciones atípicas sobre la estimación de los parámetros del modelo. El segundo consiste en el uso de métodos de diagnóstico que nos permitan identificar las observaciones atípicas antes de realizar el ajuste, descartarlas y después emplear algún método no robusto para la estimación del modelo. En esta disertación se presentan metodologías para reducir el impacto de las observaciones atípicas sobre la estimación de los parámetros de dos modelos utilizados para modelizar datos con estructura agrupada. El primer modelo considerado es el modelo de regresión lineal con efectos fijos de los grupos y el segundo es el modelo con efectos aleatorios de los grupos. En el Capítulo 1 se presenta una introducción sobre la motivación para abordar cada uno de los temas de esta disertacióon. En el Capítulo 2 se describen métodos robustos básicos y medidas de diagnosis de los modelos de regresión lineal. En el Capítulo 3 se introduce el modelo lineal con efectos fijos de los grupos. Para reducir el impacto de las observaciones atípicas sobre este modelo, se presenta una extensión del método propuesto por Peña y Yohai, el cual está basado en la proyección de las observaciones sobre direcciones llamadas componentes principales de sensibilidad. Se puede demostrar que las observaciones atípicas aparecerán como coordenadas extremas sobre estas direcciones. Por tanto, una vez descartadas, es posible seleccionar un estimador basado en la minimización de una escala robusta de los residuos (esto es, similar a un estimador S). El método propuesto es llamado groupwise principal sensitivity components (GPSC). El nuevo método se compara con otras propuestas dadas en la literatura; concretamente el método RDL1 propuesto por Hubert y Rosseeuw y los estimadores M-S propuestos por Maronna y Yohai. Estos métodos se comparan bajo distintos escenarios y tipos de contaminación. Los resultados muestran que el método GPSC es capaz de detectar un alto porcentaje de observaciones atípicas así como un número reducido de falsos atípicos (efecto swamping). También es apropiado para detectar observaciones atípicas en el espacio de las variables auxiliares (también llamados puntos con alto efecto palanca) así como observaciones atípicas enmascaradas (efecto masking). En el Capitulo 4 se introduce el modelo lineal con efectos aleatorios, así como algunas medidas de diagnosis propuestas en la literatura, las cuales se basan en el supuesto de que las componentes de la varianza son conocidas (es decir, no estimadas). En la práctica las componentes de la varianza no son conocidas y por tanto deben estimarse a partir de los datos. A través de distintos ejemplos, mostraremos que el uso de métodos no robustos para estimar las componentes de la varianza en los métodos de diagnóstico del modelo puede llevar a conclusiones erróneas en cuanto a la validación de las hipóotesis del modelo. En el Capítulo 5 se propone un procedimiento robusto para estimar los parámetros de un modelo lineal con efectos aleatorios; concretamente, las componentes de la varianza y los coeficientes de regresión, así como para predecir los efectos aleatorios. Para estimar de forma robusta las componentes de la varianza, proponemos una robustificación de los estimadores de Henderson III. Algunas ventajas de esta propuesta son las siguientes: se proveen de expresiones explícitas para los estimadores robustos, evitando el uso de métodos iterativos. Tampoco requiere de ningún supuesto sobre la forma de la distribución de la variable respuesta a excepción de la existencia de momentos hasta segundo orden; computacionalmente es menos costoso y, finalmente, la estimación de las componentes de la varianza se reduce al ajuste de modelos de regresión más simples. Para estimar de forma robusta todos los parámetros del modelo proponemos un procedimiento a dos etapas. En la primera etapa, se estiman de forma robusta las componentes de la varianza usando la robustificación del método de Henderson III. En la segunda etapa, se estiman los coeficientes de regresión y se predicen los efectos aleatorios de forma similar a la propuesta de Sinha y Rao. Después del ajuste robusto de los parámetros del modelo, se presentará una aplicación enfocada a la estimación en áreas pequeñas en la que el objetivo es la estimación de las medias de las áreas pequeñas. Se proponen unos estimadores robustos alternativos para las medias de las áreas. En el Capítulo 6 se extiende el método de Henderson III robusto al caso de un modelo lineal mixto con más de un factor aleatorio.
Description
Keywords
Robust estimation, Linear models, Grouped data
Bibliographic citation
Collections