Uno de los temas de mayor interés en la biomedicina moderna es la búsqueda de las causas genéticas de las enfermedades complejas. En este contexto, el Proyecto 'Genetic Analysis of Idiopathic Thrombophilia' (GAIT) empezó en 1995 en el Hospital de la Santa Creu i Sant Pau de Barcelona, con el objetivo de descubrir los factores genéticos que modifican el riesgo a padecer trombosis. La muestra del Proyecto GAIT consiste en 398 individuos agrupados en 21 familias. A cada uno de estos de estos individuos se le midieron más de sesenta rasgos cuantitativos relacionados con la Trombosis. Esta información nos sugirió la posibilidad de utilizar métodos multivariantes y nos propusimos aprovechar la correlación entre los rasgos para mejorar la potencia de nuestros test estadísticos.
El objetivo principal de la tesis es estudiar las propiedades estadísticas del modelo de 'Linkage Analysis' por Componentes de la Variancia (LACV) en su versión multivariante, y aplicarlo a los datos de la muestra GAIT con la intención última de encontrar nuevos genes que afecten al riesgo de trombosis. La hipótesis que queremos probar es que el modelo de LACV multivariante es una herramienta útil en la búsqueda de las causas genéticas de las enfermedades complejas.
La tesis está organizada en dos partes. La primera parte contiene cuatro capítulos que explican los conceptos de genética y estadística necesarios para entender el resto de la tesis. La segunda parte contiene cinco capítulos. En el primero se presenta la formulación del modelo de LACV multivariante. Los siguientes cuatro capítulos se dedican uno a cada objetivo concreto de la tesis, como se describe a continuación.
La distribución del estadístico Likelihood Ratio Test (LRT) para el modelo de LACV univariante ha sido estudiada en profundidad. Sin embargo, la distribución del LRT en el caso multivariante no se conoce con exactitud. Nuestro primer objetivo es estudiar la distribución del LRT para el modelo de LAVC multivariante. En el capítulo 6 demostramos que la distribución empírica del LRT multivariante no sigue la mixtura de distribuciones chi-cuadrado usada de forma habitual por los expertos en estadística genética. A continuación proponemos una mixtura de distribuciones gamma que ajusta mucho mejor con la distribución empírica del LRT.
Es conocido que los métodos de componentes de la variancia son sensibles a la asunción de normalidad de la variable dependiente. En el caso del modelo de LAVC univariante, se han propuesto diversas soluciones para cuando la asunción de normalidad no se cumple. Nuestro segundo objetivo es estudiar el problema de la no-normalidad en el modelo de LACV multivariante. En el capítulo 7 mostramos como el modelo de LACV bivariante con al menos una variable no-normal produce errores de Tipo I inflados. A continuación proponemos una corrección de suavizado que puede usarse para obtener errores de Tipo I más precisos y, por tanto, una significación estadística más fiable.
Al aplicar el modelo de LACV multivariante, la carga computacional aumenta de forma exponencial con el número de variables dependientes (rasgos cuantitativos). Nuestro tercer objetivo es desarrollar una estrategia para seleccionar un conjunto de rasgos y un conjunto de zonas del genoma en los que aplicar el modelo de LACV multivariante. En el capítulo 8 presentamos un método que permite un rápido 'rastreo' de la evidencia de linkage para un conjunto de rasgos cuantitativos.
Para finalizar, nuestro cuarto objetivo es aplicar los resultados previos a los datos del Proyecto GAIT. En el capítulo 9 mostramos cómo la aplicación del modelo de LACV multivariante a los datos del Proyecto GAIT nos permitió descubrir 7 nuevos Quantitative Trait Loci (QTL) que influyen en varios rasgos cuantitativos relacionados con Trombosis.
La conclusión final de esta tesis es que el modelo de LACV multivariante puede ser una herramienta útil para descubrir las causas genéticas de las enfermedades complejas.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados