En los últimos años, se han descubierto un gran número de variantes genéticas de distinta naturaleza, desde las más simples que indican un cambio en un nucleótido (SNPs), hasta otras más complejas referentes al número de copias de un segmento de la cadena de ADN (CNVs). A pesar de que existen otras muchas variantes, como son las inversiones, microsatélites, etc., esta tesis se ha focalizado en los SNPs y en los CNVs, ya que son los dos tipos de variantes más analizadas en los estudios de epidemiología genética. En muchas situaciones, los métodos para analizar el efecto que tienen los SNPs o los CNVs sobre las enfermedades están bien resueltos. Sin embargo, en algunos casos, los SNPs y los CNVs se observan con incertidumbre. Por ejemplo, a veces el genotipo para un SNP no se observa directamente sino que se imputa. A su vez, establecer el número de copias para un CNV se hace de forma indirecta a partir de la señal cuantitativa de su sonda (probe). Esto hace que se requieran métodos estadísticos “no estándar” apropiados para estudiar la asociación entre SNPs imputados o CNVs incorporando esta incertidumbre. En la literatura se han descrito diferentes estrategias para afrontar los estudios de asociación entre una variante genética medida con incertidumbre y una variable respuesta: (i) la estrategia Naive y (ii) la estrategia conocida como Dosage. A grosso modo, la primera no tiene en cuenta la incertidumbre, mientras que la segunda lo hace de forma aproximada. En esta tesis doctoral se proponen y describen analíticamente modelos estadísticos para tratar datos genéticos medidos con incertidumbre que solventen las limitaciones que presentan los métodos existentes. Se demuestra que dichos modelos tienen la característica de incorporar la incertidumbre de forma adecuada en la función de verosimilitud. Además, se han escrito algoritmos numéricos para maximizar la función de verosimilitud de manera eficiente, a fin de poder analizar centenares de miles de variantes genéticas (estudios conocidos como GWAS –Genome Wide Association Studies-). El modelo propuesto es capaz de analizar distintos tipos de variable respuesta: binario (presencia o no de cierta enfermedad), cuantitativa (nivel de colesterol en sangre) ó censurada (tiempo hasta recaída). No sólo se han diseñado técnicas para el análisis de las variantes genéticas de forma individual sino también para pares simultáneamente (interacciones). Todo ello se ha implementado en distintas funciones estructuradas e integradas como parte de un programa de código libre y de uso común en la epidemiología genética como es R. Además, se ha escrito parte del código de las funciones en lenguaje C++ a fin de que los cálculos sean mucho más rápidos. El resultado ha sido la creación de un package de R llamado CNVassoc juntamente con un extenso manual de uso con numerosos ejemplos e instrucciones (vignette). Los artículos que conforman esta tesis son los siguientes: • “Accounting for uncertainty when assessing association between copy number and disease: a latent class model”, donde se presenta y describe el modelo propuesto. • “Genetic association analysis and meta-analysis of imputed SNPs in longitudinal studies”, donde se amplía el modelo al análisis de SNPs imputados en estudios con respuesta del tipo “tiempo hasta evento” (longitudinales). • “Interaction association analysis of imputed SNPs in case control and longitudinal studies”, donde se aplica el modelo a interacciones de pares de SNPs imputados en estudios de casos y controles y en estudios longitudinales. • “CNVassoc: Association analysis of CNV data using R”, en que se describe el package desarrollado e implementado en R junto con su vignette.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados