Desarrollo y aplicación de métodos estadísticos basados en recortes imparciales a datos de expresión génica de alta dimensionalidad

Icíar Fernández Martínez

Ayuda

Desarrollo y aplicación de métodos estadísticos basados en recortes imparciales a datos de expresión génica de alta dimensionalidad

Autores: Icíar Fernández Martínez
Directores de la Tesis: Agustín Mayo Iscar (dir. tes.) , Javier de las Rivas (dir. tes.)
Lectura: En la Universidad de Valladolid ( España ) en 2012
Idioma: español
Tribunal Calificador de la Tesis: Carlos Gabriel Matrán Bea (presid.) , Luis Angel García Escudero (secret.) , María Angeles Gil Alvarez (voc.) , Rodrigo Santamaría Vicente (voc.) , Juan Antonio Cuesta Albertos (voc.)
Enlaces
- Tesis en acceso abierto en: UVADOC
Resumen
- En esta Tesis proponemos la utilización de métodos estadísticos basados en recortes imparciales [Gordaliza, 1991] que, aplicados a matrices de datos de expresión génica de alta dimensionalidad, permiten obtener estimadores con funcionamiento robusto mediante la eliminación de un porcentaje de individuos.
  
  La aplicación de este tipo de estrategias nos va a permitir caracterizar el nivel de expresión típico de cada gen en medidas de escala genómica (genome-wide) como el que aparece asociado al comportamiento de una mayoría de condiciones, utilizando una adaptación del estimador smart [Cuesta-Albertos et al, 2008] a una situación unidimensional. Nuestra aproximación plantea utilizar como procedimiento de recorte de partida el estimador MCD de [Rousseeuw, 1985], lo que permite obtener una representación simplificada para el estimador smart y la obtención de un algoritmo más eficiente que el disponible actualmente. La estimación de los parámetros que describen el comportamiento típico de un gen, va a permitir identificar mejor condiciones que manifiestan expresión diferencial y nuevas definiciones para caracterizar genes que muestran comportamientos de expresión generalizada (tipo gen housekeeping). El estimador propuesto será la base de estadísticos para identificar comportamientos atípicos en muestras clasificadas inicialmente como homogéneas, y también para contrastar expresión diferencial entre condiciones diferentes.
  
  Basado en los mismos principios, proponemos la utilización de metodología para encontrar grupos de genes (clústers) que co-expresan y para encontrar agrupaciones conjuntas de genes y de condiciones que comparten patrones de co-expresión. Los procedimientos de agrupación propuestos incorporan el recorte de un porcentaje de genes y de condiciones para aumentar la robustez de la clasificación propuesta.
  
  Para todos los procedimientos propuestos se han desarrollado funciones, algoritmos y programas de R [R Development Core Team, 2011] que los implementan. El funcionamiento de los métodos se ha ilustrado utilizando datos simulados y sobre todo utilizando varios conjuntos de datos reales correspondientes a experimentos y estudios biológicos con microarrays de oligonucleótidos de alta densidad, que es una de las tecnologías genómicas de gran escala más utilizadas para el estudio de la expresión génica.
  
  [Gordaliza, 1991] Gordaliza A. Best approximations to random variables based on trimming procedures. Journal of Approximation Theory, 64: 162 - 180; 1991.
  
  [Cuesta-Albertos et al, 2008] Cuesta-Albertos JA, Matrán C, Mayo-Iscar A. Trimming and likelihood: robust location and dispersion estimation in the elliptical model. The Annals of Statistics, 36: 2284-2318; 2008.
  
  [Rousseeuw, 1985] Rousseeuw PJ. Multivariate Estimation with High Breakdown Point. In Mathematical Statistics and Applications, Vol. B (eds. W. Grossmann et al.) pp 283 - 297. Dor-drecht: Reidel Publishing Co; 1985.
  
  [R Development Core Team, 2011] R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/