Ir al contenido

Documat


Desarrollo y aplicación de métodos estadísticos basados en recortes imparciales a datos de expresión génica de alta dimensionalidad

  • Autores: Icíar Fernández Martínez
  • Directores de la Tesis: Agustín Mayo Iscar (dir. tes.) Árbol académico, Javier de las Rivas (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Valladolid ( España ) en 2012
  • Idioma: español
  • Tribunal Calificador de la Tesis: Carlos Gabriel Matrán Bea (presid.) Árbol académico, Luis Angel García Escudero (secret.) Árbol académico, María Angeles Gil Alvarez (voc.) Árbol académico, Rodrigo Santamaría Vicente (voc.) Árbol académico, Juan Antonio Cuesta Albertos (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: UVADOC
  • Resumen
    • En esta Tesis proponemos la utilización de métodos estadísticos basados en recortes imparciales [Gordaliza, 1991] que, aplicados a matrices de datos de expresión génica de alta dimensionalidad, permiten obtener estimadores con funcionamiento robusto mediante la eliminación de un porcentaje de individuos.

      La aplicación de este tipo de estrategias nos va a permitir caracterizar el nivel de expresión típico de cada gen en medidas de escala genómica (genome-wide) como el que aparece asociado al comportamiento de una mayoría de condiciones, utilizando una adaptación del estimador smart [Cuesta-Albertos et al, 2008] a una situación unidimensional. Nuestra aproximación plantea utilizar como procedimiento de recorte de partida el estimador MCD de [Rousseeuw, 1985], lo que permite obtener una representación simplificada para el estimador smart y la obtención de un algoritmo más eficiente que el disponible actualmente. La estimación de los parámetros que describen el comportamiento típico de un gen, va a permitir identificar mejor condiciones que manifiestan expresión diferencial y nuevas definiciones para caracterizar genes que muestran comportamientos de expresión generalizada (tipo gen housekeeping). El estimador propuesto será la base de estadísticos para identificar comportamientos atípicos en muestras clasificadas inicialmente como homogéneas, y también para contrastar expresión diferencial entre condiciones diferentes.

      Basado en los mismos principios, proponemos la utilización de metodología para encontrar grupos de genes (clústers) que co-expresan y para encontrar agrupaciones conjuntas de genes y de condiciones que comparten patrones de co-expresión. Los procedimientos de agrupación propuestos incorporan el recorte de un porcentaje de genes y de condiciones para aumentar la robustez de la clasificación propuesta.

      Para todos los procedimientos propuestos se han desarrollado funciones, algoritmos y programas de R [R Development Core Team, 2011] que los implementan. El funcionamiento de los métodos se ha ilustrado utilizando datos simulados y sobre todo utilizando varios conjuntos de datos reales correspondientes a experimentos y estudios biológicos con microarrays de oligonucleótidos de alta densidad, que es una de las tecnologías genómicas de gran escala más utilizadas para el estudio de la expresión génica.

      [Gordaliza, 1991] Gordaliza A. Best approximations to random variables based on trimming procedures. Journal of Approximation Theory, 64: 162 - 180; 1991.

      [Cuesta-Albertos et al, 2008] Cuesta-Albertos JA, Matrán C, Mayo-Iscar A. Trimming and likelihood: robust location and dispersion estimation in the elliptical model. The Annals of Statistics, 36: 2284-2318; 2008.

      [Rousseeuw, 1985] Rousseeuw PJ. Multivariate Estimation with High Breakdown Point. In Mathematical Statistics and Applications, Vol. B (eds. W. Grossmann et al.) pp 283 - 297. Dor-drecht: Reidel Publishing Co; 1985.

      [R Development Core Team, 2011] R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno