Pelin Gundogdu
La secuenciación de ARN célula única (scRNA-seq) revela la heterogeneidad celular esencial para comprender la biología y las enfermedades. Un desafío clave es la identificación y anotación precisa de tipos celulares. El aprendizaje profundo (DL) destaca en la extracción de patrones para tareas como la agrupación y el etiquetado de datos scRNA-seq, pero su naturaleza de "caja negra" dificulta la interpretación biológica.
Esta tesis busca desarrollar modelos DL mejorados biológicamente para la predicción, anotación y caracterización funcional de tipos celulares a partir de datos scRNA-seq. La idea central es integrar conocimiento biológico previo, especialmente de rutas de señalización celular, para mejorar la interpretabilidad sin comprometer la capacidad de reconocimiento de patrones. El modelo inferirá la actividad de señalización a resolución unicelular.
La investigación se centró en avanzar el análisis scRNA-seq mediante DL interpretable. Se buscó superar las limitaciones de los métodos existentes en el manejo de datos de alta dimensión y ruidosos mediante el desarrollo de modelos DL con arquitecturas dispersas informadas biológicamente. Estos modelos abordaron la identificación y clasificación de tipos celulares, incluyendo la detección de tipos no vistos previamente. Otro objetivo fue construir modelos capaces de inferir la actividad de señalización unicelular de forma no supervisada.
Se enfatizó la interpretabilidad incorporando conocimiento biológico (estructura y relaciones de vías de señalización, circuitos de señalización) en las arquitecturas de las redes neuronales. Esto buscó asegurar que las características extraídas fueran biológicamente significativas, facilitando una comprensión más profunda de la heterogeneidad celular. Se desarrolló una herramienta para inferir la actividad de vías y circuitos a resolución celular.
Se realizó una evaluación rigurosa con conjuntos de datos públicos scRNA-seq y simulaciones para demostrar la solidez y generalización de los modelos. Se evaluó el impacto de diversas fuentes de conocimiento biológico (KEGG, Reactome) y varios niveles de granularidad.
La tesis, un compendio de artículos, detalla tres estudios. El primero demostró que incorporar conocimiento de vías KEGG en redes neuronales supervisadas crea modelos más dispersos e interpretables para la reducción de dimensionalidad en datos scRNA-seq, superando a modelos basados en interacciones proteína-proteína, con un rendimiento comparable en clasificación y agrupación. Las representaciones aprendidas pudieron visualizarse e interpretarse funcionalmente.
El segundo estudio introdujo SigPrimedNet, una red neuronal informada por circuitos de señalización de KEGG. Combinó clasificación supervisada con detección de anomalías no supervisada en los embebimientos, permitiendo la identificación de tipos celulares desconocidos. SigPrimedNet igualó o mejoró la precisión en la anotación de células conocidas y controló los falsos positivos para células desconocidas.
El tercer estudio exploró el uso de Autoencoders Variacionales (VAEs) informados biológicamente para la inferencia no supervisada de la actividad de señalización de célula única. Se compararon VAEs informados por circuitos KEGG y vías Reactome, encontrando que la granularidad del conocimiento previo influyó en la representación aprendida. Los VAEs informados lograron un rendimiento de reconstrucción comparable a sus contrapartes densas, siendo significativamente menos complejos.
En resumen, esta tesis se encuentra en la convergencia del aprendizaje automático, el análisis de datos unicelulares y la biología de sistemas. Emplea aprendizaje profundo interpretable para analizar datos scRNA-seq, revelando patrones complejos y facilitando la clasificación celular y el descubrimiento de relaciones sutiles. Al integrar modelos interpretables con conocimiento biológico, enriquece la comprensión de la función celular y las interacciones en tejidos o enfermedades.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados