En esta tesis hemos aplicado y desarrollado técnicas bioinformáticas para tratar de ayudar a los clínicos, a los biólogos y a otros bioinformáticos. Hemos integrado y usado datos médicos y genómicos con la finalidad de estudiar las relaciones gen-fenotipo (capítulo 4), ayudar en el manejo de pacientes con COVID-19 (capítulo 5) y encontrar biomarcadores para el diagnóstico de enfermedades neurodegenerativas como el Alzheimer (capítulo 6). En definitiva, el objetivo es ayudar en las decisiones clínicas y mejorar el diagnóstico de enfermedades. Por un lado, se han analizado datos utilizando estadística y técnicas de Machine Learning (ML). Por otro, se han desarrollado métodos y herramientas bioinformáticas para intentar solucionar problemas y facilitar los análisis. Por tanto, tenemos aportes en las dos grandes ramas de la bioinformática, el análisis de datos y el desarrollo de herramientas. Una de las grandes cuestiones de la biología y la medicina genética es la asociación entre los genes y el fenotipo. Una enfermedad puede asociarse a un determinado fenotipo y a unos genes concretos. Además, los investigadores y genetistas pueden definir enfermedades utilizando una lista de genes, esto se conoce como paneles de genes. Dadas dos enfermedades parecidas el diagnóstico diferencial y la correcta asociación gen-fenotipo puede ser compleja. Debido a la importancia de estas relaciones se han realizado esfuerzos para conocer las asociaciones gen-fenotipo. La información de estas asociaciones gen-fenotipo se ha ido recopilando generando multitud de bases de datos. En el capítulo 4 desarrollamos una herramienta bioinformática (PhenoExam) para centralizar el uso de diferentes bases de datos posibilitando realizar pruebas estadísticas y estudiar las relaciones gen-fenotipo. Primero, detectamos una necesidad de comparar dos conjuntos de genes en base a sus fenotipos. Después, elaboramos métodos para realizar estas comparaciones determinando su similitud y diferencias. PhenoExam es capaz de concluir si esas similitudes entre fenotipos son estadísticamente relevantes. Además, es capaz de determinar en los paneles de genes de enfermedades muy similares sus diferencias. Hemos validado PhenoExam con enfermedades similares definidas por sus paneles de genes y utilizando genes derivados de investigaciones para intentar descubrir asociaciones gen-fenotipo. Esta herramienta se encuentra disponible en R y en Web. Por otro lado, esta tesis ha tenido lugar durante un periodo de pandemia causado por el COVID-19. Gracias al proyecto de la Fundación Séneca y a los datos del Servicio Murciano de Salud hemos podido trabajar con datos médicos de unos 86.000 pacientes de COVID-19. Utilizando estos datos hemos realizando un estudio retrospectivo (capítulo 5). Hemos extraído información relevante utilizando estadística y ML para estudiar la relación entre sexo, edad y comorbilidades con los diversos tipos de pacientes. Además, hemos desarrollado un método para lidiar con el desbalanceo y lo hemos aplicado en la construcción de modelos predictivos. Estos modelos han determinado con una buena exactitud el estado final del paciente (fallece o sobrevive) o la necesidad de hospitalización (externo o ingreso) con los datos que conocíamos en el momento del diagnóstico (edad, sexo y comorbilidades). Por último, utilizando datos clínicos, información genómica y transcriptómica hemos desarrollado un biomarcador de Alzheimer en fases tempranas de la enfermedad (capítulo 6). El Alzheimer es una enfermedad compleja y en la que es difícil obtener un diagnóstico temprano. Además, por sus síntomas, difícil de diferenciar de otras similares e incluso de confirmar hasta el fallecimiento del paciente. Utilizando la información transcriptómica procedente del RNA libre del plasma sanguíneo y técnicas de ML hemos desarrollado un biomarcador que detecta Alzheimer en fases tempranas con gran precisión. Hemos estudiado su comportamiento en diferentes estadios de la enfermedad obteniendo resultados prometedores. Finalmente, determinamos su especificidad comparando con el resultado obtenido en otras enfermedades neurodegenerativas.
In this thesis, we have applied and developed bioinformatics techniques in an attempt to help clinicians, biologists, and other bioinformaticians. We have integrated and utilized medical and genomic data with the purpose of studying gene-phenotype relationships (chapter 4), assisting in the management of COVID-19 patients (chapter 5), and finding biomarkers for the diagnosis of neurodegenerative diseases such as Alzheimer's (chapter 6). Ultimately, the goal is to assist in clinical decision-making and improve the diagnosis of diseases. On one hand, data has been analyzed using statistical and Machine Learning (ML) techniques. On the other hand, bioinformatics methods and tools have been developed to solve problems and facilitate analyses. Therefore, we have contributed to the two major branches of bioinformatics, data analysis and tool development. One of the relevant questions in biology and genetic medicine is the association between genes and phenotype. A disease can be associated with a certain phenotype and specific genes. Additionally, researchers and geneticists can define diseases using a list of genes, known as gene panels. Given two similar diseases, differential diagnosis and the gene-phenotype association can be complex. Due to the importance of these relationships, efforts have been made to understand gene-phenotype associations. The information from gene-phenotype associations has been collected, generating numerous databases. In chapter 4, we develop a bioinformatics tool (PhenoExam) to integrate different databases, enabling the execution of statistical tests and the study of gene-phenotype relationships. First, we identified a need to compare two sets of genes based on their phenotypes. Then, we developed methods to make these comparisons by determining their similarities and differences. Using randomization PhenoExam is capable of concluding whether these phenotype similarities are statistically significant. Additionally, it can identify differences in the gene panels of very similar diseases. We have validated PhenoExam with similar diseases defined by their gene panels and used genes derived from research to attempt to uncover gene-phenotype associations. This tool is available in R and on the web. On the other hand, this thesis took place during a pandemic period caused by COVID-19. Thanks to the project of the Seneca Foundation and data from the Murcian Health Service, we were able to work with medical data from about 86,000 COVID-19 patients. Using these data, we conducted a retrospective study (chapter 5). We extracted relevant information using statistics and ML to study the relationship between sex, age, and comorbidities with various types of patients. Moreover, we developed a method to deal with imbalance, and we applied it in the construction of predictive models. These models have determined with good accuracy the final state of the patient (death or survival) or the need for hospitalization (outpatient or hospitalized) with the data we knew at the time of diagnosis (age, sex, and comorbidities). Finally, using clinical data, genomic and transcriptomic information, we have developed an early-stage Alzheimer's biomarker (chapter 6). Alzheimer's is a complex disease and one in which it is challenging to obtain an early diagnosis. Moreover, due to its symptoms, it is hard to distinguish from other similar conditions and even confirm until the patient's death. Using transcriptomic information derived from free RNA in blood plasma and ML techniques, we have developed a biomarker that detects Alzheimer's in early stages with high accuracy. We have studied its performance in different stages of the disease, obtaining promising results. Finally, we determined its specificity by comparing it with the result obtained in other neurodegenerative diseases.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados