Las técnicas de aprendizaje automático han sido objeto de un interés creciente como ayuda al diagnóstico médico, entre otros campos. Mediante el análisis de señales biomédicas es posible transformar el diagnóstico en un problema de clasificación o regresión. Un buen ejemplo es la señal de voz. La voz se produce por complejos procesos fisiológicos y neurológicos, que se ven afectados por determinadas enfermedades. El objetivo de esta tesis es estudiar algunos de los factores que dificultan el uso generalizado de los sistemas automáticos de ayuda al diagnóstico de enfermedades detectables por la voz y proponer soluciones. La falta de variabilidad en los datos produce un sesgo que dificulta la generalización de los modelos obtenidos. Para abordar este problema se han recolectado bases de datos de grabaciones de voz para la ayuda a la detección de la enfermedad de Parkinson y enfermedades orgánicas de las cuerdas vocales (nódulos, pólipos y edemas de Reinke). También se han utilizado bases de datos públicas. Se propone el entrenamiento multicondición como una posible solución. El entrenamiento del sistema con datos que contengan variabilidad en las condiciones acústicas reduce el sesgo. Para probarlo se han considerado diferentes elementos del canal de comunicación (el ruido ambiental y el dispositivo de grabación), demostrándose que las estrategias de entrenamiento multicondición son soluciones efectivas que mejoran la robustez del modelo. Además, la variabilidad intra-sujeto se aborda mediante el uso de técnicas de regularización. Aplicando estas estrategias, se obtienen modelos más generalizables y robustos frente al ruido y el dispositivo.
Machine learning techniques have received an increasing interest for medical diagnosis aid, among many other application fields. The use of biomedical signal analysis allows the diagnostic process to be approached as a classification or regression problem. A good example is voice signal. Voice is produced by complex physiological and neurological processes, which are affected by certain diseases.The general purpose of this PhD thesis is to study some of the factors that hinder the generalized use of automatic diagnostic aid systems for detectable-by-voice diseases and propose solutions. Lack of variability among recordings leads to high bias, making it difficult to generalize the models. To address this problem, voice databases have been collected to aid in the detection of Parkinson’s disease and organic vocal fold pathologies (nodules, polyps and Reinke’s edema). Public databases have also been used. Multicondition training is proposed as a possible solution. Training the system with samples that consider mismatched acoustic conditions reduces bias. To test this research hypothesis, different elements of the communication channel (environmental noise and recording device) have been considered. Multicondition training strategies have been proven to be effective in improving model robustness. Also, intra-subject variability is addressed by using multiple recordings and regularization techniques. By applying the proposed techniques, enhanced models in terms of generalizability and robustness against noise and device are obtained.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados