Ir al contenido

Documat


Resumen de Estudio de alternativas de subtitulado accesible de estímulos sonoros no verbales para discapacidad auditiva

María José Lucía Mulas

  • Por su capacidad de generar emoción, la música es utilizada ampliamente en los medios audiovisuales como soporte a la narrativa. La música transmite de manera inmediata la tonalidad emocional de una escena: alegría, miedo, tristeza, informando así del desarrollo de la acción dramática. El subtitulado accesible de calidad para discapacidad auditiva requiere que se subtitule la música cuando es importante para ayudar a comprender o potenciar la trama, indicando el tipo de música y la sensación que transmite. Pero la descripción de la música mediante un texto requiere un proceso cognitivo de atención consciente y selectiva para su lectura muy distinto a la respuesta emocional inmediata que genera la música. La predisposición emocional a la obra audiovisual que proporciona la música no es pues compartida por las personas sordas.

    El objetivo general de esta investigación es contribuir a facilitar a las personas con discapacidad auditiva el acceso a la información emocional transmitida por la música de películas, explorando alternativas de subtitulado de la música que ayuden a “sentir” esta emoción de forma directa e inmediata. Se pretende aportar ideas base para el desarrollo de un framework de subtitulado (en el contexto de transmisión de la información de manera alternativa) accesible de la música, que pueda incorporarse en un futuro a las tecnologías de subtitulado clásico. Este framework estaría compuesto por dos funcionalidades principales: una funcionalidad de extracción e identificación de la emoción musical mediante la clasificación automática de los distintos fragmentos de audio con contenido musical, y una funcionalidad de transmisión de esta emoción a través del canal vibro táctil (transmisión háptica), estableciendo los correspondientes parámetros vibro táctiles.

    Para ello, al ser un campo de investigación nuevo, se ha realizado en primer lugar un estudio del estado del arte en distintas áreas científicas relacionadas para establecer un marco científico en el que apoyar la investigación. Por un lado, se ha investigado cómo entiende la neurociencia la emoción musical: ¿qué es la emoción? ¿por qué la música emociona?, y cómo se aborda desde la ciencia informática el reconocimiento automático de las emociones, con los modelos desarrollados en los ámbitos MIR (Music Information Retrieval) y MER (Music Emotion Recognition). Por otro lado, se ha investigado la percepción vibro-táctil, base de los dispositivos que ya se han empezado a utilizar con las personas con discapacidad auditiva para potenciar la experiencia musical, desde la perspectiva de la fisiología y la neurociencia, y también desde una perspectiva más técnica de desarrollo de dispositivos vibro táctiles. A raíz del estudio del estado del arte se han podido establecer unos puntos básicos en los que sustentar esta investigación. Por un lado, los estudios neurocientíficos sobre la emoción musical muestran un cerebro capaz de procesar la emoción musical con mucha precisión, en muy poco tiempo, menos de 2 segundos, ya que la emoción musical estaría entroncada en circuitos neuronales primarios de supervivencia. Las emociones básicas e intensas de alegría, tristeza y miedo son las más claramente identificables en la música, se reconocen de forma universal e inmediata, y se asocian consistentemente con distintos valores de los parámetros musicales. Respecto a la percepción vibro táctil, se produciría una interacción estrecha entre los sentidos del oído y del tacto, existiendo una percepción multimodal vibro táctil-auditiva cerca de las áreas sensoriales primarias, de forma que parámetros como la frecuencia, el ritmo o el timbre se procesarían por un mismo mecanismo perceptivo común al oído y al tacto. La estimulación vibro táctil permitiría así transmitir parámetros musicales, aunque con un rango perceptivo más limitado que el oído. En el ámbito de la ciencia informática, los modelos MER desarrollados adolecen de muchas limitaciones, principalmente porque no existe un framework común de experimentación, lo que hace muy difícil la replicabilidad de los estudios. Por una parte, está la ausencia de datasets públicos, consensuados y adecuadamente validados, a lo que se añade la dificultad del proceso de anotación, generalmente realizado en base a taxonomías variadas, no basadas en los estudios neurocientíficos, y en un entorno poco controlado. Por otra parte, está la dificultad de seleccionar y obtener las características de audio significativas para la captura de la emoción musical, ya que no está clara la bondad de los algoritmos, ni qué características son relevantes para la detección de la emoción asociada a una música. Y, por último, está la dificultad de crear modelos de aprendizaje automático robustos para capturar las relaciones música-emoción. Los resultados apenas superan el 75% de precisión siempre que se consideren 4 o 5 emociones básicas. Actualmente las redes neuronales CNN (Convolutional Neural Networks) utilizadas en el reconocimiento de imagen se están utilizando con espectrogramas de las muestras audio como imágenes de entrada, con resultados prometedores, siendo los modelos CNN de arquitecturas simples los que obtienen mejores resultados tal y como demostraremos en la presente investigación.

    A partir de estas bases teóricas se han desarrollado las experimentaciones reflejadas en el trabajo de investigación. En una primera fase, se ha estudiado mediante registros EEG (electroencefalograma) la actividad cerebral generada por estímulos audiovisuales presentados en distintas condiciones a grupos de sujetos experimentales sin discapacidad auditiva y con discapacidad auditiva. Los estímulos utilizados fueron distintos vídeos acompañados por estímulos adicionales: subtítulos, efectos sonoros, o estimulación vibro táctil. Los vídeos fueron creados específicamente para las experimentaciones, componiendo secuencias de imágenes, extraídas de películas o documentales, no asociadas con ningún diálogo o acción dramática, ya que las imágenes deben mantenerse lo más neutrales posible para permitir la medición de los efectos producidos por los estímulos adicionales a las imágenes. Para la estimulación vibro táctil se utilizó un guante háptico, creado por el Grupo de Displays y Aplicaciones Fotónicas de la Universidad Carlos III de Madrid, que permitía aplicar una suave vibración táctil en las yemas de los dedos y la palma de la mano de los participantes. La señal de conducción de los motores consistía en una ráfaga de 102 ms de señal cuadrada de 1 kHz, generada por un Arduino UNO activado por un PC de control y sincronizado con la proyección de los vídeos. El ritmo al que se disparaban las activaciones era el principal estímulo.

    En ambos experimentos se reclutaron dos grupos de participantes: un grupo de control con participantes voluntarios sin discapacidad auditiva y un grupo experimental de voluntarios con discapacidad auditiva. Se gestionaron sus datos conforme a la Ley de protección de datos y se solicitó la correspondiente autorización del comité de ética, todos los participantes fueron informados del objetivo y procedimiento general de la experimentación, y firmaron un documento de consentimiento informado. Se utilizó un equipo de registro EEG multicanal de 64 canales, con un casco EEG que se ajustaba en la cabeza de los participantes previamente a la realización de las pruebas. Durante la proyección de los vídeos en las distintas condiciones experimentales, se registraba la actividad cerebral de los participantes mediante este equipo. Con los registros verificados y limpios de artefactos, se calcularon los promedios de activación cerebral para cada participante y condición. A partir de estos promedios de activación, se utilizó el algoritmo LORETA (Low Resolution Electromagnetic Tomography), que permite identificar las fuentes de corriente neuronal subyacentes a los potenciales registrados a nivel de cuero cabelludo, para generar los correspondientes mapas de activación cerebrales, de acuerdo con el modelo de atlas cerebral promedio del Instituto Neurológico de Montreal (MNI). Estos mapas permiten visualizar las áreas de máxima activación cerebral.

    Los resultados de los registros EEG mostraron que, en las condiciones de un material presentado con audio en el grupo experimental sin discapacidad auditiva y sin audio en el grupo con discapacidad auditiva, se activaban las mismas áreas temporales de procesamiento de la información en ambos grupos. Pero el grupo de personas sordas movilizaba estas áreas con mucha más intensidad, es decir con mayor esfuerzo de procesamiento, y además movilizaba áreas frontales cerebrales relacionadas con la atención y procesos cognitivos de orden superior. La presencia de subtítulos aumentaba la activación de las áreas visuales y de procesamiento verbal en ambos grupos, pero con mayor intensidad en el grupo de personas sordas. Así, los resultados indican que cuando un sujeto con pérdida auditiva está viendo un video sin subtítulos, necesita un mayor consumo de recursos cerebrales como consecuencia de la pérdida auditiva. Si además agregamos subtítulos al video, este esfuerzo aumenta y se enfoca en el procesamiento visual y verbal.

    En las condiciones en las que el material audiovisual se presentaba con audio en el grupo experimental sin discapacidad auditiva, y sustituyendo el audio por estimulación vibro táctil en el grupo con discapacidad auditiva, los resultados de los registros EEG mostraron una activación máxima en las mismas áreas cerebrales en ambos grupos, áreas que coinciden con las áreas involucradas en el procesamiento de la música afectiva: lóbulo temporal superior, circunvolución frontal inferior, opérculo rolándico, e ínsula, y la activación del área de Heschl (corteza auditiva). Es decir, las zonas cerebrales activadas en una experiencia audiovisual completa, al menos las que se pueden medir mediante EEG, se activaron también significativamente de forma similar durante una proyección audiovisual sin audio, pero acompañada de una suave estimulación vibro táctil rítmica, reproduciendo un patrón simple de tempo, en el grupo con discapacidad auditiva.

    Los resultados de esta primera fase de experimentaciones, basadas en registros de la actividad cerebral, mostraron por un lado que el subtitulado accesible textual no transmite la información que aporta la música de forma inmediata a través de la emoción, y que, por el contrario, el subtitulado textual incrementa la activación cerebral en zonas de procesamiento visual y verbal. Por otro lado, mostraron que la estimulación vibro táctil puede ser un canal de transmisión alternativo de emociones musicales básicas, al activar zonas cerebrales análogas a las que produce la música en un material audiovisual.

    En una segunda fase, se han desarrollado y comparado distintos modelos de clasificación automática de la emoción musical, con el objetivo de determinar un modelo sencillo y eficaz de clasificación automática de las emociones básicas contenidas en fragmentos musicales. Se pretendía establecer una primera aproximación al problema con la premisa de simplicidad, tomando como punto de partida unas condiciones básicas, acordes con las consideraciones neurocientíficas respecto a la emoción: clasificar en base a las emociones básicas de alegría, tristeza y miedo, expresadas en grado intenso, utilizar fragmentos musicales del orden de 2 segundos y utilizar las bases de datos de películas etiquetadas con rigor científico desde la neurociencia. Considerando, a partir del estado del arte, que los modelos CNN de clasificación de género musical más simples obtienen los mejores resultados con fragmentos musicales de pocos segundos, la experimentación se basó en el desarrollo y validación de modelos CNN basados en arquitecturas sencillas.

    Todos los programas se desarrollaron en el lenguaje de programación Python (versión 3.7.6), y con el entorno de desarrollo de Spyder (Scientific Python Development Environmen). Todas las experimentaciones se realizaron siempre con el mismo equipo (Procesador Intel Core i5 2.50 GHz y 16GB RAM). Para el tratamiento audio se utilizó la librería Librosa (versión 0.8.0), la librería de referencia en Python para MIR en Python, y que dispone de amplias funcionalidades para obtener distintos tipos de espectrogramas, siendo los espectrogramas las posibles entradas audio “visuales” para las redes CNN. Para el desarrollo de los modelos CNN se utilizó la librería Keras (versión 2.4.3, biblioteca de código abierto (con licencia MIT) escrita en Python, y que tiene como objetivo ofrecer unas API sencillas e intuitivas para el desarrollo de modelos complejos de aprendizaje profundo. Como datos de entrenamiento se utilizaron las bases de datos, Film Music Excerpts de (Eerola & Vuoskoski, 2011) y Musical Excerpts de (Vieillard et al., 2008) por ser las únicas disponibles etiquetadas en cuanto a emoción de forma rigurosa desde la neurociencia. La primera se compone de 40 fragmentos, compuestos, específicamente en el género de la música de cine cualificados en base a cuatro emociones: alegría, tristeza, miedo y tranquilidad. La segunda se compone de un primer set de 360 extractos musicales de 60 bandas sonoras de películas seleccionadas por un panel de expertos musicólogos y un segundo set con los 110 ejemplos más representativos del primer set. Los fragmentos musicales seleccionados permitían generar 976 muestras de 2 segundos de duración. Aunque se trata de una cantidad limitada, y además con grupos de muestras pertenecientes a mismos fragmentos musicales, con riesgo de sobreajuste, se decidió utilizar únicamente estas muestras científicamente contrastadas y correspondientes a emociones expresadas con intensidad.

    Los fragmentos se redujeron a una tasa de muestreo de 16.000 Hz para facilitar el procesamiento y se dividieron en muestras de 2 segundos. Para cada muestra de 2 segundos, y utilizando la librería Librosa, se generaron tres tipos de espectrogramas: STFT (espectrogramas de frecuencias), Mel (espectrogramas de frecuencias convertidas a la escala Mel), y CQT (espectrogramas con las frecuencias convertidas a tonos musicales). Se consideraron ventanas superpuestas de 512 muestras, con un salto entre ventanas de 256.

    En una primera experimentación se buscaba el desarrollo de un modelo CNN base que alcanzara tasas de reconocimiento en línea con el estado del arte, para determinar el tipo de espectrograma más idóneo como dato de entrada y los parámetros de entrenamiento más adecuados, para la clasificación en base a emociones. Se desarrolló un modelo de aprendizaje CNN, basado en arquitecturas sencillas. Tras una fase de afinación se probaron los distintos espectrogramas. Las distintas experimentaciones realizadas mostraron que los espectrogramas CQT, curiosamente los que mejor representan las relaciones entre tonos musicales, son los que obtenían mejores resultados, requiriendo además un tiempo de procesamiento menor que el resto de los espectrogramas. Concretamente se obtenía en validación cruzada un valor medio de Accuracy (Precisión) de 78% y un tiempo medio de procesamiento de 38 mn (minutos) para 50 epochs (Iteraciones) con el espectrograma CQT, un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 60 mn para 50 epochs con el espectrograma Mel, y un valor medio de Accuracy de 76% y un tiempo medio de procesamiento de 144 mn para 50 epochs con el espectrograma STFT.

    En una segunda experimentación se compararon los resultados de clasificación, sobre las mismas muestras, de los modelos CNN más representativos del estado del arte para clasificación del género musical, adaptando estos modelos para la clasificación en las emociones de alegría, tristeza, miedo y tranquilidad. Las distintas experimentaciones realizadas mostraron que el modelo CNN de arquitectura más sencilla, relativamente profundo (8 capas convolucionales), con convoluciones con estructura sencilla, sin incluir bloques más complejos como bloques ResNet (Residual Networks) o Inception (arquitectura de red Inception), ofrecía mejores resultados que otros modelos más complejos. Así en la clasificación en 4 emociones (alegría, tristeza, miedo, tranquilidad), se obtenía 81% de media de Accuracy en validación cruzada, y 89% cuando se consideraban las 3 emociones básicas (alegría, tristeza, miedo), mientras que el resto de las modelos no se alcanzaban valores superiores al 76% de Accuracy.

    Hay que tener en cuenta la limitación de la muestra utilizada en los resultados obtenidos, sobre todo, por el riesgo de sobreajuste al tratarse de grupos de muestras pertenecientes a mismos fragmentos musicales. Aun así, se puede considerar que la arquitectura CNN sencilla puede ser una arquitectura eficaz en la clasificación de la emoción en fragmentos de audio de 2 segundos. El modelo muestra ser eficaz, con 2 segundos de muestra, tiempo suficiente para transmitir la emoción de forma inmediata, en las emociones básicas de alegría, tristeza, y miedo que son precisamente las más interesantes de identificar en el caso del subtitulado de la música de películas, acercándose a los resultados de los experimentos neurocientíficos con sujetos experimentales. Además, frente a otros modelos presenta la gran ventaja de no requerir una selección previa de las características de las muestras de audio, ni el soporte de datos adicionales a las muestras de audio. Por tanto, puede ser una base sencilla y eficaz para la extracción de la emoción de la música de cara a un subtitulado accesible, junto con el uso de espectrogramas CQT.

    En conclusión, el objetivo inicial de esta investigación era aportar ideas base para el desarrollo de un framework de subtitulado accesible de la música (estímulo no verbal) de películas alternativo al canal textual. La reacción positiva a una suave y sencilla estimulación rítmica vibro táctil, alienta a continuar en la investigación del canal vibro táctil que parece ser capaz de aportar nuevas soluciones, como alternativa a los subtítulos tradicionales, para transmitir la información emocional contenida en la banda sonora audiovisual, y así producir la intención emocional del autor en sujetos con discapacidad auditiva. Mientras que los modelos de aprendizaje CNN, con arquitecturas sencillas, presentan una solución simple y eficaz para la clasificación automática de fragmentos musicales en base a emociones básicas.


Fundación Dialnet

Mi Documat