Inteligencia Artificial para la traducción, reconocimiento y producción de lengua de signos

Marina Perea Trigo

Ayuda

Inteligencia Artificial para la traducción, reconocimiento y producción de lengua de signos

Autores: Marina Perea Trigo
Directores de la Tesis: Juan Antonio Álvarez García (dir. tes.) , Juan José Vegas Olmos (dir. tes.)
Lectura: En la Universidad de Sevilla ( España ) en 2025
Idioma: español
Número de páginas: 175
Enlaces
- Tesis en acceso abierto en: Idus
Resumen
- La Lengua de Signos Española (LSE) constituye un canal esencial para la inclusión social de la comunidad sorda. Sin embargo, su tratamiento automático presenta grandes desafíos debido a la escasez de recursos lingüísticos estandarizados así como por la falta de sistemas automáticos robustos de traducción, reconocimiento y producción. Adicionalmente, el carácter visual de los datos plantea serias dificultades en términos de privacidad y anonimización, comprometiendo la disponibilidad de corpus abiertos para el entrenamiento de modelos. Esta tesis aborda estos problemas desde un enfoque integral basado en Inteligencia Artificial, con el objetivo de generar corpus sintéticos, optimizar técnicas de aumento de datos y proponer mecanismos de anonimización que preserven la expresividad de la LSE.
  
  La primera contribución corresponde al desarrollo de ruLSE, un sistema basado en reglas lingüísticas capaz de generar corpus paralelos castellano–glosa en LSE. Este enfoque permitió mitigar la escasez de datos y habilitar el entrenamiento de modelos neuronales de traducción automática, como MarianMT y STMC-Transformer. Los resultados experimentales evidencian mejoras significativas al incorporar incrustaciones léxicas preentrenadas en español, validando la viabilidad de ruLSE como mecanismo de generación escalable de datos sintéticos para la tarea text2gloss y gloss2text.
  
  En un segundo bloque, se introduce el corpus CALSE, estructurado en dos subconjuntos (CALSE-100 y CALSE-1000) con mil vídeos en LSE. Este recurso posibilitó la evaluación de técnicas de aumento de datos visuales, incluyendo transformaciones afines e intercambio facial. Los experimentos realizados sobre el modelo I3D de reconocimiento confirmaron mejoras notables en precisión top-1, top-5 y top-10, consolidando estas estrategias como alternativas eficaces para incrementar la variabilidad y robustez de los conjuntos de entrenamiento sin necesidad de nuevas grabaciones. El análisis también evidencia la relevancia crítica de las expresiones faciales: su omisión degrada de forma marcada el rendimiento, lo que motiva preferir técnicas de intercambio facial frente a ocultamientos que eliminan información no manual.
  
  La tercera aportación se centra en la anonimización de signantes en vídeos de LSE. Para ello se evaluaron dos técnicas: la síntesis de avatares fotorrealistas y el intercambio facial aplicado a vídeos reales. El análisis incluyó métricas objetivas de calidad (FID, LPIPS) y evaluaciones subjetivas con intérpretes expertos, demostrando que el intercambio facial constituye una técnica eficaz para preservar la inteligibilidad de los signos al tiempo que oculta la identidad del signante, manteniendo además un alto grado de naturalismo visual. Paralelamente, la síntesis con avatares abre la posibilidad de generar recursos completamente anonimizados y controlables, ampliando así las opciones para la distribución de corpus en contextos donde la privacidad es prioritaria.
  
  En conjunto, esta tesis ofrece un marco metodológico que integra generación de corpus, enriquecimiento de datos y anonimización, contribuyendo de manera simultánea a superar la escasez de datos, mejorar la robustez de los modelos y garantizar la protección de la identidad. Estas aportaciones avanzan el estado del arte en traducción, reconocimiento y producción de LSE, y sientan bases sólidas para el desarrollo de tecnologías inclusivas.
  
  El trabajo futuro contempla la ampliación de las reglas lingüísticas de ruLSE, la exploración de arquitecturas Transformer basadas en puntos clave y el despliegue de la aplicación móvil SignUS para la recopilación de datos en entornos no controlados. Estas líneas proyectan un camino hacia sistemas de IA inclusivos, escalables y éticos, capaces de mejorar la accesibilidad y la interacción entre personas sordas y oyentes en escenarios reales.