Tecnologías del habla: nuevas oportunidades para los archivos de televisión

Virginia Bazán Gil; Eduardo Lleida Solano; Carmen Pérez Cernuda; Manuel Gómez Zotano; Alberto de Prada

Ayuda

Tecnologías del habla: nuevas oportunidades para los archivos de televisión

Virginia Bazán-Gil ^[2] ; Eduardo Lleida ^[1] ; Carmen Pérez ^[2] ; Manuel Gómez ^[2] ; Alberto de Prada ^[2]
1. [1] Universidad de Zaragoza
  
  Universidad de Zaragoza
  
  Zaragoza, España
2. [2] RTVE
Localización: Actas del IV Congreso ISKO España-Portugal 2019, XIV Congreso ISKO España / coord. por Jesús Tramullas Saz , Piedad Garrido Picazo , Gonzalo Marco Cuenca, 2020, ISBN 978-84-09-20065-8, págs. 323-335
Idioma: español
Enlaces
- Texto Completo Libro (pdf)

Dialnet Métricas: 1 Cita

Resumen
- español
  La abundancia de contenidos audiovisuales y la dificultad creciente para identificar y describir esos contenidos de forma eficiente ha convertido la Inteligencia Artificial en un objeto de deseo para los archivos de televisión. Los futuros procesos de generación automática de metadatos en los archivos se fundamentarán en tres tecnologías complementarias: visión artificial, tecnologías del habla y procesamiento del lenguaje natural. La aplicación de estas tecnologías no solo facilitará el acceso a un volumen creciente de contenidos audiovisuales, sino que además permitirá alcanzar un nivel de detalle en el análisis hasta ahora impensable en los archivos de televisión. En este nuevo horizonte, las funciones esenciales de los documentalistas se verán una vez más alteradas, ya que los procesos automatizados requerirán de su implicación en las fases de entrenamiento de los algoritmos en los que se basan estas tecnologías, así como en el control de la calidad de los datos generados de forma automática. En este contexto surge Iberspeech Challenge 2018, un reto tecnológico impulsado por la Cátedra RTVE Universidad de Zaragoza, puso a disposición de la comunidad científica más de 500 horas de contenidos audiovisuales permitiendo a distintos grupos de investigación, nacionales e internacionales, poner a prueba sus algoritmos en tres tareas diferenciadas: transcripción de habla a texto (speech to text), diarización de hablantes y diarización multimodal. Los resultados obtenidos han demostrado las dificultades tecnológicas que todavía deben superarse tanto en la trascripción voz a texto como en la diarización, tanto de hablante como multimodal.
- English
  As the number of audiovisual contents to be identified and analysed has been increasing since the last few years, and as the resources available to face this situation are decreasing, Artificial Intelligence has become a desired tool for television archives. The future automatic metadata extraction workflows will be based in three complementary technologies: artificial vision, speech technologies and natural language processing. The use of these technologies will allow us to access a greater number of contents as well as to increase the granularity in the analysis. The role of the documentalist will be modified once again. Training algorithms and data validation will be two new relevant tasks for these professionals. In this new scenery, the RTVE University of Zaragoza Chair promoted the Iberspeech 2018 Challenge. This technological challenge made more than 500 hours of audiovisual content in Spanish available to the scientific community. Iberspeech 2018 also allowed the different national and international research groups to test their algorithms in three different tasks: speech to text, speaker diarization and multimodal diarization. The results obtained have shown the technological difficulties that still have to be overcome. These results should also be addressed from the user’s perspective in order to answer questions connected to the degree of error tolerance in automatic transcription within three different areas: edition, broadcasting and archive.