Ir al contenido

Documat


Resumen de Tecnologías del habla: nuevas oportunidades para los archivos de televisión

Virginia Bazán Gil, Eduardo Lleida Solano Árbol académico, Carmen Pérez Cernuda, Manuel Gómez Zotano, Alberto de Prada

  • español

    La abundancia de contenidos audiovisuales y la dificultad creciente para identificar y describir esos contenidos de forma eficiente ha convertido la Inteligencia Artificial en un objeto de deseo para los archivos de televisión. Los futuros procesos de generación automática de metadatos en los archivos se fundamentarán en tres tecnologías complementarias: visión artificial, tecnologías del habla y procesamiento del lenguaje natural. La aplicación de estas tecnologías no solo facilitará el acceso a un volumen creciente de contenidos audiovisuales, sino que además permitirá alcanzar un nivel de detalle en el análisis hasta ahora impensable en los archivos de televisión. En este nuevo horizonte, las funciones esenciales de los documentalistas se verán una vez más alteradas, ya que los procesos automatizados requerirán de su implicación en las fases de entrenamiento de los algoritmos en los que se basan estas tecnologías, así como en el control de la calidad de los datos generados de forma automática. En este contexto surge Iberspeech Challenge 2018, un reto tecnológico impulsado por la Cátedra RTVE Universidad de Zaragoza, puso a disposición de la comunidad científica más de 500 horas de contenidos audiovisuales permitiendo a distintos grupos de investigación, nacionales e internacionales, poner a prueba sus algoritmos en tres tareas diferenciadas: transcripción de habla a texto (speech to text), diarización de hablantes y diarización multimodal. Los resultados obtenidos han demostrado las dificultades tecnológicas que todavía deben superarse tanto en la trascripción voz a texto como en la diarización, tanto de hablante como multimodal.

  • English

    As the number of audiovisual contents to be identified and analysed has been increasing since the last few years, and as the resources available to face this situation are decreasing, Artificial Intelligence has become a desired tool for television archives. The future automatic metadata extraction workflows will be based in three complementary technologies: artificial vision, speech technologies and natural language processing. The use of these technologies will allow us to access a greater number of contents as well as to increase the granularity in the analysis. The role of the documentalist will be modified once again. Training algorithms and data validation will be two new relevant tasks for these professionals. In this new scenery, the RTVE University of Zaragoza Chair promoted the Iberspeech 2018 Challenge. This technological challenge made more than 500 hours of audiovisual content in Spanish available to the scientific community. Iberspeech 2018 also allowed the different national and international research groups to test their algorithms in three different tasks: speech to text, speaker diarization and multimodal diarization. The results obtained have shown the technological difficulties that still have to be overcome. These results should also be addressed from the user’s perspective in order to answer questions connected to the degree of error tolerance in automatic transcription within three different areas: edition, broadcasting and archive.


Fundación Dialnet

Mi Documat