Pattern recognition for music notation

Jorge Calvo Zaragoza

Ayuda

Pattern recognition for music notation

Autores: Jorge Calvo Zaragoza
Directores de la Tesis: José Oncina Carratalá (dir. tes.) , Juan Ramón Rico Juan (codir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2016
Idioma: español
Tribunal Calificador de la Tesis: Ichiro Fujinaga (presid.) , José M. Iñesta Quereda (secret.) , María Inés Torres Barañano (voc.)
Enlaces
- Tesis en acceso abierto en: RUA
Resumen
- La música constituye una de las principales herramientas para la transmisión cultural. Es por ello que, a lo largo de los siglos, numerosos documentos musicales se han preservado cuidadosamente en catedrales, bibliotecas o archivos históricos. No obstante, el acceso a estas fuentes no siempre es posible, pues su uso continuado podría comprometer su integridad. Esto implica que una importante parte de este patrimonio permanece alejado del estudio musicológico.
  
  Desde hace años se ha invertido mucho esfuerzo en la transcripción de partituras a formato digital, ya que este proceso favorece la preservación de la música, así como su acceso, estudio y distribución. Para este propósito se han desarrollado muchas herramientas de distinta naturaleza. Por ejemplo, el uso de aplicaciones de edición de partituras está especialmente extendido. Éstas permiten crear partituras en formato digital a través de acciones con el ratón o el teclado. Otra posibilidad para transcribir partituras es utilizar instrumentos digitales (por ejemplo, un piano MIDI) que puedan ser conectados a un ordenador, de forma que la información musical se transfiera automáticamente a través de su interpretación. Desafortunadamente, este proceso no siempre puede captar todos los matices que se encuentran en una partitura.
  
  Por otra parte, la digitalización masiva de documentos musicales abre diversas oportunidades para aplicar algoritmos de Extracción y Recuperación de Información Musical, que son de gran interés para el análisis musicológico. Independientemente del medio utilizado, la transcripción de partituras es un proceso que puede ser largo y tedioso ---que a menudo requiere supervisión experta--- por lo que el desarrollo de sistemas de transcripción automática ha adquirido importancia en los últimos años.
  
  El Reconocimiento Óptico de Música (Optical Music Recognition, OMR) es la tecnología que proporciona a los ordenadores la capacidad de entender la información musical contenida en una partitura a partir del escaneo de su fuente. El proceso consiste, básicamente, en recibir una imagen de una partitura y exportar su contenido a algún tipo de formato estructurado como MusicXML, MIDI o MEI.
  
  Hasta ahora, esta tarea ha sido enfocada desde un punto de vista de procesamiento de imagen. Sin embargo, representa un desafío similar al del Reconocimiento Óptico de Caracteres (Optical Character Recognition, OCR), que tradicionalmente ha sido tratado por la comunidad de Reconocimiento de Formas. La complejidad particular de la notación musical, no obstante, crea la necesidad de desarrollar algoritmos específicos.
  
  Por otra parte, conviene tener en cuenta que las tecnologías actuales no permiten asegurar una transcripción libre de errores, y puede que nunca lo hagan. Es por ello que en los últimos años está surgiendo lo que se conoce como Reconocimiento de Formas Interactivo. Este paradigma está enfocado a la creación de sistemas de transcripción asistida por ordenador. En este caso, el usuario y la máquina colaboran para completar la tarea de reconocimiento con el mínimo gasto posible de recursos. El escenario más convencional asume que el ordenador propone soluciones a la tarea y el usuario tiene la responsabilidad de supervisar dicha salida. Si existe algún error, el usuario debe proporcionar retroalimentación a la máquina, que debe cambiar su respuesta teniendo en cuenta la nueva información recibida.
  
  Este paradigma implica varios cambios con respecto al Reconocimiento de Formas tradicional: - Comportamiento dinámico: las interacciones del usuario proveen información en línea relacionada con la tarea, lo que puede ayudar al sistema a variar su comportamiento. Por ejemplo, mediante el uso de nuevos datos etiquetados o propagando la corrección a otras partes de la hipótesis propuesta.
  
  - Interacción con el sistema: es necesario invertir esfuerzo en que el usuario pueda utilizar una interfaz lo más ergonómica posible. Sin embargo, este tipo de interfaces pueden proceder de una señal no determinista, es decir, que a veces será necesario decodificar dicha interacción. Por lo tanto, el sistema tendrá que inferir, utilizando la nueva señal y la información inherente a la tarea, qué pretende comunicar el usuario. Esto abre la posibilidad a explotar la sinergia entre ambas modalidades de información.
  
  - Medida de evaluación: como el esfuerzo del usuario, usualmente cuantificado como la cantidad de correcciones a realizar, se considera el recurso más importante, el objetivo del sistema no es tanto minimizar el número de errores sino el número de correcciones necesarias para completar la tarea. Esto puede provocar diferencias a la hora de elegir la hipótesis óptima.
  
  Por todo lo expuesto anteriormente, esta tesis se centra en estudiar los aspectos del reconocimiento automático de notación musical que puedan ser enfocados desde una perspectiva de Reconocimiento de Formas, sin perder de vista el caso interactivo.