Inducción gramatical no supervisada basada en patrones léxicos

Jesús Santamaría Martínez de la Casa

Ayuda

Inducción gramatical no supervisada basada en patrones léxicos

Autores: Jesús Santamaría Martínez de la Casa
Directores de la Tesis: Lourdes Araujo (dir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2013
Idioma: español
Tribunal Calificador de la Tesis: Raquel Martínez Unanue (presid.) , Anselmo Peñas Padilla (secret.) , Jesús Vilares (voc.) , Antonio Moreno Sandoval (voc.) , José Ignacio Serrano Moreno (voc.)
Enlaces
- Tesis en acceso abierto en: e-spacio (pdf)
Resumen
- La gran cantidad de documentos de que se dispone hoy en día en cualquier actividad hace que se requieran métodos automáticos para poder procesarlos y hacerlos útiles. Este procesamiento incluye en muchos casos el análisis sintáctico del contenido, que a su vez requiere conocer la gramática subyacente al lenguaje considerado. Llegamos así a la Inducción Gramatical (IG) cuyo objetivo es encontrar una gramática correcta para representar la estructura de los textos que forman una colección. Se trata de un problema difícil por diversas razones. Por una parte, la ambigüedad del lenguaje permite que existan distintos árboles de análisis para una misma frase. Además se puede producir sobreentrenamiento al dar mayor probabilidad a los datos que se han encontrado en el conjunto de entrenamiento frente a otros, también válidos, que no han aparecido o lo han hecho con poca frecuencia. Además, hay que distinguir entre ejemplos de entrenamiento positivos, que aparecen en los textos de la colección, y que por tanto deben poder generarse por la gramática inducida y ejemplos de entrenamiento negativos, que no están en el lenguaje y que la gramática no debería generar. La necesidad de ejemplos negativos es problemática para el aprendizaje, ya que las colecciones disponibles están compuestas de ejemplos positivos.
  
  A pesar de estas dificultades, los métodos estadísticos proporcionan buenos resultados en el caso de la IG supervisada, es decir cuando la gramática se extrae a partir de un corpus de entrenamiento etiquetado sintácticamente. Sin embargo, no existen corpus etiquetados sintácticamente en muchas lenguas. En estos casos es necesario recurrir a la IG no supervisada cuyo objetivo es extraer la gramática de textos que no han sido analizados sintácticamente.
  
  En esta tesis se han explorado nuevas técnicas de IG no supervisada para gramáticas de constituyentes basadas en la identificación de patrones de etiquetas léxicas. Nuestra hipótesis de partida es que existen relaciones muy generales entre determinadas etiquetas léxicas, que se pueden identificar por presentarse con una frecuencia claramente superior a la de otras secuencias. Concretamente buscamos conjuntos de etiquetas léxicas que juegan un determinado papel en el árbol de análisis. Estos grupos de etiquetas definen un conjunto de etiquetas de alto nivel o clases. La metodología para la detección de las clases de etiquetas se basa en el comportamiento de cada etiqueta respecto a los constituyentes. Por tanto el método incluye un procedimiento para la identificación de una secuencia de etiquetas que es con alta probabilidad un constituyente. El conjunto de etiquetas léxicas consideradas se clasifica entonces en función de la frecuencia de la posición en la que se presentan respecto a este constituyente. A partir de las clases de etiquetas identificadas hemos definido un eficiente procedimiento de análisis sintáctico.
  
  Se trata de un método muy general que puede ser aplicado a diversas lenguas. Lo hemos aplicado a seis corpus distintos correspondientes a distingas lenguas que pertenecen a distintas familias lingüísticas: El inglés, el alemán, el español, el italiano, el mandarín, y el hebreo. Los resultados han mostrado la validez del método en todos los casos. Se han evaluado diversos aspectos que pueden influir en el rendimiento del sistema, como la longitud de las oraciones, el tamaño del conjunto de etiquetas léxicas, o la influencia de cada uno de los patrones identificados. El sistema ha obtenido una mejora del rendimiento notable sobre otros sistemas no supervisados.
  
  También hemos investigado la mejora que puede alcanzar el sistema introduciendo un pequeño grado de supervisión. Hemos estudiado la forma de introducir la información de un análisis sintáctico superficial para mejorar los resultados del sistema. El análisis superficial identifica a los constituyentes de la oración, sin especificar su estructura interna. Se han propuesto dos estrategias alternativas. Una es una estrategia restrictiva que aplica los sintagmas identificados como restricciones al proceso de generación del análisis del sistema no supervisado. La otra es una estrategia de corrección de errores que usa los sintagmas a posteriori, para corregir posibles errores en el árbol de análisis generado por el sistema no supervisado. La estrategia de corrección de errores ha demostrado ser ligeramente superior. Hemos analizado el efecto de introducir distintos tipos de sintagmas, también se ha estudiado el efecto de introducir diferentes grados de supervisión, además hemos probado el sistema para el inglés, el español y el alemán, mejorando apreciablemente el rendimiento del sistema no supervisado en todos los casos.