Ir al contenido

Documat


Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos

  • Autores: Ferrán Pla Árbol académico
  • Directores de la Tesis: Natividad Prieto Sáez (dir. tes.) Árbol académico, Lluís Padró Cirera (dir. tes.) Árbol académico
  • Lectura: En la Universitat Politècnica de València ( España ) en 2000
  • Idioma: español
  • Tribunal Calificador de la Tesis: Enrique Vidal Ruiz (presid.) Árbol académico, Encarna Segarra Soriano (secret.) Árbol académico, Iñaki Alegría Loinaz (voc.) Árbol académico, Horacio Horacio Rodríguez (voc.) Árbol académico, Lluís Márquez i Villodre (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RiuNet
  • Resumen
    • En esta tesis se abordan dos problemas que simplifican substancialmente la tarea de procesamiento de oraciones escritas en Lenguaje Natural: la desambiguación léxica y el análisis sintáctico superficial de textos no restringidos, Se ha desarrollado un sistema de desambiguación que es capaz de obtener de manera conjunta o separada, el etiquetado léxico (POS tagging) --o proceso mediante el cual se elige la categoría léxica correcta para las palabras de una frase-- y el análisis sintáctico superficial (Shallow Parsing o Chunking) --consistente en la detección de ciertos grupos no solapados de palabras relacionadas sintácticamente como, sintagmas nominales (SN), verbales (SV), preposicionales (SP), ...--, para textos no restringidos.

      La aproximación propuesta se basa en modelos de lenguaje (ML) obtenidos automáticamente a partir de corpora etiquetados con información lingüistica.Para ello, se utilizan técnicas de aprendizaje automático derivadas del campo de la inferencia gramatical y de los modelos estadísticos. Los modelos inferidos de representan utilizando un formalismo homogéneo: máquimas de estados finitos. Éstos incluyen desde modelos de n-gramas, hasta cualquier modelo regular estocástico aprendido por medio de técncias de indiferencia gramatical obtendio mediante cualquier otro método. Para estos últimos se introducen nuevos métodos de suavizado para ampliar la cobertura del lenguaje. Además, el sistema ha sido ampliado para enriquecer los ML con información de las palabras, además de las categorías léxicas, mediante lo que hemos denominado modelos contextuales especializados o lexicalizados.

      Éstos permiten reflejar dependencias léxico-contextuales, que en muchos casos, ayudan de manera notable a resolver ciertas ambigüedades estructurales.

      El sistema propuesto se ha evaluado experimentalmente sobre diferentes corpora en inglés (Wall Street Journal) y en castellano (LexEsp, BDGEO), establec


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno