Ir al contenido

Documat


Resumen de Metodología, construcción y explotación de corpus anotados semántica y anafóricamente

Borja Navarro Colorado Árbol académico

  • El procesamiento del lenguaje natural (PLN) o Lingüística computacional es una parte esencial de la inteligencia artificial que investiga y desarrolla mecanismos computacionalmente efectos capaces de analizar, entender y generar textos, tanto orales como escritores, basados en una lengua natural, Desde finales de los años 90, el desarrollo de aplicaciones para el procesamiento de lenguaje natural se ha caracterizado tanto por el auge de técnicas empíricas como por el desarrollo de sistemas robustos capaces de procesar amplias colecciones de textos en dominios abiertos o no restringidos. Para desarrollar este tipo de sistemas es necesario conocer el uso real delas lenguas tal como son utilizadas por los hablantes, con sus errores, peculiaridades y excepciones.

    Esta realidad lingüística se muestra en los corpus anotados, en tanto que amplias colecciones de textos en soporte electrónico.

    Lo que convierte al corpus en un recurso importante es el hecho de poder estar además anotado con información lingüística de diferente tipo (sintáctica, semántica, pragmática, etc.), que permita un tratamiento profundo del conocimiento lingüístico contenido en éste. Con ello el corpus no está formado únicamente por la materia lingüística real, sino también por información lingüística más profunda: categorías gramaticales, relaciones sintácticas, sentidos, relaciones anafóricas, estructuras retóricas, etc., que ha sido marcada explícitamente (MCENERY & WILSON 1996). Por tanto, es posible el procesar el corpus a niveles más profundos de conocimiento lingüístico con diferentes técnicas de PLN; aprendizaje de estructuras gramaticales, sentidos en su contexto, etc. Los corpus anotados tienen dos aplicaciones básicas dentro del PLN en la actualidad:

    1,- Como corpus de aprendizaje: todos los métodos de aprendizaje automático supervisados necesitan gran cantidad de ejemplos en los que la información lingüística esté representada de manera ex


Fundación Dialnet

Mi Documat