Aproximación a una estación lexicológica orientada a internet

Zenón José Hernández Figueroa

Ayuda

Aproximación a una estación lexicológica orientada a internet

Autores: Zenón José Hernández Figueroa
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 28, 2002, págs. 107-108
Idioma: español
Enlaces
- Texto Completo Ejemplar
Resumen
- español
  Esta tesis es una proyección natural de los trabajos realizados por el Grupo de Estructuras de Datos y Lingüística Computacional de la ULPGC en los últimos años. Estos trabajos se han desarrollado en el ámbito de la Lingüística Computacional y han dado lugar, entre otros resultados, al desarrollo de herramientas de reconocimiento y generación morfológica. En esta tesis se propone la utilización de dichas herramientas como parte de nuevas aplicaciones cuyo objetivo es obtener provecho del enorme caudal de información lingüística que supone Internet. Se caracterizan dos clases de aplicaciones -en función del grado de interactividad de los estudios lingüísticos que se pretenda realizar- y se desarrollan sendos prototipos -denominado DAWeb y NAWeb- con una arquitectura estudiada para obtener los rendimientos más adecuados a cada caso. Las modalidades de análisis abarcan: la detección de neologismos, estudio del uso de las palabras con diversas medidas cuantitativas y cualitativas, y aspectos cercanos a la sintaxis tales como colocaciones léxicas o regímenes preposicionales.
- English
  This thesis follows up the works performed in the recent last years by the Data Structures and Computational Linguistics Group at ULPGC. These works has been developed about Computational Linguistics and, as one of their results, some tools for morphologic identification and generation have been released. This thesis proposes the use of those tools as parts of new applications designed to benefit from the great linguistic information flow from Internet. Two kinds of applications are identified, both according to the interactivity of the linguistics studies to be made, and two prototypes, named DAWeb and NAWeb, are developed with special attention on their architecture in order to maximize the efficiency of both. Analysis modes include: neologism detection, word use (qualitative and quantitative measurements) and nearing sintax aspects like lexical collocations or prepositional regimes.