Resumen de Etiquetación robusta del lenguaje natural: preprocesamiento y segmentación

Una de las tareas previas más importantes para la etiquetación robusta del lenguaje natural es la correcta segmentación o preprocesamiento de los textos. Esta fase, que puede involucrar a procesos mucho más complejos que la simple identificación de las diferentes frases del texto y de cada uno de sus componentes individuales, es a menudo obviada en muchos de los desarrollos actuales. A pesar de esto, se trata de una tarea de una enorme importancia práctica y abordarla con pleno rigor científico, sin caer repetidamente en el análisis de la casuística particular de cada fenómeno detectado, es una labor que resulta especialmente compleja. En este trabajo hemos desarrollado un esquema de preprocesamiento orientado a la desambigüación y etiquetación robusta del gallego. No obstante, se trata de una propuesta de arquitectura general que puede ser aplicada a otros idiomas, como por ejemplo el español, con modificaciones muy ligeras.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: