Características textuales como medida cualitativa de la información en la generación semiautomática de tesauros

Lloréns Morillo, Juan; Velasco de Diego, Manuel; Morato Lara, Jorge; Moreiro González, José Antonio

Características textuales como medida cualitativa de la información en la generación semiautomática de tesauros

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/2013

Información del item - Informació de l'item - Item information
Título:	Características textuales como medida cualitativa de la información en la generación semiautomática de tesauros
Autor/es:	Lloréns Morillo, Juan \| Velasco de Diego, Manuel \| Morato Lara, Jorge \| Moreiro González, José Antonio
Palabras clave:	Generación semiautomática de tesauros \| Corpus
Fecha de publicación:	sep-1998
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	LLORÉNS MORILLO, Juan, et al. “Características textuales como medida cualitativa de la información en la generación semiautomática de tesauros”. Procesamiento del lenguaje natural. Nº 23 (sept. 1998), pp. 61-68
Resumen:	El objetivo del GTI es la generación semiautomática de tesauros mediante el análisis de un corpus. Tras ensayar distintos métodos de clasificación de la información, desde co-ocurrencia de términos a redes neuronales, se mostró necesaria la creación de nuevos indicadores que aportasen información adicional a la ya suministrada por el tesauro. La presentación de estos indicadores, y su previsible potencial, es la meta de la presente comunicación. El objetivo es reaprovechar el gran volumen de datos necesarios para realizar la clasificación y emplearlos en dos campos distintos: por un lado la validación del tesauro y por otro la creación de indicadores que nos indiquen a-priori la creatividad del texto dentro de nuestro corpus. La estructuración y etiquetado previo del texto parecen en estas circunstancias un paso necesario para poder estudiar posteriormente el resultado del conjunto de parámetros medidos en el set de documentos. La novedad se estudia desde un enfoque multidimensional: análisis lingüístico y del formato de los textos, estudio del tesauro generado, y la creación de indicadores ad-hoc. Al tiempo, se miden distintos parámetros en el tesauro para validar el tesauro autogenerado. Para el análisis matemático de los datos, se usan análisis multivariante y de las componentes principales. Una evaluación del programa está actualmente en curso.
URI:	http://hdl.handle.net/10045/2013
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 23 (septiembre 1998)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_23_09.pdf		367,57 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo