Ir al contenido

Documat


Resumen de Nuevas técnicas de selección de términos en la clasificación documental

Elena Montañés Roces Árbol académico

  • La Clasificación Documental (CD) juega un papel importante en una gran variedad de tareas de organización y manejo de información dentro de la Recuperación de Información (RI) y de la Minería de Datos Textuales (MDT).

    CD es el proceso de asignar una o más categorías predefinidas a documentos de un hábeas. Los algoritmos de Aprendizaje Automático (AA) son métodos adecuados que recientemente han sido aplicados para este propósito, debido a que un documento puede representarse mediante un conjunto de términos que reflejan su contenido y mediante una o más categorías. CD es una tarea que consume mucho tiempo, debido a que involucra el manejo de gran cantidad de términos, de los cuales algunos pueden ser ruidosos o irrelevantes para la clasificación. Por tanto, una reducción de términos previa a la clasificación puede mejorar la eficiencia del clasificador. En este trabajo se proponen técnicas de selección de términos. Una de ellas consiste en una serie de medidas, tomadas del área del AA, para cuantificar la importancia de un término. Otra de ellas, consiste en clasificar los términos en relevantes o no relevantes a partir de sus propiedades lingüísticas. Finalmente, se propone una técnica de envoltura para seleccionar un cojunto de términos adecuado.


Fundación Dialnet

Mi Documat