Nueva propuesta evolutiva para el agrupamiento de documentos en sistemas de recuperación de información

José Luis Castillo Sequera

Ayuda

Nueva propuesta evolutiva para el agrupamiento de documentos en sistemas de recuperación de información

Autores: José Luis Castillo Sequera
Directores de la Tesis: León Atilano González Sotos (dir. tes.) , José Raúl Fernández del Castillo Díez (dir. tes.)
Lectura: En la Universidad de Alcalá ( España ) en 2010
Idioma: español
Tribunal Calificador de la Tesis: Pedro Burillo López (presid.) , María José Domínguez Alda (secret.) , José Javier Martínez Herráiz (voc.) , Ramón Fuentes González (voc.) , Miguel Ángel Patricio Guisado (voc.)
Enlaces
- Tesis en acceso abierto en: e_Buah
Resumen
- español
  El conocimiento explicito de las organizaciones se encuentra recogido en colecciones documentales controladas, a disposición de sus usuarios. Cuándo el número de documentos es elevado se necesitan herramientas para organizar y mostrar los contenidos de la colección, que permitan y faciliten a los usuarios explorar la colección para conocer mejor su naturaleza y descubrir relaciones, patrones, tendencias, y otras características para poder así "comprender" la información.
  
  La necesidad de usar conocimientos en los Sistemas de Recuperación de Información empujó a los investigadores a analizar los sistemas inteligentes que procuran incorporar y usar dichos conocimientos con la finalidad de optimizar el sistema. En la presente tesis, se muestra un Sistema Evolutivo (SEV), y los resultados obtenidos en la construcción de un sistema de esta naturaleza.
  
  En este trabajo hacemos una aportación en el área de Recuperación de Información (RI), proponiendo el desarrollo de un nuevo sistema que, utilizando técnicas evolutivas, implemente un sistema de aprendizaje del tipo no supervisado, para agrupar los documentos de un Sistema de Recuperación de Información (SRI); en donde los grupos y el número de ellos son desconocidos a priori por el sistema. El criterio para realizar el agrupamiento de los documentos estará basado por la similitud y distancia de los documentos, formando así de esta manera grupos ó clustering de documentos afines, permitiendo así agrupar los documentos de un SRI de una manera aceptable, presentándose como una alternativa válida a los métodos de agrupamiento tradicionales, pudiéndose contrastar sus resultados experimentalmente con algunos de los métodos clásicos.
  
  Los lexemas más relevantes de cada documento, obtenidos mediante la aplicación de técnicas de RI, permiten enriquecer la información asociada a los documentos de la colección y utilizarlos como valores de metadatos para el algoritmo evolutivo. De esta forma, el sistema funciona mediante una metodología de procesamiento de documentos que selecciona los lexemas de los documentos mediante criterios de recuperación de información.
  
  Los resultados obtenidos demuestran la viabilidad de la construcción de una aplicación a gran escala de estas características, para integrarla en un sistema de gestión de conocimiento que tenga que manejar grandes colecciones documentales controladas.
- English
  Explicit knowledge of the organizations is kept in highly controlled document collections, available to its users. A large document collection requieres tools to organize and reveal its content, that allow users to easily explore it, so as to better get to know its type and discover relations, patterns, trends and other features in order to “understand information”.
  
  The need for expertise in Information Retrieval Systems pushed researchers to analize intelligent systems that seek to incorporate and use such knowledge in order to optimize the system. In this thesis, it is shown an evolutionary system (EVS), and the results obtained with the construction of a system of this nature.
  
  In this paper we make a contribution in the field of Information Retrieval (IR), proposing the development of a new system using evolutionary techniques, implement a system for unsupervised learning type, to group documents in an Information Retrieval System (IRS) where their groups and number of are unknown a priori by the system. The criteria used to create document clusters will be based on the similarity and distance of the documents, thus forming groups or clusters of related documents, allowing document clustering of a IRS in an acceptable manner, presenting as a valid alternative to traditional clustering methods, being able to compare their experimental results with some traditional methods.
  
  The most relevant lexemes of each document, obtained by applying IR techniques, to enrich the information associated with documents in the collection and use them as metadata values for the evolutionary algorithm. Thus, the system works through a document processing method which selects the lexemes of documents using information retrieval criteria.
  
  The results prove the feasibility of building a large-scale application of this type in order to integrate it into a knowledge management system that needs to handle large controlled document collections .