Fusión de modelos vectoriales y contextuales para la recuperación de información

Billhardt, Holger (2003). Fusión de modelos vectoriales y contextuales para la recuperación de información. Tesis (Doctoral), Facultad de Informática (UPM) [antigua denominación]. https://doi.org/10.20868/UPM.thesis.218.

Descripción

Título: Fusión de modelos vectoriales y contextuales para la recuperación de información
Autor/es:
  • Billhardt, Holger
Director/es:
Tipo de Documento: Tesis (Doctoral)
Fecha de lectura: 2003
Materias:
Escuela: Facultad de Informática (UPM) [antigua denominación]
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of 10200302.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (11MB) | Vista Previa

Resumen

El creciente volumen de documentos almacenados en ordenadores en formato electrónico promete un cambio importante en la forma de buscar cualquier tipo de información. Este cambio ya se está produciendo, en parte debido a Internet, pero también por la existencia de cada vez más sistemas cuyo fin es proporcionar información de diferentes tipos y que se utilizan de forma creciente en prácticamente todas las esferas de la vida diaria. La "sociedad de la información" presenta nuevas posibilidades, pero también nuevos retos para la informática. Es necesario superar las dificultades relacionadas con la búsqueda de información relevante sobre cualquier tema, sea la fuente Internet u otro "almacén electrónico" y, sea ésta textual, multimedia o de cualquier otro tipo. La presente tesis tiene por objetivo contribuir a superar estas dificultades y para ello analiza nuevos métodos para la recuperación de documentos de texto. En la primera parte se presenta un nuevo modelo para la recuperación de información textual: el Modelo de Vectores de Contexto (MVC). Este modelo utiliza una representación semánticamente enriquecida de los documentos y preguntas y, por tanto, la estimación de la relevancia de un documento para una pregunta se basa en una comparación de los contenidos conceptuales de estas entidades. El modelo es evaluado mediante una serie de experimentos con cuatro colecciones de prueba (MEDLARS, CRANFIELD, CISI y CACM) en los que se comparan los resultados de distintas variantes del MVC con el Modelo Vectorial (MV) clásico. No obstante, una de las principales conclusiones de los experimentos es que, aunque existen variantes del MVC que incrementan la efectividad respecto al MV de forma estadísticamente significativa en las cuatro colecciones, en cada colección hay otra variante que logra los mejores resultados. La segunda parte de esta tesis examina el comportamiento de estrategias de recuperación que combinan o fusionan variantes (expertos) del MVC y del modelo vectorial clásico. Un problema común de los métodos de fusión de expertos de recuperación es la selección, tanto de los expertos a combinar, como de la función de combinación. En la mayoría de los estudios, los expertos son "fijos" o preseleccionados mediante algunas heurísticas. Ello implica que sólo se considera un número reducido de posibles combinaciones. En este trabajo, se presenta un método que utiliza algoritmos genéticos para encontrar, de forma automática, una estrategia que sea apropiada para un determinado entorno de recuperación. El método se evalúa mediante experimentos con las cuatro colecciones de prueba citadas anteriormente. Las conclusiones principales son las siguientes: 1.- Una combinación de expertos puede ser más efectiva que los métodos individuales. 2.- La adaptación de las estrategias de recuperación a cada colección es mejor que el uso de estrategias "fijas". 3.- Los algoritmos genéticos son apropiados para el encontrar estrategias de recuperación (sub)óptimas.

Más información

ID de Registro: 218
Identificador DC: https://oa.upm.es/218/
Identificador OAI: oai:oa.upm.es:218
Identificador DOI: 10.20868/UPM.thesis.218
Depositado por: Archivo Digital UPM
Depositado el: 12 Jun 2008
Ultima Modificación: 10 Oct 2022 09:18
  • Logo InvestigaM (UPM)
  • Logo Sherpa/Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo del Portal Científico UPM
  • Logo de REBIUN Sexenios Logo de la ANECA
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo de Recolecta
  • Logo de OpenCourseWare UPM