Compresión y Consulta de Diccionarios de Texto en Grandes Colecciones de Datos

Nieves R. Brisaboa; Rodrigo Antonio Cánovas Barroso; Francisco Claude Faust; Miguel Á. Martínez Prieto; Gonzalo Navarro Badino

Ayuda

Compresión y Consulta de Diccionarios de Texto en Grandes Colecciones de Datos

Nieves R. Brisaboa ^[1] ; Rodrigo Cánovas ^[2] ; Francisco Claude ^[3] ; Rodrigo Cánovas ^[2] ; Gonzalo Navarro ^[2]
1. [1] Universidade da Coruña
  
  Universidade da Coruña
  
  A Coruña, España
2. [2] Universidad de Chile
  
  Universidad de Chile
  
  Santiago, Chile
3. [3] University of Waterloo
  
  University of Waterloo
  
  Canadá
Mostrar afiliaciones +
Localización: Actas de las Jornadas de Ingeniería del Software y Bases de Datos (JISBD´11), 2011, ISBN 978-84-9749-486-1, págs. 31-44
Idioma: español
Enlaces
- Texto completo (pdf)
Resumen
- Resumen La representación compacta de diccionarios de texto es un problema transversal a numerosas aplicaciones que manejan grandes colecciones de datos. Aún así, su resolución no ha sido tratada tradicionalmente ya que el tamaño de estos diccionarios apenas suponía una pequeña fracción del tamaño total de las colecciones utilizadas. El asentamiento de aplicaciones relacionadas con la Bioinformática, la búsqueda y minería en la Web o la consulta de grafos semánticos realza la necesidad de disponer de soluciones para la compresión de los grandes diccionarios que utilizan. Este trabajo presenta diferentes técnicas para la compresión de diccionarios de texto. Los resultados muestran que el espacio se puede reducir hasta el 20% del original, soportando la consulta en pocos microsegundos, mientras que tasas de compresión mejores (hasta el 10 %) elevan los tiempos hasta órdenes de cientos de microsegundos.