Identificación y recuperación de corpus paralelos en la World Wide Web

María Eloísa Yráyzoz Díaz De Liaño

Ayuda

Identificación y recuperación de corpus paralelos en la World Wide Web

Autores: María Eloísa Yráyzoz Díaz De Liaño
Directores de la Tesis: Antonio Tomeu Hardasmal (dir. tes.)
Lectura: En la Universidad de Cádiz ( España ) en 2010
Idioma: español
Tribunal Calificador de la Tesis: Buenaventura Clares Rodríguez (presid.) , Ignacio Pérez Blanquer (secret.) , David Almorza Gomar (voc.) , Jorge Ramió Aguirre (voc.) , Francisco Manuel Solís Cabrera (voc.)
Texto completo no disponible (Saber más ...)
Resumen
- Esta Tesis Doctoral es el resultado del trabajo realizado sobre la Identificación y Recuperación de Corpus Paralelos en la web, Los Corpus Paralelos son básicos como herramientas de trabajo en muchos campos de investigación.
  
  Para el desarrollo de la tesis se han considerado dos líneas diferentes: La primera línea de trabajo abarca todo lo relacionado con la elección de las características que nos van permitir identificar textos paralelos, mientras que la segunda línea de trabajo desarrolla una herramienta que nos permitirá recuperar dichos textos paralelos en la web.
  
  En la tesis, en primer lugar se ha construido una gran base documental obtenida del Parlamento Europeo. La base documental ha estado formada por documentos escritos en cinco idiomas distintos.
  
  Esta base documental es la que se ha utilizado para extraer las características de los documentos que nos permitirán identificar textos paralelos. Las características extraídas de dichos textos se han obtenido trabajando sobre dos parámetros distintos: El primer parámetro ha consistido en obtener características estadísticas de los documentos. Estos estudios estadísticos se han realizado sobre las siguientes variables: Número de caracteres del título de cada documento, número de palabras del título de cada documento y por último extensión del documento medida en Kb. El segundo parámetro trabajado ha consistido en estudiar datos referentes a la sintaxis de los documentos.
  
  La segunda línea de nuestro trabajo consiste en desarrollar una herramienta para la Recuperación de Corpus Paralelos. Nuestro prototipo es una WebCrawler implementada en lenguaje Java donde incorporamos los distintos parámetros obtenidos en la Identificación de los textos paralelos. Esta herramienta nos va a permitir rechazar aquellos documentos que sean falsos candidatos a ser textos paralelos y seleccionar sólo los posibles textos paralelos.