Sistemas de clasificación de preguntas basados en corpus para la búsqueda de respuestas

David Tomás Díaz

Ayuda

Sistemas de clasificación de preguntas basados en corpus para la búsqueda de respuestas

Autores: David Tomás Díaz
Directores de la Tesis: José-Luis Vicedo González (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2009
Idioma: español
Títulos paralelos:
- Corpus-based question classification in question answering systems
Tribunal Calificador de la Tesis: Manuel Palomar Sanz (presid.) , Patricio Martínez Barco (secret.) , Horacio Rodríguez Hontoria (voc.) , Paolo Rosso (voc.) , Günter Neumann (voc.)
Enlaces
- Tesis en acceso abierto en: RUA
Resumen
- español
  ¿Quién fue el primer rey de Inglaterra? ¿Qué efecto tiene un prisma sobre la luz? ¿Dónde puedo comer pizza esta noche? Infinidad de preguntas surgen a diario y no siempre encontramos quien nos dé contestación, Los sistemas de búsqueda de respuestas surgen con la intención de satisfacer las necesidades de información de los usuarios, escudriñando para ello enormes cantidades de documentación digital. Estos sistemas han cobrado especial relevancia a raíz de la explosión documental producida en los últimos años en Internet. La sobreabundancia de información presente en la red, en lugar de fomentar un mayor conocimiento, consigue en ocasiones todo lo contrario: tenemos acceso a datos y más datos, pero sin ningún criterio. En este gigantesco universo de información digital hecho a la medida de las capacidades de cómputo masivo de los ordenadores, ya no existe catalogador o documentalista humanos que nos pueda ayudar en nuestras búsquedas.
  
  Un primer paso para contestar a una pregunta es identificar su significado. ¿Por qué se nos está preguntando? ¿Por un nombre de persona? ¿Una descripción? ¿Un lugar? ¿Es una pregunta fácil o difícil? ¿Espera una respuesta corta o una larga explicación? Lo que para un humano puede resultar intuitivo, para un sistema automático supone todo un reto determinar la clase semántica de una pregunta, debiendo afrontar los problemas de la variación y la ambigüedad inherentes al lenguaje humano. Los sistemas de clasificación de preguntas son un componente básico en la tarea de búsqueda de respuestas. Su objetivo es asignar de forma automática una clase semántica a una pregunta formulada por el usuario. Esta información se emplea para acotar las posibles respuestas válidas, descartando todas aquellas que no se ajusten a la clase semántica detectada.
  
  Esta tesis se centra en el desarrollo de sistemas automáticos de clasificación de preguntas fácilmente adaptables a diferentes idiomas y dominios de trabajo. Basamos nuestros desarrollos en técnicas de aprendizaje automático sobre corpus, siguiendo un enfoque estadístico del tatamiento del lenguaje humano. De esta manera evitamos la necesidad de conocimiento humano para construir estos sistemas, así como la dependencia de herramientas y recursos lingüísticos más allá de los propios corpus de aprendizaje, obteniendo sistemas que destacan por su flexibilidad y sus escasos requerimientos.
- English
  This thesis is focused on the development of question classification systems that are easily adaptable to different languages and domains. These systems are based on machine learning techniques and corpus, following a statistical approach to human language. The goal is to almost avoiding the need for linguistic tools and resources, obtaining flexible systems with few requirements.