¿Quién fue el primer rey de Inglaterra? ¿Qué efecto tiene un prisma sobre la luz? ¿Dónde puedo comer pizza esta noche? Infinidad de preguntas surgen a diario y no siempre encontramos quien nos dé contestación, Los sistemas de búsqueda de respuestas surgen con la intención de satisfacer las necesidades de información de los usuarios, escudriñando para ello enormes cantidades de documentación digital. Estos sistemas han cobrado especial relevancia a raíz de la explosión documental producida en los últimos años en Internet. La sobreabundancia de información presente en la red, en lugar de fomentar un mayor conocimiento, consigue en ocasiones todo lo contrario: tenemos acceso a datos y más datos, pero sin ningún criterio. En este gigantesco universo de información digital hecho a la medida de las capacidades de cómputo masivo de los ordenadores, ya no existe catalogador o documentalista humanos que nos pueda ayudar en nuestras búsquedas.
Un primer paso para contestar a una pregunta es identificar su significado. ¿Por qué se nos está preguntando? ¿Por un nombre de persona? ¿Una descripción? ¿Un lugar? ¿Es una pregunta fácil o difícil? ¿Espera una respuesta corta o una larga explicación? Lo que para un humano puede resultar intuitivo, para un sistema automático supone todo un reto determinar la clase semántica de una pregunta, debiendo afrontar los problemas de la variación y la ambigüedad inherentes al lenguaje humano. Los sistemas de clasificación de preguntas son un componente básico en la tarea de búsqueda de respuestas. Su objetivo es asignar de forma automática una clase semántica a una pregunta formulada por el usuario. Esta información se emplea para acotar las posibles respuestas válidas, descartando todas aquellas que no se ajusten a la clase semántica detectada.
Esta tesis se centra en el desarrollo de sistemas automáticos de clasificación de preguntas fácilmente adaptables a diferentes idiomas y dominios de trabajo. Basamos nuestros desarrollos en técnicas de aprendizaje automático sobre corpus, siguiendo un enfoque estadístico del tatamiento del lenguaje humano. De esta manera evitamos la necesidad de conocimiento humano para construir estos sistemas, así como la dependencia de herramientas y recursos lingüísticos más allá de los propios corpus de aprendizaje, obteniendo sistemas que destacan por su flexibilidad y sus escasos requerimientos.
This thesis is focused on the development of question classification systems that are easily adaptable to different languages and domains. These systems are based on machine learning techniques and corpus, following a statistical approach to human language. The goal is to almost avoiding the need for linguistic tools and resources, obtaining flexible systems with few requirements.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados