Esta tesis se centra en la adquisición de conocimiento relacional mediante el procesado automático de texto en lenguaje natural y el problema de establecer la validez temporal de las relaciones factuales extraídas. Recopilar conocimiento relacional y temporal a partir de grandes colecciones de documentos es un reto investigativo complejo y abierto. Es también un paso hacia el gran objetivo de la comprensión del mundo a través de cómo se describe en lenguaje natural. Esta tesis presenta una investigación acerca del análisis, diseño, implementación y evaluación de sistemas de adquisición de relaciones, y de anclaje de éstas a una referencia de validez temporal, a partir de un corpus de lenguaje natural. Exploro el uso de vastos recursos de información para el entrenamiento, desarrollo y evaluación de sistemas de extracción de relaciones temporalmente ancladas. Hechos anotados temporalmente pueden ser recolectados a partir tanto de fuentes semi-estructuradas como de bases de conocimiento estructuradas, y empleados para entrenar algoritmos de aprendizaje automático. El paradigma conocido como supervisión distante permite utilizar corpus textuales de gran escala para entrenar extractores de relaciones, pero presenta algunas limitaciones. En este trabajo, propongo un modelo probabilístico que reduce la necesidad de aplicar heurísticas o decisiones manuales. Con el objetivo de establecer la validez temporal de un hecho, presento métodos para capturar evidencia temporal a partir de textos en lenguaje natural, sin estructura. Múltiples evidencias son agregadas, conectando relaciones e información temporal, a lo largo del corpus. Los métodos propuestos han sido implementados como componentes en sistemas de Extracción de Información completos, y evaluados comparativamente, promoviendo la reproducibilidad de los resultados. Los métodos propuestos cubren diferentes aspectos del problema, y juntos conforman una amplia visión de los retos y oportunidades que plantea la tarea. Fuentes de datos semi-estructurados pueden ser explotadas en la obtención de relaciones temporalmente ancladas. La necesidad de heurísticas en supervisión distante puede reducirse mediante el uso de un modelo de tópicos jerárquico, capaz de decidir qué patrones léxicos y sintácticos son útiles para extraer relaciones con buena precisión. He diseñado una metodología operacional para el anclaje temporal de conocimiento relacional. He analizado el efecto en esta tarea del usual diseño en serie de los sistemas de Extracción de Información, mostrando cómo la propagación de errores limita la eficacia global del sistema. Finalmente, he estudiado el efecto de la contextualización temporal de menciones de relaciones, y cómo conectar relaciones a su contexto, mostrando la importancia de la fecha de creación de los documentos como señal temporal.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados