Juan Manuel Rodríguez
Los métodos existentes de extracción de conocimiento para la Web (Open Information Extraction) tienen una precisión y una exhaustividad considerablemente baja, de alrededor del 60% y si bien tienen un gran potencial en cuanto a su aplicabilidad, es necesario mejorar su desempeño. Existen además otros problemas abiertos que están siendo abordados por varios autores como por ejemplo: la extracción de relaciones semánticas no informativas, la extracción de información subjetiva y el soporte para idiomas distintos del inglés.
El principal aporte de esta tesis consiste en la publicación de 3 métodos novedosos de extracción de conocimiento para la Web, uno para idioma inglés: ATP-OIE y dos para idioma español: TP-OIE-ES y ECMes. Así mismo, se propone un marco de referencia único para la evaluación de los métodos, esto es la construcción de un conjunto de pruebas y una definición precisa de las métricas a utilizar y de cómo implementarlas.
ATP-OIE es un algoritmo autónomo, capaz de aprender de ejemplos y capaz de aprender nuevos patrones de extracción mientras se está ejecutando de forma productiva. Por su parte, TP-OIE-ES replica el comportamiento de ATP-OIE para idioma español, con la salvedad de que no es capaz de aprender nuevos patrones mientras se ejecuta de forma productiva. Por último, ECMes es una versión reentrenada de TP-OIE-ES con otras mejoras adicionales. ECMes ha obtenido un mejor desempeño en idioma español, en los conjuntos evaluados, que otros métodos similares en el estado del arte.
Existing Open Information Extraction methods have considerably low precision and recall, around 60%, and although they have great potential to be used in applications, their performance needs to be improved. There are also other open problems that are being addressed by different authors such as: the extraction of noninformative semantic relationships, the extraction of subjective information and the support for languages other than English.
The main contribution of this thesis consists in the publication of 3 new methods of Open Information Extraction, one for the English language: ATP-OIE and two for the Spanish language: TP-OIE-ES and ECMes. Also a reference framework is proposed for the evaluation of the methods, that is, the construction of a test dataset and a precise definition of the metrics to be used and how to implement them.
ATP-OIE is an autonomous algorithm, able to learn from examples and able to learn new extraction patterns while running productively. TP-OIE-ES replicates the behavior of ATP-OIE for the Spanish language, with the exception that it is not capable of learning new patterns while it runs productively. Finally ECMes is a retrained version of TP-OIE-ES with additional improvements. ECMes got a better performance in Spanish language, in the evaluated datasets, than other similar methods in the state of the art.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados