Ir al contenido

Documat


Resumen de Propuesta de modelado de una ontología de dominio para la representación de acciones en política-economía

María José Baños Moreno

  • español

    RESUMEN (ESPAÑOL) INTRODUCCIÓN: Buena parte de la información político-económica es difundida por los medios de comunicación social a través de noticias en formato digital. Sin embargo, dichos contenidos, y los de cualquier tipo en general, no tienen una estructura homogénea y se publican en grandes cantidades, lo que dificulta la extracción de conocimiento formalizado. Para resolver estos problemas a lo largo del tiempo se han desarrollado herramientas de organización y representación de la información. En los últimos años, en el marco de la web semántica aparecieron las ontologías, vocabularios que pueden mejorar la representación del contenido de documentos con un bajo nivel de estructuración, incorporando nuevos elementos a las herramientas tradicionalmente utilizadas. Ahora bien, el modelado de ontologías es complejo y requiere, entre otros, del uso de técnicas de procesamiento del lenguaje natural (indización automática) para dotar al vocabulario de elementos para la descripción de contenidos.

    OBJETIVOS E HIPÓTESIS: En este sentido, se plantea como objetivo general el modelado de una ontología con la que contribuir a la representación de acciones del dominio político-económico y facilitar la comprensión de los acontecimientos del mundo real en dicho contexto. Se propone la hipótesis de si el empleo de noticias de prensa digital como fuente para la adquisición de conocimiento y la aplicación de técnicas de indización humana y semiautomática para la extracción de términos son adecuados para el modelado de la ontología propuesta.

    METODOLOGÍA: Para ello, se sigue una metodología que comprende la configuración de una muestra de noticias del dominio político-económico de diarios generalistas de ámbito internacional; el análisis de la teoría de la Gramática de Casos aplicado al modelado de una ontología general para la descripción de acciones (ONA); la indización humana y semiautomática de una submuestra de noticias para la modificación de ONA y el modelado inicial de la ontología de dominio ONAPE (ONtología de Acciones en Política-Economía); y el mapeado inicial con otros vocabularios, orientado a la identificación de elementos equivalentes y a la definición de clases y propiedades. ONAPE es evaluada a partir de la instanciación de las palabras clave extraídas del código fuente de noticias de una submuestra con un software desarrollado ad hoc, MetadadosHTML y la anotación semántica de un recorte de esta submuestra. Finalmente, se analiza la adecuación de ONAPE (y de ONA) al dominio objeto de estudio, mediante la aplicación de fórmulas de precisión, exhaustividad y medida-F. En todos los casos se obtienen valores superiores a 0.90, lo que asegura la corrección y especificación de los elementos de la ontología modelada.

    CONCLUSIONES: La metodología utilizada se ha revelado útil para el propósito definido la metodología empleada. Por tanto, la hipótesis se cumple, es posible modelar una ontología de dominio con base en un componente teórico asentado, la Gramática de Casos y se atiende el objetivo planteado. Sin embargo, para que ONA y ONAPE sigan siendo útiles es necesaria su actualización por medio del análisis de nuevos corpora de noticias. En lo referente a MetadadosHTML, se pone en evidencia la dificultad del intercambio de información entre sistemas, ya que, aunque existen numerosos esquemas de metadatos para la descripción de noticias, ninguno es un estándar claro. Como trabajos futuros se plantean, entre otros: el uso de ONA u ONAPE en proyectos orientados al aprendizaje automático de software para la descripción automática de documentos y la especialización de ONAPE en subdominios concretos.

  • English

    ? ABSTRACT (ENGLISH) INTRODUCTION: A huge amount of political-economical information is disseminated through digital social media by pieces of news. However, these contents and, in general terms, any type of information do not have a homogeneous structure and are published in large amounts. This makes the extraction of formal knowledge difficult. In order to resolve the problems generated by these issues, knowledge organisation and representation tools have been created. The semantic web and specifically the ontologies can improve the representation of the content in documents with a low level of structuring, by adding new elements to the tools traditionally used. But the ontologies-modelling is complex and requires the use of natural language processing techniques -automatic indexation-. In this way, a designed methodology can provide the vocabulary with elements that can describe contents.

    AIMS AND HYPOTHESIS: In this sense, the general aim of this thesis is modelling an ontology that can contribute to the representation of actions in the political-economical domain and can facilitate the understanding of the real world facts in this context. The hypothesis is if digital press pieces of news, used as a source of knowledge acquisition, and the application of both human indexation and semi-automatic indexation techniques -for extraction of terms- are adequate for modelling the proposed ontology.

    METHODOLOGY: For this purpose, a methodology has been defined and comprises the following steps: a sample and subsample construction composed of pieces of news of the political-economical domain. This is based in a selection of digital international newspapers; the Grammar Case analysis and its application to the modelling of a general ontology for the description of actions (ONA); both human indexing and semi-automatic indexing to the subsample1 in order to modify ONA and to model a domain ontology for the description of political-economical actions (ONAPE); and the initial mapping with some vocabularies, in order to identify equivalent elements and define classes and properties. ONAPE (and ONA) are evaluated by instantiating ONAPE with some keywords (extracted from source codes of the subsample2 with MetadadosHTML) and by the semantic annotation of a cut of this subsample. Finally, the adaptation of ONAPE (and thus of ONA) to the studied domain is analysed by the application of both accuracy and recall equations. In all cases higher than 0.9 values are obtained. This ensures the correctness and specification of the elements of the modelled ontology.

    CONCLUSIONS: The designed methodology has proved profitable for the purpose of this thesis. With the Grammar Case as its main theoretical component, the methodology can be used for the modelling of others domain ontologies. However, for these tools remaining useful they need to be updated by analysing new corpora. In relation to MetadadosHTML, there is evidence of the difficulty of the information interchange. This has to do with the fact that there are numerous metadata schemas for the description of pieces of news, but none of them has become a standard. Finally, future works are proposed, such as the use of both ONA and ONAPE in projects focused on the automatic learning software for the automatic description of documents and the specialization of ONAPE in specific subdomains.


Fundación Dialnet

Mi Documat