Ir al contenido

Documat


Resumen de Procedimiento semi-automático para transformar la web en web semántica

Luis Criado Fernández

  • español

    El concepto de Web Semántica exige una representación formal de la información de acuerdo a ontologías de referencia que doten a la Web de semántica para los sistemas informáticos. Hay un acuerdo generalizado de que esto se haga a través de lenguajes estándar de etiquetado. Pero también exige que haya suficientes anotaciones semánticas de este tipo, es necesaria una cierta "masa crítica" para que tenga sentido global en la Web. Y esto no se ha conseguido fundamentalmente por la complejidad que plantea realizar la anotación de forma manual. Sólo cuando se tenga la facilidad de generar suficientes anotaciones semánticas, ya sea de forma automática o semi-automática, se podrá extender la semántica en los contenidos de la Web. A partir de esta situación ya se podrán desarrollar aplicaciones que aprovechen o saquen partido de esa semántica, las aplicaciones semánticas. Y hacia este problema se orienta, ya más particularmente, nuestra investigación.

    Así, la principal aportación específica de esta tesis es la propuesta de un procedimiento para contribuir en la extensión de la población de ontologías, que facilita a un usuario activo el etiquetado semántico de la información que gestiona, y que ya ha descrito en texto en su página HTML, de acuerdo a la ontología u ontologías que el sistema ha identificado como más afines a sus contenidos. En nuestro trabajo se tiene muy en cuenta esta última posibilidad, el contenido a etiquetar puede hacer referencia a diferentes temas o puede interpretarse desde diferentes puntos de vista, lo que en este trabajo denominaremos generar diferentes "vistas semánticas".

    Pero además un sitio web semántico debe ser compatible con la Web actual, es decir, el proceso de anotación no debe afectar al funcionamiento actual de cualquier buscador. En consecuencia, al transformar un sitio web en un sitio web semántico se obtendrá funcionalidades semánticas que podrán ser explotadas por un buscador semántico, pero cuando sea tratado por un buscador ordinario existirá compatibilidad total y el buscador ordinario lo tratará como si fuera un sitio web más. También en esta tesis se ha tenido en cuenta esta exigencia, las vistas semánticas se mantienen diferenciadas de la página HTML, accesibles pero sin afectar a los buscadores habituales.

    Hemos definido unas etapas de transformación que deben realizarse de forma secuencial. La primera que denominamos identificación permite asociar la ontología u ontologías que están más cercanas al contenido de la página web. Esta selección de ontologías es fundamental para que en la etapa siguiente, que denominamos extracción, se procese el texto a nivel morfológico y sintáctico. Finalmente, la última etapa que hemos denominado interpretación se encarga de la anotación semántica. La anotación se hace en nuestro estudio en OWL DL por ser el lenguaje estándar para la descripción de semántica en la Web y permitir las inferencias propias de la lógica descriptiva SROID(D) en el que se sustenta.

    En el desarrollo, la metodología empleada se ha basado en simplificar la problemática sin perder la categoría conceptual para poder abarcar todo el ámbito de la propuesta, compuesta por una secuencia de procesos que se desarrollan a lo largo de la tesis. Es decir, se ha planteado un escenario simplificado que recrea los elementos fundamentales de la Web actual para proponer una estrategia de migración o transformación hacia la Web Semántica. Las conclusiones alcanzadas son el resultado de un proceso de autocorrección experimental. Hemos implementado por completo la propuesta de esta tesis que puede ser verificada por cualquier investigador siguiendo las indicaciones del anexo de la tesis.

    Para realizar esta transformación o migración, se ha implementado una herramienta prototipo (sw2sws) que automatiza las tres etapas que hemos presentado. Se ha probado sobre sitios webs reales. Nuestra herramienta prototipo automatiza el proceso de anotación con las ontologías usadas en la tesis, pero es fácilmente adaptable para soportar otras. Además nuestro enfoque acepta la posibilidad de intervención del usuario (proceso semiautomático) que complete o mejore cualquiera de las fases del proceso global.

    La calidad de la anotación obtenida depende de varios factores; como son la propia calidad de la ontología con respecto a la que anota (afinidad, precisión, estandarización, completitud, etc), la claridad del contenido y la capacidad de extracción y análisis, condicionada, en gran medida, al procesado de lenguaje natural (PLN). Esta tesis no pretende resolver el problema del PLN para la anotación; no obstante, para probar el proceso, hemos realizado un pequeño módulo de PLN que permite mostrar la viabilidad para usuarios activos, usuarios que participan en los contenidos y que son inexpertos en las técnicas de la Web Semántica.

    Alcanzado el objetivo principal, para mostrar cómo explotar esta información que ya tiene semántica y cerrar todo la secuencia del proceso, nos hemos visto en la necesidad de diseñar e implementar un prototipo propio de buscador semántico, al que hemos denominado Vissem, capaz de interpretar preguntas en lenguaje natural y efectuar las búsquedas correspondientes sobre las instancias de los sitio web semánticos que hemos generado.

  • English

    The concept of Semantic Web requires a formal representation of information according to reference ontologies that equip the Web with semantics for computer systems. There is a widespread agreement that this is done by standard labeling languages. But it also requires that there be enough semantic annotations of this kind, a certain "critical mass" is necessary so it can have a global meaning on the Web. And this has not been achieved primarily because of the complexity that arises by performing the annotation manually. Only when we have the ability to generate enough semantic annotations, either automatically or semi-automatically, the semantics can be extended in the contents of the Web. From this situation it will be already possible to develop applications that benefit from or take advantage of those semantics, the semantic applications. And our research is focused, more particularly towards this problem.

    Thereby, the main specific contribution of this thesis is the proposal of a procedure to assist in extending the population of ontologies, which makes easier for an active user the semantic labeling of the information it manages, and that has been already described in text on the HTML page, according to the ontology or ontologies that the system has identified as most relevant to its contents. In our work, this latter possibility is very taken into account; the content to be labeled can refer to different topics or can be interpreted from different points of view, what we call in this work generating different "semantic views." But also, a semantic web site should be compatible with the current web, i.e. the annotation process should not affect the present operation of any search engine. Thus, when transforming a website into a semantic website, semantic features will be obtained that may be exploited by a semantic search engine, but when it is treated by a regular browser there will be full compatibility and the regular search engine will treat it just as another website. Also, in this thesis, this requirement has been taken into account, the semantic views are kept distinct from the HTML page, accessible but without affecting the regular search engines.

    We have defined some transformation stages that must be carried out sequentially. The first one, that we call identification allows associating the ontology or ontologies that are closer to the content of the web page. This selection of ontologies is crucial so in the next stage, that we call extraction, text is processed at morphological and syntactic level. Finally, the last stage, that we have called interpretation is responsible for semantic annotation. The annotation is done in our study in OWL DL as it is the standard language for describing semantics in the Web and it allows the inferences typical of the descriptive logic SROID (D) in which it is based.

    In the development, the used methodology is based on simplifying the problem without losing the conceptual category to encompass the full scope of the proposal, consisting of a sequence of processes taking place throughout the thesis. That is, it has posed a simplified scenario that recreates the key elements of the current Web to propose a migration strategy or transformation towards the Semantic Web. The conclusions reached are the result of an experimental self-correction process. We have fully implemented the proposal of this thesis that can be verified by any researcher following the guidelines in the annex of the thesis.

    To perform this transformation or migration, we have implemented a prototype tool (sw2sws) that automates the three stages we have presented. It has been tested on real websites. Our prototype tool automates the process of annotation with ontologies used in the thesis, but is easily adaptable to support others. Furthermore, our approach accepts the possibility of user intervention (semi-automatic process) to complete or improve any stage of the overall process.

    The quality of the annotation obtained depends on several factors, such as the very quality of the ontology with respect to the one that annotates (affinity, accuracy, standardization, completeness, etc.), the clarity of contents and the ability of extraction and analysis, conditioned, to a large extent, to natural language processing (NLP). This thesis is not intended to solve the problem of NLP for the annotation; however, to test the process, we have made a small NLP module that allows showing the feasibility for active users, users that participate in the contents and are inexperienced in the techniques of Semantic Web.

    Once the main objective has been achieved, to show how to exploit this information that already has semantics and close all the sequence of the process, we have seen the need to design and implement an own prototype of semantic search engine, which we have called Vissem, able to interpret questions in natural language and carry out corresponding searches on instances of the semantic websites we have created.


Fundación Dialnet

Mi Documat