Ir al contenido

Documat


Resumen de Integration and disambiguation techniques for semantic heterogeneity reduction on the web

Jorge Gracia del Río Árbol académico

  • El principal objetivo de esta tesis es abordar los problemas causados por la heterogeneidad semántica que, de manera natural, se dan en la Web. Dichos problemas son: redundancia (o exceso de descripciones semánticas disponibles para representar el mismo significado) y ambigüedad (o existencia de muchos posibles significados asociados a la misma palabra). Abordando dichos problemas, presentamos una aproximación para descubrir y representar, de manera no redundante, el significado intencionado de las palabras en aplicaciones web, teniendo en cuenta el contexto en que dichas palabras aparecen. Nos hemos centrado en contextos desestructurados, compuestos de grupos de palabras no unidas por frases bien formadas. Nuestro trabajo puede ayudar a superar el salto entre sintaxis y semántica que es necesario salvar en la construcción de la Web Semántica.

    La aproximación presentada en esta tesis, que involucra novedosas técnicas de mapeo entre ontologías ("ontology matching"), agrupamiento ("clustering") y desambiguación, está profundamente enraizada en la habilidad de medir numéricamente el grado de las relaciones semánticas entre entidades, lo que ha motivado nuestra investigación en medidas semánticas para su uso en la Web Semántica. Las técnicas que proponemos en esta tesis han sido ampliamente aplicadas tanto como aplicaciones independientes (como es el caso de nuestras herramientas de alineamiento entre ontologías y de desambiguación) así como dando soporte a otras aplicaciones semánticas externas. Nuestra investigación está en la misma línea que una nueva generación de aplicaciones inteligentes que utilizan la Web Semántica como fuente de conocimiento.

    Las principales contribuciones pueden resumirse como sigue: - En esta tesis, hemos definido medidas adecuadas para calcular numéricamente el grado de similitud y relación ("relatedness") semánticas entre diferentes entidades (términos ontológicos, palabras, ...). Dichas medidas adaptan ideas de otros trabajos, si bien aportando interesantes innovaciones, como el uso de la Web como corpus en el cálculo de medidas de "relatedness".

    - Hemos ideado diferentes sistemas de mapeo entre ontologías basados en nuestro método de computar similitudes semánticas; así como técnicas para mejorar otros sistemas ya existentes de mapeo entre ontologías.

    - Mediante la reutilización de dichas técnicas de mapeo entre ontologías, proponemos en esta tesis un método de agrupamiento de sentidos que reduce el problema de redundancia semántica anteriormente mencionado. Nuestro método agrupa los términos ontológicos que uno puede encontrar en la Web Semántica, de acuerdo al significado que quieren representar, creando un conjunto de términos inter-ontológicos con significados similares - Finalmente, se propone un método de desambiguación de sentidos que afronta el problema de la ambigüedad semántica. Está ideado para ser usado en contextos desestructurados, como etiquetas de folksonomías, palabras clave de consultas en buscadores, etc. en lugar de en textos y frases bien formados. Nuestro método hace uso de cualquier colección de ontologías como fuente de sentidos de palabras, usando en particular ontologías online de la Web Semántica.

    El uso combinado de todas esas técnicas permite procesar cualquier palabra en la Web cuyo significado necesitemos descubrir (por ejemplo, para propósitos de anotación semántica, enriquecimiento de tags en folksonomías, etc.), devolviendo el conjunto de sus posibles significados expresados como términos ontológicos concisos, e indicando cuál de ellos es el más probable. La validez de nuestra aproximación ha sido respaldada por una serie de experimentos, utilizando pruebas de referencia cuando estaban disponibles o, en caso contrario, ideando casos de prueba adecuados. Todos nuestros resultados experimentales apuntan la viabilidad de nuestras técnicas y su uso potencial para superar las limitaciones que impone la heterogeneidad inherente a la actual Web Semántica.


Fundación Dialnet

Mi Documat