Ir al contenido

Documat


Resumen de Uso de técnicas de minería de datos para el control de autoridades automatizado

Irene Díaz

  • Esta tesis, titulada "Uso de técnicas de Minería de datos para el Control de Autoridades automatizado" has sido realizada por D~na Irene Díaz Valenzuela y dirigida por las Doctoras María José Martín Bautista y María Amparo Vila Miranda. En ella se aborda el problema de la automatización de dicho proceso en Bibliotecas Digitales. Este problema puede definirse como el proceso de reconocer diferentes representaciones del mismo concepto dentro de los registros de una biblioteca.

    El control de autoridades puede aplicarse a distintos tipos de datos asociados a un registro, como los lugares de publicación o las series. Para esta tesis, nos vamos a centrar únicamente en el Control de Autoridades de Nombres. Este caso concreto puede definirse como la detección de las distintas representaciones para el nombre de un autor.

    Motivación: El Control de Autoridades Tradicionalmente, el control de autoridades se ha venido realizando por los bibliotecarios, dado que son los encargados de las bibliotecas y conocen los registros que allí se encuentran. Sin embargo, conforme aumenta el número de registros almacenados en una biblioteca, este proceso puede volverse muy complejo y tedioso.

    En los últimos tiempos, como complemento a las bibliotecas tradicionales, se ha popularizado el uso de Bibliotecas Digitales. Este tipo de servicios pueden definirse como sitios web que contienen registros similares a los de una biblioteca, tales como libros, audio, vídeos, publicaciones científicas, etc. En esta tesis abordaremos la Automatización del Control de Autoridades en Bibliotecas Digitales, centrándonos en aquellas dedicadas a publicaciones científicas, tales como CiteSeerX, DBLP, o INSPEC. Comúnmente, estas bibliotecas proporcionan además de las publicaciones, su información relacionada y servicios de búsqueda que permiten la consulta de los registros contenidos en ellas.

    Realizar un buen proceso de control de autoridades no es una tarea sencilla, especialmente en bibliotecas digitales donde no suele haber un bibliotecario encargado. Por ese motivo, el uso de sus servicios de búsqueda puede resultar muy complejo, especialmente si se trata de encontrar todas las publicaciones asociadas a un autor concreto. Dado que no existe uniformidad en los nombres, realizar una búsqueda usando este campo sólo devolverá aquellos resultados que encajen con el término buscado. Por ejemplo, si se desean encontrar las publicaciones de un investigador llamado José García, buscando esa cadena, aquellas publicaciones que aparezcan bajo J. García, o cualquier otra representación de su nombre, no serán devueltas por la búsqueda. Además, si hay más de un autor llamado así, los registros aparecer án mezclados, siendo muy difícil distinguir entre ellos.

    Para paliar este tipo de problemas, proponemos automatizar el proceso de Control de Autoridades usando técnicas de Minería de Datos y que éste pueda ser aplicado a bibliotecas digitales de publicaciones científicas mediante un sistema automático capaz de agrupar las distintas publicaciones correspondientes a un mismo autor. Para ello, nos hemos basado en técnicas de agrupamiento (clustering) enfocando el problema como un proceso de "resolución de entidades". Este problema puede verse como una generalización del control de autoridades y definirse como tal la identificación de las distintas representaciones que una entidad pueda presentar en un conjunto de textos. Si se considera que un autor es una entidad, la identificación de sus posibles firmas puede verse como un caso concreto de resolución de entidades.

    Como posible solución a este problema, proponemos un modelo teórico genérico de resolución de entidades, el cual, aplicado a nuestro problema, nos proporciona un marco de representación que nos permite expresarlo desde una perspectiva de Agrupamiento. Debido a que cuándo se realiza una búsqueda por autor en una biblioteca digital se desconoce el número de autores al que corresponden, proponemos el uso de técnicas de agrupamiento jerárquico.

    Para comprobar la calidad de las autoridades obtenidas se requiere de conocimiento experto. Sin embargo, la información proporcionada por este experto parecía demasiado útil como para ser utilizada únicamente en la validación. Esto nos llevó a la idea del uso del Agrupamiento Semisupervisado.

    Un nuevo enfoque de Agrupamiento Semisupervisado Difuso El Agrupamiento Semi-supervisado es un tipo de técnica de Minería de Datos que se encuentra a medio camino entre las técnicas de agrupamiento supervisado y no supervisado. Este tipo de técnicas están basadas en la inclusión de una peque~na porción de información externa en el proceso de agrupamiento, la cual siempre será menor que la requerida para el agrupamiento supervisado. Dentro de los distintos tipos de técnicas de agrupamiento semi-supervisado, son de especial interés las llamadas restricciones a nivel de instancia. Estas técnicas introducen información externa en el agrupamiento indicando si algunos pares de instancias están o no en el mismo grupo. Dentro de estas restricciones se distinguen dos tipos: must-link (puede agruparse) y cannot-link (no puede agruparse) que indican si dos instancias dentro del proceso de agrupamiento deben o no aparecer en el mismo grupo.

    Por tanto, proponemos el uso de restricciones a nivel de instancia dentro de un proceso de agrupamiento jerárquico. Para ello presentamos el algoritmo Crisp Hierarchical Semi-Supervised, Crisp HSS, el cual aplica este tipo de restricciones de forma distinta a como se venía utilizando tradicionalmente. Crisp HSS parte de un método de agrupamiento jerárquico y utiliza las restricciones para encontrar el número de grupos óptimo que puede encontrarse en la salida de dicho método. Sin embargo, para determinados problemas, puede resultar difícil encontrar un experto que disponga del conocimiento suficiente para proporcionar restricciones a nivel de instancia nítidas, las cuales indican de forma cierta si dos elementos están o no en el mismo grupo. Es por esto que proponemos relajar esta restricción mediante el uso de restricciones a nivel de instancia difusas. A diferencia de las restricciones nítidas, estas restricciones difusas le dan al experto la flexibilidad de indicar un grado de creencia en la información que está proporcionando. Dentro de este tipo de restricciones proponemos dos tipos: fuzzy must-link (puede agruparse difuso) y fuzzy cannot-link (no puede agruparse difuso). Usando este nuevo tipo de restricciones, proponemos el algoritmo Fuzzy Hierarchical Semi-supervised, Fuzzy HSS, el cual encuentra el número de grupos óptimo dentro de un proceso de agrupamiento jerárquico usando restricciones difusas.

    Observando las propiedades de la restricciones a nivel de instancia difusas, descubrimos que es posible determinar la cantidad de información adicional que será necesaria en el proceso de agrupamiento. Esto es posible mediante el estudio de su entropía difusa y proponemos un método para determinar dicha cantidad. Los algoritmos Crisp HSS y Fuzzy HSS han sido probados experimentalmente tanto en problemas de propósito general como dentro del control de autoridades.

    Generación automática de restricciones a nivel de instancia Como extensión a los algoritmos de agrupamiento semi-supervisado propuestos en esta tesis proponemos una metodología de generación de restricciones a nivel de instancia. Para ello, estudiamos la naturaleza de los datos usando un proceso de agrupamiento basado en las k-medias, con un número de grupos k mayor del esperado. Esto nos permite encontrar relaciones entre los datos que nos generan estas restricciones. Esta metodología ha sido probada con éxito en problemas de agrupamiento de documentos.

    Conclusiones Durante el desarrollo de esta tesis hemos llegado a las siguientes conclusiones:

    - Las técnicas de Minería de Datos, específicamente, las técnicas de agrupamiento son una buena herramienta para abordar el problema del Control de Autoridades Automatizado. Se ha propuesto un sistema para automatizar este problema. Para ello ha sido necesario: · Proporcionar una representación intermedia considerando el problema como un caso específico de Resolución de Entidades, definiendo este otro problema como la búsqueda de los distintos nombres de una entidad en un texto. Dentro de este modelo general, una autoridad puede ser considerada como una entidad con diferentes nombres.

    · Proponer una medida de distancia específica para comparar los distintos elementos del problema. Esta medida es capaz de comparar los distintos elementos que aparecen en este proceso, proporcionándonos una medida adecuada para el proceso de agrupamiento. Durante el estudio de los diferentes elementos que deben ser comparados, hemos descubierto que las medidas de distancia tradicionales no se ajustan correctamente a la comparación de nombres propios. Por eso motivo proponemos pn-measure, una nueva medida de distancia ad-hoc específica para comparar nombres propios.

    · Un método de validación para evaluar la calidad del proceso de control de autoridades. Este método requiere de un experto que proporcione una base la cual permita comparar las autoridades y calcular una serie de medidas que nos permitan evaluar los resultados obtenidos.

    - El método de validación requiere la intervención de un experto que indica en cada momento cuál es la solución correcta. Sin embargo, al considerar la naturaleza de dicha información, se descubrió que también podía ser incorporada en el proceso de agrupamiento, lo que ayuda a la mejora de los resultados obtenidos. Basándonos en esa idea, surgió el uso de agrupamiento semisupervisado. Se han estudiado estas técnicas llegando a las siguientes conclusiones: · Entre las posibilidades que ofrece el agrupamiento semi-supervisado,la mejor opción son las restricciones a nivel de instancia. Dicha metodología necesita que un experto proporcione información acerca de los pares de instancias que deben aparecer (o no) en el mismo grupo.

    · Los enfoques semi-supervisados clásicos están basados en la idea de modificar la medida de distancia usada para comparar los elementos. Sin embargo, debido a la adecuación de la medida adhoc diseñada para este problema no resultaba deseable su modificación. Además, dado que en el Control de Autoridades Automático no se dispone del número de grupos en los que deben agruparse los datos, dato que es necesario en los algoritmos clásicos, se requería el uso de agrupamiento jerárquico.

    · Basándonos en las ideas anteriores, se han propuesto dos nuevos algoritmos de agrupamiento jerárquico semi-supervisado: > Crisp Hierarchical Semi-Supervised, Crisp HSS es un nuevo algoritmo de agrupamiento semisupervisado centrado en el uso de información externa para encontrar la partición óptima en procesos de agrupamiento jerárquico.

    > Considerando la naturaleza difusa inherente en el agrupamiento jerárquico y las características del algoritmo Crisp HSS, resultaba razonable su extensión a una versión difusa. Fuzzy Hierarchical Semi-Supervised, Fuzzy HSS, es un nuevo algoritmo de agrupamiento semi-supervisado que utiliza restricciones a nivel de instancia difusas. Estas restricciones proporcionan un grado de creencia acerca de que dos elementos se encuentran (o no) en el mismo grupo, lo que ha proporcionado flexibilidad al trabajo del experto.

    > Ambos algoritmos han sido probados experimentalmente mostrando un rendimiento similar. Por tanto, hemos descubierto que es posible usar la versión difusa en aquellos problemas en los que no es posible proporcionar información cierta.

    > Debido a las características observadas en la información difusa, hemos proporcionado además un mecanismo para determinar cuánta información externa debe ser proporcionada por el experto.

    - Estos nuevos algoritmos, Crisp HSS y Fuzzy HSS han podido ser aplicados con éxito al Control de Autoridades Automatizado.

    - Como una extensión del algoritmo Crisp HSS, se ha estudiado la generación automática de restricciones a nivel de instancia. Aplicando repetidamente un proceso de agrupamiento particional basado en Kmedias y usando inicializaciones aleatorias, ha sido posible encontrar relaciones entre elementos que determinan restricciones a nivel de instancia.

    - Esta extensión ha sido probada con éxito en problemas genéricos de agrupamiento de documentos, demostrando que las restricciones generadas automáticamente pueden ser utilizadas en aquellos problemas dónde el conocimiento experto no esté disponible.


Fundación Dialnet

Mi Documat