Ir al contenido

Documat


Resumen de Document classification models based on bayesian networks

Alfonso Eduardo Romero López

  • La primera contribución de esta tesis es presentar nuevos métodos de Clasificación Documental basados en puertas OR ruidosas como una contrapartida discriminativa al clasificador Naive Bayes multinomial, El clasificador Naive Bayes se usa bastante en las comunidades de Aprendizaje Automático y en la de Clasificación Documental, y representa un buen punto inicial para trabajar con modelos probabilísticos. Para mejorar algunas limitaciones del modelo, también se presenta un procedimiento de poda ad hoc que refina el proceso de aprendizaje de nuestro modelo de puerta OR. Afirmamos que el modelo de puerta OR propuestomantiene la simplicidad del Naive Bayes, incrementando su poder de discriminación.

    La segunda contribución de esta tesis es la introducción del problema de indexación basada en un tesauro. Este problema se ha tratado anteriormente en la literatura, pero o bien como un problema de clasificación supervisada (sin usar la jerarquía o los metadatos), o como un problema de indexación no supervisada. Presentaremos una formalización de un tesauro, independiente del modelo de clasificación que se describe posteriormente, y apropiado para muchos de los tesauros usados en el mundo. Junto a esta formalización, presentaremos el problema de clasificación en tesauros propiamente dicho, y propondremos dos soluciones: una usando información de entrenamiento y otra sin usarla, ambas construidas usando un modelo de red bayesiana del tesauro y de su información relacionada. De hecho, el modelo con información de entrenamiento se muestra como una extensión del no supervisado, haciendo uso del clasificador puerta OR anteriormente presentado. Trataremos de probar que un modelo probabilístico de las relaciones entre las categorías y los metadatos que tiene el tesauro, junto con la información de entrenamiento, puede tener un poder de clasificación comparable o superior al modelo que representa el estado del arte en Clasificación Documental (la Máquina de Vectores Soporte Lineal).

    Nuestra contribución finaliza con la proposición de varios modelos para problemas de clasificación estructurada. Primeramente realizaremos transformaciones a documentos XML para convertirlos en texto plano y poder aplicar el clasificador puerta OR presentado. Por otra parte, mostraremos dos soluciones al problema de clasificación basada en enlaces; uno para el caso multiclase (donde un documento se etiqueta con una de entre varias categorías) y otro para el modelo multietiqueta (donde el número de categorías asociado a cada documento es libre). Ambas propuestas se basan en redes bayesianas aprendidas directamente de las relaciones entre las categorías presentes en los datos de entrenamiento, y hacen uso de un clasificador probabilístico para el contenido (como, por ejemplo, el Naive Bayes). De este modo, nuestros modelos pueden ser vistos como una extensión de un modelo probabilístico clásico para el caso de clasificación basada en enlaces.


Fundación Dialnet

Mi Documat