Ir al contenido

Documat


Análisis de catálogos robustos desde la perspectiva de la minería de reglas de asociación

  • Autores: Enrique Lazcorreta Puigmartí
  • Directores de la Tesis: Federico Botella Beviá (dir. tes.) Árbol académico, Antonio Fernández Caballero (codir. tes.) Árbol académico
  • Lectura: En la Universidad Miguel Hernández de Elche ( España ) en 2017
  • Idioma: español
  • Tribunal Calificador de la Tesis: Joaquín Sánchez Soriano (presid.) Árbol académico, Juan Aparicio Baeza (secret.) Árbol académico, Rafael Martínez Tomás (voc.) Árbol académico, Toni Granollers i Saltiveri (voc.) Árbol académico, José Antonio Macías Iglesias (voc.) Árbol académico
  • Enlaces
  • Resumen
    • Los datasets de clasificación son conjuntos de registros que recogen las características de individuos clasificados de una población. Las características son los valores que toma el individuo en ciertos atributos medibles. La clasificación ha de ser única, un individuo pertenece a una y sólo una de las clases en que se ha dividido la población El análisis de un dataset de clasificación proporciona reglas de clasificación, mediante las que se puede clasificar a un individuo del que sólo se conozcan algunas de sus características.

      Estos datasets contienen información sobre las relaciones existentes entre las diferentes características de la población en estudio. Cuando el dataset es una muestra representativa de la población, podemos dividir esta información en dos tipos bien diferenciados:

      1. Estructural. Si un atributo está relacionado con otro, esta relación se mostrará en los registros del dataset. Si no es posible que un individuo tome el valor X en un atributo y el valor Y en otro atributo simultáneamente, no habrá ningún registro con ambos valores.

      2. Probabilística. Si el valor de un atributo aparece simultáneamente con el valor de un atributo de forma frecuente en la población, en el dataset ocurrirá lo mismo.

      Cuando el dataset no es una muestra representativa, sólo contiene información estructural de la población. En este caso, se pueden eliminar los duplicados que contenga el dataset para reducir sus dimensiones y poder analizarlo mejor. Los duplicados sólo proporcionan información probabilística con la que estimar frecuencias poblacionales. Si el dataset no contiene este tipo de información, los duplicados sólo dan información estructural redundante. Sólo es necesario mantener un representante de los registros duplicados en el dataset.

      Denominando catálogo al dataset reducido tras eliminar registros duplicados, los catálogos son datasets de clasificación que sólo contienen información sobre la estructura de la población en estudio. La minería de reglas de asociación o la minería de reglas de clasificación asociativa, que se basan en la información probabilística que tiene una muestra representativa de una población, no pueden utilizarse del modo habitual cuando se analiza un catálogo.

      Esta tesis presenta una nueva metodología que permite descubrir información sobre la estructura de la población contenida en los catálogos. Al aplicarla sobre datasets difíciles de tratar con algoritmos basados en minería de reglas de asociación, proporciona una colección de catálogos que, utilizando menos atributos que el dataset original, contienen la misma información sobre la estructura de la población en estudio.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno