Más de tres décadas de existencia de la investigación en data mining han demostrado que el análisis, ejecución y evaluación de modelos de data mining está determinado por la influencia que ejerce la dependencia del conocimiento del dominio. Esta información de dominio se utiliza para establecer los criterios de validez, utilidad y éxito de los modelos obtenidos, y por tanto, se necesitan métodos efectivos de incluir dicha información durante el proceso de análisis y construcción de los modelos.
La inclusión de información de dominio en los métodos de aprendizaje no supervisado donde la evaluación depende en mayor grado de la visión y expectativas del usuario ha atraído gran interés en los últimos años provocando la aparición de diferentes tendencias. En concreto, el clustering semi-supervisado trata de paliar los problemas que la interpretación y evaluación puede acarrear y permite incluir información de dominio dentro del método de clustering. Sin embargo, y a pesar de los buenos resultados demostrados en dichos métodos, en métodos basados en densidad no existe ninguna solución satisfactoria.
Por otro lado, el rápido crecimiento de los sistemas informáticos ha provocado que las aplicaciones online y en tiempo real donde se generan a gran velocidad y almacenan cantidades de datos gigantescas a lo largo del tiempo proliferen en todos los ámbitos. Estas nuevas características y avances suponen nuevos retos para el data mining, que deben adaptar las soluciones clásicas a soluciones capaces de analizar data streams. Así, y de la misma manera que en el caso clásico, contar con información de dominio que refleje las expectativas del experto es fundamental para la obtención de modelos válidos.
Esta Tesis Doctoral aborda la problemática de inclusión de información de dominio en data mining, y en concreto se centra en los problemas de interpretación y validación clustering basado en densidad.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados