Ir al contenido

Documat


Resumen de Dataset shift in classification: terminology, benchmarks and methods

José García Moreno Torres

  • Este trabajo se centra en problemas de Clasificacion con una unica variable objetivo y con conjuntos de entrenamiento y prueba estáticos. Por estáticos queremos decir que son completamente conocidos en un momento dado, en contraste con problemas de series temporales en los que los datos están disponibles paso a paso.

    Una suposicion sobre la que el estudio de este tipo de problemas de Clasificacion se ha basado tipicamente es la de que la distribucion P(y,x) es la misma tanto para los datos de entrenamiento como de prueba. Bajo esta suposicion, un modelo construido con los datos de entrenamiento y que se ajusta a ellos perfectamente deberia predecir las etiquetas de los datos de prueba muy acertadamente.

    Sin embargo, hay situaciones, que se dan con frecuencia en aplicaciones reales, en las que la suposicion previa no se cumple. Esta cuestion ha sido llamada "Fractura de Datos" (Dataset shift), y es el principal objeto de estudio de este trabajo. El fenomeno ha sido estudiado en profundidad en analisis de series temporales, pero es relativamente nuevo para Clasificacion, con la mayoria de los trabajos relevantes publicados en los ultimos 5-10 años.

    La Fractura de Datos se puede considerar un problema de calidad de los datos, y esta por tanto relacionado con ruido, valores perdidos, analisis de complejidad de datos o no balanceo. Sin embargo, se diferencia de ellos en que no es observable solo a partir de los datos de entrenamiento, sino que se define como un problema entre los datos de entrenamiento y los de aplicacion. Por esta razon, las propuestas para analizar y resolver la Fractura de Datos generalmente no se centran en la fase de preprocesamiento, sino en la adaptacion del modelo construido. En este sentido, hay una relacion cercana entre los campos de Fractura de Datos y de Transferencia de Aprendizaje.

    En esta tesis, presentamos la investigacion realizada en Fractura de Datos en Clasificacion. Comenzamos proponiendo un estandar para la unificacion de la terminologia asociada al problema, ya que era habitual en la dispersa literatura encontrar el mismo concepto definido con distintos terminos, o distintos conceptos asociados al mismo termino. Seguidamente creamos una serie de conjuntos de datos de referencia para que sirvan de base para la realizacin de comparaciones justas entre el comportamiento de las diversas propuestas de la literatura, y despues presentamos nuestra propia alternativa. Finalmente, estudiamos como interactua la Fractura de Datos con otros factores en Clasificacion como el no balanceo o la validacion cruzada con k-subgrupos.


Fundación Dialnet

Mi Documat