Desde el surgimiento de los Histogramas de Gradientes Orientados (HOG, por sus siglas en inglés) en 2005 como el descriptor más utilizado para la detección de peatones, ha habido numerosas mejoras en el área. Sin embargo, las bases de datos disponibles para el entrenamiento no suelen ser suficientemente representativas, lo que dificulta su uso en un entorno real diferente al original.
Este artículo presenta un protocolo para evaluar cómo los modelos de detección de peatones generalizan entre diferentes bases de datos. Dicho protocolo consiste en entrenar un modelo con cada uno de los conjuntos de datos o combinaciones de los mismos y evaluar con la base de datos restante.
Analizamos la eficacia de los modelos de clasificación de peatones basado en descriptores HOG y/o LBP, y un SVM como clasificador base. Alternativamente, también hacemos uso de un modelo convolucional actual (ConvNets) para verificar que los resultados del protocolo son acordes al conjunto de datos y no al modelo.
Evaluamos los modelos con las tres bases de datos más utilizadas en el estado del arte: INRIA, Daimler y TUD-Brussels. Los resultados obtenidos muestran que si bien cada conjunto de datos contiene imágenes del mundo real, también contienen sesgos que dificultan que el modelo logre generalizar con otras bases de datos. Los modelos entrenados con dos bases de datos combinadas logran una eficacia ligeramente mejor al evaluar con el tercer conjunto restante frente a los modelos entrenados con un único conjunto de datos, ambos con los clasificadores SVM y ConvNets.
Since the surge in popularity of Histogram of Oriented Gradients (HOG) in 2005 as the de facto feature vector for pedestrian detection, there have been many improvements in the detection pipeline that enable state of the art performance to be applicable to many real world problems. Nonetheless, the datasets available for training models have many biases, making it hard to use to detect pedestrians from videos and images obtained from other sources than the datasets.
This article presents a protocol to evaluate how pedestrian models generalize between different datasets. The protocol roughly consists of training a model with each dataset or dataset combination, and evaluating with the remaining dataset in each case.
We use the protocol to evaluate the performance of a typical pedestrian classification model based on HOG and/or LBP features and a SVM classifier. Alternatively, we also use a modern ConvNets model, to verify that the results of the protocol are due to the datasets and not the model.
We evaluate the models with the three most used datasets for pedestrian classification: INRIA, Daimler and TUD-Brussels. Our results show that while each dataset presents real world scenes, there are significant biases in each dataset that prevent models trained on one dataset to generalize to other datasets. Models trained on two fused datasets perform only marginally better on the third dataset than models trained on individual datasets, both for SVM and ConvNet classifiers.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados