Ir al contenido

Documat


Three Similarity Measures between One-Dimensional DataSets

  • LUIS GONZALEZ-ABRIL [1] ; JOSE M. GAVILAN [1] ; FRANCISCO VELASCO MORENTE [1]
    1. [1] Universidad de Sevilla

      Universidad de Sevilla

      Sevilla, España

  • Localización: Revista Colombiana de Estadística, ISSN-e 2389-8976, ISSN 0120-1751, Vol. 37, Nº. 1, 2014, págs. 79-94
  • Idioma: inglés
  • DOI: 10.15446/rce.v37n1.44359
  • Títulos paralelos:
    • Tres medidas de similitud entre conjuntos de datosunidimensionales
  • Enlaces
  • Resumen
    • español

      Basadas en una distancia intervalar, se dan tres funciones para cuantificar similaridades entre conjuntos de datos unidimensionales mediante el uso de estadísticos de primer orden. Se usa la base de datos Glass Identification para ilustrar cómo esas medidas de similaridad se pueden usar para analizar un conjunto de datos antes de su clasificación y/o para excluir dimensiones. Además, se diseña un test de hipótesis no parámetrico para mostrar cómo similaridad, basadas en muestras aleatorias de dos poblaciones, se pueden usar para decidir si esas poblaciones son idénticas. También se realizan dos análisis comparativos con un test paramétrico y un test no paramétrico. Este nuevo test se comporta razonablemente bien en comparación con test clásicos.

    • English

      Based on an interval distance, three functions are given in order to quantify similarities between one-dimensional data sets by using first-order statistics. The Glass Identification Database is used to illustrate how to analyse a data set prior to its classification and/or to exclude dimensions. Furthermore, a non-parametric hypothesis test is designed to show how these similarity measures, based on random samples from two populations, can be used to decide whether these populations are identical. Two comparative analyses are also carried out with a parametric test and a non-parametric test. This new non-parametric test performs reasonably well in comparison with classic tests.

  • Referencias bibliográficas
    • A.K.C. Wong,D.K.Y. Chiu. (1987). 'Synthesizing statistical knowledge from incomplete mixed-mode data'. IEEE Transactions on Pattern...
    • Anguita, D.,Ridella, S.,Sterpi, D.. (2004). A New Method for Multiclass Support Vector Machines. 'Proceedings of the IEEE IJCNN2004'....
    • B. Skhólkopf,A. J. Smola. (2002). Learning with Kernel. MIT Press.
    • Bach, F. R.,Jordan, M. I.. (2003). 'Kernel independent component analysis'. Journal of Machine Learning Research. 3. 1-48
    • Bache, K.,Lichman, M.. (2013). 'UCI Machine Learning Repository'. http://archive.ics.uci.edu/ml, University of California, Irvine,...
    • Burrell, Q. L.. (2005). 'Measuring Similarity of Concentration Between Different Informetric Distributions: Two New Approaches'. Journal...
    • Chiu, D.,Wong, A.,Cheung, B.. (1991). 'Knowledge Discovery in Databases'. MIT Press.
    • Cristianini, N.,Shawe-Taylor, J.. (2000). An introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University...
    • González, L.,Gavilan, J. M.. (2001). Una metodología para la construcción de histogramas. Aplicación a los ingresos de los hogares andaluces....
    • González, L.,Velasco, F.,Angulo, C.,Ortega, J.,Ruiz, F.. (2004). 'Sobre núcleos, distancias y similitudes entre intervalos'. Inteligencia...
    • González, L.,Velasco, F.,Gasca, R.. (2005). 'A Study of the Similarities between Topics'. Computational Statistics. 20. 465-479
    • González-Abril, L.,Cuberos, F. J.,Velasco, F.,Ortega, J. A.. (2009). 'Ameva: An autonomous discretization algorithm'. Expert Systems...
    • González-Abril, L.,Velasco, F.,Gavilán, J.,Sánchez-Reyes, L.. (2010). 'The Similarity between the Square of the Coeficient of Variation...
    • Hartigan, J.. (1975). Clustering Algorithms. Wiley.
    • Hsu, Chih-Wei,Lin, Chih-Jen. (2002). 'A Comparison of Methods for Multiclass Support Vector Machine'. IEEE Transactions on Neural...
    • Lee, J.,Kim, M.,Lee, Y.. (1993). 'Information retrieval based on conceptual distance in is-a hierarchies'. Journal of Documentation....
    • Lin, D.. (1998). An Information-Theoretic Definition of Similarity. 'Proceedings of the Fifteenth International Conference on Machine...
    • Nielsen, J.,Ghugre, N.,Panigrahy, A.. (2004). 'Affine and polynomial mutual information coregistration for artifact elimination in diffusion...
    • Parthasarathy, S.,Ogihara, M.. (2000). 'Exploiting Dataset Similarity for Distributed Mining'. http://ipdps.eece.unm.edu/2000/datamine/18000400.pdf....
    • Rada, R.,Mili, H.,Bicknell, E.,Blettner, M.. (1989). 'Development and application of a metric on semantic nets'. IEEE Transaction...
    • Salazar, D. A.,Vélez, J. I.,Salazar, J. C.. (2012). 'Comparison between SVM and Logistic Regression: Which One is Better to Discriminate?'....
    • Sheridan, R.,Feuston, B.,Maiorov, V.,Kearsley, S.. (2004). 'Similarity to Molecules in the Training Set Is a Good Discriminator for Prediction...
    • V. Vapnik. (1998). Statistical Learning Theory. John Wiley & Sons, Inc.
Los metadatos del artículo han sido obtenidos de SciELO Colombia

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno