Chemometrics uses data mining tools for empirical modeling of biochemical systems. The explosive development of information and communications technology have enabled the manufacture of a wide variety of sensors that are able to register large amounts of data stored on computing devices. The challenge is to efficiently extract the potential information contained in the data, which depends heavily on the strategy of analysis used. With so much data available it is necessary to use a procedure to reduce the number of variables to analyze. In this paper we present two strategies for this necessary simplification: compression versus selection. The big difference between them is that with selection some variables are discarded whereas after compression all variables may be recovered. If the selection is made at the beginning of the investigation there is a risk of eliminating variables with useful information to solve the problem at hand. The recommendation is therefore compress and, if it is needed, select. The benefits of this recommendation are illustrated with actual examples.Keywords. Chemometrics, latent structures, principal component analysis (PCA), partial least squares discriminant analysis (PLS-DA), compression, selection, data mining, soft sensor, multivariate process diagnosis.
La quimiometria utilitza eines de mineria de dades per a la modelització empírica de sistemes (bio)químics. El desenvolupament explosiu de les tecnologies de la informació ide les comunicacions ha possibilitat la fabricació d’una gran varietat de sensors que són capaços de recollir grans quantitatsde dades i emmagatzemar-les en dispositius informàtics. El repte està a extreure eficientment la informació potencial continguda en aquestes dades, la qual cosa depèn en granmesura de l’estratègia d’anàlisi usada. Amb tanta quantitat dedades disponible, cal usar algun procediment de reducció delnombre de variables a analitzar. En aquest article es presentendues estratègies per a aquesta necessària simplificació: compressió versus selecció. La gran diferència entre ambduesés que en seleccionar, s’eliminen algunes de les variables mesurades, mentre que en comprimir, no. Si la selecció es realitza al principi de la investigació, es corre el risc d’eliminarvariables amb informació útil per resoldre el problema en qüestió. La recomanació és, per tant, comprimir i, si és necessari, seleccionar amb posterioritat. Els beneficis d’aquestarecomanació s’il!lustren amb diversos exemples reals.Paraules clau. Quimiometria, estructures latents, anàlisi decomponents principals, anàlisi discriminant amb mínimsquadrats parcials, compressió, selecció, mineria de dades,model de calibratge, diagnòstic multivariant de processos.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados