Washington Raúl Padilla Arias
Esta investigación desarrolla una metodología que disminuye el porcentaje de error al calcular procesos de interpolación y extrapolación pronóstica.
El conjunto de datos sobre los que se aplica la metodología propuesta, se constituye de la información de ventas recogidas por el Ministerio de Agricultura del Ecuador en el año 2014 en los circuitos alternativos de comercialización ubicados en las provincias de Tungurahua y Chimborazo.
El trabajo consta de tres partes generales: la primera contiene la introducción y los objetivos, la segunda parte se encarga del estado del arte de las técnicas de minería de datos empleadas, la tercera parte: “Propuesta, desarrollo y caso de estudio”, presenta el trabajo realizado en el conjunto de datos y en su procesamiento. En la parte final se encuentra conclusiones y expectativa de trabajo a futuro.
El trabajo inicia con una visión general del problema alimentario presentándolo como un objetivo de desarrollo, identifica las distintas Instituciones que se encargan del monitoreo de la producción alimentaria en el mundo y en la región de América Latina y el Caribe, presenta al Ministerio de Agricultura como la entidad encargada de la Agricultura Familiar en el Ecuador La información inicial se refiere a ferias que son un tipo de Circuito alternativo de comercialización ubicadas en las provincias de Tungurahua y Chimborazo en la zona centro sur de la región andina del Ecuador, consta de ubicación geográfica, nombre del responsable de la actividad comercial, nombre del producto, fecha de comercialización, unidad de comercialización y valor unitario, organizada en registros del año 2014 con periodicidad semanal, sobre esta información se propone aplicar tres tipos de técnicas de minería de datos: reglas de asociación, series de tiempo y datos espaciales.
Metodología Propuesta Esta investigación realiza la fusión de dos modelos de aprendizaje, el primero de tipo descriptivo, utiliza el descubrimiento de patrones en base a la inferencia de reglas de asociación y un segundo modelo de aprendizaje de tipo predictivo qué basado en el resultado del modelo asociativo, genera predicciones multivariable utilizando métodos lineales de regresión, el desarrollo de la metodología se la resume en los siguientes puntos: 1. Generar el conjunto inicial de productos para el estudio.
2. Preparar formato de datos apropiado a cada proceso de minado.
3. Establecer un conjunto de productos asociados (atributos nominales).
4. Generar estimaciones a futuro utilizando atributos correlacionales para un predictor 5. Medir el impacto resultante en la utilización de técnicas de predicción en conjuntos correlacionales fusionados con resultado de técnicas asociativas (multivariable).
1.- Generar el conjunto inicial de productos para el estudio El conjunto resultado de la recolección de información sobre ventas de productos consta de 17.259 elementos.
Mensualmente se puede encontrar un promedio de 1.400 datos de distintos grupos como son hortalizas y legumbres, cárnicos, lácteos, frutas y tubérculos.
La calidad de los datos se realiza aplicando los siguientes pasos: 1.- Eliminando los registros sin información 2.- Estandarizar nombres de productos 3.- Establecer unidades de medida únicas El subconjunto de datos a ser utilizado se limita al grupo de hortalizas y legumbres por ser el más representativo del sector agrícola familiar y es el siguiente Producto Nombre Científico Acelga Beta vulgaris var. cicla Ajo Allium sativum Arveja Pisum sativum Babaco Carica pentagona Brócoli Brassica oleracea italica Cebolla Blanca Allium fistulosum Cebolla Paiteña Allium fistulosum Choclo Zea mays Col Brassica oleracea Col verde Brassica oleracea var. Sabellica Coliflor Brassica oleracea var. Botrytis Espinaca Spinacia oleracea Frejol Phaseolus vulgaris Frutilla Fragaria Habas Vicia faba Hierbas Coriandrum sativum, Petroselinum crispum Lechuga Lactuca sativa Melloco Ullucus tuberosus Nabo Brassica rapa Papas Solanum tuberosum Pepinillo Cucumis sativus Pepino Cucumis sativus Pimiento Capsicum annuum Rábano Raphanus sativus Remolacha Beta vulgaris Tomate de árbol Solanum betaceum Tomate Riñón Solanum lycopersicum Vainita Phaseolus Vulgaris L Zanahoria Daucus carota Zapallo Cucurbita máxima 2.- Prepara formato de datos apropiado a cada proceso de minado Las técnicas de minado de datos utilizadas son tres una de tipo descriptivo para encontrar reglas de asociación basado en la comercialización de productos y dos de tipo predictivo: la primera que utiliza la dimensión tiempo y la segunda la dimensión espacio.
Las reglas de asociación se las realiza generando un archivo discretizado, para disminuir el número de reglas y centrarnos solo en los productos que son parte de una transacción se utiliza un identificador binario (t,”“), cuando aparece el producto en una transacción se utiliza “t”, en caso de no aparecer se considera un espacio “” El estudio de la dimensión de temporalidad se desarrolla utilizando algoritmos para generar series tiempo, en base a la fecha de venta de productos, se consigue un archivo con cuarenta y tres registros que representan a las semanas del año que contienen la información de comportamiento comercial consolidado de treinta productos.
Para utilizar la dimensión espacial se necesita ubicar cada una de las ferias utilizando una estructura de tipo espacial que contiene dos componentes: • Bounding box(@bbox), es el delimitador de la ubicación espacial • Coordinate Reference System (CRC), indica las coordenadas utilizadas El Ecuador se encuentra situado en las coordenadas geográficas 1.8312° S, 78.1834° W, las provincias de Tungurahua y Chimborazo se ubican en la zona Andina central y la ubicación geográfica de cada feria en estas provincias, así como su denominación se encuentran a continuación: Feria x y Colta -78.7238 -1.888 Tisaleo -78.6923 -1.40951 RIOBAMBA6 -78.6737 -1.66153 RIOBAMBA7 -78.673 -1.66089 RIOBAMBA8 -78.6687 -1.66025 RIOBAMBA4 -78.6588 -1.67626 Cevallos -78.6566 -1.25714 HUICHI RIOBAMBA -78.6558 -1.6871 RIOBAMBA5 -78.6538 -1.67599 RIOBAMBA3 -78.65 -1.67803 SAN FARNCISCO RIOBAMBA -78.6497 -1.67468 RIOBAMBA1 -78.6462 -1.68942 CHAMBO RIOBAMBA -78.6077 -1.7303 Pillaro -78.551 -1.32836 Para la creación del componente espacial de una feria, se inserta el valor de coordenadas geográficas utilizando el sistema geodésico mundial (WGS 84).
3. Establecer un conjunto de productos asociados (atributos nominales).
Del conjunto inicial de 30 productos se han registrado 549 transacciones, para encontrar relaciones de asociatividad, aplicando los algoritmos “Apriori” y Fp-growth con parámetros: Soporte igual a 0.4 (220 apariciones) y Confianza igual a 0.8 el conjunto resultante de las mejores reglas de asociación de la forma A-> B se presenta a continuación Producto A aciertos Producto B aciertos Confianza Sustentación Apalancamiento Cebolla Blanca 338 Tomate Riñón 293 0,87 1,1 0.05 Tomate de árbol 312 Tomate Riñón 268 0,86 1,09 0,04 Zanahoria 374 Tomate Riñón 311 0,83 1,06 0,03 Brócoli 327 Tomate Riñón 269 0,82 1,05 0,02 Los productos que participan en la generación de las mejores reglas de asociación constituyen el conjunto multivariable: A={Tomate Riñón, Cebolla Blanca, Tómate de Árbol, Zanahoria, Brócoli } 4. Generar estimaciones a futuro utilizando atributos correlacionales para un predictor Es necesario diferenciar las dos dimensiones a ser utilizadas, la temporal utilizando series de tiempo para conseguir una extrapolación pronóstica y la espacial para realizar la interpolación pronóstica Series de Tiempo Para encontrar la extrapolación pronóstica utilizando series de tiempo, se aplica el algoritmo SMOreg (Sequential Minimal Optimization for Regression), genera las estimaciones a futuro, este proceso se lo realiza en dos ocasiones: la primera utilizando una variable como predictor y la segunda calcula las estimaciones a futuro utilizando series de tiempo con los productos resultantes de obtener las mejores reglas de asociación como predictor.
Con las dos estimaciones a futuro se realiza una comparación de los resultados obtenidos en base a las métricas de error aplicadas: el error medio absoluto (Mean absolute error) y el error medio cuadrático (Root mean squared error), los resultados son los siguientes:
Producto Predictor: Tomate Conjunto asociativo A Producto estimado a futuro: Tomate Tomate MAE 18.302 16.4369 RMSE 29.4848 27.1553 Estimación Espacial De manera similar se procede con los archivos de tipo espacial, se genera el variograma modelo y la estimación por medio de Kriging para una variable predictiva, el valor de la interpolación pronóstica son:
[1] 53.51724 53.17939 54.76818 55.08448 55.00930 54.61879 54.05662 [8] 55.47078 56.58642 57.07643 56.82893 56.08847 55.15481 53.63914 [15] 54.07811 54.31013 54.41375 55.17990 57.35292 59.45051 60.09012 [22] 59.35250 57.94507 56.43149 55.08112 53.97633 53.11356 54.76428 [29] 55.61047 56.11085 55.87149 55.77412 60.47876 64.25577 64.59281 [36] 62.59732 60.03706 57.72975 55.87791 54.46444 53.41289 52.64192 [43] 56.13752 57.79761 59.35441 60.16816 60.89148 67.00942 72.24208 [50] 70.60947 65.97080 61.87284 58.74218 56.44350 54.78268 53.59225 [57] 52.74266 55.38555 57.43928 60.22484 63.69215 67.12672 69.83976 [64] 74.15514 81.72601 74.86977 67.70443 62.64851 59.09047 56.58994 [71] 54.83339 53.59917 52.73133 55.62703 58.09523 61.78589 67.22813 [78] 74.19763 75.68254 75.23533 75.54771 71.81865 66.33699 61.84237 [85] 58.55191 56.21246 54.56453 53.40696 52.59402 57.56855 61.20076 [92] 66.65137 73.87333 74.05992 71.12487 69.08280 66.31421 62.88508 [99] 59.72324 57.21437 55.34641 53.99346 53.02559 52.33703 55.78336 [106] 58.32051 61.62539 64.66629 65.15567 63.75594 62.20227 60.54862 [113] 58.71196 56.91743 55.37079 54.13808 53.19800 53.16402 54.21275 [120] 55.27005 55.86306 55.69421 55.24886 54.99569 54.80235 54.44812 [127] 53.92418 50.27473 49.91161 49.06783 47.59171 46.25206 46.42477 [134] 47.79996 49.32740 50.44540 51.08342 46.07677 43.76772 40.23274 [141] 36.36505 37.44381 41.13078 44.57437 47.04804 48.66065 45.29107 [148] 43.06712 40.00185 36.00179 33.12451 29.59589 36.35818 41.24496 [155] 44.61094 43.53963 40.89549 37.62066 33.71579 29.07356 29.89261 [162] 35.15009 39.83213 43.32021 47.62034 46.35903 44.61732 42.28634 [169] 39.35333 36.09668 33.22810 31.73663 32.93354 36.29557 39.95652 [176] 43.02853 47.32981 45.96754 44.08715 41.55108 38.29565 34.69132 [183] 32.55528 33.12219 35.15199 37.93758 40.83526 43.38581 47.25429 [190] 45.89678 44.03067 41.49719 38.11571 33.71564 31.17577 34.28234 [197] 37.01468 39.59387 41.99203 44.08420 46.13070 44.45121 42.23634 [204] 39.42881 36.31677 35.03500 36.83271 39.13933 41.30413 43.25081 [211] 44.93702 47.66080 46.59713 45.22229 43.51962 41.59346 39.87855 [218] 39.24322 40.00470 41.45925 43.03792 44.52292 48.03894 47.18860 [225] 46.14265 44.93578 43.70188 42.72676 42.36466 42.73043 43.59327 [232] 44.65431 45.72293 46.70457 48.45235 47.80447 47.04588 46.22342 [239] 45.44146 44.86167 44.64267 44.83542 45.35133 46.04239 46.78298 [246] 47.49334 48.85417 48.37680 47.84190 47.29018 46.79140 46.43502 [253] 46.29819 46.40628 46.72114 47.16796 49.51659 49.21600 48.87200 [260] 48.50065 48.13220 47.81077 47.58640 47.49911 47.56240 47.75843 [267] 48.04805 48.38680 49.93449 49.74514 49.52523 49.28087 49.02511 [274] 48.77893 48.56966 48.42589 48.36936 48.40761 48.53176 48.72059 [281] 48.94803 49.93873 49.77993 49.60791 49.43242 49.26749 49.13000 [288] 49.03662 48.99959 49.02327 49.10300 49.22696 49.98419 49.86378 [295] 49.74351 49.63263 49.54158 49.48027 49.45580 49.47073 49.52254 [302] 49.60446 50.06079 49.97836 49.90354 49.80223 49.78593 49.79549 [309] 49.82949 49.88397 49.95334 50.03098 50.05347 50.08990 50.13686 [316] 50.21660 50.24109 50.27296 50.35178 50.37349 en una segunda instancia se genera un modelo de variograma multivariable, obteniendo valores de estimación para lugares donde no se tiene una medida real por medio del proceso Cokriging, los valores resultantes son:
[1] 49.96975 51.03030 46.88724 49.22357 50.89769 51.91892 52.53923 [8] 47.53265 51.14504 53.89549 55.28937 55.53393 55.11951 45.34511 [15] 45.50144 45.55059 45.70778 47.50848 52.33829 57.63352 60.80101 [22] 61.50519 60.53247 58.76790 56.88508 55.26308 53.15299 49.93229 [29] 50.44310 51.00794 50.37865 50.31940 58.90078 66.82372 69.97792 [36] 69.22751 66.37910 62.94017 59.61801 56.85397 54.29862 51.42137 [43] 54.88449 57.28758 58.78220 58.94023 59.48861 69.34002 78.41567 [50] 79.59656 76.26683 71.86297 66.88760 62.18244 58.27861 55.13817 [57] 51.88998 56.47221 59.51761 62.97394 66.94544 70.79396 74.59439 [64] 81.17059 90.61724 86.20119 79.86513 74.19821 69.10695 64.01657 [71] 59.23411 55.50545 52.04670 58.61336 62.10239 66.94465 73.45537 [78] 81.29227 84.24524 85.58261 87.31972 84.55475 79.08652 73.56874 [85] 68.51651 63.97939 59.41772 55.27411 51.85048 62.55983 67.52247 [92] 74.22331 82.36760 83.90207 82.29209 81.07496 78.56671 74.67263 [99] 70.30665 66.01711 62.00958 58.47174 54.40226 51.35282 60.49148 [106] 64.07388 68.40469 72.32217 73.62644 72.98561 71.98808 70.46659 [113] 68.11689 65.20545 62.05700 58.90423 55.90296 56.28322 57.85445 [120] 59.42068 60.34556 60.35722 60.26057 60.60258 60.87170 60.45335 [127] 59.15975 51.00142 50.59550 49.73841 48.03027 45.95875 46.02664 [134] 48.34711 50.89297 52.47778 52.88559 43.67208 41.09647 37.41010 [141] 31.13499 31.70995 37.17218 42.11735 45.30453 47.00298 40.85183 [148] 37.92766 34.77539 31.37057 44.15198 20.09457 30.55035 36.18021 [155] 39.80263 37.28306 33.72600 30.40828 27.93872 23.84518 29.75629 [162] 30.34762 33.42270 36.77927 46.13995 42.82872 39.16647 35.30420 [169] 31.45512 28.09278 25.88652 25.59490 28.29739 30.78565 33.46482 [176] 36.87759 46.25989 43.20318 39.32862 35.07443 30.87050 27.23366 [183] 25.54231 26.61901 29.28469 32.36125 35.66235 39.36033 46.46740 [190] 43.90620 40.53166 36.60493 32.41098 28.26629 26.29688 28.86419 [197] 31.97758 35.33457 38.75248 42.12474 44.70572 42.00962 38.80232 [204] 35.40516 32.36036 31.27782 32.98472 35.68744 38.68972 41.73323 [211] 44.64303 46.53027 45.37914 43.50104 41.19283 38.83759 37.01037 [218] 36.47825 37.49627 39.50087 41.92638 44.43085 47.04340 45.64108 [225] 44.64297 43.25990 41.85431 40.85620 40.66481 41.40703 42.86474 [232] 44.69605 46.59879 48.32590 47.80704 46.55139 45.24453 44.54869 [239] 43.94328 43.55771 43.63465 44.25745 45.32669 46.63418 47.94579 [246] 49.03676 48.56613 47.63451 46.59987 45.59783 45.05173 44.89349 [253] 45.20891 45.78071 46.50375 47.28224 49.59973 49.20245 48.59114 [260] 47.87535 47.17104 46.59349 46.24277 46.23853 46.59565 47.14934 [267] 47.76747 48.37914 49.69611 49.69611 49.60614 49.30337 48.88074 [274] 48.43642 48.06203 47.83235 47.79330 47.95273 48.27868 48.70615 [281] 49.14865 49.69611 49.69611 49.66798 49.51518 49.30155 49.10143 [288] 48.97298 48.95081 49.04074 49.21889 49.43540 49.69611 49.69611 [295] 49.69611 49.68424 49.63779 49.59712 49.58947 49.61940 49.66819 [302] 49.69611 49.69611 49.69611 49.69611 49.69611 49.69611 49.69611 [309] 49.69611 49.69611 49.69611 49.69611 49.69611 49.69611 49.69611 [316] 49.69611 49.69611 49.69611 49.69611 49.69611 5. Medir el impacto resultante en la utilización de técnicas de predicción en conjuntos correlacionales fusionados con resultado de técnicas asociativas (multivariable).
5.1 Series de Tiempo La relación a considerar para determinar un porcentaje de mejora es el valor obtenido para la estimación a futuro utilizando el conjunto multivariable A dividido para el valor de error obtenido para la estimación de la variable única tomate.
Para el Mae, se encuentra una mejora del 10%, el valor del Rmse muestra una mejora de alrededor del 8% cuando se utilizan el conjunto A de variables asociadas.
Valor error medido Val mult/val univar % de mejora Mean absolute error 0.898181441 10.18185594 Root mean squared error 0.92099319 7.900681029 5.2 Estimación Espacial Aplicando el método IDW (Inverse Distance Weighting), se establece la línea base que sirve de referencia comparativa con los valores distintos procesos de la interpolación pronóstica.
Con el propósito de validar los resultados, se aplica la metodología propuesta a un nuevo modelo que presenta dos variables externas al conjunto transaccional analizado.
La primera variable proviene de la información de piso climático de la zona donde se ubican las provincias de Tungurahua y Chimborazo, conformada por cuatro atributos: precipitación ambiental, temperatura, humedad y evaporación.
La segunda variable es la población existente en cada cantón.
el proceso realizado es el siguiente: • Obtener el conjunto de interpolación pronóstica • Realizar la validación cruzada, para obtener los valores residuales • Comparar los valores de error obtenidos Los nombres identificativos de cada experimento y los procesos utilizados se encuentran en la siguiente tabla.
Nombre Experimento Predictor Método Utilizado IDW Tomate IDW OT Tomate Kriging TPop Tomate/Población Co-kriging Prec Tomate/Precipitación Co-kriging TAR Conjunto asociativo A Co-kriging TALL Conjunto Asociativo, Población, Precipitación Co-kriging Los resultados encontrados son los siguientes Min 1st Qu. Median Mean 3rd Qu. Max.
IDW -40,16 -21,95 1,6690 2,259 23,6100 43,760 OT -51,23 -21,1400 4,8030 -0,01941 23,5700 43,9400 Tpop -51,23 -21,1500 4,8070 -0,09446 23,3600 43,9400 Prec -51,22 -26,4700 4,8470 -0,7310 23,1000 43,9400 TAR -34,12 -11,1400 -3,1510 -0,9209 6,2990 29,2200 TALL -36,83 -9,4600 1,3220 -0,1151 5,6000 34,6000 Los modelos OT, Tpop y Prec, presentan un comportamiento muy similar al IDW por lo que se puede considerar la equivalencia de resultados utilizando cualquiera de estos métodos La utilización del conjunto de productos asociados TAR, presenta una disminución de los valores residuales, con respecto al modelo base IDW.
Los resultados del error medio cuadratico encontrado para cada proceso de predicción espacial se presenta en la tabla siguiente Modelo Valor RMSE IDW 27.804 Kriging Tomate 29.44047 Cokriging Tomate/Población(Tpop) 29.37169 Cokriging Tomate/Precipitación(Prec) 29.3256 Cokriging Tomate/Reg. Asociación(TAR) 16.55579 Cokriging Tomate/Toda Variable(TALL) 19.41976 El menor valor de error RMSE presentan los procesos en los que se utiliza el conjunto multivariable generado por la inferencia de reglas de asociación, TAR, TALL.
Conclusiones Al comparar las dos estimaciones realizadas, se encuentra que el conjunto multivariable como un predictor genera un error más pequeño en la utilización de estimaciones pronósticas, por lo tanto, las predicciones a futuro mejoran al utilizar el conjunto multivariable.
En consecuencia, se ha probado la hipótesis que utilizar el conjunto predictor multivariable basado en los resultados de reglas de asociación permite disminuir significativamente los niveles de error tanto si se utiliza series temporales como si se utiliza predicción espacial.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados