Adapting seasonal adjustment procedures in uncertain times






pcod_estadisticaoficial


Abstract

The abrupt COVID-19 outbreak in March 2020 implied an unquestionable need for changing the strategy of calendar and seasonal adjustment in short term business statistics in official statistical offices. Constant revision of models, treatment of outliers and the construction of intervention variables for concurrent periods have been a major challenge in 2020. In this work we describe the main unexpected issues we have faced in the past months in some of our statistics to provide the most accurate adjusted estimation of the monthly activity using JDemetra+. The derived shape of the impact of the COVID-19 is of special relevance in some of the estimated series. It is time to review all the intervention variables and specified outliers in the last year and to redefine a new calendar and seasonal adjustment strategy.

Keywords: Adjustment, COVID-19, Intervention Variables, JDemetra+, Seasonal.

AMS Subject classifications: 62P20, 91B82, 91B84.

Introducción

El Insituto Vasco de Estadística, Eustat, publica los indicadores económicos coyunturales tanto en términos brutos como corregidos de efectos de calendario y desestacionalizados. Las series de ciclo-tendencia son generadas y analizadas pero no publicadas en la mayoría de casos. Su uso se limita a la representación gráfica de las principales series así como a la extracción del componente de ciclo de algunas variables, bien para uso interno bien para alimentar la herramienta de análisis económico Business Cycle Tracer de la Comunidad Autónoma (C.A.) de Euskadi, disponible en la web de Eustat. En ningún caso se publican predicciones de los indicadores económicos. Las tasas de variación con respecto al mismo período del año anterior se calculan, como norma general, a partir de series ajustadas de calendario y las tasas de variación con respecto al período anterior se calculan a partir de las series ajustadas tanto de calendario como de efectos estacionales.

El estándar utilizado en todas las estadísticas coyunturales de Eustat para el tratamiento de series elementales o primarias es el software JDemetra +. Las series ajustadas de la C.A. de Euskadi se calculan indirectamente a partir de series primarias ajustadas. Los parámetros de los modelos se reestiman con cada incorporación de nuevas observaciones, lo que generalmente implica cambios menores en valores ajustados estimados previos. Las series corregidas, por lo tanto, se difunden en su totalidad con cada nueva observación. Los modelos se revisan y se vuelven a especificar anualmente, manteniéndose fijos durante todo un año. Este procedimiento se ha visto, inevitablemente, alterado tras el impacto de la COVID-19 sobre la actividad económica.

Estrategia antes de la pandemia de la COVID-19

En lo que sigue se centrará la atención en una única serie, elegida pseudo-aleatoriamente para resaltar algunas de las dificultades que se han encontrado en las series primarias que forman el Índice de Producción Industrial mensual de la CA de Euskadi: IPI de Maquinaria y Equipo. El enfoque seguido con esta serie es representativo del adoptado en todas las series coyunturales en Eustat a partir de marzo de 2020. El impacto de la COVID-19 sobre los indicadores de periodicidad trimestral ha requerido, en términos generales, una menor intervención que los indicadores de mayor frecuencia.

IPI Maquinaria y Equipo. Serie Original, Serie Ajustada y Ciclo-Tendencia. Febrero 2020.

En la Figura 1, se representa en amarillo Índice de producción industrial de Maquinaria y Equipo desde 2005 hasta febrero de 2020. En verde la serie desestacionalizada estimada en febrero de 2020 siguiendo el modelo ARIMA, valores atípicos y regresores de calendario especificados en la revisión anual de 2019. El modelo se determinó con un valor atípico de cambio de nivel en marzo de 2009 (ver el escalón en el ciclo de tendencia en azul) con efectos de calendario de días laborables y de Semana Santa significativos. Esta especificación se estableció para ser utilizada durante todo el 2020, pero a medidados de marzo de 2020 el escenario cambió, requiriendo un cambio de estrategia de forma inmediata.

Enfoque de la modelización al comienzo del período COVID-19

El primer confinamiento para controlar la pandemia de la COVID-19 comenzó el 13 de marzo de 2020, afectando directamente en Eustat tanto en la recogida de datos como en las condiciones laborales del personal. La interrupción de la actividad económica fue inmediata en algunos sectores, pero no en otros. Este desigual impacto sectorial generó una sensación de incertidumbre en la estadística oficial. El efecto inicial fue muy severo para la mayoría de las series económicas aunque se desconocía el patrón y duración del efecto. Se preveía un importante disminución de las tasas de respuesta, aunque a posteriori se comprobó que se situó muy por encima de lo esperado inicialmente.

Serie original y series desestacionalizadas para el sector A38-13. Marzo de 2020.

En la Figura 2, en color rojo, se representa el Índice de producción industrial de Maquinaria y Equipo (sector A28-13 o simplemente IPI en lo que sigue) al que nos enfrentamos en términos brutos para el mes de marzo. Se comparan dos escenarios: un modelo que incluye un outlier aditivo para marzo de 2020 (línea azul oscuro) y un modelo sin outlier (azul claro). La diferencia en el componente estacional estimado era relevante en marzo y en febrero entre escoger un modelo u otro. Los valores esperados para los próximos periodos (lado derecho de la línea horizontal punteada) se situaban, además, en distintos niveles.

Serie original y series desestacionalizadas para el sector A38-13. Abril de 2020.

Preocupados por alterar la estimación del patrón estacional y con objeto de minimizar futuras revisiones de la serie ajustada estacionalmente, se optó por forzar un outlier aditivo en la mayoría de las series, de modo que el impacto se atribuiría al componente irregular y no afectaría a la serie histórica, al patrón estacional ni a la estimación del ciclo-tendencia. Esta decisión se alineó con las recomendaciones sobre el tratamiento de los efectos de la crisis de COVID-19 en las series de datos temporales de Eurostat. Sería la primera vez que se incluiría un outlier contemporáneo en el tratamiento de series en Eustat dado que hasta ese momento, debido a la inestabilidad que provocan en las estimaciones, no se permitían.

Todas las decisiones sobre el ajuste estacional fueron adoptadas por un grupo interdisciplinar formado en ese momento y activo aún a día de hoy, integrado tanto por estadísticos especialistas en las distintas operaciones de coyuntura económica como por metodólogos. Los criterios de significatividad estadística, aunque muy relevantes, no fueron los únicos criterios que se utilizaron ni en el momento inicial ni en los periodos inmediatamente posteriores.

Tras la perturbación inicial de la actividad económica a mediados de marzo, la caída en la mayoría de indicadores económicos en abril fue de una intensidad desconocida hasta el momento. El confinamiento afectó al mes de forma íntegra. En todas las series económicas coyunturales de frecuencia mensual se estudiaron tres enfoques de modelización alternativos: inclusión de dos outliers aditivos (marzo y abril), detección automática de outliers y especificación de una variable de intervención para modelizar el período COVID para marzo y abril. En la Figura 3, se muestran las series desestacionalizadas obtenidas para el IPI de Maquinaria y Equipo siguiendo estos tres enfoques alternativos.

Se descartó el modelo de detección automática (serie gris en la Figura 3) debido a que en muchos casos implicaba la especificación de un único outlier aditivo correspondiente al mes de abril. Esta especificación implicaría una revisión sustancial de las series desestacionalizadas publicadas, especialmente en el mes de marzo. Hubo cierta inclinación en el grupo de trabajo interdisciplinar a no alterar en exceso los datos ajustados de marzo, por evitar la correspondiente sensación de arbitrariedad en los ajustes. Había una gran incertidumbre acerca de la duración de la crisis y, también, un temor a acumular outliers aditivos que pudieran generar inestabilidad en los efectos estacionales estimados. Por todo ello, se consideró que una variable de intervención con un parámetro único podría conducir a estimaciones más estables a lo largo del tiempo y podría permitir intervenciones a la carta para cada serie.

Serie original y series desestacionalizadas para el sector A38-13. Mayo de 2020.

Todas las series primarias tratadas imponiendo dos outliers aditivos consecutivos para marzo y abril fueron analizadas e interpretados los parámetros asociados re-estimados (independientemente de su significatividad). En la mayoría de las series, el parámetro del outlier de abril duplicaba en valor estimado el de marzo, por lo que se especificó una variable de intervención que tomaba los valores (0.5, 1) en marzo y abril respectivamente, para un número importante de series primarias del IPI. Los resultados obtenidos para la serie que se está analizando se muestran en la Figura 3: línea azul para el modelo que incluye dos outliers aditivos y línea verde para el modelo que incluye la variable de intervención. Las series ajustadas estimadas eran similares, pero se consideró que las estimaciones serían más robustas utilizando la variable de intervención. La adopción de esta decisión implicó un análisis detallado muy costoso de las salidas de JDemetra + de todas las series primarias. Por lo tanto, en el tratamiento del IPI del mes de abri se especificó una variable de intervención que tomaba, en muchos casos como éste, valores (0.5,1) para marzo y abril respectivamente.

Una vez recopilados los datos de mayo, se repitió el ejercicio de estudiar distintos modelos para cada una de las series. Las decisiones adoptadas variaron en función de las series. En la Figura 4, se ilustran algunos de los enfoques probados para la serie aquí analizada. La selección de modelo automática detectó en este caso un único outlier aditivo significativo en abril (línea gris). Para el modelo con la intervención durante los meses de marzo y abril se detectaba un nuevo outlier para el mes de mayo, por lo que se decidió continuar con la intervención. Se forzaron tres outliers aditivos consecutivos, a partir de marzo, y se analizaron los coeficientes para definir el regresor de la intervención. Para esta serie, el regresor elegido tomó valores (0.5, 1, 0.75) para marzo, abril y mayo, respectivamente, por acercarse a los valores estimados para los tres outliers consecutivos forzados. El outlier de marzo no era en este caso estadísticamente significativo, pero se decidió continuar con él para preservar los tratamientos de corrección aplicados en meses previos y no introducir grandes correcciones.

Enfoque de modelización a partir de junio de 2020

En junio de 2020 la actividad continuó recuperándose en la mayoría de los sectores. En el IPI de Maquinaria y Equipo que se está analizando en este trabajo, el índice aumentó en más de 15 puntos, tal como se observa en la Figura 5. Al estimar el modelo especificado el mes anterior (variable de intervención para marzo, abril y mayo), los resultados obtenidos eran insatisfactorios, no superando la mayoría de las pruebas estadísticas incluidas en JDemetra +. El modelo automático y la selección y detección de outliers ya no admitían la variable de intervención en la mayoría de series. Si bien el temor de introducir incertidumbre en los usuarios seguía presente, con la esperanza de ofrecer estimaciones más robustas en meses siguientes, se decidió no forzarr la variable de intervención y especificar el modelo que mejor ajustaba la serie completa con la nueva observación del mes de junio. Esta decisión implicacaría un cambio de modelo estimado en la mayoría de series primarias mensuales de Eustat, con la consabida revisión de series históricas. Hay que tener presente que el IPI de junio fue tratado a finales del mes de julio, cuando se consideraba que la recuperación de la actividad sería la tónica general en los meses siguientes.

Serie original y series desestacionalizadas para el sector A38-13. Junio de 2020.

En la Figura 5, se presentan dos de las series ajustadas alternativas que fueran analizadas. La línea verde corresponde al uso de la variable de intervención definida en mayo y la línea naranja a la introducción de un único valor atípico aditivo para abril. Mantener la variable de intervención llevaría a revisiones menores de la serie, mientras que la aplicación de un único valor atípico aditivo para abril implicaría mayores revisiones de los valores pasados de la serie. La evidencia estadística se inclinaba fuertemente por la segunda opción en la mayoría de series primarias que componen el Índice de Producción Industrial.

El modelo seleccionado para el IPI aquí analizado incluía un único outlier aditivo significativo en el período COVID-19, en abril de 2020. Por lo tanto, las observaciones de marzo y mayo fueron asimiladas por los efectos de calendario y estacionales estimados sin necesidad de intervención extraordinaria.

Conclusiones

Para ilustrar el tamaño de las revisiones que implicaron las decisiones adoptadas desde el inicio de la crisis en el mes de marzo, en la Figura 6, se representa el componente estacional estimado durante los meses comprendidos entre enero y agosto del 2020. Hay que tener en cuenta que las series brutas durante los primeros meses de la crisis estuvieron sujetas a más variabilidad de lo habitual debido principalmente a tasas de respuesta ligeramente más bajas. Los meses en los que la revisión del componente estacional es más significativa es en mayo y en marzo, ocurridas con la estimación de junio.

Componente estacional estimado. IPI de Maquinaria y Equipo. Enero - agosto 2020.

Cuando se adopta el enfoque de estimación concurrente de factores estacionales se asumen revisiones menores en las series ajustadas. No obstante, en marzo de 2020 la corrección estimada difiere en más de 5 puntos porcentuales. En mayo la diferencia incluso duplica la de marzo. La decisión de forzar una intervención para marzo y mayo que se revirtió en junio tuvo, por tanto, un impacto directo en las posteriores reestimaciones. A partir de la revisión de junio no se han observado cambios significativos en el efecto calendario ni en las reestimaciones de los factores estacionales.

En Eustat, los modelos y valores atípicos utilizados a lo largo del año 2020 han sido revisados y estimados en enero de 2021, con la intención de mantenerlos fijos durante todo el 2021. Los modelos re-estimados mes a mes han sido analizados por el equipo de trabajo multidisciplinar a lo largo del año 2021, no habiendo requerido en ningún caso una nueva especificación. No obstante, a lo largo de 2022 se considera imprescindible un seguimiento continuo de los resultados tanto desde la perspectiva de los expertos en la materia como del de los metodólogos. Los efectos sobre los componentes estacionales de la serie han de ser analizados mensualmente a medida que se van incorporando nuevas observaciones en nuestras series.

Referencias

EUROSTAT. Guidance on time series treatment in the context of the covid-19 crisis. (26/03/2020). En: https://ec.europa.eu/eurostat/documents/10186/10693286/Time_series_treatment_guidance.pdf.

EUROSTAT. JDemetra+ – versión (2.2.2), documentación. En: https://ec.europa.eu/eurostat/cros/content/documentation_en.

EUSTAT. Documentacion sobre el Índice de Producción Industrial (IPI). En: https://es.eustat.eus/estadisticas/tema_113/opt_1/tipo_1/temas.html.

EUSTAT. Estándar para el tratamiento de series temporales en Eustat. (Nota metodológica -10/08/2019). En: https://es.eustat.eus/estandar_de_eustat_para_el_tratamiento_de_series_temporales_c.pdf.

Más BEIO

Uso de app’s para recogida de datos en la estadística oficial

Los institutos oficiales de estadística europeos han realizado un gran esfuerzo durante los últimos años para adaptarse al avance de las nuevas tecnologías estableciendo un nuevo canal de recogida de datos basados en cuestionarios web de auto-cumplimentación. Eustat, el Instituto Vasco de Estadística, lleva trabajando desde el año 2017 en el desarrollo de app’s para teléfonos móviles.

New advances in set estimation

Some recent advances in Set Estimation, from 2009 to the present, are discussed. These include some new findings, improved convergence rates, and new type of sets under study. Typically, the theoretical results are derived under some shape constrains, such as r-convexity or positive reach, which are briefly reviewed, together with some other new proposals in this line. Known constraints on the shape, such as r-convexity and positive reach, as well as recently introduced ones are discussed. The estimation of the home-range of a species, which is closely related to set estimation, is also explored, and statistical problems on manifolds are covered. Commentary and references are provided for readers interested in delving deeper into the subject.

Problemas de Elección Social en el Contexto de los Problemas de Asignación

En este trabajo proponemos un método de elección social basado en el problema de asignación de la investigación de operaciones, en particular consideramos un proceso de votación donde los votantes enumeran según sus preferencias a cada uno de los n candidatos disponibles, luego entonces nosotros construimos una matriz de asignación donde las “tareas” por realizar son los puestos 1,2,…n; siendo el puesto número 1 el principal y el n-ésimo el de menor jerarquía. El valor de la posición ij de la matriz se obtiene considerando el número de veces que el candidato i fue seleccionado para “ocupar” el puesto j. Así obtenemos una matriz de rendimiento y se busca la mejor asignación. Usamos bases de datos obtenidos de algunos procesos de elección en los Estados Unidos de América y comparamos los resultados que se obtendrían con nuestra propuesta, adicionalmente se construyen ejemplos para demostrar que nuestro método no es equivalente a los métodos de Borda, Condorcet y mayoría simple.

Técnicas de diferenciabilidad con aplicaciones estadísticas

En esta tesis doctoral se han explorado diferentes aplicaciones del conocido Método delta (Capítulo 2). En concreto, se han calculado las derivadas de Hadamard direccional de diferentes funcionales de tipo supremo en diferentes contextos. A continuación, se han investigado aplicaciones a inferencia no-paramétrica (Capítulo 3), a los problemas de dos muestras u homogeneidad (Capítulo 4) y a la metodología de k-medias (Capítulo 5).

Relevance and identification of biases in statistical graphs by prospective Primary school teachers

El enorme poder de visualización de la información basada en datos representada mediante gráficos estadísticos, hace especialmente interesante el estudio del entendimiento de dicha información por parte de los ciudadanos que se enfrentan a ella día a día. Al mismo tiempo, en el ámbito de didáctica de la estadística se investiga para conocer cómo se produce la transferencia de conocimiento estadístico en la escuela. Así, aunando ambos fines, el propósito del presente estudio exploratorio es observar el grado de alfabetización estadística que poseen los futuros maestros en base a la evaluación de los gráficos estadísticos, frecuentemente utilizados en los medios de comunicación, y la identificación de los sesgos que debido a su visualización selectiva de los datos a veces estos presentan. Los resultados muestran, de forma implícita, una aceptable identificación de convenios para cada gráfico estudiado mientras que evidencia una muy pobre identificación de sesgos o errores en dichas imágenes. Con ello se deduce una necesidad de refuerzo educativo en cuanto a la enseñanza y aprendizaje de la estadística, concretamente, en los estudiantes del Grado de Educación Primaria para, mediante ello, conseguir ciudadanos con una alfabetización estadística funcional desde la escuela.

Learning to build statistical indicators from open data sources

The paper presents the building of several statistical indicators from different Open Data sources, all of them using a common methodological approach to estimate changes across time. The purpose is to show the problems that must be addressed when using these data and to learn about the different ways to cope with them, according to the type of information, the data available and the aim of the specific indicator. The raw data come from diverse secondary sources that make it publicly accessible: traffic sensors, multichannel citizen attention services, Twitter messages and scraped data from a digital newspapers’ library website. The built indicators may be used as proxies or lead indicators for economic activities or social sentiments.