El uso de registros administrativos para la imputación de datos en los Censos Económicos de México

José Luis Mercado Hernández
Instituto Nacional de Estadística y Geografía, México
jose.mercado@inegi.org.mx


Abstract

En México se realizan los Censos Económicos cada cinco años, visitando a todos los establecimientos. Aunque la respuesta de los establecimientos es en general muy buena, ya que sólo el 1% de ellos no responden su cuestionario, cuando quien no responde es un establecimiento grande (es decir, con ingresos iguales o mayores a 50 millones de pesos anuales, o personal ocupado igual o mayor a 50 personas ocupadas, o bien establecimientos que forman parte de una empresa nacional, es decir, que comparten una misma razón social y se encuentran ubicados en más de una entidad federativa, entre otras características) la información faltante puede tener un impacto significativo, por lo que es necesario imputarla. Los Registros Administrativos son esenciales para ello.

En los Censos Económicos de 2019 el Instituto Nacional de Estadística y Geografía (INEGI) recurrió a tres fuentes de datos para realizar imputaciones: las Encuestas Económicas Nacionales que se realizan mensualmente en el país y que abordan sobre todo a los establecimientos grandes, los registros de la oficina recaudadora de impuestos del país, que reciben la declaración de impuestos que realizan las empresas, también mensualmente, y los Estados de Resultados Financieros que las propias empresas publican en internet y que están disponibles al público.

Por supuesto, los datos obtenidos de estas fuentes requieren pasar por algunas transformaciones antes de poder ser utilizados para hacer imputaciones, como transformar los datos por empresa a datos por establecimiento, por ejemplo; y además no contienen toda la información que se requiere para completar los cuestionarios censales, por lo que se establecen procedimientos específicos para imputar cada variable. Este documento aborda tanto las transformaciones realizadas, como los procedimientos seguidos para realizar las imputaciones, y también refiere el impacto de dichas imputaciones en los resultados finales del censo.

Keywords: Censos Económicos, Imputación, Establecimientos grandes, Establecimientos pequeños y medianos, Cuestionario

Introducción

En México, los Censos Económicos se realizan cada 5 años ininterrumpidamente desde 1930 y, desde el evento censal de 1989, se decidió implementar una estrategia que permita monitorear los establecimientos definidos como grandes a lo largo de los diferentes operativos censales, dada la importancia económica que tienen en las actividades en las que participan.

Antecedentes de los Censos Económicos

Como complemento a la estrategia impulsada en 1989, a partir de 2009 el seguimiento a los establecimientos censados ya no se realizó sólo a los establecimientos grandes (ver Figura 2), sino que se amplió a todo el universo, lo que permitió conocer la historia y evolución de cada uno de ellos, además de dar paso a otros estudios como la demografía económica, con la que se puede conocer cuántas y cuáles unidades económicas sobrevivieron entre un censo y otro, cuántas y cuales murieron y cuántas y cuales nacieron, a sí como sus características.

Construcción de una base de datos longitudinal

Un aspecto importante a considerar en el diseño metodológico de los Censos Económicos es la unidad de observación (ver Figura 3) seleccionada para efectos de la captación de la información y que, para los sectores de manufacturas, comercio y los diversos servicios es el establecimiento, el cual tiene la gran ventaja de permitir ubicar la información económica al espacio geográfico donde se desarrollan las actividades económicas.

Unidad de observación

Para el resto de las actividades económicas, se utilizan diferentes unidades de observación, atendiendo las características de la actividad, como son la empresa constructora y de transportes, en donde la actividad realizada se capta en un solo cuestionario, independientemente del lugar donde se realice y se referencia al espacio en donde se ubica la sede de la empresa, unidad minera, distrito de explotación para el caso de la extracción de petróleo, entre otras.

La información generada por los Censos Económicos (ver Figura 4) tiene múltiples aplicaciones en los sectores público, privado y académico, con un amplio campo de aplicación al interior del INEGI, como lo es la actualización del Sistema de Cuentas Nacionales de México (SCN), el Sistema de Encuestas Económicas Nacionales (EEN) con el que se genera información de coyuntura, así como el Registro Estadístico de Negocios de México (RENEM). Y es precisamente este último quien proporciona el directorio de unidades económicas que sirve de inicio para el censo, ya que incluye la lista actualizada de establecimientos captados en el censo inmediato anterior, actualizada a partir de la explotación de registros administrativos como el Sistema de Administración Tributaria (SAT); de la entidad encargada del suministro de energía eléctrica en México, la Comisión Federal de Electricidad (CFE), y la información generada por los operativos de campo de las Encuestas Económicas Nacionales (EEN).

Usos de la información Censal

Además de los datos de identificación, localización y actividad económica realizada por las unidades económicas incluidas en el directorio de RENEM, se agrega información sobre la Producción Bruta Total (PBT) generada por las unidades económicas en el censo anterior; los ingresos declarados por las unidades económicas al SAT, y el tamaño de la unidad económica a partir del número de empleos. Esta información es útil para medir el impacto de estas unidades económicas en las actividades en las que se clasifican y determinar cuáles de ellas deben considerarse prioritarias durante el operativo de campo.

Un aspecto importante para considerar son las características que tienen las unidades económicas en México en cuanto a su tamaño (ver Figura 5). Según los resultados de los Censos Económicos 2019 (cuyo año de referencia es 2018), que son los censos más recientes, el 94,9% del total de las unidades económicas censadas están conformadas por establecimientos denominados micro, que emplean en promedio a diez o menos personas en cada establecimiento, generan el 37,2% del empleo total y aportan solo el 14,6% del valor agregado censal en el año de referencia.

Por otro lado, los establecimientos pequeños y medianos, que en promedio ocupan entre 11 y 250 personas y se conocen como pymes, representan el 4,9% de los establecimientos, generan el 30,7% del empleo y aportan la misma proporción al valor agregado (30,7%).

Por último, los establecimientos grandes (cuya ocupación media es igual o superior a 251 personas) sólo representan el 0,2% del total de unidades económicas, sin embargo, emplean al 32,1% del personal ocupado y aportan más de la mitad del valor agregado censal de ese año (54,7%). Estas cifras resaltan la magnitud e importancia que los establecimientos correspondientes a este segmento tienen en la economía nacional y sustentan la necesidad de una estrategia especial para obtener sus datos y asegurar que sean parte de los resultados del censo.

Características de las unidades económicas en México, según los Censos Económicos 2019

Estas características, junto con la diversidad de actividades en estudio (990 códigos de actividad diferentes según el Sistema de Clasificación Industrial de América del Norte, SCIAN) requieren estrategias diferenciadas para obtener la información.

De esta manera, se forman diversos grupos operativos encargados de la recuperación de la información, que se diferencian no solo por las estrategias para la recolección de los datos, sino por el tipo de entrevista (directa o indirecta), tipo de cuestionario (sectorial o básico), y medios de captura (internet, papel o dispositivo electrónico), entre otros aspectos.

Estrategia para la captación de información en Establecimientos Grandes

En el segmento de grandes establecimientos, se implementa una estrategia en la que el año previo al censo, se verifican los directorios de que dispone el INEGI y que como se mencionó anteriormente, son proporcionados por el RENEM (ver Figura 6).

Tras revisar los directorios, se realiza una visita a las matrices de las empresas multiestablecimiento (formadas por más de un establecimiento con el que comparten la misma razón social) y los establecimientos únicos para actualizar los datos relativos a la identificación, ubicación, actividad económica y forma de organización, así como los datos sobre el personal empleado, entre otras variables, incluyendo en esta verificación a las sucursales, con lo que se actualiza la conformación de la empresa y se planea la recolección de la información en el año censal.

Parte de la estrategia para este segmento de establecimientos es establecer con la matriz o el establecimiento único las fechas y formas para captar la información y se establecen los vínculos para apoyar al informante en el momento que lo requiera para el llenado del cuestionario, como lo es la asesoría en cuanto a qué variables corresponden a cada categoría, el uso adecuado del sistema para el llenado del cuestionario en Internet, o incluso la captura de la propia información, entre otros soportes.

Estrategias para la captación de la información

Esta estrategia ha dado buenos resultados, dado que la tasa de no respuesta es insignificante. Sin embargo, hay casos en los que los informantes no entregan la información y es aquí donde se utilizan herramientas estadísticas para la imputación de la información.

La imputación de datos como alternativa ante la falta de respuesta

Imputación de información para los establecimientos grandes

Cuando un establecimiento de los llamados grandes no proporciona su información, primero se verifica si forma parte del marco de muestreo de las Encuestas Económicas Nacionales (EEN); también si su información está disponible en el SAT, y si los estados financieros de la empresa en cuestión se publican en Internet.

Gracias a la verificación realizada el año anterior al censo, se dispone de información sobre cómo esta conformada la empresa, es decir, cuántos establecimientos la componen, la actividad económica a la que se dedica cada uno de ellos, y además, cuántos y cuales sólo prestan servicios de apoyo a los establecimientos productores.

Si la empresa está incluida en el marco de muestreo de las EEN, se revisan los datos recogidos tanto en las encuestas mensuales del año de referencia, como los datos de la encuesta anual, del periodo inmediato anterior.

En caso de que los datos de la empresa hayan sido captados por las Encuestas Económicas Nacionales

Se retoman los datos obtenidos por los operativos mensuales para el año de referencia censal, que son el personal empleado en sus diferentes categorías; el detalle de las remuneraciones; el valor y el detalle de la producción; el valor y el detalle de las ventas de los productos elaborados; los otros ingresos derivados de la actividad y gastos incluidos en el cuestionario mensual (Figura 7).

Cuestionarios de la Encuesta Mensual de la Industria Manufacturera

En la Figura 7, \(K_{310}\) es el valor de las materias primas consumidas propiedad de la unidad económica; \(K_{317}\) es el valor e las materias primas consumidas propiedad de terceros; \(K_{100}\) es el costo de los bienes revenidos; \(K_{910}\) representa los pagos por suministro de personal; \(K_{961}\) representa los pagospor flete de productos vendidos; \(K_{710}\) indica los pagos por maquila; \(K_{630}\) representa servicios profesionales, incluyendo trámites aduaneros; \(K_{999}\) representa otros consumos de bienes y servicios y \(K_{000}\) el total del consumo de bienes y servicios.

Para obtener el valor de las variables detalladas en este cuestionario, y que son equivalentes a las variables censales, se recogen los datos anualizados y se asientan sobre las variables censales correspondientes.

Procedimiento para la imputación de información de establecimientos grandes faltantes I

Aquellos que no se piden desagregados en el cuestionario mensual, se calculan a partir de la variable de otros gastos, donde se incluyen erogaciones como las hechas por consumo de energía eléctrica, por ejemplo, que no se requiere en la encuesta mensual de manera explícita pero sí solicita en el cuestionario censal.

Procedimiento para la imputación de información de establecimientos grandes faltantes II

Procedimiento para la imputación de información de establecimientos grandes faltantes III

Ya con esta información, se retoman los datos de la encuesta anual del año anterior al censo, recogidos por la EEN y cuyo cuestionario es similar al censal y con esta fuente, se calcula la proporción que representa cada uno de los gastos captados en este operativo respecto al total de los gastos, y se multiplica el resultado por la partida de otros gastos por el consumo de bienes y servicios, que es donde el informante incluyó todos aquellos gastos que no reportó específicamente. De esta manera, se completan los capítulos de personal ocupado, remuneraciones, gastos e ingresos.

Cuestionario de la Encuesta Industrial Anual

Como se mencionó, el peso específico de la variable faltante se calcula dividiendo la variable \(K_{412}\) consumo de energía eléctrica entre \(K_{000}\) Total de consumo total de bienes y servicios, y el resultado se multiplica por el valor de \(K_{000}\), obtenido en el operativo mensual; el resultado se asienta en la variable correspondiente del cuestionario censal. Este mismo procedimiento se realiza con las otras variables que faltan. Una vez obtenidos los valores faltantes, los datos de \(K_{999}\) otros gastos se ajustan restando el valor de los conceptos que fueron desagregados, de tal manera que la suma de todas las variables sea igual al total registrado en \(K_{000}\).

En cuanto a las existencias, se ajustan tomando lo informado en el operativo anual de la EEN del año inmediato anterior al censo a partir de las existencias finales, más lo producido, menos las ventas. Lo relativo a los activos fijos se ajusta a partir de lo reportado en la operación anual aplicando la variación del Índice Nacional de Precios al Productor por tipo de actividad.

Finalmente, respecto a la parte cualitativa requerida en los cuestionarios censales, y que no forman parte de la temática de las EEN, como los temas de capacitación, grupos de edad del personal ocupado, problemas a los que enfrentan las unidades económicas para el desempeño de actividades, entre otros temas, se retoman de lo reportado por el vecino más cercano (se toman datos de un establecimiento de características similares para imputar datos del cuestionario faltante). Esto se hace para todos los establecimientos que componen la empresa.

En caso de que la empresa no haya sido captada por las Encuestas Económicas Nacionales

Cuando el establecimiento no forma parte del marco de muestreo de la EEN, se recogen los datos reportados por la unidad económica al SAT o de los estados de resultados que son de acceso público a través de Internet y se imputa la información a partir de los dos escenarios siguientes:

  • Si se dispone de información del censo inmediatamente anterior, se calculan los porcentajes de cada variable, respecto de los totales de gastos e ingresos (según corresponda), dividiendo cada uno de los parciales por el total, y estos porcentajes se multiplican por los datos obtenidos del SAT o de los estados financieros para completar los capítulos correspondientes. La parte de activos fijos se actualiza con los Índices Nacionales de Precios al Productor.
  • Si no hay información previa, se revisa si en las bases de datos de la actividad correspondiente hay información de un establecimiento con características similares o cercanas y se aplican los porcentajes obtenidos al dividir los parciales por el total de cada capítulo a los valores obtenidos de la fuente alternativa.

Procedimiento para la imputación de información de establecimientos grandes faltantes IV

Imputación de información para Micro, Pequeños y Medianos establecimientos

Para los Micro, Pequeños y Medianos Establecimientos (MIPyMES) la estrategia seguida por el operativo de campo al momento de obtener la información censal consiste en la verificación del directorio generado por el RENEM, donde se revisan los datos de localización, identificación y actividad económica, al mismo tiempo que se incorporan las registros o establecimientos de nueva creación entre un censo y otro y se dan de baja los registros que ya no se localizaron durante el recorrido denominado “barrido» (donde se recorren todas las localidades urbanas con 2,500 habitantes o más) e incluso se tocan puertas para identificar las actividades económicas que se realizan dentro de una vivienda.

La entrevista para la obtención de la información, que se hace de manera presencial con el informante, se realiza con el apoyo de un dispositivo de cómputo móvil (DCM), en el que previamente se ha cargado el directorio correspondiente al área geográfica asignada a cada censor, información que es verificada como lo es el nombre del establecimiento, su ubicación y la actividad realizada, o bien, requiriendo esos mismos datos a los establecimientos de nueva creación y a quienes reportaron cambio en los datos registrados. La entrevista continúa requiriendo el personal empleado para luego solicitar la parte relativa a las remuneraciones, gastos e ingresos y es precisamente a partir de estos capítulos de los cuestionarios donde algunos informantes se niegan a proporcionar datos.

Para estos casos, el método utilizado para imputar los datos faltantes es el de promedios, es decir, dividir el valor total de cada variable requerida en el cuestionario entre el número de establecimientos censados con información completa, considerando el tamaño de la unidad económica, la actividad y el espacio geográfico donde se ubica.

Esto se hace una vez que se completa la revisión y edición de la información de todos los registros recibidos. La media de cada variable por tamaño de establecimiento (medida a través del personal ocupado) se obtiene para cada una de las clases de actividad implicadas y con un corte geográfico a nivel municipal.

En los casos en que no se cuenta con la actividad desarrollada y el tamaño de los establecimientos no se aplica método alguno de imputación. Actualmente se están llevando a cabo algunos ejercicios en donde, gracias a que se cuenta con información de al menos tres eventos censales a nivel de establecimiento para este segmento, se aprovecha esta información para desarrollar un modelo que permita imputar los datos de los establecimientos faltantes retomando lo reportado en los tres eventos censales anteriores.

Conclusiones

Nota: los cuestionarios que aquí se muestran pueden consultarse en las siguientes direcciones:

Cuestionario de la Encuesta Anual de la Industria Manufacturera
https://www.inegi.org.mx/contenidos/programas/eaim/2013/doc/CEAIM_2022.pdf

Cuestionario mensual de la encuesta de la industria manufacturera
https://www.inegi.org.mx/contenidos/programas/emim/2013/doc/c_311110.pdf

Cuestionario para la Industria Manufacturera de los Censos Económicos 2019
https://www.inegi.org.mx/contenidos/programas/ce/2019/doc/cuestionarios/I0S_2019.pdf

José Luis Mercado colabora actualmente para el INEGI como Coordinador de tratamiento de la información de los Censos Económicos, área responsable de la revisión y edición de la información censal. Colaboró asesorando en la definición conceptual del tratamiento de la información para el Censo Económico Nacional 2011 al Instituto Nacional de Estadística de Paraguay y actualmente brinda apoyo al Departamento Administrativo Nacional de Estadística (DANE) de Colombia como miembro del Comité Consultivo Externo para el diseño metodológico del Censo Económico 2023.

Más BEIO

Uso de app’s para recogida de datos en la estadística oficial

Los institutos oficiales de estadística europeos han realizado un gran esfuerzo durante los últimos años para adaptarse al avance de las nuevas tecnologías estableciendo un nuevo canal de recogida de datos basados en cuestionarios web de auto-cumplimentación. Eustat, el Instituto Vasco de Estadística, lleva trabajando desde el año 2017 en el desarrollo de app’s para teléfonos móviles.

New advances in set estimation

Some recent advances in Set Estimation, from 2009 to the present, are discussed. These include some new findings, improved convergence rates, and new type of sets under study. Typically, the theoretical results are derived under some shape constrains, such as r-convexity or positive reach, which are briefly reviewed, together with some other new proposals in this line. Known constraints on the shape, such as r-convexity and positive reach, as well as recently introduced ones are discussed. The estimation of the home-range of a species, which is closely related to set estimation, is also explored, and statistical problems on manifolds are covered. Commentary and references are provided for readers interested in delving deeper into the subject.

Problemas de Elección Social en el Contexto de los Problemas de Asignación

En este trabajo proponemos un método de elección social basado en el problema de asignación de la investigación de operaciones, en particular consideramos un proceso de votación donde los votantes enumeran según sus preferencias a cada uno de los n candidatos disponibles, luego entonces nosotros construimos una matriz de asignación donde las “tareas” por realizar son los puestos 1,2,…n; siendo el puesto número 1 el principal y el n-ésimo el de menor jerarquía. El valor de la posición ij de la matriz se obtiene considerando el número de veces que el candidato i fue seleccionado para “ocupar” el puesto j. Así obtenemos una matriz de rendimiento y se busca la mejor asignación. Usamos bases de datos obtenidos de algunos procesos de elección en los Estados Unidos de América y comparamos los resultados que se obtendrían con nuestra propuesta, adicionalmente se construyen ejemplos para demostrar que nuestro método no es equivalente a los métodos de Borda, Condorcet y mayoría simple.

Técnicas de diferenciabilidad con aplicaciones estadísticas

En esta tesis doctoral se han explorado diferentes aplicaciones del conocido Método delta (Capítulo 2). En concreto, se han calculado las derivadas de Hadamard direccional de diferentes funcionales de tipo supremo en diferentes contextos. A continuación, se han investigado aplicaciones a inferencia no-paramétrica (Capítulo 3), a los problemas de dos muestras u homogeneidad (Capítulo 4) y a la metodología de k-medias (Capítulo 5).

Relevance and identification of biases in statistical graphs by prospective Primary school teachers

El enorme poder de visualización de la información basada en datos representada mediante gráficos estadísticos, hace especialmente interesante el estudio del entendimiento de dicha información por parte de los ciudadanos que se enfrentan a ella día a día. Al mismo tiempo, en el ámbito de didáctica de la estadística se investiga para conocer cómo se produce la transferencia de conocimiento estadístico en la escuela. Así, aunando ambos fines, el propósito del presente estudio exploratorio es observar el grado de alfabetización estadística que poseen los futuros maestros en base a la evaluación de los gráficos estadísticos, frecuentemente utilizados en los medios de comunicación, y la identificación de los sesgos que debido a su visualización selectiva de los datos a veces estos presentan. Los resultados muestran, de forma implícita, una aceptable identificación de convenios para cada gráfico estudiado mientras que evidencia una muy pobre identificación de sesgos o errores en dichas imágenes. Con ello se deduce una necesidad de refuerzo educativo en cuanto a la enseñanza y aprendizaje de la estadística, concretamente, en los estudiantes del Grado de Educación Primaria para, mediante ello, conseguir ciudadanos con una alfabetización estadística funcional desde la escuela.

Learning to build statistical indicators from open data sources

The paper presents the building of several statistical indicators from different Open Data sources, all of them using a common methodological approach to estimate changes across time. The purpose is to show the problems that must be addressed when using these data and to learn about the different ways to cope with them, according to the type of information, the data available and the aim of the specific indicator. The raw data come from diverse secondary sources that make it publicly accessible: traffic sensors, multichannel citizen attention services, Twitter messages and scraped data from a digital newspapers’ library website. The built indicators may be used as proxies or lead indicators for economic activities or social sentiments.