La formación de un estadístico-matemático en la era de la inteligencia artificial

Wenceslao González Manteiga
Departamento de Estadística, Análisis Matemático y Optimización
Centro de Investigación y Tecnología Matemática de Galicia (CITMAGA)
Universidade de Santiago de Compostela

ORCid: 0000-0002-3555-4623
wenceslao.gonzalez@usc.es


Abstract

Se estructura este documento en tres partes. Una primera focalizada a mis antecedentes en la formación de profesionales de la Estadística y su proyección hacia la transferencia. Una segunda parte de mi visión del estado actual de las disciplinas que tienen que ver con el ámbito de la sociedad de Estadística e Investigación Operativa con una proyección hacia el futuro inmediato profesional y finalmente una pequeña sección de breves conclusiones. El documento termina con algunas referencias.

Sobre mis antecedentes

De entrada, mi más profundo agradecimiento a los editores de BEIO, por invitarme a escribir algunas reflexiones sobre la formación de un estadístico-matemático o viceversa (ya que para mí la operación es conmutativa). Esencialmente se me pidió (como medallista de la SEIO-BBVA) que escribiese un artículo con una revisión de la historia reciente de nuestra área de Estadística e Investigación Operativa y de cómo veo el futuro de las profesiones relacionadas con nuestro ámbito y de lo que yo creo que pueden ser los retos que afronta nuestra disciplina cara el futuro.

Es un inmenso placer poder escribir sobre algo, a lo que dediqué toda una vida académica profesional de más de 40 años, a participar en la formación de nuestros profesionales y opinar a su vez de su orientación cara el futuro próximo. En cuanto a los antecedentes, me limitaré a hablar de los míos.

Cuando, a principios de los 80, inicié mi etapa como docente e investigador, en la Facultad de Matemáticas de la Universidad de Santiago de Compostela, la orientación de la docencia en la licenciatura de Matemáticas seguía el perfil de la escuela “Bourbaki” (producto de la imaginación de André Weil, quién creo el personaje inventado de Monsieur Bourbaki, pseudónimo de un grupo de jóvenes matemáticos franceses, para revitalizar las matemáticas francesas fundamentadas en el rigor matemático: “El rigor es para el matemático lo que la mortalidad es para los hombres”). Por tanto, en aquellos tiempos primaba el aspecto formal en el aprendizaje de las Matemáticas y la Estadística sobre el papel de las aplicaciones y lejos se estaba de la tan mencionada actualmente, transversalidad científica y las consiguientes derivaciones hacia la transferencia del conocimiento al sector productivo.

No obstante, ya en esos años, pude observar cómo se vivía una transición, con un cambio de paradigma hacia períodos posteriores ligados a la computación. La creciente capacidad computacional de los centros de cálculo y la aparición de los primeros ordenadores de mesa con una evolución posterior a los ligeros portátiles actuales. Eran los años en los que comienza con gran intensidad la Estadística Computacional, con las técnicas de remuestreo, de inspiración tanto para los estadísticos frecuentistas como bayesianos y de los desarrollos potentes del análisis exploratorio de datos gracias a una mejor versatilidad gráfica en la computación.

En esos años 80, tuve la suerte de coincidir con una gran generación de estudiantes con la que se construyó lo que hoy es, una fuerte escuela metodológica, de relevancia Internacional, de Inferencia no Paramétrica en las Universidades Gallegas, motivo fundamental por el que se me concedió la medalla de la SEIO en al año 2020. A su vez, complementando el desarrollo científico, ya en los 90, dupliqué mi actividad con una dedicación adicional hacia la transferencia a la industria. En particular trabajamos en un proyecto de transferencia hacia el sistema de generación de energía desde la Central Térmica de As Pontes de García Rodríguez (A Coruña), por aquel entonces propiedad de Endesa. Nuestra actividad se centraba en la predicción de los indicadores de polución del entorno de la Central mencionada. Esta colaboración con el sector productivo, que todavía mantenemos ahora con ENEL, consiste en una herramienta de seguimiento y predicción de eventos relacionados con episodios de polución de niveles críticos de SO\(_2\) y NOx, elementos traza derivados de la producción con la central Térmica y con el ciclo combinado de gas. Este sistema se conoce como “Sistema de Predicción Estadística de Inmisión” (SIPEI en las diversas versiones de software que hemos desarrollado).

Comento los años 90, por dos razones fundamentales. La primera, por el importante mecanismo de formación de profesionales que significó este período, con más de 30 años de colaboración y con un gran número de investigadores contratados que se incorporaron a la academia o a centros de consultoría o financieros posteriormente. La segunda razón, tiene que ver con el avance extraordinario que esta actividad generó en creación de nuevas herramientas estadísticas, derivadas en varias tesis doctorales y en donde, con anterioridad al boom del “Big Data” de la década siguiente, ya utilizábamos procedimientos muy próximos a los de uso de la era actual, como el concepto de matriz histórica de información de los indicadores de polución, que aprendía al estilo del “Machine Learning” actual, usado ahora en muchos otros contextos. Fueron muchas las publicaciones y tesis doctorales derivadas de esta actividad. Como referencia solo apunto la publicación primera, en la prestigiosa revista Technometrics ((García Jurado et al. 1995)).

Posteriormente, en este siglo XXI, mi participación en actividades formativas hacia la transferencia fue muy intensa. En particular, destaco mi colaboración dentro del llamado “Nodo Cesga”, que formaba parte de un macroproyecto, con una dotación de 7,5 millones de euros, en el marco del programa CONSOLIDER INGENIO 2010, con el objetivo de desarrollar las Matemáticas a nivel nacional y con 283 proyectos de investigación asociados a lo largo de su vigencia, desde su concesión en el año 2006 hasta aproximadamente los 6 años siguientes. Este nodo tuvo una intensa labor de transferencia en proyectos de Estadística, Investigación Operativa y Matemática Aplicada en las Universidades gallegas en colaboración con el Centro de Supercomputación de Galicia (CESGA) derivando posteriormente, a nivel gallego hacia el Instituto Tecnológico de Matemática Industrial (ITMATI) con evolución, en los últimos dos años, a lo que hoy conocemos en Galicia como Centro de Investigación y Tecnología Matemática de Galicia (CITMAGA). Esta entidad trata de envolver a todos los ámbitos de las Matemáticas, desde los fundamentos hasta a los aspectos derivados de la transferencia de las Matemáticas y la Estadística o la Investigación Operativa al sector productivo. Actualmente, la demanda de desarrollos de aplicación metodológica de la Estadística y/o Investigación Operativa es inmensa. Las empresas cuentan con sistemas de lectura de datos en tiempo real y de forma continuada, las cotizaciones bursátiles se pueden hacer con datos de alta frecuencia, las páginas web, las redes sociales o simplemente los usos de tarjetas de crédito, generan información masiva que debe ser procesada, resumida y analizada inteligentemente por el perfil de un profesional, al que llamamos de forma genérica “Científico de datos”. Un tridente que combina: conocimientos de aspectos metodológicos de las Matemáticas y la Estadística y/o Investigación Operativa, fundamentos de aspectos computacionales y sobre todo empatía para abordar los diversos problemas que se plantean en la práctica con una especial didáctica de entendimiento para los demandantes de la consultoría que se haga.

Sobre la actualidad

Una de las aspiraciones tradicionales en el desarrollo de la metodología estadística es la obtención de métodos óptimos resultantes de la minimización del riesgo asociado a las estimaciones. No obstante, dadas las características del nuevo paradigma que genera el “Big Data”, o ya últimamente, lo que se menciona de forma abundante en la vida real como “Inteligencia Artificial”, los procedimientos eficientes desde el punto de vista estadístico pueden resultar de difícil computación en tiempo reducido en muchos problemas. Se hace, por tanto, necesaria la incorporación simultánea de la eficiencia computacional en los nuevos procedimientos a considerar.

Está claro que la era del “Big Data” ofrece grandes oportunidades para el desarrollo de la Inferencia Estadística, tanto en la vertiente metodológica, como computacional. Son varios los volúmenes especiales de revistas de prestigio que se dedican monográficamente a esta temática en los últimos años. En especial menciono el artículo de (Franke et al. 2016), escrito por 14 coautores de relevancia mundial y en el que se tratan conclusiones del encuentro monográfico que organizó el “Canadian Statistical Sciences Institut” entre enero y junio del 2015.

La dificultad de transformar el “Big Data” en conocimiento se debe en gran medida a las “Vs”, en particular volumen, velocidad, variedad, veracidad y valor. Más allá de esas Vs, u otras, el “Big Data” tiene que ver con la naturaleza humana y por tanto con los aspectos éticos y de privacidad de la información suministrada y en movimiento. De forma especial, los algoritmos predictivos sobre la evolución de una enfermedad o sobre las posibilidades que podría tener una persona de contraerla, contemplando información genética, deberían tener un carácter confidencial. El encriptado de la información y los aspectos jurídicos asociados a la misma también van a formar parte de esta revolución que representa el Big Data actualmente. Al igual que la energía nuclear puede ser beneficiosa o nociva según sus fines, lo mismo sucede con el “Big Data”, que puede ayudar o destruir nuestra sociedad.

En esta era del “Big Data”, los procedimientos estadísticos adaptados y diseñados para analizar las nuevas cantidades masivas de datos, tienen que desempeñar, con la ayuda de las Ciencias de la Computación, un papel fundamental. Especialmente si tenemos en cuenta que el 90 por ciento de la información disponible actualmente se ha generado en los últimos años.

Presento a continuación algunos ejemplos, en diversos contextos de interés actual y futuro, en donde la información que se adquiere tiene o puede tener la naturaleza de “Big Data” requiriéndose del uso de técnicas sofisticadas de la Estadística Metodológica o de Ciencias de la Computación.

  1. La creación de mapas de la distribución de aves en tiempo real a nivel europeo en base a la información suministrada.
  2. El control en continuo que se genera de la información sensorial en los sistemas de producción industrial.
  3. El uso de las llamadas técnicas de “Deep Learning” en la gran masa de datos que se genera del campo de la Astrofísica.
  4. El diseño de técnicas de clasificación para el entendimiento con los datos del Eurobarómetro en los problemas de emigración.
  5. El uso de nuevos procedimientos estadísticos en la Quimiometría para el análisis de datos, de nueva naturaleza, como son los datos ómicos de alta dimensión o los datos funcionales.
  6. La aplicación de modelos de predicción y de “Machine Learning” a datos geo-localizados para el estudio de la eficiencia energética.
  7. El uso de procedimientos de predicción a tiempo real de aparición de bancos de algas en ubicaciones de producción en acuicultura utilizando matrices históricas de información.
  8. Algoritmos predictivos a tiempo real en base a información masiva del seguimiento de indicadores epidemiológicos.
  9. Diseños de procedimientos de clasificación y filtrado de las llamadas “fake news” en las fuentes de información de las redes sociales.
  10. Diseños de técnicas de clasificación de reconocimiento de caras de las personas en sistemas de seguridad utilizando la Estadística orientada a objetos.
  11. Modelización predictiva de los costes de la energía utilizando información diversa estructurada o no estructurada.
  12. Estudios de la integración de las grandes bases de datos informativas para decisiones clínicas de mucha relevancia, como por ejemplo los trasplantes de órganos en base a las características, moleculares u otras, asociadas al enfermo potencial.

¿Alguien tiene alguna duda de la utilidad de la Estadística?

Este fenómeno de la creciente demanda en el análisis de datos, que yo he vivido en estes años recientes desde Galicia, es también una tendencia concordante y común con lo que ocurre actualmente a nivel mundial. Se están creando nuevas titulaciones en “Big Data” o en “Ciencia de datos” en las Universidades públicas y/o privadas de nuestro país o en las empresas del sector privado. A nivel mundial se ha creado, muy recientemente, el “International Data Science in Schools Project (IDSSP)”, http://www.idssp.org/, con la colaboración de numerosas sociedades científicas de mucha relevancia y relacionadas con la Estadística y la Computación, con el objeto de ofrecer cursos a estudiantes y a profesores que quieran perfeccionar sus habilidades en la enseñanza del análisis de datos. A título de ejemplo de la fase explosiva en la que vivimos, menciono el reciente informe presentado en diciembre de 2022 en AMSTATNEWS, en el que se comenta la oferta formativa en ámbitos relacionados con la Estadística en USA. Por ejemplo, se pasa de 37 másteres acreditados en “Business Statistics” en el año 2010 a casi 3000 en el 2021. Ver el informe de Steve Pearson en dicho número de AMSTATNEWS para otras titulaciones relacionadas con la Estadística ((Pierson 2022)).

La irrupción del “Big Data” está generando un gran debate a nivel mundial, sobre qué papel deben desempeñar la Estadística y las Ciencias de la Computación en la enseñanza para la formación de profesionales del futuro en ciencia de datos. En la página web mencionada, se puede encontrar una referencia de obligada lectura sobre estos aspectos en un provocativo artículo publicado por el reciente premio “Carl Friedrich Gauss”, en la edición del 2018, David Donoho. Dicha publicación aparece en el “Journal of Computational and Graphical Statistics” ((Donoho 2017)), y recoge el motivo de su discurso “50 years of Data Science” en la conferencia “John Tukey centennial Conference”.

Una breve conclusión

El fenómeno del “Big Data” representa para todos los profesionales de la Estadística y/o Investigación Operativa, o matemáticos en general, una gran oportunidad para posicionar sus herramientas metodológicas hacia la adquisición del conocimiento que se puede derivar de la inmensa cantidad de información disponible en los problemas de la vida real.

En particular los estadístico-matemáticos debemos colaborar con los profesionales de la Computación o relacionados y con los usuarios de esa información masiva. Todos somos estrictamente necesarios.

La necesidad de la manipulación estadística de la información generará en el futuro próximo una gran demanda de profesionales que necesitarán una potente especialización en análisis de datos, una gran habilidad computacional y un conocimiento añadido de otras disciplinas matemáticas como, por ejemplo, la optimización. Ver por ejemplo en el enlace http://www.careercast.com/jobs-rated/best-jobs-2021 de proyección de las necesidades de profesionales en el futuro como destacan las profesiones de Científico de Datos, Estadístico o Matemático.

Necesitaremos, por tanto, que, en las Universidades, las nuevas generaciones de personal docente e investigador se conviertan en buenos profesores con gran capacidad en esos ámbitos y que sean capaces de transmitir conocimiento para la generación de los profesionales del futuro. Las posibilidades son enormes pero los riesgos también. De nuevo recomiendo la lectura del informe del profesor Donoho.

Acerca de los autores

Wenceslao González Manteiga es Catedrático de Universidad en el Departamento de Estadística, Análisis Matemático y Optimización, en la Universidade de Santiago de Compostela (España). ISI Member, IMS Fellow Member (2017) y Miembro de la Real Academia Galega de Ciencias (2018). En 2020 recibió la Medalla de la SEIO y Premio SEIO-Fundación BBVA (2020) mejor contribución metodológica en el campo de la Estadística. En el 2021 fue galardonado con el Premio Nacional de Estadística por el Instituto Nacional de Estadística.

Referencias

Donoho, David. 2017. “50 Years of Data Science.” Journal of Computational and Graphical Statistics 26 (4): 745–66.
Franke, B., J. F. Plante, R. Roscher, E. A. Lee, C. Smyth, A. Hatefi, F. Chen, et al. 2016. “Statistical Inference, Learning and Models in Big Data.” International Statistical Review 84 (3): 371–89.
García Jurado, I., W. González Manteiga, J. M. Prada Sánchez, M. Febrero Bande, and R. Cao. 1995. “Predicting Using Box-Jenkins, Nonparametric and Bootstrap Techniques.” Technometrics 37: 303–10.
Pierson, S. 2022. “Statistics, Biostatistics Degree Growth Continued in 2021.” AMSTATNEWS Issue 545.

Más BEIO

Uso de app’s para recogida de datos en la estadística oficial

Los institutos oficiales de estadística europeos han realizado un gran esfuerzo durante los últimos años para adaptarse al avance de las nuevas tecnologías estableciendo un nuevo canal de recogida de datos basados en cuestionarios web de auto-cumplimentación. Eustat, el Instituto Vasco de Estadística, lleva trabajando desde el año 2017 en el desarrollo de app’s para teléfonos móviles.

New advances in set estimation

Some recent advances in Set Estimation, from 2009 to the present, are discussed. These include some new findings, improved convergence rates, and new type of sets under study. Typically, the theoretical results are derived under some shape constrains, such as r-convexity or positive reach, which are briefly reviewed, together with some other new proposals in this line. Known constraints on the shape, such as r-convexity and positive reach, as well as recently introduced ones are discussed. The estimation of the home-range of a species, which is closely related to set estimation, is also explored, and statistical problems on manifolds are covered. Commentary and references are provided for readers interested in delving deeper into the subject.

Problemas de Elección Social en el Contexto de los Problemas de Asignación

En este trabajo proponemos un método de elección social basado en el problema de asignación de la investigación de operaciones, en particular consideramos un proceso de votación donde los votantes enumeran según sus preferencias a cada uno de los n candidatos disponibles, luego entonces nosotros construimos una matriz de asignación donde las “tareas” por realizar son los puestos 1,2,…n; siendo el puesto número 1 el principal y el n-ésimo el de menor jerarquía. El valor de la posición ij de la matriz se obtiene considerando el número de veces que el candidato i fue seleccionado para “ocupar” el puesto j. Así obtenemos una matriz de rendimiento y se busca la mejor asignación. Usamos bases de datos obtenidos de algunos procesos de elección en los Estados Unidos de América y comparamos los resultados que se obtendrían con nuestra propuesta, adicionalmente se construyen ejemplos para demostrar que nuestro método no es equivalente a los métodos de Borda, Condorcet y mayoría simple.

Técnicas de diferenciabilidad con aplicaciones estadísticas

En esta tesis doctoral se han explorado diferentes aplicaciones del conocido Método delta (Capítulo 2). En concreto, se han calculado las derivadas de Hadamard direccional de diferentes funcionales de tipo supremo en diferentes contextos. A continuación, se han investigado aplicaciones a inferencia no-paramétrica (Capítulo 3), a los problemas de dos muestras u homogeneidad (Capítulo 4) y a la metodología de k-medias (Capítulo 5).

Relevance and identification of biases in statistical graphs by prospective Primary school teachers

El enorme poder de visualización de la información basada en datos representada mediante gráficos estadísticos, hace especialmente interesante el estudio del entendimiento de dicha información por parte de los ciudadanos que se enfrentan a ella día a día. Al mismo tiempo, en el ámbito de didáctica de la estadística se investiga para conocer cómo se produce la transferencia de conocimiento estadístico en la escuela. Así, aunando ambos fines, el propósito del presente estudio exploratorio es observar el grado de alfabetización estadística que poseen los futuros maestros en base a la evaluación de los gráficos estadísticos, frecuentemente utilizados en los medios de comunicación, y la identificación de los sesgos que debido a su visualización selectiva de los datos a veces estos presentan. Los resultados muestran, de forma implícita, una aceptable identificación de convenios para cada gráfico estudiado mientras que evidencia una muy pobre identificación de sesgos o errores en dichas imágenes. Con ello se deduce una necesidad de refuerzo educativo en cuanto a la enseñanza y aprendizaje de la estadística, concretamente, en los estudiantes del Grado de Educación Primaria para, mediante ello, conseguir ciudadanos con una alfabetización estadística funcional desde la escuela.

Learning to build statistical indicators from open data sources

The paper presents the building of several statistical indicators from different Open Data sources, all of them using a common methodological approach to estimate changes across time. The purpose is to show the problems that must be addressed when using these data and to learn about the different ways to cope with them, according to the type of information, the data available and the aim of the specific indicator. The raw data come from diverse secondary sources that make it publicly accessible: traffic sensors, multichannel citizen attention services, Twitter messages and scraped data from a digital newspapers’ library website. The built indicators may be used as proxies or lead indicators for economic activities or social sentiments.