Modelización espacio-temporal de datos de fenotipado de alto rendimiento


Diana Marcela Pérez-Valencia
Applied Statistics Group. BCAM – Basque Center for Applied Mathematics
Departamento de Matemáticas. Universidad del País Vasco UPV/EHU
0000-0002-9053-2929
dperez@bcamath.org

Directores:
María Xosé Rodríguez-Álvarez (Universidade de Vigo)
Fred A. van Eeuwijk (Wageningen University)

Keywords: Datos multidimensionales, Estructura dispersa, Fitomejoramiento, Modelos mixtos, P-splines.

El fenotipado de plantas es crucial para el desarrollo de variedades de cultivos más resistentes, productivas y sostenibles. Proporciona información necesaria a agricultores e investigadores para abordar los desafíos de la seguridad alimentaria mundial y del cambio climático. La inversión y la colaboración son clave para el progreso en este campo. Organizaciones, universidades e iniciativas contribuyen en este ámbito. La Iniciativa de la Asociación Mundial para el Fomento de la Capacidad de Mejora Vegetal (GIPB), convocada por la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO), ejemplifica el compromiso para la mejora de las variedades de cultivos. Adicionalmente, se han conformado diferentes redes que proporcionan plataformas de fenotipado de alto rendimiento (HTP por sus siglas en inglés, “high-throughput phenotyping») para la colaboración, el intercambio de conocimientos y la creación de capacidad en este campo. Aunque las plataformas HTP son costosas, permiten controlar, cuantificar y evaluar continuamente fenotipos específicos para experimentos agrícolas de gran escala con alta resolución y precisión.

Con estas plataformas, investigadores y fitomejoradores tienen acceso a grandes (y detallados) conjuntos de datos, en forma de (largas) series temporales, que permiten seguir múltiples fenotipos (e.j., la altura de la planta, la cobertura del dosel, el índice de área foliar, el recuento de espigas y tallos, la temperatura de la copa, o los índices relacionados con el contenido de agua o clorofila) desde, por ejemplo, la germinación de la semilla hasta su madurez fisiológica. Los experimentos de campo suelen tener como objetivo evaluar la influencia de genotipos específicos en un fenotipo concreto. Estos ensayos suelen tener fines comerciales, ya que identifican genotipos “superiores» para su futura comercialización. Se sabe que, independientemente del rendimiento del genotipo, la expresión de estos fenotipos se ve afectada por factores ambientales como la heterogeneidad del suelo en los experimentos de campo y por gradientes de temperatura y luz en experimentos de invernadero. Por lo tanto, al analizar los ensayos de campo, es crucial separar eficazmente la influencia ambiental y genética en la expresión fenotípica. Esta tesis doctoral tenía como principal objetivo estimar, a partir de datos de HTP con una estructura jerárquica a tres niveles (poblaciones/familias de genotipos, genotipos dentro de poblaciones y plantas dentro de genotipos), la evolución temporal de la señal genética sobre un fenotipo específico, al tiempo que se tienen en cuenta efectos de ruido ambientales (y de diseño) espacio-temporales. Al abordar este objetivo, esta investigación se enfrentó al gran desafío de combinar métodos estadísticos y computacionales que explotaran eficaz y adecuadamente la diversidad y complejidad de los datos de HTP.

Figure 1: Resultados esperados de las aproximaciones en una y dos etapas para los tres niveles de la jerarquía (poblaciones, genotipos y plantas).

Para cumplir el objetivo principal de esta tesis, propusimos dos aproximaciones. La primera dividió el problema en dos etapas (Pérez-Valencia et al. 2022). En la primera etapa usamos el modelo SpATS (Spatial Analysis of Field Trials with Splines; Rodríguez-Álvarez et al. 2018) para corregir los datos fenotípicos por los factores de diseño experimental y la variación espacial. En la segunda etapa (modelo longitudinal jerárquico) modelizamos la evolución en el tiempo de la señal genética. La segunda propuesta consistió en afrontar el problema simultáneamente (enfoque de una etapa; (Pérez-Valencia et al. 2023)). Es decir, modelizamos la evolución temporal de la señal genética sobre un determinado rasgo fenotípico al tiempo que teníamos en cuenta los efectos temporales y espaciales de los factores ambientales y de diseño (modelo espacio-temporal jerárquico). Seguimos la misma filosofía de modelización en todo nuestro trabajo y propusimos modelos basados en P-splines (Eilers and Marx 1996). Para ambos enfoques, explotamos la conexión entre P-splines y modelos lineales mixtos y utilizamos herramientas computacionalmente atractivas que aprovecharan la estructura dispersa de las matrices implicadas en los modelos para reducir la complejidad computacional. Como resultado, en la Fig. 1, se muestra la clase de curvas estimadas (y sus derivadas) que se pueden obtener en los tres niveles de la jerarquía (poblaciones, genotipos y plantas). Estas curvas estimadas (tiempo-dependientes) las resumimos en “índices» (tiempo-independientes) de interés (como los ilustrados en la Fig. 2: inicio/fin del crecimiento, valor del fenotipo máximo y mínimo, tasa de crecimiento máxima, área bajo la curva – AUC, etc.) para ser usados en análisis posteriores (e.j., para hacer selección genotípica).

Figure 2: Ejemplos de diferentes “índices" (tiempo-independientes) de interés, obtenidos a partir de curvas estimadas en cada nivel de la jerarquía (poblaciones, genotipos y plantas; ver Fig. 1), así como de sus derivadas.

Con el fin de comparar y evaluar el rendimiento de los enfoques propuestos en una y dos etapas, usamos datos espacio-temporales simulados, y analizamos los datos de dos importantes plataformas de HTP: la plataforma PhenoArch (plataforma en invernadero en INRAE Montpellier; Cabrera-Bosquet et al. 2016), y tres ensayos independientes (2015, 2016 y 2017) desarrollados en la plataforma FIeld Phenotyping (FIP) (plataforma en campo abierto en ETH Zürich; Kronenberg et al. 2017). Para ambos enfoques, desarrollamos funciones en R para ajustar los modelos, obtener predicciones, representar gráficamente los resultados, y extraer características independientes del tiempo. Todas las funciones para el enfoque en dos etapas están disponibles públicamente a través del paquete statgenHTP (Millet et al. 2022) y para el enfoque en una etapa en https://gitlab.bcamath.org/dperez/htp_one_stage_approach. Al compartir nuestro código, esperamos garantizar la reproducibilidad de nuestros resultados y promover la colaboración en la comunidad científica. Además, pretendemos acercar a los fitomejoradores a herramientas estadísticas fáciles de usar para apoyar su proceso de toma de decisiones.

Esta tesis representa un punto de partida prometedor para el análisis espacio-temporal de datos de HTP jerárquicos. Los dos enfoques propuestos representan un buen compromiso entre flexibilidad, precisión, eficiencia computacional e interpretabilidad. El objetivo último de esta investigación ha sido contribuir en el mejoramiento de las prácticas de fitomejoramiento. Las técnicas estadísticas desarrolladas en esta tesis para hacer frente a los retos que plantean los datos de HTP son de gran interés no sólo para los fitomejoradores y estadísticos de ese campo, sino también para los profesionales que trabajan en medicina, genética humana y animal, biología evolutiva y otros ámbitos.

Agradecimientos

Esta investigación ha contado con el apoyo del proyecto MTM2017-82379-R (AEI/FEDER, UE), del Gobierno Vasco a través de los programas BERC 2018-2021 y BERC 2022-2025, y del Ministerio de Ciencia e Innovación: BCAM Severo Ochoa acreditación SEV-2017-0718 y BCAM Severo Ochoa acreditación CEX2021-001142-S/MICIN/AEI/10.13039/501100011033. Agradecemos especialmente a Llorenç Cabrera-Bosquet y François Tardieu (LEPSE, INRAE, Montpellier, Francia) por compartir con nosotros los datos de PhenoArch, a Lukas Kronenberg y Andreas Hund (ETH Zürich, Suiza) por compartir con nosotros los datos de FIP, a Martin P. Boer (Wagenigen University & Research, Países Bajos) por ayudarnos a mejorar los tiempos de cómputo de nuestros códigos con su LMMsolver, y a Bar-Jan van Rossum (Wagenigen University & Research, Países Bajos) y Emilie J. Millet (INRAE, Montpellier, Francia) por ayudarnos a integrar nuestro código dentro del paquete statgenHTP de R.

Referencias

Cabrera-Bosquet, L., C. Fournier, N. Brichet, C. Welcker, B. Suard, and F. Tardieu. 2016. “High-Throughput Estimation of Incident Light, Light Interception and Radiation-Use Efficiency of Thousands of Plants in a Phenotyping Platform.” New Phytologist 212 (1): 269–81. https://doi.org/10.1111/nph.14027.
Eilers, P. H. C., and B. D. Marx. 1996. “Flexible Smoothing with b-Splines and Penalties.” Statistical Science, 89–102. https://doi.org/10.1214/ss/1038425655.
Kronenberg, L., K. Yu, A. Walter, and A. Hund. 2017. “Monitoring the Dynamics of Wheat Stem Elongation: Genotypes Differ at Critical Stages.” Euphytica 213 (7): 157. https://doi.org/10.1007/s10681-017-1940-2.
Millet, E. J., M. X. Rodríguez-Álvarez, D. M. Perez-Valencia, I. Sanchez, N. Hilgert, B.-J. van Rossum, F. A. van Eeuwijk, and M. P. Boer. 2022. statgenHTP: High Throughput Phenotyping (HTP) Data Analysis. https://CRAN.R-project.org/package=statgenHTP.
Pérez-Valencia, D. M., M. X. Rodríguez-Álvarez, M. P. Boer, and F. A. van Eeuwijk. 2023. “A One-Stage Approach for the Spatio-Temporal Analysis of High-Throughput Phenotyping Data.” BioXiv.
Pérez-Valencia, D. M., M. X. Rodríguez-Álvarez, M. P. Boer, L. Kronenberg, A. Hund, L. Cabrera-Bosquet, E. J. Millet, and F. A. van Eeuwijk. 2022. “A Two-Stage Approach for the Spatio-Temporal Analysis of High-Throughput Phenotyping Data.” Scientific Reports 12 (1): 1–16. https://doi.org/10.1038/s41598-022-06935-9.
Rodríguez-Álvarez, M. X., M. P. Boer, F. A. van Eeuwijk, and P. H. C. Eilers. 2018. “Correcting for Spatial Heterogeneity in Plant Breeding Experiments with p-Splines.” Spatial Statistics 23: 52–71. https://doi.org/10.1016/j.spasta.2017.10.003.


Más BEIO

Uso de app’s para recogida de datos en la estadística oficial

Los institutos oficiales de estadística europeos han realizado un gran esfuerzo durante los últimos años para adaptarse al avance de las nuevas tecnologías estableciendo un nuevo canal de recogida de datos basados en cuestionarios web de auto-cumplimentación. Eustat, el Instituto Vasco de Estadística, lleva trabajando desde el año 2017 en el desarrollo de app’s para teléfonos móviles.

New advances in set estimation

Some recent advances in Set Estimation, from 2009 to the present, are discussed. These include some new findings, improved convergence rates, and new type of sets under study. Typically, the theoretical results are derived under some shape constrains, such as r-convexity or positive reach, which are briefly reviewed, together with some other new proposals in this line. Known constraints on the shape, such as r-convexity and positive reach, as well as recently introduced ones are discussed. The estimation of the home-range of a species, which is closely related to set estimation, is also explored, and statistical problems on manifolds are covered. Commentary and references are provided for readers interested in delving deeper into the subject.

Problemas de Elección Social en el Contexto de los Problemas de Asignación

En este trabajo proponemos un método de elección social basado en el problema de asignación de la investigación de operaciones, en particular consideramos un proceso de votación donde los votantes enumeran según sus preferencias a cada uno de los n candidatos disponibles, luego entonces nosotros construimos una matriz de asignación donde las “tareas” por realizar son los puestos 1,2,…n; siendo el puesto número 1 el principal y el n-ésimo el de menor jerarquía. El valor de la posición ij de la matriz se obtiene considerando el número de veces que el candidato i fue seleccionado para “ocupar” el puesto j. Así obtenemos una matriz de rendimiento y se busca la mejor asignación. Usamos bases de datos obtenidos de algunos procesos de elección en los Estados Unidos de América y comparamos los resultados que se obtendrían con nuestra propuesta, adicionalmente se construyen ejemplos para demostrar que nuestro método no es equivalente a los métodos de Borda, Condorcet y mayoría simple.

Técnicas de diferenciabilidad con aplicaciones estadísticas

En esta tesis doctoral se han explorado diferentes aplicaciones del conocido Método delta (Capítulo 2). En concreto, se han calculado las derivadas de Hadamard direccional de diferentes funcionales de tipo supremo en diferentes contextos. A continuación, se han investigado aplicaciones a inferencia no-paramétrica (Capítulo 3), a los problemas de dos muestras u homogeneidad (Capítulo 4) y a la metodología de k-medias (Capítulo 5).

Relevance and identification of biases in statistical graphs by prospective Primary school teachers

El enorme poder de visualización de la información basada en datos representada mediante gráficos estadísticos, hace especialmente interesante el estudio del entendimiento de dicha información por parte de los ciudadanos que se enfrentan a ella día a día. Al mismo tiempo, en el ámbito de didáctica de la estadística se investiga para conocer cómo se produce la transferencia de conocimiento estadístico en la escuela. Así, aunando ambos fines, el propósito del presente estudio exploratorio es observar el grado de alfabetización estadística que poseen los futuros maestros en base a la evaluación de los gráficos estadísticos, frecuentemente utilizados en los medios de comunicación, y la identificación de los sesgos que debido a su visualización selectiva de los datos a veces estos presentan. Los resultados muestran, de forma implícita, una aceptable identificación de convenios para cada gráfico estudiado mientras que evidencia una muy pobre identificación de sesgos o errores en dichas imágenes. Con ello se deduce una necesidad de refuerzo educativo en cuanto a la enseñanza y aprendizaje de la estadística, concretamente, en los estudiantes del Grado de Educación Primaria para, mediante ello, conseguir ciudadanos con una alfabetización estadística funcional desde la escuela.

Learning to build statistical indicators from open data sources

The paper presents the building of several statistical indicators from different Open Data sources, all of them using a common methodological approach to estimate changes across time. The purpose is to show the problems that must be addressed when using these data and to learn about the different ways to cope with them, according to the type of information, the data available and the aim of the specific indicator. The raw data come from diverse secondary sources that make it publicly accessible: traffic sensors, multichannel citizen attention services, Twitter messages and scraped data from a digital newspapers’ library website. The built indicators may be used as proxies or lead indicators for economic activities or social sentiments.