Diana Marcela Pérez-Valencia
Applied Statistics Group. BCAM – Basque Center for Applied Mathematics
Departamento de Matemáticas. Universidad del País Vasco UPV/EHU
0000-0002-9053-2929
dperez@bcamath.org
Directores:
María Xosé Rodríguez-Álvarez (Universidade de Vigo)
Fred A. van Eeuwijk (Wageningen University)
Keywords: Datos multidimensionales, Estructura dispersa, Fitomejoramiento, Modelos mixtos, P-splines.
El fenotipado de plantas es crucial para el desarrollo de variedades de cultivos más resistentes, productivas y sostenibles. Proporciona información necesaria a agricultores e investigadores para abordar los desafíos de la seguridad alimentaria mundial y del cambio climático. La inversión y la colaboración son clave para el progreso en este campo. Organizaciones, universidades e iniciativas contribuyen en este ámbito. La Iniciativa de la Asociación Mundial para el Fomento de la Capacidad de Mejora Vegetal (GIPB), convocada por la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO), ejemplifica el compromiso para la mejora de las variedades de cultivos. Adicionalmente, se han conformado diferentes redes que proporcionan plataformas de fenotipado de alto rendimiento (HTP por sus siglas en inglés, “high-throughput phenotyping») para la colaboración, el intercambio de conocimientos y la creación de capacidad en este campo. Aunque las plataformas HTP son costosas, permiten controlar, cuantificar y evaluar continuamente fenotipos específicos para experimentos agrícolas de gran escala con alta resolución y precisión.
Con estas plataformas, investigadores y fitomejoradores tienen acceso a grandes (y detallados) conjuntos de datos, en forma de (largas) series temporales, que permiten seguir múltiples fenotipos (e.j., la altura de la planta, la cobertura del dosel, el índice de área foliar, el recuento de espigas y tallos, la temperatura de la copa, o los índices relacionados con el contenido de agua o clorofila) desde, por ejemplo, la germinación de la semilla hasta su madurez fisiológica. Los experimentos de campo suelen tener como objetivo evaluar la influencia de genotipos específicos en un fenotipo concreto. Estos ensayos suelen tener fines comerciales, ya que identifican genotipos “superiores» para su futura comercialización. Se sabe que, independientemente del rendimiento del genotipo, la expresión de estos fenotipos se ve afectada por factores ambientales como la heterogeneidad del suelo en los experimentos de campo y por gradientes de temperatura y luz en experimentos de invernadero. Por lo tanto, al analizar los ensayos de campo, es crucial separar eficazmente la influencia ambiental y genética en la expresión fenotípica. Esta tesis doctoral tenía como principal objetivo estimar, a partir de datos de HTP con una estructura jerárquica a tres niveles (poblaciones/familias de genotipos, genotipos dentro de poblaciones y plantas dentro de genotipos), la evolución temporal de la señal genética sobre un fenotipo específico, al tiempo que se tienen en cuenta efectos de ruido ambientales (y de diseño) espacio-temporales. Al abordar este objetivo, esta investigación se enfrentó al gran desafío de combinar métodos estadísticos y computacionales que explotaran eficaz y adecuadamente la diversidad y complejidad de los datos de HTP.
Para cumplir el objetivo principal de esta tesis, propusimos dos aproximaciones. La primera dividió el problema en dos etapas (Pérez-Valencia et al. 2022). En la primera etapa usamos el modelo SpATS (Spatial Analysis of Field Trials with Splines; Rodríguez-Álvarez et al. 2018) para corregir los datos fenotípicos por los factores de diseño experimental y la variación espacial. En la segunda etapa (modelo longitudinal jerárquico) modelizamos la evolución en el tiempo de la señal genética. La segunda propuesta consistió en afrontar el problema simultáneamente (enfoque de una etapa; (Pérez-Valencia et al. 2023)). Es decir, modelizamos la evolución temporal de la señal genética sobre un determinado rasgo fenotípico al tiempo que teníamos en cuenta los efectos temporales y espaciales de los factores ambientales y de diseño (modelo espacio-temporal jerárquico). Seguimos la misma filosofía de modelización en todo nuestro trabajo y propusimos modelos basados en P-splines (Eilers and Marx 1996). Para ambos enfoques, explotamos la conexión entre P-splines y modelos lineales mixtos y utilizamos herramientas computacionalmente atractivas que aprovecharan la estructura dispersa de las matrices implicadas en los modelos para reducir la complejidad computacional. Como resultado, en la Fig. 1, se muestra la clase de curvas estimadas (y sus derivadas) que se pueden obtener en los tres niveles de la jerarquía (poblaciones, genotipos y plantas). Estas curvas estimadas (tiempo-dependientes) las resumimos en “índices» (tiempo-independientes) de interés (como los ilustrados en la Fig. 2: inicio/fin del crecimiento, valor del fenotipo máximo y mínimo, tasa de crecimiento máxima, área bajo la curva – AUC, etc.) para ser usados en análisis posteriores (e.j., para hacer selección genotípica).
Con el fin de comparar y evaluar el rendimiento de los enfoques propuestos en una y dos etapas, usamos datos espacio-temporales simulados, y analizamos los datos de dos importantes plataformas de HTP: la plataforma PhenoArch (plataforma en invernadero en INRAE Montpellier; Cabrera-Bosquet et al. 2016), y tres ensayos independientes (2015, 2016 y 2017) desarrollados en la plataforma FIeld Phenotyping (FIP) (plataforma en campo abierto en ETH Zürich; Kronenberg et al. 2017). Para ambos enfoques, desarrollamos funciones en R
para ajustar los modelos, obtener predicciones, representar gráficamente los resultados, y extraer características independientes del tiempo. Todas las funciones para el enfoque en dos etapas están disponibles públicamente a través del paquete statgenHTP
(Millet et al. 2022) y para el enfoque en una etapa en https://gitlab.bcamath.org/dperez/htp_one_stage_approach. Al compartir nuestro código, esperamos garantizar la reproducibilidad de nuestros resultados y promover la colaboración en la comunidad científica. Además, pretendemos acercar a los fitomejoradores a herramientas estadísticas fáciles de usar para apoyar su proceso de toma de decisiones.
Esta tesis representa un punto de partida prometedor para el análisis espacio-temporal de datos de HTP jerárquicos. Los dos enfoques propuestos representan un buen compromiso entre flexibilidad, precisión, eficiencia computacional e interpretabilidad. El objetivo último de esta investigación ha sido contribuir en el mejoramiento de las prácticas de fitomejoramiento. Las técnicas estadísticas desarrolladas en esta tesis para hacer frente a los retos que plantean los datos de HTP son de gran interés no sólo para los fitomejoradores y estadísticos de ese campo, sino también para los profesionales que trabajan en medicina, genética humana y animal, biología evolutiva y otros ámbitos.
Agradecimientos
Esta investigación ha contado con el apoyo del proyecto MTM2017-82379-R (AEI/FEDER, UE), del Gobierno Vasco a través de los programas BERC 2018-2021 y BERC 2022-2025, y del Ministerio de Ciencia e Innovación: BCAM Severo Ochoa acreditación SEV-2017-0718 y BCAM Severo Ochoa acreditación CEX2021-001142-S/MICIN/AEI/10.13039/501100011033. Agradecemos especialmente a Llorenç Cabrera-Bosquet y François Tardieu (LEPSE, INRAE, Montpellier, Francia) por compartir con nosotros los datos de PhenoArch, a Lukas Kronenberg y Andreas Hund (ETH Zürich, Suiza) por compartir con nosotros los datos de FIP, a Martin P. Boer (Wagenigen University & Research, Países Bajos) por ayudarnos a mejorar los tiempos de cómputo de nuestros códigos con su LMMsolver, y a Bar-Jan van Rossum (Wagenigen University & Research, Países Bajos) y Emilie J. Millet (INRAE, Montpellier, Francia) por ayudarnos a integrar nuestro código dentro del paquete statgenHTP
de R
.
Referencias