David Zarandieta Ortiz, Francisco Antonio Galea Gragera, Francisco Chávez de la O , Fernando Llera Cid, Josefa Díaz Álvarez
La cuantificación precisa del contenido proteico en cereales es esencial para optimizar su calidad nutricional y su valor agroindustrial. Sin embargo, los métodos tradicionales, como Kjeldahl y Dumas, presentan limitaciones en términos de costo, tiempo y destructividad de las muestras. En este estudio, se propone un enfoque basado en espectroscopía de infrarrojo cercano combinado con técnicas avanzadas de aprendizaje automático y programación genética para la predicción explicable del contenido proteico en muestras intactas de avena, cebada y triticale.
Se aplican tres algoritmos de Machine Learning (Regresión de Mínimos Cuadrados Parciales, Random Forest y k-Nearest Neighbors) para modelar la relación entre los espectros y los valores de proteína (valor predictivo), optimizando su rendimiento mediante GridSearchCV. Posteriormente, la programación genética permite generar una expresión matemática interpretable que integra las predicciones de los modelos de ML, mejorando la precisión final del sistema.
Los resultados muestran que los modelos basados en preprocesamientos espectrales avanzados logran predicciones altamente precisas (R² > 0.97 en el mejor caso). La combinación de espectros de infrarroojo cercano, machine learning y programación genética demuestra ser una solución eficiente, no destructiva y escalable para la estimación del contenido proteico en cereales, con aplicaciones directas en la industria agroalimentaria y en la mejora de cultivos.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados