Technical efficiency estimation using adaptive constrained enveloping splines

Víctor Javier España Roch

Ayuda

Technical efficiency estimation using adaptive constrained enveloping splines

Autores: Víctor Javier España Roch
Directores de la Tesis: Juan Aparicio Baeza (dir. tes.) , Josep Xavier Barber Valles (codir. tes.)
Lectura: En la Universidad Miguel Hernández de Elche ( España ) en 2025
Idioma: español
Tribunal Calificador de la Tesis: José Manuel Cordero Ferrera (presid.) , Lidia Ortiz Henarejos (secret.) , José Luis Zofío Prieto (voc.)
Texto completo no disponible (Saber más ...)
Resumen
- La medición de la eficiencia técnica representa un objetivo relevante tanto en el análisis económico teórico como en el aplicado, ya que permite a organizaciones, industrias y responsables políticos evaluar el desempeño, asignar recursos de forma eficiente e identificar áreas de mejora. Entre las diversas herramientas desarrolladas con este fin, el Análisis Envolvente de Datos (en inglés, Data Envelopment Analysis, DEA) ha surgido como una de las metodologías no paramétricas predominantes, ampliamente adoptada por su simplicidad conceptual y flexibilidad operativa. DEA construye una frontera de producción que envuelve los datos observados sin requerir la especificación previa de una forma funcional, lo que la hace adecuada para aplicaciones en sectores tan diversos como la educación, la sanidad o la banca.
  
  Sin embargo, a pesar de su uso extendido, DEA presenta importantes limitaciones metodológicas que dificultan su aplicabilidad y precisión en contextos reales. Entre ellas destacan los problemas de sobreajuste, especialmente cuando el número de inputs y outputs es elevado en relación con el tamaño de la muestra, lo que conduce a estimaciones de eficiencia excesivamente optimistas. Además, DEA carece de un marco natural para la realización de inferencia estadística, lo que impide determinar intervalos de confianza o contrastes de hipótesis sin recurrir a procedimientos bootstrap complejos y computacionalmente costosos. Otra limitación crítica es la ausencia de un criterio sistemático para la selección de variables, lo que hace que los resultados dependan en exceso del juicio del analista y puedan verse distorsionados por variables irrelevantes o redundantes. Estos desafíos se agravan en entornos de datos de alta dimensión, donde las relaciones entre variables tienden a ser complejas y no lineales, superando con frecuencia la capacidad de DEA para capturar con precisión la estructura subyacente del proceso productivo.
  
  La tesis presenta una familia unificada de técnicas para la estimación de fronteras de producción, diseñada para abordar estas limitaciones clave de DEA, tales como el sobreajuste, la falta de robustez y las dificultades en entornos de alta dimensión. Esta familia incluye tres métodos complementarios: Adaptive Constrained Enveloping Splines (ACES), que ofrece un estimador flexible de la eficiencia técnica; Random Forest-ACES (RF-ACES), que mejora la robustez mediante la agregación de modelos; y Quick-ACES (Q-ACES), que se centra en la eficiencia computacional para aplicaciones a gran escala. Cada uno de estos métodos responde a necesidades empíricas distintas, permitiendo al investigador seleccionar la alternativa más adecuada según las características del conjunto de datos.
  
  En el núcleo de este marco se encuentra ACES, un método basado en una adaptación del algoritmo Multivariate Adaptive Regression Splines (MARS), ajustado específicamente para la estimación de fronteras de producción. ACES integra restricciones de forma esenciales -monotonía y concavidad- en un modelo de regresión no paramétrica con splines, garantizando así la coherencia con la teoría microeconómica. El procedimiento de estimación se formula como un problema de optimización con restricciones y sigue un enfoque en dos etapas: primero, se genera un conjunto amplio de funciones base mediante selección hacia adelante (forward selection); después, el modelo se depura con un paso de selección hacia atrás (backward elimination) guiado por validación cruzada generalizada. El resultado es un estimador flexible, capaz de capturar relaciones input-output complejas y no lineales, evitando al mismo tiempo el sobreajuste característico de DEA. Una de las principales fortalezas de ACES es su capacidad para mantenerse completamente determinista y, aun así, generalizar más allá de la muestra observada -lo que representa un avance significativo frente a los métodos envolventes tradicionales.
  
  Para mejorar la robustez y reducir la sensibilidad de los modelos basados en splines a la configuración local de los datos, la tesis amplía ACES mediante una versión agregada denominada RF-ACES. Este método se inspira en los principios del bagging y la selección aleatoria de variables característicos del algoritmo Random Forest. En RF-ACES, múltiples modelos ACES se entrenan sobre muestras bootstrap del conjunto de datos original, utilizando subconjuntos aleatorios de inputs en cada iteración. Los estimadores resultantes se agregan para formar un predictor final más estable y menos sensible al ruido aleatorio. Una ventaja adicional de RF-ACES es su capacidad para proporcionar medidas internas de importancia de las variables, útiles para guiar la reducción dimensional e identificar los inputs más influyentes. Esto lo convierte en una opción especialmente eficaz en contextos de alta dimensionalidad o cuando se sospecha que hay variables que distorsionan la estimación. No obstante, esta mejora en robustez conlleva un mayor coste computacional, ya que implica realizar múltiples estimaciones con restricciones y combinarlas.
  
  Para abordar las limitaciones computacionales y garantizar la escalabilidad del método en conjuntos de datos extensos o en aplicaciones que requieren tiempos de respuesta reducidos, la tesis propone un tercer miembro de la familia: Q-ACES. Esta variante acelerada introduce un conjunto de estrategias heurísticas diseñadas para reducir la carga computacional del proceso de estimación sin comprometer los principios teóricos que sustentan ACES. Entre estas estrategias se incluyen la preselección de variables basada en análisis de correlación, la reducción del conjunto de knots mediante análisis de vecindad a partir de proyecciones DEA, y el filtrado adaptativo de funciones base durante la fase de selección hacia adelante. Además, Q-ACES incorpora un nuevo procedimiento automático de selección de variables, que constituye una alternativa al mecanismo basado en Random Forest utilizado en RF-ACES. Este procedimiento permite identificar de manera eficiente los inputs más relevantes, preservando al mismo tiempo la precisión del modelo. Gracias a estas mejoras, Q-ACES logra reducciones sustanciales en el tiempo de ejecución y el uso de memoria, lo que permite aplicar estimadores de frontera con restricciones de forma en escenarios a gran escala donde el uso de ACES sería impracticable.
  
  Conjuntamente, estos tres métodos -ACES, RF-ACES y Q-ACES- conforman una caja de herramientas flexible y modular para el análisis de eficiencia técnica. El analista puede seleccionar la variante más adecuada en función del tamaño y la complejidad del conjunto de datos, el grado de tolerancia al uso de heurísticas y la necesidad de robustez. Este enfoque basado en una familia de métodos permite superar la naturaleza estática y dependiente de la muestra de DEA, y adoptar estimadores de frontera que no solo están fundamentados teóricamente, sino que también se adaptan a los desafíos contemporáneos del análisis de datos. Las metodologías propuestas han sido validadas mediante cientos de experimentos de simulación, que cubren un amplio rango de escenarios con diferentes niveles de dimensionalidad, estructura productiva y complejidad funcional. Los resultados confirman de forma consistente la competitividad de ACES y sus variantes frente a técnicas consolidadas como DEA, Corrected Concave Non-parametric Least Squares (CCNLS), Stochastic Non-Smooth Envelopment of Data (StoNED) o Bootstrap DEA, ofreciendo en muchos casos estimaciones más precisas y estables. Además, la tesis proporciona una guía práctica para configurar y ajustar ACES según el contexto empírico, ayudando a los investigadores a tomar decisiones fundamentadas para maximizar el rendimiento y la fiabilidad de sus análisis.