Los métodos de aprendizaje automático o machine learning (ML) son capaces de aprender a partir de datos y hacer predicciones en casos nunca vistos. Sin embargo, algunos de los métodos de ML más usuales no informan sobre la incertidumbre de sus predicciones, la cual puede ser crucial en diversas aplicaciones. La perspectiva Bayesiana proporciona un marco natural para ello, otorgando la capacidad de incorporar y reflejar diversas fuentes de incertidumbre en las distribuciones predictivas finales. Esta incertidumbre puede tener diferentes fuentes, como los datos, la selección del modelo y sus parámetros asociados, y todas estas contribuciones pueden agregarse adecuadamente usando las herramientas Bayesianas. Sin embargo, para la mayoría de métodos de ML, la inferencia Bayesiana exacta es intratable, teniendo que recurrir a aproximaciones de la misma. En esta tesis proponemos nuevos métodos de inferencia aproximada, con aplicaciones concretas para algunos de los métodos más populares en ML.
En primer lugar introduciremos las redes neuronales (NNs), desde sus fundamentos básicos hasta algunas de sus arquitecturas más comunes, así como los procesos Gaussianos (GPs), importantes herramientas empleadas en diversos problemas de aprendizaje. Además, veremos cómo los sparse GPs alivian los problemas de escalabilidad de los GPs mediante la introducción de los puntos inducidos. En la segunda mitad de esta introducción describiremos los fundamentos de la inferencia Bayesiana y extenderemos la formulación de las NNs al marco Bayesiano para obtener NNs capaces de producir distribuciones predictivas. Veremos por qué la inferencia Bayesiana es intratable para muchos métodos de ML y revisaremos técnicas de aproximación basadas tanto en muestreos como en la optimización de parámetros. Además de esto, veremos las alfa-divergencias como una generalización de conceptos empleados en ciertos métodos de inferencia aproximada. Finalmente extenderemos la formulación de los GPs a los procesos implícitos (IPs), una clase más general y flexible de procesos estocásticos desde la cual podremos describir múltiples modelos útiles. Aunque prometedores, los métodos actuales basados en IPs no son capaces de explotar todas sus propiedades debido a las limitaciones de las aproximaciones empleadas.
En la segunda parte de la tesis presentaremos nuestras contribuciones al campo de inferencia aproximada, con especial interés para las NNs Bayesianas y los IPs. Primero veremos un método para realizar inferencia aproximada usando alfa-divergencias con distribuciones aproximadas implícitas. El método resultante, minimización adversaria de alfa-divergencias (AADM), optimiza un objetivo más general que los anteriores basados en inferencia variacional o expectation propagation, y esto le otorga la capacidad de capturar patrones más complejos de los datos y mostrarlos en su distribución predictiva, la cual ya no estará restringida a ser Gaussiana. AADM incluye un nuevo parámetro que puede emplearse para optimizar diversas métricas en los resultados finales, y a través de numerosos experimentos se muestra que supera el rendimiento de métodos anteriores en el contexto de NNs Bayesianas. Por último, veremos una segunda contribución que hace uso de IPs para inferencia aproximada. Esta emplea optimización en el espacio de funciones, ya que el espacio de parámetros usual padece de problemas intrínsecos por su alta dimensionalidad y las interdependencias entre los mismos. Nuestro método, sparse IPs (SIP), es el primer sistema basado en IPs completamente general, capaz de ajustar su modelo de probabilidad a priori y de producir distribuciones predictivas flexibles simultáneamente. Además, debido al uso de la aproximación de puntos inducidos, SIP es escalable y eficiente para conjuntos grandes de datos con millones de instancias. En los experimentos SIP demuestra mejor rendimiento que los demás métodos, presentando además nuevas propiedades únicas entre los sistemas basados en IPs.
Machine learning (ML) methods can learn from data and then be used for making predictions on new data instances. However, some of the most popular ML methods cannot provide information about the uncertainty of their predictions, which may be crucial in many applications. The Bayesianframework for ML introduces a natural approach to formulate many ML methods, and it also has the advantage of easily incorporating and reflecting different sources of uncertainty in the final predictive distribution. These sources include uncertainty related to, for example, the data, the model chosen, and its parameters. Moreover, they can be automatically balanced and aggregated using information from the observed data. Nevertheless, in spite of this advantage, exact Bayesian inference is intractable in most ML methods, and approximate inference techniques have to be used in practice. In this thesis we propose a collection of methods for approximate inference, withspecific applications in some popular approaches in supervised ML. First, we introduce neural networks (NNs), from their most basic concepts to some of their mostpopular architectures. Gaussian processes (GPs), a simple but important tool in Bayesian regression, are also reviewed. Sparse GPs are presented as a clever solution to improve GPs’ scalability by introducing new parameters: the inducing points. In the second half of the introductory partwe also describe Bayesian inference and extend the NN formulation using a Bayesian approach, which results in a NN model capable of outputting a predictive distribution. We will see why Bayesian inference is intractable in most ML approaches, and also describe sampling-based and optimization-based methods for approximate inference. The use of -divergences is introduced next, leading to a generalization of certain methods for approximate inference. Finally we will extend the GPs to implicit processes (IPs), a more general class of stochastic processes which provide a flexible framework from which we can define numerous models. Although promising, current IP-based ML methods fail to exploit of all their potential due to the limitations of the approximations required in their formulation...
© 2008-2024 Fundación Dialnet · Todos los derechos reservados