Advanced Kernel Methods for Multi-Task learning

Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Ingeniería Informática. Fecha de Lectura: 20-04-2023

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.

Abstract

Machine Learning (ML), whose goal is to automatize the process of learning, has a great influence in our current society. The ML algorithms try to infer general pattern from data, which can then be applicable to new unseen data. These algorithms, such as the Support Vector Machine (SVM) or the Neural Network (NN), are present in many daily situations and have strongly impacted multiple areas such as engineering or advertising, among many others. Multi-Task Learning (MTL) is a field of ML that considers learning different tasks jointly to improve the learning process. This is the natural way of learning for humans: we do not learn each task in an isolated manner, but there exist related tasks that are better learned together. The goal in MTL is to develop strategies to mimic this behaviour, where learning various tasks jointly offers an advantage. This thesis begins with a presentation of some basic concepts and definitions that we will use in the rest of this work. After that, a theoretical motivation for MTL is given, and some of the most relevant works in this area are reviewed. A taxonomy for these methods is proposed, where three categories are considered: feature-based, parameter-based and combination-based strategies. Different ML algorithms, depending on their characteristics, are more suitable for one of these strategies than for others. The feature-based strategies are more natural for NNs, while the kernel methods, such as the SVM, present a more rigid framework, and the combination-based strategies are better suited for them. Considering the combination-based strategies, a new convex formulation is proposed: in each task we consider a convex combination of a common and task-specific part as the model. This formulation offers some nice properties, such as better interpretability of the models, or the possibility to dismiss the common or task-specific parts with a particular choice of the hyperparameters. This approach is applied to kernel methods, in particular, the L1, L2 and LS-SVM with this convex MTL formulation are proposed, and the solutions for the corresponding training problems can be obtained with standard SVM solvers. One natural alternative, which considers the direct convex combination of pre-trained common and task-specific models, is also described. In multiple experiments, it is observed that the kernel methods with a convex MTL formulation obtain better results than those considering just a common model, task-specific ones or the convex combination of pre-trained models. As a real world application, the prediction of solar and wind energy is also presented using these models, where our proposal outperforms or ties with the described competition. Applying this formulation, an MTL proposal for NNs is also made, where a convex combination of a common and a task-specific networks is used. These models can also be trained with standard optimization techniques for NNs. In experiments with four image datasets, it is shown that the results of this proposal are better than using standard approaches, such as sharing the weights in the hidden layers and task-specific output neurons. Another approach is proposed with a Graph Laplacian (GL) regularization, where the tasks are interpreted as nodes in a graph, and the pairwise distances between the task models are penalized. In this approach, the adjacency matrix of the graph defines the weights for the distances. A new formulation, based on the tensor product of Reproducing Kernel Hilbert Spaces, to apply this regularization in kernel spaces is developed, and the GL regularization is applied to the L1, L2 and LS-SVM. It is exemplified with multiple experiments that this approach can obtain competitive results. Moreover, an algorithm to automatically learn the graph adjacency matrix from the data is proposed and examples of the advantages of using this algorithm are given using experiments with synthetic and real data. The thesis ends with some general conclusions and presents lines of research for future work

El aprendizaje autom´atico (AA), cuyo objetivo es automatizar el proceso de aprendizaje, tiene una gran influencia en la sociedad actual. Los algoritmos de AA tratan de inferir patrones generales a partir de datos, los cuales pueden despu´es ser aplicados a nuevos datos. Estos algoritmos, como las M´aquinas de Vectores Soporte (MVS) o las Redes Neuronales (RN), est´an presentes en muchas situaciones cotidianas y han causado un fuerte impacto en m´ultiples ´areas como la ingenier´ıa o la publicidad, entre otras muchas. El Aprendizaje Multitarea (AMT) es un campo del AA que considera el aprendizaje de diferentes tareas de forma conjunta para mejorar el proceso de aprendizaje. Esta es la manera natural de aprender para los humanos: no aprendemos las tareas de manera iaslada, sino que existen tareas que est´an relacionadas y se aprenden mejor juntas. El objetivo del AMT es desarrollar estrategias que imiten este comportamiento, donde aprender diversas tareas conjuntamente ofrece una ventaja. Esta tesis comienza presentando algunos conceptos b´asicos y definiciones que usaremos en el resto de este trabajo. Despu´es de esto, se ofrece una motivaci´on te´orica para el AMT, y se revisan algunos de los trabajos m´as relevantes en este ´area. Se propone una taxonom´ıa para estos m´etodos, donde se consideran tres categor´ıas: estrategias basadas en caracter´ısticas, basadas en par´ametros y basadas en combinaci´on. Distintos algoritmos de AA, dependiendo de sus caracter´ısticas, son m´as aptos para una u otra de estas estrategias. Las estrategias basadas en caracter´ısticas son naturales para las RN, mientras que los m´etodos de kernel, como las MVS, presentan un esquema m´as r´ıgido, y son m´as adaptables a las basadas en combinaciones. Dentro de las estrategias basadas en combinaciones, se presenta una nueva formulaci´on convexa: se considera la combinaci´on convexa de una parte com´un y otra espec´ıfica como el modelo de cada tarea. Esta formulaci´on ofrece algunas propiedades buenas, como una mejor interpretabilidad o la posibilidad de, con una selecci´on particular de hiperpar´ametros, eliminar la parte com´un o la espec´ıfica del modelo. Este enfoque se aplica a m´etodos de kernel, en particular se proponen la L1, L2 y LS-MVS convexas para AMT, y las soluciones correspondientes a los problemas de entrenamiento se pueden obtener con t´ecnicas est´andares de MVS. Tambi´en se describe una alternativa natural, que considera la combinaci´on convexa directa de un modelo com´un y otros espec´ıficos que ya han sido preentrenados. Se observa en m´ultiples experimentos que los m´etodos de kernel con esta formulaci´on convexa obtienen mejores resultados que considerando ´unicamente un modelo com´un, uno espec´ıfico, o la combinaci´on de estos modelos preentrenados. Tambi´en se presenta la predicci´on de energ´ıa e´olica y solar como una aplicaci´on real de estos modelos, donde nuestra propuesta iguala o supera a otros enfoques, como el de un modelo com´un, modelos espec´ıficos por tarea o la combinaci´on convexa directa. Aplicando esta formulaci´on se hace una propuesta de AMT para RN, donde se considera una combinaci´on convexa de redes comunes y espec´ıficas. Estos modelos se puede entrenar tambi´en con t´ecnicas est´andares para RN. Se muestra con cuatro conjuntos de im´agenes que los resultados de nuestra propuesta son mejores que aquellos obtenidos con enfoques m´as tradicionales, como compartir las capas ocultas y definir neuronas de salida espec´ıficas para cada tarea. Se propone adem´as otro enfoque con una regularizaci´on basada en el laplaciano de un grafo, en el que las tareas se interpretan como nodos en un grafo, y las distancias entre los modelos de cada par de tareas son penalizadas. En este enfoque, la matriz de adyacencia del grafo define el peso de cada distancia. Se propone una nueva formulaci´on, basada en el producto tensorial de espacios de Hilbert con kernel reproductor, para usar este enfoque, y la regularizaci´on laplaciana se aplica a la L1, L2 y LS-MVS. Se ejemplifica con m´ultiples experimentos que este enfoque puede obtener resultados competitivos. Adem´as se propone un algoritmo para aprender la matriz de adyacencia de forma autom´atica y se proporcionan ejemplos de las ventajas de este algoritmo en varios problemas sint´eticos y reales. Esta tesis termina con algunas conclusiones generales y persenta l´ıneas de investigaci´on para un trabajo futuro

Show full item record

Files in this item

Name

ruiz_pastor_carlos.pdf

Size

2.799Mb

Format

PDF

Description

Texto de la Tesis Doctoral

Google™ Scholar:Ruiz Pastor, Carlos

This item appears in the following Collection(s)

Trabajos de estudiantes (tesis doctorales, TFMs, TFGs, etc.) [20176]

UAM_Biblioteca