Advanced Kernel Methods for Multi-Task learning
Title (trans.)
Métodos de Kernel Avanzados para aprendizaje Multi-TareaAuthor
Ruiz Pastor, CarlosEntity
UAM. Departamento de Ingeniería InformáticaDate
2023-04-20Subjects
InformáticaNote
Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Escuela Politécnica Superior, Departamento de Ingeniería Informática. Fecha de Lectura: 20-04-2023Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
Abstract
Machine Learning (ML), whose goal is to automatize the process of learning, has a great
influence in our current society. The ML algorithms try to infer general pattern from data, which
can then be applicable to new unseen data. These algorithms, such as the Support Vector Machine
(SVM) or the Neural Network (NN), are present in many daily situations and have strongly
impacted multiple areas such as engineering or advertising, among many others. Multi-Task
Learning (MTL) is a field of ML that considers learning different tasks jointly to improve the
learning process. This is the natural way of learning for humans: we do not learn each task in an
isolated manner, but there exist related tasks that are better learned together. The goal in MTL
is to develop strategies to mimic this behaviour, where learning various tasks jointly offers an
advantage.
This thesis begins with a presentation of some basic concepts and definitions that we will use
in the rest of this work. After that, a theoretical motivation for MTL is given, and some of the
most relevant works in this area are reviewed. A taxonomy for these methods is proposed, where
three categories are considered: feature-based, parameter-based and combination-based strategies.
Different ML algorithms, depending on their characteristics, are more suitable for one of these
strategies than for others. The feature-based strategies are more natural for NNs, while the
kernel methods, such as the SVM, present a more rigid framework, and the combination-based
strategies are better suited for them.
Considering the combination-based strategies, a new convex formulation is proposed: in
each task we consider a convex combination of a common and task-specific part as the model.
This formulation offers some nice properties, such as better interpretability of the models, or
the possibility to dismiss the common or task-specific parts with a particular choice of the
hyperparameters. This approach is applied to kernel methods, in particular, the L1, L2 and
LS-SVM with this convex MTL formulation are proposed, and the solutions for the corresponding
training problems can be obtained with standard SVM solvers. One natural alternative, which
considers the direct convex combination of pre-trained common and task-specific models, is also
described. In multiple experiments, it is observed that the kernel methods with a convex MTL
formulation obtain better results than those considering just a common model, task-specific ones
or the convex combination of pre-trained models. As a real world application, the prediction of
solar and wind energy is also presented using these models, where our proposal outperforms or
ties with the described competition.
Applying this formulation, an MTL proposal for NNs is also made, where a convex combination
of a common and a task-specific networks is used. These models can also be trained with standard
optimization techniques for NNs. In experiments with four image datasets, it is shown that the
results of this proposal are better than using standard approaches, such as sharing the weights in
the hidden layers and task-specific output neurons.
Another approach is proposed with a Graph Laplacian (GL) regularization, where the tasks
are interpreted as nodes in a graph, and the pairwise distances between the task models are
penalized. In this approach, the adjacency matrix of the graph defines the weights for the
distances. A new formulation, based on the tensor product of Reproducing Kernel Hilbert Spaces,
to apply this regularization in kernel spaces is developed, and the GL regularization is applied
to the L1, L2 and LS-SVM. It is exemplified with multiple experiments that this approach can
obtain competitive results. Moreover, an algorithm to automatically learn the graph adjacency
matrix from the data is proposed and examples of the advantages of using this algorithm are
given using experiments with synthetic and real data.
The thesis ends with some general conclusions and presents lines of research for future work El aprendizaje autom´atico (AA), cuyo objetivo es automatizar el proceso de aprendizaje,
tiene una gran influencia en la sociedad actual. Los algoritmos de AA tratan de inferir patrones
generales a partir de datos, los cuales pueden despu´es ser aplicados a nuevos datos. Estos
algoritmos, como las M´aquinas de Vectores Soporte (MVS) o las Redes Neuronales (RN), est´an
presentes en muchas situaciones cotidianas y han causado un fuerte impacto en m´ultiples ´areas
como la ingenier´ıa o la publicidad, entre otras muchas. El Aprendizaje Multitarea (AMT) es un
campo del AA que considera el aprendizaje de diferentes tareas de forma conjunta para mejorar el
proceso de aprendizaje. Esta es la manera natural de aprender para los humanos: no aprendemos
las tareas de manera iaslada, sino que existen tareas que est´an relacionadas y se aprenden mejor
juntas. El objetivo del AMT es desarrollar estrategias que imiten este comportamiento, donde
aprender diversas tareas conjuntamente ofrece una ventaja.
Esta tesis comienza presentando algunos conceptos b´asicos y definiciones que usaremos en
el resto de este trabajo. Despu´es de esto, se ofrece una motivaci´on te´orica para el AMT, y se
revisan algunos de los trabajos m´as relevantes en este ´area. Se propone una taxonom´ıa para estos
m´etodos, donde se consideran tres categor´ıas: estrategias basadas en caracter´ısticas, basadas
en par´ametros y basadas en combinaci´on. Distintos algoritmos de AA, dependiendo de sus
caracter´ısticas, son m´as aptos para una u otra de estas estrategias. Las estrategias basadas en
caracter´ısticas son naturales para las RN, mientras que los m´etodos de kernel, como las MVS,
presentan un esquema m´as r´ıgido, y son m´as adaptables a las basadas en combinaciones.
Dentro de las estrategias basadas en combinaciones, se presenta una nueva formulaci´on
convexa: se considera la combinaci´on convexa de una parte com´un y otra espec´ıfica como el
modelo de cada tarea. Esta formulaci´on ofrece algunas propiedades buenas, como una mejor
interpretabilidad o la posibilidad de, con una selecci´on particular de hiperpar´ametros, eliminar la
parte com´un o la espec´ıfica del modelo. Este enfoque se aplica a m´etodos de kernel, en particular
se proponen la L1, L2 y LS-MVS convexas para AMT, y las soluciones correspondientes a los
problemas de entrenamiento se pueden obtener con t´ecnicas est´andares de MVS. Tambi´en se
describe una alternativa natural, que considera la combinaci´on convexa directa de un modelo
com´un y otros espec´ıficos que ya han sido preentrenados. Se observa en m´ultiples experimentos que
los m´etodos de kernel con esta formulaci´on convexa obtienen mejores resultados que considerando
´unicamente un modelo com´un, uno espec´ıfico, o la combinaci´on de estos modelos preentrenados.
Tambi´en se presenta la predicci´on de energ´ıa e´olica y solar como una aplicaci´on real de estos
modelos, donde nuestra propuesta iguala o supera a otros enfoques, como el de un modelo com´un,
modelos espec´ıficos por tarea o la combinaci´on convexa directa.
Aplicando esta formulaci´on se hace una propuesta de AMT para RN, donde se considera una
combinaci´on convexa de redes comunes y espec´ıficas. Estos modelos se puede entrenar tambi´en
con t´ecnicas est´andares para RN. Se muestra con cuatro conjuntos de im´agenes que los resultados
de nuestra propuesta son mejores que aquellos obtenidos con enfoques m´as tradicionales, como
compartir las capas ocultas y definir neuronas de salida espec´ıficas para cada tarea.
Se propone adem´as otro enfoque con una regularizaci´on basada en el laplaciano de un grafo,
en el que las tareas se interpretan como nodos en un grafo, y las distancias entre los modelos de
cada par de tareas son penalizadas. En este enfoque, la matriz de adyacencia del grafo define el
peso de cada distancia. Se propone una nueva formulaci´on, basada en el producto tensorial de
espacios de Hilbert con kernel reproductor, para usar este enfoque, y la regularizaci´on laplaciana
se aplica a la L1, L2 y LS-MVS. Se ejemplifica con m´ultiples experimentos que este enfoque
puede obtener resultados competitivos. Adem´as se propone un algoritmo para aprender la matriz
de adyacencia de forma autom´atica y se proporcionan ejemplos de las ventajas de este algoritmo
en varios problemas sint´eticos y reales.
Esta tesis termina con algunas conclusiones generales y persenta l´ıneas de investigaci´on para
un trabajo futuro
Files in this item
Google Scholar:Ruiz Pastor, Carlos
This item appears in the following Collection(s)
Related items
Showing items related by title, author, creator and subject.