Novel methods in distributed machine learning for large datasets

Diego Peteiro Barral

Ayuda

Novel methods in distributed machine learning for large datasets

Autores: Diego Peteiro Barral
Directores de la Tesis: Óscar Fontenla-Romero (dir. tes.) , Bertha Guijarro-Berdiñas (dir. tes.)
Lectura: En la Universidade da Coruña ( España ) en 2015
Idioma: inglés
Número de páginas: 211
Tribunal Calificador de la Tesis: Óscar Luaces Rodríguez (presid.) , Noelia Barreira (secret.) , Cristina Solares Martínez (voc.)
Enlaces
- Tesis en acceso abierto en: RUC
Resumen
- La cantidad de datos almacenados actualmente está creciendo a un ritmo sin precedentes. Con la variedad, velocidad y volumen de datos transmitiéndose a través de redes de comunicación y bases de datos, encontrar patrones relevantes en estos datos que conduzcan a conclusiones significativas se ha convertido en un reto. En este contexto, el aprendizaje automático se ha convertido en una pieza fundamental para extraer el mayor valor posible de estos conjuntos de datos tan grandes y diversos. El aprendizaje automáatico permite analizar cientos de variables simultáneamente, así como la interacción entre ellas, y es muy adecuado para problemas complejos. Sin embargo, la mayoría de algoritmos de aprendizaje fueron dise~nados con la suposición de que los datos estarían representados en la memoria principal de un computador en formato de tabla pero, con el volumen de datos actual, estas estructuras son demasiado grandes para ser almacenadas como una única tabla en memoria principal. Así, la computación distribuida se ha convertido en un paradigma esencial para enfrentar las restricciones actuales en términos de velocidad y almacenamiento. En esta tesis, nos centramos en métodos que son adecuados para trabajar con grandes volumenes de datos y que tienen el potencial de ser implementados de forma distribuida. Nuestra contribución tiene dos vertientes; en primer lugar, se implementan métodos para mejorar la escalabilidad de algoritmos de aprendizaje automático y, en segundo lugar, se desarrollan métodos de aprendizaje que muestran sesgos en las distribuciones de los datos.