Relaxing Core Assumptions:: Rethe Impact of Data, Model and Participation Heterogeneity on Performance, Privacy and Fairness in Federated Learning

Gergely Dániel Németh

Ayuda

Relaxing Core Assumptions:: Rethe Impact of Data, Model and Participation Heterogeneity on Performance, Privacy and Fairness in Federated Learning

Autores: Gergely Dániel Németh
Directores de la Tesis: Miguel Ángel Lozano Ortega (tut. tes.) , Nuria M. Oliver Ramírez (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2025
Idioma: español
Tribunal Calificador de la Tesis: Tatiana Tommasi (presid.) , Félix Escalona Moncholi (secret.) , J. Nicholas Lane (voc.)
Texto completo no disponible (Saber más ...)
Resumen
- español
  El Aprendizaje Federado (FL) permite el entrenamiento descentralizado de modelos de aprendizaje automático sobre datos distribuidos preservando la privacidad por diseño. Un diseño de FL consiste en que los clientes entrenen modelos sobre datos privados y un servidor central agregue un modelo global basado en el consenso entre los clientes. En un escenario ideal, los datos de entrenamiento y los recursos informáticos se distribuyen de forma idéntica e independiente (iid) entre los clientes, por lo que éstos pueden trabajar juntos de común acuerdo para alcanzar un óptimo global.
  
  Sin embargo, en escenarios realistas de FL, existe heterogeneidad entre los clientes tanto en términos de datos como de disponibilidad de recursos. La investigación presentada en esta tesis se centra en dichos escenarios, con especial interés en cómo el servidor puede adaptar el método de agregación de un simple promedio para hacer frente a la diversidad de los clientes.
  
  La primera línea de investigación presenta los métodos de selección de clientes existentes y propone una nueva taxonomía de métodos de FL donde la participación de los clientes es gestionada activamente por el servidor para lograr un objetivo global con respecto a la heterogeneidad de los clientes. Esta investigación ha sido publicada en [NLQO22].
  
  El siguiente capítulo se centra en la heterogeneidad del modelo como política de inclusión de clientes con recursos computacionales limitados. Investiga las implicaciones de las restricciones de recursos del cliente sobre la privacidad dada una complejidad reducida del modelo en clientes de bajos recursos. Esta investigación ha sido publicada en [NLQO25].
  
  El área final ofrece una solución al problema de la heterogeneidad de los datos con una selección de clientes que tiene en cuenta la distribución de los datos. La aplicación de esta solución puede mitigar las correlaciones espurias y mejorar la equidad algorítmica en FL.
  
  Este trabajo ha sido publicado en [NFN+25].
  
  [NLQO22] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2022). A Snapshot of the Frontiers of Client Selection in Federated Learning. Transactions on Machine Learning Research.
  
  [NLQO25] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2025). Privacy and Accuracy Implications of Model Complexity and Integration in Heterogeneous Federated Learning. IEEE Access, 13, 40258-40274.
  
  [NFN+25] Németh, G. D., Fani, E., Ng, Y. J., Caputo, B., Lozano, M. A., Oliver, N., and Quadrianto, N.(2025). FedDiverse: Tackling Data Heterogeneity in Federated Learning with Diversity-Driven Client Selection.
- español
  Federated Learning (FL) enables decentralized training of machine learning models on distributed data while preserving privacy by design. An FL design consists of clients training models on private data and a central server aggregating a global model based on the consensus among clients. In an ideal scenario, the training data and computing resources are identically and independently distributed (i.i.d.) among clients, therefore, clients can work together in agreement to reach a global optima.
  
  However, in realistic FL settings, heterogeneity arises between clients in terms of both data and resource availability. This research focuses on such scenarios, with a special interest on how the server can adapt the aggregation method from a simple averaging to address the clients’ diversity.
  
  The first research direction discusses existing client selection methods and proposes a novel taxonomy of FL methods where the participation of the clients is actively managed by the server to achieve a global objective with respect to the client heterogeneity. This research direction is presented in [NLQO22], The next chapter focuses on model heterogeneity as an inclusion policy for low-resource clients. It investigates the implications of client resource constraints on privacy given a reduced model complexity in low-resource clients. This work has been presented in [NLQO25].
  
  The final area provides a solution to the data heterogeneity problem with distributionaware client selection. Applying this solution can mitigate spurious correlations and improve algorithmic fairness in FL. This research line has been described in [NFN+25].
  
  [NLQO22] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2022). A Snapshot of the Frontiers of Client Selection in Federated Learning. Transactions on Machine Learning Research.
  
  [NLQO25] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2025). Privacy and Accuracy Implications of Model Complexity and Integration in Heterogeneous Federated Learning. IEEE Access, 13, 40258-40274.
  
  [NFN+25] Németh, G. D., Fani, E., Ng, Y. J., Caputo, B., Lozano, M. A., Oliver, N., and Quadrianto, N.(2025). FedDiverse: Tackling Data Heterogeneity in Federated Learning with Diversity-Driven Client Selection.
- magyar
  A Federated Learning (FL) lehetővé teszi a gépi tanulási modellek decentralizált képzését elosztott adatokon, miközben rendszer tervezéséből adódóan őrzi az adatok védelmét. Egy FL rendszer kialakításának lényege, hogy a kliensek (clients) modelleket tanítanak a saját privát adataikon, és egy központi szerver (server) a kliensek által küldött modellek konszenzusán alapuló globális modelt képez (aggregation). Ideális esetben a képzési adatok és a számítási erőforrások azonos és egymástól független (indentically and independently distributed – iid) elosztásban vannak a kliensek között, ezért a kliensek egyetértésben dolgozhatnak együtt a globális optimum elérése érdekében.
  
  Azonban egy reális FL együttműködés esetén sokszínűség (heterogeneity) áll fent az ügyfelek között mind az adatok, mind az erőforrások rendelkezésre állása tekintetében. Ez a doktori értekezés ilyen forgatókönyvekre összpontosít, különös tekintettel arra, hogy a szerver hogyan tudja az aggregációs módszert az egyszerű átlagolásból az ügyfelek különbségeinek kezelésére adaptálni.
  
  Az első kutatási irány a meglévő kliens kiválasztási módszereket (client selection) tárgyalja, és javaslatot tesz a FL módszerek új taxonómiájára, ahol a kliensek részvételét a szerver aktívan kezeli, hogy az ügyfelek heterogenitását figyelembe véve globális célt érjen el. [NLQO22] A következő fejezet a modellek sokszínűségére (model heterogeneity) összpontosít, mint ezköz az alacsony erőforrású kliensek a rendszerbe való integrálására. Megvizsgálja a kliens erőforrás-korlátozásainak az adatvédelemre gyakorolt hatását, azaz, hogy vajon a csökkentett modell komplexitás az alacsony erőforrású kliensek esetében segít-e a privát adatainak védelmében. [NLQO25] Az utolsó fejezetek az adatok sokszínűségének (data heterogeneity) problémájára nyújt megoldást azáltal, hogy a kliens kiválasztás során a szerver gondos mérlegelést végez, hogyan állíthatná párba a különböző adatokkal bíró klienseket. E megoldás alkalmazása enyhítheti a modell által tanult téves összefüggéseket (spurious correlations) és javíthatja az algoritmikus igazságosságot (algorithmic fairness) az elosztott rendszerben. [NFN+25] [NLQO22] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2022). A Snapshot of the Frontiers of Client Selection in Federated Learning. Transactions on Machine Learning Research.
  
  [NLQO25] Németh, G. D., Lozano, M. A., Quadrianto, N., and Oliver, N. (2025). Privacy and Accuracy Implications of Model Complexity and Integration in Heterogeneous Federated Learning. IEEE Access, 13, 40258-40274.
  
  [NFN+25] Németh, G. D., Fani, E., Ng, Y. J., Caputo, B., Lozano, M. A., Oliver, N., and Quadrianto, N.(2025). FedDiverse: Tackling Data Heterogeneity in Federated Learning with Diversity-Driven Client Selection