Informations générales
Intitulé de l'offre : Thèse de doctorat: Vers un apprentissage décentralisé frugal et préservant la vie privée (H/F)
Référence : UMR5205-SONBEN-008
Nombre de Postes : 1
Lieu de travail : VILLEURBANNE
Date de publication : lundi 27 janvier 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 avril 2025
Quotité de travail : Complet
Rémunération : 2200 € bruts mensuel
Section(s) CN : 6 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Description du sujet de thèse
L'apprentissage fédéré (FL) est un paradigme prometteur qui gagne du terrain dans le contexte de l'apprentissage automatique préservant la vie privée pour les systèmes informatiques en périphérie (edge computing) [1]. Grâce au FL, plusieurs propriétaires de données appelés clients (par exemple, des organisations dans le FL inter-silos) peuvent entraîner collaborativement un modèle sur leurs données privées, sans avoir à envoyer leurs données brutes à des fournisseurs de services externes. Le FL a été rapidement adopté dans plusieurs applications florissantes telles que la santé numérique [2], qui génère le plus grand volume de données au monde [3] ou encore le domaine de l'internet des objets [9]. L'apprentissage décentralisé (DL) va plus loin en fournissant un apprentissage fédéré sans serveur, où les données sont conservées chez les clients et aucun serveur n'est nécessaire. Ainsi, le DL implique des protocoles distribués et décentralisés pour permettre aux clients de construire un modèle global [4,5,6].
Bien que le DL soit un premier pas vers la protection de la vie privée en conservant les données localement chez chaque client, cela n'est pas suffisant car les paramètres du modèle partagés par le DL sont vulnérables aux attaques de la vie privée [7], comme le montre une série de publications récentes [8]. Il est donc nécessaire de concevoir de nouveaux protocoles DL qui soient robustes face à de telles attaques de la vie privée (par exemple, les attaques par inférence d'appartenance, les attaques par inférence de propriété, les attaques par inversion de modèle). De plus, les clients DL peuvent avoir des données très hétérogènes et déséquilibrées, ainsi que des architectures et des appareils décentralisés très hétérogènes. Ces aspects hétérogènes peuvent avoir un impact sur les performances et le coût des modèles DL, ainsi que sur leur résilience aux attaques de la vie privée.
Par conséquent, il est nécessaire de mettre au point des protocoles DL qui tiennent compte de l'hétérogénéité, pour de meilleures performances et une protection efficace contre les attaques de la vie privée. Ce projet s'attaque à ce défi et vise à traiter précisément les problèmes soulevés à l'intersection de la confidentialité, des performances et du coût des modèles DL, à travers : (i) de nouveaux protocoles DL ; (ii) une approche multi-objectifs qui prend en compte les aspects de confidentialité, de coût et d'utilité, ces objectifs étant antagonistes ; (iii) l'application de ces techniques au DL dans les systèmes continus edge-cloud (périphérie-nuage).
References
[1]B. McMahan, et al. 2017. Communication-Efficient Learning of Deep Networks from Decentralized Data. In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, AISTATS 2017.
[2]N. Rieke, et. al. The Future of Digital Health with Federated Learning. NPJ Digital Medicine 3, 1, 2020.
[3]RBC. The Healthcare Data Explosion.
[4]X. Lian, et al. Can decentralized algorithms outperform centralized algorithms? A case study for decentralized parallel stochastic gradient descent. NeurIPS 2017.
[5]R. Ormándi, et al. 2013. Gossip learning with linear models on fully distributed data. Concurrency and Computation: Practice and Experience 25, 4, 2013.
[6]M. de Vos, et al. 2023. Epidemic Learning: Boosting Decentralized Learning with Randomized Communication. NeurIPS 2023.
[7]R. Shokri, et al. Membership Inference Attacks Against Machine Learning Models. IEEE Symposium on Security and Privacy (S&P), May 2017.
[8]H. Hu, et al. Membership inference attacks on machine learning: A survey. ACM Computing Surveys (CSUR) 54, 2022.
[9]Nguyen, D. C., Ding, M., Pathirana, P. N., Seneviratne, A., Li, J., & Poor, H. V. (2021). Federated learning for internet of things: A comprehensive survey. IEEE Communications Surveys & Tutorials, 23(3), 1622-1658.
Contexte de travail
Le travail s'effectuera au laboratoire LIRIS.
Le laboratoire LIRIS est un centre de recherche de renommée internationale dans le domaine de l'informatique et des sciences du numérique. Situé à Lyon, le LIRIS se distingue par son excellence académique et son engagement dans la recherche de pointe. Avec une équipe multidisciplinaire d'experts passionnés, le laboratoire mène des travaux innovants couvrant un large éventail de domaines, tels que l'intelligence artificielle, la vision par ordinateur, les systèmes d'information, la modélisation et la simulation, entre autres. Fort de collaborations nationales et internationales, le LIRIS offre un environnement stimulant et propice à l'épanouissement professionnel, où les idées novatrices et les avancées scientifiques sont encouragées et valorisées.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
RAS
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.