About the role
#watermarking #privacy #modèlegénératif
Contexte : Que ce soit sous forme de tableaux de données marketing ou de logs réseau/machines, les données tabulaires sont omniprésentes chez Orange. Mais une grande part de ces données contient des informations privées (noms, adresses, numéros de téléphones etc.). L’utilisation de données synthétiques anonymisées en remplacement des vraies données fait désormais partie intégrante du processus de gestion des données. Dans ce domaine, les modèles génératifs tabulaires à base de diffusion (3; 4) sont ceux qui offrent le meilleur compromis entre la performance et la préservation de la vie privée (3; 4). Mais l’anonymat n’est pas la seule garantie que l’on voudrait avoir avant de partager des données avec un tiers. Il est aussi primordial de garantir leur traçabilité afin d’éviter une utilisation ou une diffusion abusive. Les progrès récents des technologies de signature statistiques ou ”Watermaking” sur des modèles de langages et sur des générateurs d’images par diffusion sont très prometteurs. La conception de ces signatures soulève deux défis majeurs : le compromis entre la qualité des données et la détectabilité, et leur robustesse face aux opérations de post-édition, telles que les suppressions, les arrondis et les insertions. A ce jour peu de travaux ont été publiés sur la signature de données tabulaires (1;5).
Ce stage aura pour objectif d’explorer les différentes méthodes qui permettent d’insérer des signatures dans des données tabulaires afin d’en certifier l’origine. On établira d’abord un état de l’art en se focalisant sur les spécificités des données tabulaires. Dans un second temps on expérimentera différentes méthodes de signatures couplées à des systèmes génératifs à base de diffusion et on cherchera à vérifier leur robustesse face à diverses attaques.
Références
[1] Anonymous. Tabwak : A watermark for tabular diffusion models. Preprint, 2024. Under review.
[2] Hengzhi He et al. Watermarking generative tabular data. preprint, 2024.
[3] G Charbel N Kindji et al. Under the hood of tabular data generation models: the strong impact of hyperparameter tuning. Preprint, 2024. Under review.
[4] Hengrui Zhang et al. Mixed-type tabular data synthesis with score-based diffusion in latent space. ICLR, 2024.
[5] Yihao Zheng et al. Tabularmark : Watermarking tabular datasets for machine learning. preprint, 2024.
about you
Ingénieur ou master en mathématiques/informatique, science des données, apprentissage statistique. Un intérêt équilibré pour les aspects théoriques et techniques de l’apprentissage automatique. La maîtrise de l’anglais, de Linux et de PyTorch est essentielle.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.