Contexte et atouts du poste
Ce projet de thèse de doctorat s'inscrit dans le cadre du Programme et Équipements Prioritaires de Recherche (PEPR) français sur la Cybersécurité, projet interdisciplinaire sur la vie privée (iPoP), impliquant plusieurs équipes de recherche françaises travaillant sur la protection des données, provenant d'Inria, d'universités, d'écoles d'ingénieurs et de la CNIL (Commission Nationale de l'Informatique et des Libertés). La thèse est proposée par l'équipe-projet PETSCRAFT, conjointe entre Inria Saclay et l'INSA CVL, qui collaborent étroitement dans cette grande initiative sur la modélisation des concepts de protection de la vie privée et sur la conception et le déploiement de technologies de protection de la vie privée (PETs) explicables et efficaces.
Avantages:
Mission confiée
Objectifs de la thèse. Les capacités avancées d'inférence des grands modèles de langage (LLMs) posent une menace significative pour la vie privée des individus en permettant à des tiers d'inférer avec précision certaines caractéristiques personnelles à partir de leurs écrits [1, 2]. Paradoxalement, les LLMs peuvent également être utilisés pour protéger les individus en les aidant à modifier leur production textuelle pour éviter certaines inférences indésirables [3, 4], ouvrant ainsi la voie à de nouveaux outils. L'objectif ultime de cette thèse est de travailler à la mise au point d'un outil interactif de type chatbot pour la désinfection de texte, afin de répondre à des applications incluant deux qui sont particulièrement étudiées par notre équipe : la production de témoignages dans le contexte de l'intimidation scolaire et du harcèlement au travail, et les retours des participants sur des plateformes participatives. Certaines difficultés devront être abordées pour la conception et le développement de l'outil envisagé, comme par exemple:
1. Un adversaire réaliste doit être utilisé pour évaluer les risques de confidentialité (résiduels). Cela pose deux défis principaux. Premièrement, un attaquant réaliste ne peut pas être générique, mais doit prendre en compte les vastes connaissances auxiliaires qu'un attaquant peut posséder (par exemple, via un ajustement fin ou avec l'aide d'une ontologie dédiée). Deuxièmement, les LLMs ont tendance à toujours proposer une supposition qui pourrait être aussi probable qu'une supposition aléatoire. Par conséquent, il est nécessaire de disposer d'un mécanisme pour estimer la probabilité des inférences.
2. Concevoir et mettre en œuvre une métrique évaluant l'utilité d'un texte (ou la perte d'utilité due à la désinfection) n'est pas une tâche triviale. En termes de conception, une métrique appropriée doit évaluer la quantité d'informations transmises par un texte pertinent par rapport à son objectif (par exemple, par rapport aux témoignages, si la victime/l'agresseur sont identifiables, etc.). En ce qui concerne la mise en œuvre, l'évaluation doit être effectuée automatiquement sans intervention humaine (par exemple, via un LLM).
3. Enfin, un processus de désinfection basé sur les LLMs doit être proposé, limitant la capacité de l'attaquant à faire des inférences tout en maintenant l'utilité du texte. Dans une application de type chatbot, ce processus peut être itératif et interactif.
Feuille de route initiale. Le projet de doctorat commencera par l'analyse des difficultés ci-dessus, la lecture des articles de l'état de l'art qui émergent sur le sujet, ainsi que l'installation de LLMs open source tels que Mistral ou Arctic. La seloution visée devra être générique avant de se concentrer sur la spécialisation de la solution d'anonymisation pour l'adapter à différents cas d'utilisation et ensembles de données.
Cas d'utilisation potentiels. Nous nous concentrerons sur deux cas d'utilisation : la déclaration anonyme ou l'anonymisation de certains concepts dans le contexte scolaire, universitaire et professionnel en général. Ce premier cas d'utilisation sera construit avec les partenaires d'Inria dans le cadre des services responsables de l'enquête sur les cas de harcèlement qui traitent des témoignages anonymes et/ou dans le contexte du marché du travail et des recherches d'emploi. Un deuxième cas d'utilisation est le retour d'expérience des utilisateurs sur des plateformes participatives axées sur le bien-être, la nutrition et la santé. Ce cas d'utilisation est encore en émergence et sera détaillé au cours du projet de thèse.
Bibliographie:
[1] Kandpal, N., Pillutla, K., Oprea, A., Kairouz, P., Choquette-Choo, C., Xu, Z.: User inference attacks
on llms. In: Socially Responsible Language Modelling Research
[2] Staab, R., Vero, M., Balunovi´c, M., Vechev, M.: Beyond memorization: Violating privacy via inference
with large language models. arXiv preprint arXiv:2310.07298
[3] Staab, R., Vero, M., Balunovi´c, M., Vechev, M.: Large language models are advanced anonymizers.
arXiv preprint arXiv:2402.13846
[4] Tannier, X., Wajsb¨urt, P., Calliger, A., Dura, B., Mouchet, A., Hilka, M., Bey, R.: Development and
validation of a natural language processing algorithm to pseudonymize documents in the context of
a clinical data warehouse. Methods of Information in Medicine
Principales activités
Feuille de route initiale. Le projet de doctorat commencera par l'analyse des difficultés ci-dessus, la lecture des articles de l'état de l'art qui émergent sur le sujet, ainsi que l'installation de LLMs open source tels que Mistral ou Arctic. La seloution visée devra être générique avant de se concentrer sur la spécialisation de la solution d'anonymisation pour l'adapter à différents cas d'utilisation et ensembles de données.
Cas d'utilisation potentiels. Nous nous concentrerons sur deux cas d'utilisation : la déclaration anonyme ou l'anonymisation de certains concepts dans le contexte scolaire, universitaire et professionnel en général. Ce premier cas d'utilisation sera construit avec les partenaires d'Inria dans le cadre des services responsables de l'enquête sur les cas de harcèlement qui traitent des témoignages anonymes et/ou dans le contexte du marché du travail et des recherches d'emploi. Un deuxième cas d'utilisation est le retour d'expérience des utilisateurs sur des plateformes participatives axées sur le bien-être, la nutrition et la santé. Ce cas d'utilisation est encore en émergence et sera détaillé au cours du projet de thèse.
Avantages
4. Restauration subventionnée
5. Transports publics remboursés partiellement
6. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
7. Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
8. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
9. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
10. Accès à la formation professionnelle
11. Sécurité sociale
Rémunération
1ère et 2ème année :2.082 euros brut
3ème année : 2.190 euros brut
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.