Informations générales
Intitulé de l'offre : Doctorant (H/F) vulnérabilités dans codes générés par LLM (projet TAP)
Référence : UMR6074-OLIZEN-003
Nombre de Postes : 1
Lieu de travail : RENNES
Date de publication : lundi 2 décembre 2024
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 27 janvier 2025
Quotité de travail : Complet
Rémunération : La rémunération mensuelle est d'un minimum de 2200 euros bruts (1769 euros nets payés)
Section(s) CN : 6 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Description du sujet de thèse
Depuis les 60 à 70 dernières années, la programmation a largement prévalu dans le domaine de l'informatique, englobant la capture d'intentions et la production de code. Les spécifications formelles ont gagné en importance grâce aux avancées en modélisation et conception de systèmes, ce qui permet une capture plus précise des objectifs. Malgré les progrès réalisés, les ingénieurs en logiciel hésitent à rédiger des spécifications formelles, ce qui se traduit par l'absence d'une déclaration formelle d'intention pour les grands systèmes logiciels, rendant ainsi le débogage et la correction d'erreurs difficiles. Malgré l'absence de capture d'intention, des tests et des analyses ont été utilisés pour élaborer des bases de code fiables. Lors des tests, ces travaux visent à obtenir une couverture comportementale plus étendue et utilisent des oracles de test. Les approches de fuzzing ont gagné en importance au cours de la dernière décennie. Cependant, obtenir la correction fonctionnelle du logiciel sans exigence formelle approfondie reste un objectif difficile.
Les récents progrès dans la génération automatique de code à partir de grands modèles de langage (LLMs) offrent une nouvelle perspective. Il est envisageable de programmer à partir de spécifications en langage naturel en utilisant la génération de code par LLM, ce qui suggère que l'autocodage est réalisable. Cela soulève la question de la correction et la sécurité du code généré automatiquement par les LLMs et des conditions dans lesquelles il est possible de lui faire confiance.
Le projet TAP (Trustworthy Automatic Programming), se focalise spécifiquement sur ces aspects. Les objectifs de ce projet consistent à identifier les vulnérabilités dans le code généré par LLM, à les analyser et les classifier, ainsi qu'à déterminer si certains types de vulnérabilités sont plus fréquents dans le code généré par LLM que dans le code rédigé par des humains. Les objectifs du projet comprennent également la correction automatique des vulnérabilités dans le code généré par LLM et le renforcement des LLM par rapport aux vulnérabilités dans les codes générés.
L'objectif principal de l'équipe DiverSE sur ce projet est d'effectuer les travaux de recherche permettant d'identifier les vulnérabilités dans les codes générés par les LLM. Pour atteindre cet objectif, nous mettrons en place un système capable de générer automatiquement des ensembles de données (datasets) de vulnérabilités. Cela sera réalisé en utilisant les catalogues web disponibles pour les vulnérabilités et en modélisant ces vulnérabilités de manière à les intégrer de manière transparente dans un outil de test, nous permettant ainsi d'analyser le code et les bibliothèques générés par LLM. Les langages cibles seront prioritairement C et Java, du fait de leur grande utilisation et afin de maximiser l’impact de nos travaux.
Dans ce cadre, l’équipe DiverSE (en étroite collaboration avec le laboratoire IPAL et la DGA) recrute une doctorante ou un doctorant pour une durée de 36 mois, sous la responsabilité scientifique et technique de permanents de l’équipe impliqués dans le projet. Cette personne sera chargée des travaux de recherche et de conception liés aux objectifs de DiverSE indiqués ci-dessus, dans le but d'analyser l'état de l'art, et de concevoir techniques et méthodes qui seront ensuite mises en oeuvre dans des prototypes des prototypes et démonstrateurs.
Les synergies avec d’autres travaux effectués dans l’équipe seront également explorées et exploitées.
Les résultats de nos travaux seront utilisés par les partenaires de NUS à Singapour.
Le développement exponentiel de l'usage des LLMs pour toutes sortes de tâches, dont la production assistée de code source, assure aux résultats du projets un impact considérable. En effet, la sécurisation des codes produits par le LLMs est actuellement balbutiante, et fournir un système s'acquittant de cette tâche automatiquement répondrait à un besoin mondial tout à fait immense. Les enjeux de cybersécurité qui en dé
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.