Description de l'offre
Dans le cadre d’un projet de recherche en association avec d’autres laboratoires du CEA, le LASTI vise à exploiter les technologies du Traitement Automatique des Langues (TAL) pour automatiser l’extraction d’information depuis la littérature scientifique dans le domaine des matériaux.
Plus précisément, le domaine d’application du projet est le design de matériaux innovants : cet objectif nécessite d’explorer l’état de l’art pour connaître les données matériaux, par exemple les compositions chimiques et les valeurs ou tendances concernant les propriétés clés mesurées dans l’étude ainsi que les caractéristiques du type d’essais réalisé. L’objectif du projet est d’exploiter des techniques d’intelligence artificielle pour réaliser cette exploration de façon automatique et extraire les données d’intérêt à partir du texte des articles scientifiques ou brevets considérés.
L’objectif à terme sera d’intégrer les informations extraites dans un système existant de raisonnement automatique à base d’inférence en logique floue pour fournir un assistant numérique pour le design des matériaux. Le travail se fera en collaboration avec le laboratoire du CEA qui développe ce système de raisonnement et un laboratoire du CEA spécialisé sur les matériaux qui apportera son expertise sur les informations pertinentes à extraire.
Les missions du poste seront les suivantes :
- Réaliser un état de l’art dans l’application du TAL pour les données matériaux;
- Constituer un jeu de données de référence d’articles scientifiques à partir de sources identifiées (journaux, sites)
- Développer des approches pour l’extraction d’information à partir de ces données : on s’intéressera en particulier (1) aux approches frugales : sans apprentissage (zero-shot), en s’appuyant sur de grands modèles de langue (LLMs) ou avec un apprentissage à partir de peu de données (few-shot learning) ; (2) aux approches d'IA hybride combinant l’exploitation de connaissances explicites (bases de données, thesaurus) avec les modèles par apprentissage.
Profil du candidat
Niveau Doctorat avec des connaissances en machine learning, deep learning et traitement automatique des langues,
Compétences techniques (liste informative) :
- Langages de programmation : Python
- Librairies et frameworks : scikit-learn, Pytorch, transformers, optuna, spaCy
- Devops : docker, docker-compose, slurm, git
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.