Offre de stage : Développement d'un modèle d'IA permettant l'extraction d'information depuis des documents réglementaires dans le cadre du génie écologique (projet BioLLM)
Dans le domaine de l'ingénierie écologique, l'extraction d’information issue de documents réglementaires, comme les études d’impacts, est une tâche nécessaire et particulièrement chronophage. Dans un contexte où les modèles de langage (LLM) se multiplient et gagnent chaque jour en performance, leur usage pour cette tâche devient particulièrement pertinent. L'objectif de ce stage est d'explorer ce cas d'usage, en développant si nécessaire un modèle spécialisé, et d'aboutir à un prototype permettant de le confronter aux besoins métier.
S'agissant d'un stage exploratoire, le ou la candidat(e) doit avoir une connaissance large du développement d'un modèle de langage spécialisé, des modèles open-source existants et des différentes étapes nécessaires :
* élaboration du cahier des charges et définition des métriques d'évaluation
* préparation des données (le corpus sera fourni): nettoyage, annotation, tokenisation...
* choix du modèle de base
* adaptation au domaine considéré: continuous pre-training, Retrieval-Augmented Generation, fine-tuning, prompt engineering...
* conception d'un pipeline d’extraction d’information: structuration, normalisation...
* évaluation
Outre ces compétences, le ou la candidat(e) doit être opérationnel(le) avec le stack technique standard de développement en machine learning sous Linux: Python, PyTorch, écosystème Hugging Face, experiment tracking tools (W&B, MLFlow...), bash, git...
Employeur : A-IGÉco, association fédérative des acteurs de l’Ingénierie et du Génie Ecologiques
Organisme d'accueil : TerrOïko (Sorèze, 81)
Durée : 6 mois
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.