Projet: Recherche de données publiques sur les puits de forage et construction d’un modèle de langage de grande taille
Description du projet:
L’interprétation des puits de forage est une application développée dans le cadre de la plateforme DELFI, permettant une analyse à grande échelle des données des puits de forage dans les domaines de la pétrophysique, de la géologie et des réservoirs.
Un tel volume de données nécessite de nouveaux outils utilisant la science des données, l’intelligence artificielle (IA) et les nouveaux algorithmes et outils d’intelligence artificielle générative (GenAI) qui ont émergé ces dernières années.
Pour innover dans ce domaine, il y a un besoin constant de données sur les puits de forage qui peuvent être utilisées facilement et qui sont mises à jour avec les publications gouvernementales.
L’objectif de ce stage est donc d’utiliser ces données pour développer un modèle de base prenant en charge un modèle de langage de grande taille (LLM).
Vous travaillerez en tant que Data Scientist spécialisé dans les puits de forage au sein de l’équipe d’interprétation des puits de forage, en collaboration avec l’équipe GenAI, pour récupérer et synchroniser automatiquement des ensembles de données publiques spécifiques sur les puits de forage et développer un modèle de base pour permettre un LLM sur les données de puits de forage et de géologie.
Livrables:
Vous devrez comprendre :
-
Comment les données publiques des puits de forage sont stockées et accessibles
-
Les différentes classifications des données
-
L’application d’interprétation des puits de forage et les initiatives et workflows GenAI
-
Comment fonctionnent les modèles de base et les modèles de langage de grande taille (LLM)
Vous coderez (en Python) des fonctions pour accéder aux ensembles de données publiques et maintenir les ensembles de données à jour avec les nouvelles données de puits de forage disponibles. Vous testerez le nouveau code et rédigerez la documentation associée. Vous élaborerez et coderez un modèle de base pour LLM basé sur les ensembles de données publiques récupérées. Vous testerez le modèle et construirez une démonstration pour montrer la valeur ajoutée.
Si le temps le permet, plusieurs ensembles de données publiques pourront être inclus et le modèle pourra être testé sur différents ensembles de données.
-
Diplôme de Master (Master 1 ou Master 2) en géologie numérique : logiciels et géologie (interprétation) ou équivalent
-
Compétences en communication orale et écrite en anglais
-
Bonne motivation, autonomie, travail en équipe et ingéniosité
-
Géologie
-
Science des données
-
Programmation en Python
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.