Stage - Exploration des LLMs pour traduire le langage naturel en requêtes base de données (H/F)
Location: Toulouse, FR, 31300
Eviden est une entreprise du groupe Atos qui réalise un chiffre d'affaires annuel d'environ 5 milliards d'euros et qui est un leader mondial de la transformation numérique durable, fiable et basée sur les données. En tant qu'entreprise numérique de nouvelle génération avec des positions de leader mondial dans les domaines du numérique, du cloud, des données, de l'informatique avancée et de la sécurité, elle apporte une expertise approfondie pour toutes les industries dans plus de 47 pays.
Le centre européen de R&D en IA d’Atos en Région Auvergne-Rhône-Alpes vise à promouvoir la recherche et le développement de solutions innovantes en IA ainsi que leur déploiement industriel. Ses objectifs de R&D, centrés sur le développement d’offres et de produits Atos BDS, s’appuient sur la mise en place de coopérations de long terme avec des laboratoires de recherche publics et privés.
Le stage proposé se déroulera au sein de l’équipe Innit du pôle Computer Vision Lab, dans le département R&D logiciel de la division BDS.
Le CVLab développe une plateforme permettant d’extraire des informations à partir de flux vidéo. La création de jeux de données pour l'entraînement de modèles est une tâche complexe, notamment en raison des grandes quantités de données et des contraintes de gouvernance (régulations, traçabilité, reproductibilité...).
L’une des missions de l'équipe Innit est de traduire les besoins des data scientists en datasets via la création de requêtes spécifiques.
Ces requêtes, générées manuellement, deviennent de plus en plus complexes à mesure que la quantité de données et les demandes augmentent.
Pour répondre à ces défis, nous utilisons Elasticsearch comme base de données et moteur de recherche. L'objectif principal est d'explorer comment générer automatiquement ces requêtes à partir de demandes en langage naturel à l’aide de techniques de traitement du langage naturel (NLP) et de modèles de langage (LLM).
Vous développerez une API pour permettre cette automatisation et, si le temps le permet, un assistant basé sur l’IA générative pour aider à affiner les besoins des data scientists et à construire ces requêtes.
Analyser et documenter les besoins des data scientists
Étudier et expérimenter avec des modèles d’état de l’art en NLP et LLM, et évaluer leur efficacité.
Vous êtes en dernière année de formation Bac +5 (Ingénieur, Master, ...) avec une spécialisation en IA.
Vous avez des compétences en programmation Python.
Idéalement, vous avez des compétences en traitement des images, en machine learning et en NLP, ou à minima vous êtes passionné par ces sujets.
Une maîtrise de l’anglais est indispensable car l’équipe est internationale.
Vous êtes force de proposition, pro-actif et créatif, des qualités valorisées en R&D !
Le stage sera dirigé mais de nouvelles pistes peuvent être explorées !
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.