Machine Learning Engineer / Ingénieur en apprentissage automatique (H/F) – Mission DATA - CDI
Poste à pourvoir : Machine Learning Engineer / Ingénieur en apprentissage automatique (H/F)
Emploi repère : Chef de projet
Catégorie d'emploi : Catégorie 1
Type de contrat : Contrat à durée indéterminée - temps complet
Localisation : Saint-Denis (93), au pied du RER B La Plaine-Stade de France
Rémunération : Selon expérience et niveau de diplôme, par référence aux grilles indiciaires des agences sanitaires en application du décret n°2003-224 du 07 mars 2003 ou selon statut particulier si fonctionnaire (détachement et ou mise à disposition)
La Haute Autorité de santé : présentation
Description du poste à pourvoir
Direction et service d'affectation :
Direction générale
Mission Data
Rattachée au directeur général, la mission data est une équipe récente dont le rôle est de mettre en œuvre la stratégie données de la HAS, par la réalisation de projets techniques concrets au service des métiers et missions de l’institution autour de 4 axes majeurs.
Cette équipe est à la fois un laboratoire d’innovation, un centre d’expertise, et un catalyseur de transformations dans l’usage des données par la HAS. Elle promeut les dynamiques de connaissance ouverte (open source, open data, open knowledge), conformément aux valeurs de transparence, d’expertise et d’indépendance de l’institution.
Missions générales du poste à pourvoir
Au sein de la mission data, vous serez en charge des projets de traitement automatique du langage (TAL / NLP) au cœur de l’axe 3 de la stratégie données de la HAS. Vos principales missions consisteront à prototyper et mettre en production des outils et algorithmes d’apprentissage pour valoriser les données textuelles de la HAS.
Cette exploitation du riche patrimoine de données textuelles répond à une forte demande des services, et à des enjeux stratégiques soutenus par la direction. Ainsi, depuis 3 ans, plusieurs projets d’envergure ont déjà été menés, par exemple :
* Prospective sur l’utilisation de grands modèles de langage (LLM) pour la classification des commentaires patients
* Evaluation d’un outil d’apprentissage actif pour le screening de la littérature scientifique
Au fil des projets vous serez amené(e) à :
* Préparer et analyser des données textuelles riches : commentaires des patients après hospitalisation, bibliographies scientifiques, connaissances produites par la HAS ;
* Utiliser des grands modèles de langage (LLM) pour extraire des informations structurées pour les besoins d’analyse bibliographique des différents services de la HAS.
* Concevoir et prototyper des services facilitant le traitement de textes : moteur de recherche, annotation, extraction d’entité, indexation, classification ;
* Piloter des projets d’industrialisation et de déploiement de ces services, en mobilisant des ressources internes et externes;
* Participer à mettre en place les briques technologiques sous-jacentes (base de données, traitement automatisé, outil d’analyse, exposition par API), en cherchant le bon équilibre entre usage de solutions existantes (open source ou achat) et développement en propre ;
* Effectuer une veille technique et scientifique sur le champ du TAL;
* Encadrer des stagiaires;
* Participer à la communauté du traitement de textes biomédicaux et échanger avec les partenaires institutionnels et académiques privilégiés : INRIA, CNRS, LIMSI, ANS, HDH, AP-HP, DINUM, Etalab.
Véritable force de proposition et de mise en œuvre d’outils de traitement du langage, vous aurez à cœur de déployer ces technologies pour mieux exploiter et valoriser les données textuelles à la HAS.
Pour ces différents projets, vous travaillerez étroitement avec la cheffe de projet IA pour la revue de littérature, en charge de la coordination avec les chefs de projets des services de la HAS et de l’identification de leurs besoins sur cette thématique. Elle vous appuiera dans l’identification et l’évaluation de solutions sur les sujets d’analyse bibliographique. Vous travaillerez également avec les trois ingénieurs de l'équipe, responsables de la plateforme, des outillages data, et garants de processus de traitement des données modernes et de qualité. Ils vous appuieront pour disposer des ressources informatiques nécessaires, sur les problématiques d’ingénierie de données, l’automatisation des traitements et par la relecture entre pairs des programmes. L’ensemble des projets sont gérés via GitLab, aussi bien le code, que les tâches (issues), les pipelines (GitLab-CI), et la documentation web (GitLab Pages).
Vous travaillerez régulièrement avec le responsable de la mission data, qui vous aidera à identifier et prioriser les sujets. Vous interagirez aussi avec les autres membres de la mission data à travers des temps d’apprentissage en équipe dédiés. L’équipe est composée de profils variés : médecin de santé publique responsable des études sur la prise en charge des patients, statisticienne spécialisée sur les données SNDS, docteur travaillant sur l’apprentissage statistique à partir d’entrepôt de données de santé, responsable des analyses et outils décisionnels.
Profil recherché
Titulaire d’un Master, diplôme d’ingénieur ou diplôme équivalent ; spécialité en statistiques, informatique, big data, intelligence artificielle ou traitement du langage.
Doctorat apprécié
Expérience
Vous justifiez d’une expérience avérée dans le domaine, avec la réalisation de projets techniques concrets et en équipe. Une expérience professionnelle de plusieurs années, avec la mise en production et la maintenance de modèles de TAL, sera fortement valorisée. Des expériences dans les secteurs sanitaires et sociaux seront appréciées.
Compétences
De nature autonome, vous savez faire preuve d’initiative et avez un réel sens de l’organisation.
Capacité à formaliser des problématiques métiers, et à concevoir des analyses de données ou des outils appropriés pour y répondre.
Maîtrise des fondamentaux du traitement automatique du langage (TAL / NLP) : recherche et extraction d’information, reconnaissances d’entités, représentations de textes (ex. TF-IDF, embeddings) ; vous effectuez une veille technique et scientifique sur le sujet.
Expérience sur l'usage des grands modèles de langages (LLM), avec une compréhension de leur potentiel, de leurs particularités d’emploi et de leurs limites.
Maîtrise des systèmes de gestion de base de données, en particulier ceux adaptés au traitement du langage (ElasticSearch).
Maîtrise des notebooks Jupyter, d’un environnement de développement (IDE), de linux, git, et d’une forge logicielle (ex. GitLab, GitHub).
Maîtrise des statistiques et de la visualisation de données.
Vous êtes tourné vers l’action, aimez travailler en équipe et faire progresser le collectif en partageant vos compétences.
Date limite des candidatures : 21/11/2024
Candidature (CV, lettre de motivation) à adresser àl'attention de l'équipe recrutement, à l’adresse suivante :
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.