Ingénieur·e en data science h/f

Antony

CDD

INRAE

Publiée le 1 avril

Description de l'offre

La Direction pour la Science Ouverte (DipSO) participe à la définition et à la mise en oeuvre de la politique de Science Ouverte de l'Institut. Pour répondre à ses missions, il est essentiel pour la DipSO d'identifier les tendances et les émergences du domaine afin d'en anticiper les évolutions. La DipSO, organisation multi-site impliquant un travail en réseau, est composée de quatre pôles. Afin de répondre aux besoins d'analyse informationnels du management scientifique, la DipSO développe des outils et des méthodes pour observer et suivre l'activité scientifique et son impact.
Afficher la suite
Contexte :

La recherche évolue et produit un flux d'informations de plus en plus hétérogène et massif. Les sources de données se multiplient et il faut de plus en fouiller dans des textes pour extraire les informations souhaitées. Une exploitation (fouille de données et de textes, data visualisation) combinée de ces données est primordiale pour avoir une vision synthétique et pertinente de la production scientifique, afin d'éclairer l'aide à la décision. Pour répondre à ces enjeux, la DipSO a entamé une montée en compétences en science des données et en analyses statistiques et de données textuelles, dans laquelle s'intègre ce poste.

L'ingénieur.e apportera son savoir-faire dans plusieurs projets de production d'analyses stratégiques, à partir de corpus de données hétérogènes, en appui au management scientifique et fonctionnel de l'institut. Dans ce cadre, la personne recrutée sera en interaction avec des professionnels de l'information scientifique (bibliomètres, veilleur.se.s notamment) et des informaticiens (développeur.se.s et data scientists).

Mission principale
L'ingénieur.e recruté.e apportera un appui méthodologique et technique au pôle dédié à l'analyse de l'information via un panel d'activités telles que :
· Les prétraitements (extraction et homogénéisation du contenu textuel) de différents corpus de données textuelles hétérogènes (sources, formats). Ces prétraitements devront exploiter des outils et méthodes d'analyse de corpus de texte (informations structurées ou non structurées), voire des modèles de langues, en se basant sur un langage de programmation (R, Python) et des bibliothèques adaptées.
· La production d'analyses exploratoires à partir des jeux de données issus de l'étape de prétraitement (analyses statistiques descriptives voire multifactorielles).
· Le regroupement de documents sur la base de similarités (classification non supervisée voire supervisée).
· Le développement de scripts visant l'automatisation des traitements et analyses relevant du text-mining. Il s'agira d'améliorer des scripts existants ou d'en créer de nouveau, et de tester différentes méthodes.
· La rédaction de rapports et contribution au développement d'une bibliothèque de workflows d'analyse (notebooks).

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.