L'objectif principal est de découpler la gestion des données de DataGEMS au niveau le plus bas de l'analyse des données au niveau le plus élevé, et en particulier via la conception d'un modèle logique (MoMA) qui capture les données et les métadonnées, l'apprentissage automatique et les opérateurs de transformation.
L'objectif secondaire est de fournir des explications pour la découverte de jeux de données, le but étant d'expliquer les réponses en se basant sur l'ajout d'annotations de provenance aux opérateurs de données. De plus, il est nécessaire de concevoir des algorithmes et des implémentations efficaces pour la génération d'explications en temps réel.
Activités
- Concevoir le modèle de données et la sémantique des requêtes pour la découverte des jeux de données
- Revoir les modèles existants de provenance des données pour les appliquer aux systèmes de découverte des jeux de données.
- Participer à la recherche inter-projets, en particulier en ce qui concerne l'explicabilité et la provenance.
- Implémenter, évaluer et disséminer
- Coordonner la gestion du WP7 de DataGEMS (livrables, supervision)
Compétences
Les compétences attendues sont : capacité d'abstraction, maîtrise de langages de programmation comme Python, maîtrise de l'algèbre relationnelle et la gestion de données, capacité de redaction et conception de validations expérimentales, capacité de travailler en groupe, maîtrise de l'anglais.
Contexte de travail
Le travail s'effectuera au sein du Laboratoire d'Informatique de Grenoble. Le LIG rassemble près de 450 chercheurs, enseignants-chercheurs, doctorants et personnels en support à la recherche. Ils relèvent des différents organismes et sont répartis sur trois sites du LIG : le campus, Minatec et Montbonnot.
Le LIG se veut un laboratoire centré sur les fondements et le développement des sciences informatiques, tout en veillant à une ouverture ambitieuse sur la société pour en accompagner les nouveaux défis.
L'ambition est de s'appuyer sur la complémentarité et la qualité reconnue des 22 équipes de recherche du LIG pour contribuer au développement des aspects fondamentaux de l'informatique (modèles, langages, méthodes, algorithmes) et pour développer une synergie entre les défis conceptuels, technologiques et sociétaux associés à cette discipline.
Relever ces défis trouve une résonance dans les cinq axes thématiques de recherche explorés au LIG.
L'équipe d'accueil, SLIDE, est une équipe de recherche commune CNRS, Grenoble INP, UGA
Axe Systèmes intelligents pour les données, les connaissances et les humains. Un grand nombre des travaux de SLIDE sont évalués en utilisant des méthodes empruntées au domaine de recherche d'information et d'apprentissage automatique. Nous explorons aussi le crowdsourcing pour l'évaluation des applications. Un de nos axes récents est la conception et l'implantation de modèles et algorithmes pour l'acquisition efficace de données et l'évaluation des applications via le crowdsourcing. Nous nous penchons particulièrement sur l'assignation de tâches aux travailleurs dans un contexte de crowdsourcing en optimisant les facteurs humains tels que l'expertise des travailleurs et leur disponibilité. Recrutement dans le cadre du projet H2024-INFRA DataGEMS
Les données sont un atout qui stimule l'innovation, oriente la prise de décision, améliore les opérations et a un impact sur plusieurs domaines, notamment la science, l'environnement, la santé, l'énergie, l'éducation, l'industrie et la société dans son ensemble. Un nombre croissant d'ensembles de données ouvertes provenant des gouvernements, des établissements universitaires et des entreprises offrent de nouvelles opportunités en matière d'innovation, de croissance économique et de bénéfices sociétaux. Des données en temps réel aux données historiques, des données structurées sous forme de tableaux aux textes, images ou vidéos non structurés, les données sont très hétérogènes. De plus, son volume et sa complexité créent un problème « d'aiguille dans la botte de foin » : il est extrêmement difficile et prend beaucoup de temps de découvrir, d'exploiter et de combiner des données au sein de cet océan de données en expansion. Les systèmes de découverte de données, tels que Google Datasets, et les portails de données ouvertes, tels que le portail EOSC, promettent de rapprocher les données des utilisateurs, mais échouent pour les raisons suivantes : (a) Capacités limitées de découverte de données, (b) Mauvaises métadonnées, (c) Réponse superficielle aux requêtes, et (d) Ensembles de données à table unique. Les outils existants permettent de rechercher des feuilles de calcul ou des données publiées dans des formats tels que CSV ou JSON, mais pas d'ensembles de données complexes, par exemple des collections de tableaux, de texte ou de données temporelles.
Pour répondre aux limitations ci-dessus, le projet DataGEMS propose une plateforme de découverte de données avec des capacités d'exploration, de gestion et de recherche généralisées. DataGEMS repose sur les principes d'équité, d'ouverture et de réutilisation des données. Il vise à intégrer de manière transparente le partage, la découverte et l'analyse des données dans un système qui couvre l'ensemble du cycle de vie des données, c'est-à-dire le partage, le stockage, la gestion, la découverte, l'analyse et la réutilisation (données et/ou métadonnées), comblant le fossé entre le fournisseur de données et le consommateur de données.
DataGEMS est une action de recherche et d'innovation HORIZON-INFRA-2024-EOSC-01-05 - HORIZON-RIA HORIZON dont le but est de construire un écosystème entièrement opérationnel et durable d'outils open source pour l'équité des données et de fournir un écosystème d'outils gratuits et ouverts.
-Des outils sources et un certain nombre de services couvrant toutes les phases du cycle de vie des données traitant du stockage et de la gestion, de la découverte, de l'analyse, de la description, de la publication et de la réutilisation. Le projet compte 12 partenaires répartis dans 8 pays européens qui collaboreront pour développer de nouveaux outils et services permettant d'accéder plus rapidement qu'auparavant aux ensembles de données FAIR-by-design. Ils facilitent la collecte et l'analyse d'ensembles de données hétérogènes et/ou à grande échelle, assurent la production automatique de données FAIR au niveau des instruments de recherche (par exemple, les stations météorologiques) et soutiennent les infrastructures par des outils et techniques d'automatisation des métadonnées.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.