Job details
Job Type
Internship
Full Job Description
Votre rôle est d'effectuer un travail de post-doc sur : « Géo-distribution du graphe des jumeaux numériques »
A l'heure actuelle, 20 milliards d'objets sont connectés à Internet et les prévisions indiquent une très forte croissance pour les années à venir. Dans ce cadre Orange veut se positionner comme un acteur incontournable. Pour ce faire, un composant important est le système d'informations référençant la description de tous les objets connectés, leurs interactions et intégrations dans le monde réel.
Orange possède un atout indéniable pour atteindre cet objectif : ses infrastructures de communication. Pour tirer parti de cet atout, le paradigme de Fog Computing [1] semble le plus adapté, le but étant de positionner les calculs et le stockage de données à l'endroit le plus approprié dans l'infrastructure depuis les centres de calcul jusqu'aux objets [2]. Dans le contexte de l'Internet des objets, du fait de la géo-distribution des objets, un tel système permettra d'avoir de meilleures QoS [3].
Dans notre conception d'un référentiel des objets, nous nous appuyons sur une base de données orientée graphe pour maintenir une référence à chaque objet et caractériser les relations/interactions qui les lient. Dans ce champ d'application, plusieurs solutions existent : Neo4J, ArangoDB, Janus, OrientDB, G*… Ces bases permettent de parcourir aisément des très grands graphes et donc de faciliter les recherches complexes de relations entre objets. Dans notre contexte Fog, nous prônons une distribution de la gestion de ce graphe au travers de toute l'infrastructure de l'opérateur, ce qui implique un partitionnement du graphe où chaque partie serait gérée indépendamment.
Dans le cadre de l'internet des objets, la taille du graphe à analyser sera grande (plusieurs milliards de sommets et d'arcs) et donc maintenir tout le graphe sur un seul serveur serait voué à l'échec.
Certaines bases orientées graphe proposent un mode clusterisé. Elles cherchent alors à optimiser les performances du système par le biais, par exemple, de l'équilibrage de charge, en répliquant de façon cohérente le graphe sur chacune des machines du cluster (cf Neo4J). D'autres se basent sur un système de stockage distribué, mais perdent en efficacité du fait que le stockage n'a pas la connaissance du graphe et donc ne peut pas optimiser le placement des noeuds et des arcs (ex. Titan/Cassandra). Il faudra donc étudier les différentes options et exhiber un système qui sera capable de gérer ce graphe [5].
Au vu de l'étendu de cette base graphe, il devient aussi important de bien penser le système de requêtes afin de prendre en compte les latences et incohérences induites par cette haute distribution et la dynamique du système (ajouts, modifications, suppressions dynamiques des objets). Aujourd'hui, l'équipe a déjà investi le sujet, notamment au travers d'une thèse qui a mis en avant l'intérêt de l'utilisation des Space Filling Curves (SFC) pour faciliter la géo distribution du graph [4]. Les idées qui devront être creusées dans ce post-doc mettront en avant des solutions de type probabiliste (ou heuristique) et incrémentale coupler avec les SFC. Le temps devient un paramètre de la requête, plus il y a de temps accordé à la requête, meilleur (plus précis) sera son résultat [5].
Pour plus de détails sur la mission scientifique et les principales activités associées ce post doctorat, veuillez consulter la section 4.
about you
Le ou la candidat(e) devra avoir obtenu un doctorat en informatique avec une forte composante d'algorithmique distribuée.
Une expérience en bases de données et/ou en graphes complexes sera valorisée et grandement appréciée.
Pour l'implémentation des algorithmes conçus et leur validation par des simulations, des compétences en programmation sont absolument nécessaires.
Le ou la candidat(e) devra faire preuve de curiosité et d'autonomie. Il devra au moins avoir une maitrise de l'anglais technique (écrit et oral).
Compétences métier
- Vous possédez un doctorat en systèmes distribués. Une expérience dans le domaine des bases de données est souhaitée.
- Excellentes compétences en Systèmes Répartis et Systèmes de Bases de Données Réparties et particulièrement NOSQL dont orienté-graphes et/ou temporelles.
- Des connaissances et expériences dans les domaines de l'Internet des Objets et/ou du
management des réseaux seraient un atout.
- Connaissance du fonctionnement des communautés open source et du développement de code open source
Compétences transverses
- Goût pour la recherche, prise d'initiative, curiosité, créativité et dynamisme
- Capacité à appréhender des problèmes complexes et à proposer des solutions en rupture
- Rigueur, fortes capacités d'analyse et de synthèse
- Capacité de travail dans un environnement international
- Vous avez des capacités de communication écrite et orale, vous savez vulgariser vos travaux pour les rendre compréhensibles au plus grand nombre, vous aimez convaincre.
- Anglais courant (rédaction de documents, présentations, animation de réunions, missions…)
- Maîtrise du développement de code logiciel
- Vous aimez le travail en équipe, au sein de projets pluridisciplinaires, et contribuer à un objectif commun, tout en étant autonome sur vos activités
additional information
- objectif scientifique - verrous à lever
L'objectif du postdoc est de dans un premier temps de contribuer à mettre en oeuvre une solution innovante mettant en oeuvre une base de donnée graphe distribuée dans l'infrastructure de l'opérateur et ensuite de proposer un langage de requête adapté proposant des réponses probabilistes et incrémentales (plus on attend plus la réponse sera précise et complète) tout en s'appuyant sur les recherches s'appuyant sur les Space Filling Curves [4].
Ces résultats constitueront une brique essentielle pour une meilleure distribution de la plateforme Thing'in, le référentiel des objets connectés d'Orange et aussi améliorer son modèle de fédération.
Les principaux verrous sont
- la spécification et la mise en oeuvre d'un tel graph (unique) complètement distribué sur plusieurs sites. Un graphe qui est en plus dynamique ;
- l'étude et la mise en oeuvre de processus distribués sur le graphe qui retourne de façon incrémentale les résultats (de façon probabiliste, et de plus en plus précis). Un langage de requête devra être défini pour prendre en compte ce comportement.
- approche méthodologique-planning
[1] A. V. Dastjerdi, et al. Fog computing: Principals, architectures, and applications. 2016.
[2] S. Sarkar and al. Assessment of the suitability of fog computing in the context of internet of things. IEEE Tr. on Cloud Computing, 2015.
[3] E. van der Zee and al. Application of geographical concepts and spatial technology to the internet of things, 2013.
[4] Cyprien Gottstein, Philippe Raipin Parvédy, Michel Hurfin, Thomas Hassan and Thierry Coupaye: Inverse Space Filling Curve Partitioning Applied to Wide Area Graphs. Conference: 9th International Conference on Natural Language Processing (NLP 2020).
[5] A. Labouseur and al. The G* graph database: efficiently managing large distributed dynamic graphs. 2014.
department
Orange est un acteur clé de l'innovation numérique. Dans un secteur des technologies de l'information et de la communication qui connaît un bouleversement de sa chaîne de valeur, avec la multiplication des acteurs et l'apparition de nouveaux modèles économiques, l'innovation constitue un levier majeur de croissance pour le groupe Orange.
Au sein de la Division Innovation dont l'ambition est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, le ou la post-doctorant(e) sera pleinement intégré(e) au sein d'une équipe de recherche Orange Labs dédiée au Cloud et l'IoT, très active au sein de l'écosystème d'innovation (IRT B-Com, pôles de compétitivité Images & Réseaux et Systematic, INRIA, Université de Rennes 1…).
Les travaux de l'équipe contribuent directement aux activités d'innovation menées pour le compte du groupe Orange, avec des perspectives de concrétisation rapide, à travers l'implémentation dans les infrastructures exploitées au sein de l'entreprise.
L'équipe coopère aussi avec d'autres partenaires (académiques ou industriels) via des projets collaboratifs nationaux (Modiflu, ANR GraphStor (en cours de montage)) ou européens (BIM2TWIN, ASAP).
Ses travaux prennent place au sein d'une des plateformes d'intégration de la recherche définies par Orange Labs Recherche : Thing in (www.thinginthefuture.com). Une trentaine de personnes contribuent actuellement à la construction de la plateforme. Dont 9 se trouvent à Orange Labs Cessons dans l'équipe d'accueil du doctorant. Ces personnes font partie de l'équipe DIESE/LCP/DDSD experte en stockage et systèmes distribués (20 personnes). Cette équipe est composée d'ingénieurs de recherche, d'architecte, de chef de projets, de développeurs, de thésards et de stagiaires.
De plus le ou la post-doctorant(e) sera donc amené(e) à collaborer avec les équipes projets qui utiliseront cette plateforme Thing in.
contract
Post Doc
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.