Nous recherchons un développeur Big Data senior avec une expertise sur Cloudera, Spark et Apache Iceberg pour intervenir sur une mission de longue durée.
Le but de la mission est de participer sur un projet de création d'un Datalake opensource dans un contexte de création d'outils liés à de l'intelligence artificielle.
La prestation s'effectuera au sein des équipes d'une vingtaine de personnes(data engineering, data architects).
Anglais: Bon niveau requis car une partie des équipes est en Amérique et en Inde.
Le datalake s'appuie sur l'offre Cloudera on premise.
Dans ce contexte, la prestation consiste à intervenir sur le POC (Proof of concept) en étroite collaboration avec l'administrateur du datalake house et à mettre en oeuvre et à valider l'infrastructure des plateformes de données.
Dans ce cadre, le prestataire contribuera et aura la responsabilité des sujets suivants:
-Conception et développements du POC avec Cloudera, NoSQL, Mifi, Apache Iceberg, Kafka...
-Mise en ?uvre des pipelines pour l'ingestion et l'intégration des données à partir des divers sources tout en s'assurant de la qualité et la cohérence des données.
-Processus ETL / ELT
-Développement et Optimisation des sources ETL et ELT pour soutenir les besoins en datawarehouse
-Optimisation de la performance des flux de données et des requetes
-Travail en étroite collaboration avec l'administrateur
Profil candidat:
Nous recherchons un développeur Big Data senior avec une expertise sur Cloudera, Spark et Apache Iceberg pour intervenir sur une mission de longue durée.
Le but de la mission est de participer sur un projet de création d'un Datalake opensource dans un contexte de création d'outils liés à de l'intelligence artificielle.
La prestation s'effectuera au sein des équipes d'une vingtaine de personnes(data engineering, data architects).
Anglais: Bon niveau requis car une partie des équipes est en Amérique et en Inde.
Le datalake s'appuie sur l'offre Cloudera on premise.
Dans ce contexte, la prestation consiste à intervenir sur le POC (Proof of concept) en étroite collaboration avec l'administrateur du datalake house et à mettre en oeuvre et à valider l'infrastructure des plateformes de données.
Dans ce cadre, le prestataire contribuera et aura la responsabilité des sujets suivants:
-Conception et développements du POC avec Cloudera, NoSQL, Mifi, Apache Iceberg, Kafka...
-Mise en ?uvre des pipelines pour l'ingestion et l'intégration des données à partir des divers sources tout en s'assurant de la qualité et la cohérence des données.
-Processus ETL / ELT
-Développement et Optimisation des sources ETL et ELT pour soutenir les besoins en datawarehouse
-Optimisation de la performance des flux de données et des requetes
-Travail en étroite collaboration avec l'administrateur
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.