Stage en Data Quality dans un environnement Cloud F/H
Le stagiaire rejoindra l’équipe Collecte de DATA IA sur la mise en place d’indicateur généraux de qualité de service sur les données disponibles sur le Cloud public. Il pourra côtoyer les data Engineer et les data-scientists de la communauté d’Orange.
La Data Mediation Zone collecte les données de 450 sources différentes. Son patrimoine est d’un peu plus de 4000 flux. Assurer la qualité des données est essentiel pour garantir un usage efficace et éclairé. Les équipes utilisant ces données doivent être informées de leur niveau de qualité, classé en trois catégories : Or, Argent et Bronze (L'utilisation de données de catégorie Bronze, qui présentent une qualité de service insuffisante, peut compromettre les résultats des traitements).
Pour cela, il faudra travailler sur 4 étapes principales:
1. Elaboration des règles de classification «Or», «argent»,«Bronze»: Analyser divers indicateurs de qualité de service (complétude, fraîcheur, taux de rejet, etc.) et proposer des règles de classification pour les données.
2. Développement de la classification: Concevoir, tester et valider les classifications dans un environnement de développement, puis les déployer en production.
3. Création d’un tableau de bord «Golden Data»: Mettre en place un tableau de bord classant les données en catégories Or, Argent et Bronze, avec des justifications pour chaque classement. Ce tableau servira de référence pour les utilisateurs et aidera à identifier les sources nécessitant des améliorations en qualité de service et qualité des données.
4. Validation des performances d’exécution: S’assurer que la solution est compatible avec les développements de collecte de données, tout en portant une attention particulière aux coûts opérationnels.
L’outil doit pouvoir traiter un très grand nombre de données (tant en quantité qu’en variété). Il doit être frugal (coûts peu élevés).
Sous la responsabilité d’un tuteur et dans le respect des règles de l’art et des normes de sécurité Orange, le stagiaire aura la charge de définir, modéliser, et mettre en place cet outil ainsi que de le documenter.
Etudiant.e en école d'ingénieur ou de master dans le domaine de l’informatique, vous possédez:
1. Connaissance des Bases de Données: Compréhension des systèmes de gestion de bases de données (SQL, NoSQL).
2. Compétences en Programmation: Maîtrise de langages comme Python, Spark ou Java pour le traitement des données.
3. Analyse de Données: Capacité à utiliser des outils d'analyse et de visualisation (ex. : Tableau, Power BI).
Optionnel :
1. Connaissance de l’environnement GCP (GCS, dataflow, composer, BQ).
• Communication: Expliquer des concepts techniques complexes à des non-experts et travailler efficacement en équipe.
• Résolution de problèmes: Être capable d'identifier rapidement les problèmes et de trouver des solutions efficaces.
• Pensée critique: Évaluer de manière objective les situations pour prendre des décisions éclairées.
• Adaptabilité: S'adapter aux technologies et pratiques en évolution rapide dans le domaine de l'IA et des opérations IT.
• Esprit d’équipe: Capacité à collaborer.
Au sein de la DSI, la Direction du SI Data IA, a comme interlocuteur privilégié le programme Accélération Data-IA. Elle porte les enjeux majeurs du programme sur l’ensemble des services et produits, ouverts à tous les utilisateurs de la data et de l’IA chez Orange France.
Rattaché à la Direction du Système d’Information Data IA, au sein du département Socle et connaissance data, vous êtes au cœur de l’acquisition des données, tout domaine confondu.
Le pôle Collecte s’inscrit en amont des pôles de développement de use cases data. La Data Mediation Zone est la zone indispensable pour faire transiter de manière sécurisée et en respectant les contraintes juridique/règlementaire, la donnée du SI d’Orange vers le Cloud.
Les principaux enjeux du moment sont l’hybridation de nos solutions Data entre solutions OnPremise et Cloud Public (Google Cloud Platform), l’arrivée de l’IA dans nos applications, et la mise à disposition de solutions Data très opérationnelles à chacun des acteurs métiers. C'est l'opportunité de travailler sur les dernières technologies du marché, de pouvoir proposer des solutions innovantes et d'acquérir une expertise reconnue au sein du groupe, et de partager une très belle aventure avec nos collègues et clients.
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.