About the role
#python #scikit-learn #machinelearning
Ce stage a pour objectif d'explorer l'intégration du concept drift dans le cadre de la classification de données temporelles multi-table, en utilisant des données relationnelles fournies par Orange. Ces données couvrent divers domaines, tels que l'expérience client, la satisfaction et la détection de fraude.
Dans un contexte où les usages numériques et les réseaux évoluent rapidement, les données subissent des changements significatifs au fil du temps (concept drift[1]), rendant nécessaire la mise à jour fréquente des modèles de classification pour maintenir leur précision. Le concept drift désigne l’évolution des distributions de données au fil du temps, ce qui a un impact direct sur la performance des modèles prédictifs dans des environnements dynamiques. Ce phénomène est particulièrement crucial pour des applications telles que la classification d’activité humaines ou de la fraude, où l’adaptation aux comportements changeants est essentielle pour préserver l’efficacité des modèles.
L’objectif principal de ce stage sera de développer des approches robustes et adaptatives permettant de détecter et de s’ajuster aux changements dans les données multi-table, afin d’optimiser les performances des analyses prédictives et détecter les nouveaux comportements sur la durée.
Le travail s’articulera autour de deux grandes étapes :
1. Détection automatique des types de concept drift [2] : L’objectif sera de concevoir des méthodes capables de reconnaître de manière autonome les changements dans les données et leur nature.
2. Adaptation des modèles de classification : En fonction des détections effectuées, il s’agira de mettre en place des stratégies de mise à jour des modèles de classification pour répondre efficacement aux évolutions des données.
Ces stratégies seront testées sur plusieurs cas d’usage réels fournis par Orange ainsi que sur des benchmarks académiques. Les résultats de cette étude pourront ensuite être intégrés dans une bibliothèque de classification de données temporelles [3].
Vos missions seront :
- Placer le concept drift dans la cadre de la classification sur données temporelles,
- Répertorier les principales méthodes répondant aux besoins
- Instancier les principales approches
- Evaluer ces méthodes au point de vue des performances statistiques sur des données Orange et académiques.
[1] AGRAHARI, Supriya et SINGH, Anil Kumar. Concept drift detection in data stream mining: A literature review. Journal of King Saud University-Computer and Information Sciences, 2022, vol. 34, no 10, p. 9523-9540
[2] C. Salperwyck, M. Boullé, V. Lemaire. Concept drift detection using supervised bivariate grids. In International Joint Conference on Neural Networks, IJCNN 2015, Pages 1-9, 2015
[3]
about you
- vous êtes en Master 2 (IA, Data Science, Maths) ou école d'ingénieur
- Vous maîtrisez python et schikit-learn
- vous avez des connaissances en statistique et machine learning
- vous avez un intérêt pour la programmation et l'open source
additional information
Proche de la mer vous serez au sein d’une équipe composée de chercheurs multiculturels en Machine Learning, de Data Scientists et d’experts en machine learning dans une direction d’innovation.
department
Basée à Lannion (22) au sein d'Orange Innovation, l'équipe Machine Learning & PROFiling déploie son activité dans le domaine des statistiques, machine learning et intelligence artificielle, depuis des travaux fondamentaux jusqu'à l'accompagnement des unités opérationnelles d'Orange sur des cas d'usage précis.
L'équipe se compose d'une vingtaine de permanents et accueille actuellement quatre doctorants.
contract
Internship
Start date : 01 Apr 2025
Niveau d’études préparé pendant le stage Indemnité brute selon école Bac+5 de 1572 € à 2096 € / mois
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.