About the role
"Vous rêvez de comprendre comment l' IA prend ses décisions, alors candidatez" Bruno, manager
Les fonctions d’influences sont des outils permettant d’analyser le changement infinitésimal de la prédiction d’un algorithme par rapport aux données d’entrainements [1]. Elles permettent notamment de mieux comprendre la décision d’un algorithme, en mettant en exergue les exemples d’apprentissage qui ont le plus influencé le modèle dans sa prise de décision. En particulier, un exemple qui a beaucoup d’influence sur sa propre décision peut être considéré comme un exemple mal-étiqueté [2].
Cet outil fondamental a notamment été développé pour des modèles linéaires, mais plus récemment pour des modèles linéarisables [3] tels que les réseaux de neurones [4, 5].
Orange Innovation s’intéresse à développer ces outils pour les arbres de décision, une famille d’algorithme d’apprentissage adapté aux données tabulaires, qui sont les données auxquelles les data scientists font le plus souvent face.
Comme les arbres de décisions sont des modèles [GI1] constants par morceaux, il est possible de les étudier sous le cadre théorique des méthodes à noyaux, dont le noyau est défini par le partitionnement de l’espace des attributs induit par la structure de l’arbre [6]. Bien que cette approche puisse fonctionner sur des forêts d’arbres, aucune formulation exacte existe pour les méthodes à base de boosting.
Des travaux antérieurs ont montré qu’il est possible d’estimer ces fonctions d’influence pour les ensembles d’arbres de décision de cette manière [7].
L’objectif de ce stage est de reproduire les algorithmes et expériences réalisées dans [7] et de tester d’autres approches de linéarisations d’arbres de décisions notamment, la distillation par un modèle linéarisable, la conversion en un arbre différentiable, ou bien l’utilisation de différences finies.
Le stagiaire répondra à ces questions en s’appuyant sur les outils développés au sein d’Orange Innovation :, en collaboration avec ses tuteurs de stage ainsi qu’avec les autres chercheurs d’Orange.
Références
[1] Cook "Detection of influential observation in linear regression.” 1977
[2] George, Thomas, Nodet, Pierre, Bondu Alexis, and Lemaire Vincent. “Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark.” (2024)
[3] George, Thomas. "Deep networks training and generalization: insights from linearization." 2023
[4] Koh, Pang Wei, et al. "Understanding black-box predictions via influence functions.” 2017
[5] Yeh, Chih-Kuan, et al. "Representer point selection for explaining deep neural networks." 2018
[6] Scornet, Erwan. "Random forests and kernel methods." 2016
[7] Brophy, Jonathan, et al. "Adapting and evaluating influence-estimation methods for gradient-boosted decision trees." 2023
about you
Master 2 ou école d’ingénieur, spécialité data science/machine learning.
Une envie de découvrir le métier de chercheur via un stage de recherche. Vous êtes intéressé par poursuivre sur une thèse en apprentissage automatique.
Des connaissances en statistiques, mathématiques et/ou apprentissage statistique sont indispensables.
Intérêt pour les aspects applicatifs et théoriques du sujet.
Le ou la candidate devra idéalement connaitre les outils suivants :
· Python
· Git
· Scikit-learn
· Pytorch
"Venez rejoindre une équipe de passionnés, solidaires, qui vont de la recherche à l' opérationnel" Bruno, manager
additional information
Vous travaillerez en collaboration avec les chercheurs d’Orange Innovation sur des thèmes de recherche au plus proche des problématiques industrielles, et à la pointe de l’état de l’art dans le domaine de l’apprentissage. En fonction des résultats, le stage pourra déboucher sur la préparation d’une publication scientifique.
department
L'analyse de données et l'intelligence artificielle constituent aujourd'hui des puissants leviers pour Orange permettant à la fois de réinventer la relation client mais également d'optimiser et d'automatiser la gestion de nos réseaux, d'améliorer l'expérience client et d'apporter un avantage différenciant vis-à-vis de nos clients.
L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Au sein de la division Innovation, le domaine fonctionnel Digital Cloud Services a pour ambition de proposer à toutes les équipes de développement logiciel d’Orange l’ensemble des fondamentaux techniques communs, structurellement sécurisés et automatisés, utilisables par tous et partout, capables de soutenir des productions digitales, rapides et de qualité, sur l’ensemble du cycle de vie de celles-ci : de la conception jusqu’au fonctionnement nominal (run) en passant par le développement, le test, le déploiement, la supervision ou l'intégration de l'IA.
Dans ce cadre, vous rejoignez l'équipe Automated Data Intelligence at Scale, qui regroupe des chercheurs, des data scientists opérationnels et des architectes logiciels. Sa mission s'étend de la recherche académique à l'industrialisation de solutions opérationnelles.
contract
Internship
Duration : 6 months
Start date : 03 Mar 2025
Level : Master 2
Paid internship
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.