About the role
#Machinelearning #IA #apprentissageautomatique #PyTorch #scikit-learn #optuna
Contexte : Que ce soit sous forme de tableaux de données marketing, de logs réseau ou de logs machines, les données tabulaires sont omniprésentes chez Orange. Les avancées des réseaux de neurones, en particulier des transformers, sont indéniables dans les domaines du texte, de l’image ou de l’audio. Cependant, paradoxalement, ils sont assez inefficaces sur les données tabulaires. En effet, les données tabulaires sont souvent hétérogènes. Elles combinent des variables catégorielles et continues avec des distributions complexes, tronquées ou discrètes. Certaines tables contiennent également des variables ordinales, des champs textuels et des dates. Il est aussi très courant d’avoir des données manquantes.
Ainsi, lorsqu’il s’agit de déployer des modèles prédictifs sur des données tabulaires, les outils d’apprentissage automatique "classiques" comme XGBoost ou Khiops restent de loin les plus efficaces et les plus robustes [2].
Mais dans certains cas, il peut être nécessaire de combiner des données tabulaires avec d’autres contenus, tels que des images, des textes ou des séries temporelles ; on peut aussi vouloir réaliser une adaptation de domaine ou un apprentissage par transfert avec des fonctions de coût adaptées. Dans ces situations, la flexibilité des réseaux de neurones est très intéressante.
Mais pour atteindre la performance des modèles classiques, nous devons utiliser des encodages et des architectures appropriés [3], et nous devons gérer correctement les variables manquantes. Dans [4], les auteurs proposent d’utiliser le masquage d’attention à la place de l’imputation.
L’objectif principal de ce stage est d’améliorer la méthode proposée dans [4] et d’évaluer si la gestion des valeurs manquantes par masquage d’attention apporte des améliorations par rapport à l’imputation classique.
Nous établirons d’abord un état de l’art sur les transformers appliqués aux données tabulaires et sur la gestion des valeurs manquantes [voir par exemple 1, 4, 5]. Nous étudierons ensuite l’impact des méthodes de masquage d’attention pour traiter différents scénarios de données manquantes : Missing Completely At Random (MCAR), Missing At Random (MAR) ou Missing Not At Random (MNAR) [5]. Nous comparerons avec des méthodes d’imputation standards (valeurs constantes, moyennes, plus proches voisins, etc.) et des modèles tabulaires de l’état de l’art (Khiops, XGBoost)
[1] Revisiting Deep Learning Models for Tabular Data. NeurIPS 2021.
[2] Why do tree-based models still outperform deep learning on typical tabular data? NeurIPS 2022.
[3] Tabular Data Generation: Can We Fool XGBoost? TRL Workshop@NeurIPS 2022.
[4] Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets. 2024. Preprint.
[5] Still More Shades of Null: A Benchmark for Responsible Missing Value Imputation. 2024. Preprint.
about you
- Vous êtes ingénieur ou master en mathématiques/informatique, science des données, apprentissage statistique.
- Vous avez un intérêt équilibré pour les aspects théoriques et techniques de l’apprentissage automatique.
- Vous aimez lire et analyser des articles scientifiques et la partie rédactionnelle
- La maîtrise de l’anglais, de Linux et de PyTorch est essentielle.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.