L'apprentissage auto-supervisé (self-supervised learning - SSL) est un paradigme d'apprentissage automatique utilisant les données elles-mêmes comme source de supervision.
Dans le cas de données audio, les représentations induites par ces modèles peuvent être utilisées comme données d'entrée afin d'entraîner des modèles sur des tâches aussi diverses que la reconnaissance automatique de la parole, la reconnaissance de locuteur, ou la détection d'événements sonores.
Les données audiovisuelles de l'INA, bien que non annotées mais possédant une volumétrie conséquente, pourraient bénéficier de la construction d'un modèle auto-supervisé. Celui-ci permettrait de tirer parti de la spécificité de ces données afin d'entraîner ou de finetuner des modèles supervisés sur des problématiques audios.
L'objectif de ce stage est de réaliser un état des lieux sur l'apprentissage et l'évaluation de modèles SSL appliqués aux données de l'INA. Ce projet inclut l’évaluation de modèles pré-existant mais aussi l'entraînement de nouveaux modèles à partir d’architectures de réseaux de neurones et de paradigmes d’apprentissage soigneusement sélectionnés. Les évaluations passeront, entre autres, par l'apprentissage de petits modèles dédiés à la détection d'activité vocale, à la reconnaissance de locuteur, ainsi qu'à la reconnaissance automatique de la parole. Ces derniers pourront enfin être évaluer sur des bases de données dédiées (publiques ou privées).
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.