Profil
L'équipe R&D 'Multimedia Contents Analysis Technologies' (MAS) au sein de l'entité Data & IA se concentre sur la recherche en apprentissage neuronal pour analyser divers types de contenus multimédias (image, audio, vidéo). Plus récemment, l'équipe a renforcé son expertise dans le domaine de l'analyse vocale, en se spécialisant notamment dans la transcription automatique de la parole en texte. Valentin, Chercheur et tuteur
1. Vous êtes passionné.e par les réseaux de neurones et leurs applications
2. Vous êtes toujours éliorez dans votre travail
3. Vous êtes capable d'analyser en profondeur les solutions proposées, et vous faites preuve d'une grande curiosité pour explorer de nouvelles technologies et approches innovantes
4. Vous faites preuve de rigueur dans votre travail en veillant à ce que chaque détail soit exact
Mission
L’arrivée des Large Language Models (LLMs) a révolutionné le domaine du Traitement Automatique du Langage, en ouvrant la voie à de nombreuses nouvelles méthodes pour traiter du texte. Plus récemment, l’attention de la communauté s’est beaucoup portée sur l’utilisation des LLMs dans le traitement d’autres modalités, telles que l’image ou l’audio ([1] ou Moshi [2]). Dans le cas de la transcription de la parole en texte, il est également possible d’utiliser des LLMs, en proposant simplement une « cascade » (encodeur de parole, décodeur LLM) [3]. Différentes variantes ont été proposées par la communauté, se concentrant sur la jointure entre l’encodeur et le décodeur [4,5,6]. Néanmoins, ces modèles sont particulièrement coûteux à utiliser et ne semblent pas pour l’instant dépasser les performances des encodeurs seuls [6].
Le stage s’articule autour de plusieurs phases :
5. Dans un premier temps, une analyse bibliographique de ces approches sera réalisée.
6. Nous chercherons ensuite à évaluer rigoureusement leur pertinence, sur des données académiques mais aussi sur nos corpus internes.
7. Vous aurez également la possibilité de collaborer avec d’autres membres de l’équipe pour rechercher et développer une solution originale afin de dépasser les limitations actuelles.
8. Enfin, vous aurez l’occasion de communiquer en interne comme en externe autour des résultats du stage.
[1] [2] Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., Grave, E. and Zeghidour, N., Moshi: a speech-text foundation model for real-time dialogue. [3] Lakomkin, E., Wu, C., Fathullah, Y., Kalinli, O., Seltzer,, C., 2024, April. End-to-end speech recognition contextualization with large language models. ICASSP 2024[4] Chen, Zhehuai, He Huang, Andrei Andrusenko, Oleksii Hrinchuk, Krishna C. Puvvada, Jason Li, Subhankar Ghosh, Jagadeesh Balam, and Boris Ginsburg. "Salm: Speech-augmented language model with in-context learning for speech recognition and translation." ICASSP 2024[5] Chen, Z., Huang, H., Hrinchuk, O., Puvvada,, Koluguri,, Żelasko, P., Balam, J. and Ginsburg, B., 2024. Bestow: Efficient and streamable speech language model with the best of two worlds in gpt and t5. arXiv 2024.[6] Wu, H., Chen, X., Lin,, Chang,, Chung,, Liu,,, 2024. Towards audio language modeling-an overview. ICASSP 2024 Tutorials.
Compétences
9. Vous préparez actuellement un Master 2 (préférentiellement orienté recherche) ou équivalent dans le domaine de l’apprentissage automatique ou d’un domaine technique connexe
10. Vous avez des compétences en informatique (au moins un langage de programmation maîtrisé, idéalement python, connaissance de l’environnement unix, connaissance d’un gestionnaire de version) et des bases en mathématiques
11. Une expérience (projets, stage) en apprentissage automatique appliqué à des données audio serait également un plus
Votre équipe
Tu rejoins une équipe d'environ vingt personnes, tout en étant lié(e) à un projet qui regroupe des collaborateurs situés à Rennes et dans d'autres villes. Ce stage te permettra d'interagir avec des experts d'équipes basées à Lannion et ailleurs. C'est une belle opportunité de communiquer avec différents pôles tout en travaillant sur un projet transversal. Valentin, Chercheur et tuteur
Localisation/Information
Vous travaillez dans les locaux d'Orange Atalante sur Cesson-Sévigné
Vous recherchez un stage au premier semestre 2025 pour une durée de six mois.
Perspectives
12. Ce stage est une véritable passerelle vers la recherche, vous permettant de tester le terrain sans vous y engager pleinement. Il offre l'opportunité d'explorer si c'est vraiment ce que vous souhaitez poursuivre. C'est une occasion unique de découvrir et d'affiner votre intérêt pour ce domaine.
13. Grâce à une équipe polyvalente d'une vingtaine de personnes, vous développez des compétences techniques et relationnelles, très prisées sur le marché de l'emploi actuel, en particulier dans le domaine de l'IA.
14. L'ambiance du stage est proche de celle d'un laboratoire de recherche, tout en étant liée au monde de l'entreprise.
15. Vous travaillerez aux côtés de personnes expertes depuis plus de 10 ans dans leur domaine, qui vous transmettront leur savoir et leur expérience précieuse.
contract
Internship
Start date : 01 Feb 2025
Niveau d’études préparé pendant le stage Indemnité brute selon école Bac+5 de 1572 € à 2096 € / mois
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.