Stage Université du Mans, Le Mans, France
Evaluation des systèmes de synthèse de la parole dans un environnement bruyant
Sujet: L’évaluation perceptive est capitale dans de nombreux domaines liés aux technologies de la parole, dont la synthèse de la parole. Elle permet d’évaluer la qualité de la synthèse de manière subjective en demandant à un jury de noter la qualité d’un stimuli de parole synthétisée. De récents travaux ont permis de développer un modèle d’intelligence artificielle qui permet de prédire l’évaluation subjective d’un segment de parole synthétisée, permettant ainsi de s’affranchir d’un test par jury. Le problème majeur de cette évaluation est l’interprétation du mot “qualité”. Certains peuvent baser leur jugement sur les caractéristiques intrinsèques de la parole (tel que le timbre, le débit de parole, la ponctuation, etc.) alors que d’autres peuvent baser leur jugement sur les caractéristiques liées au signal audio (comme la présence ou non de distorsion). Ainsi, l’évaluation subjective de la parole peut être biaisée par l’interprétation de la consigne par les auditeurs. Par conséquent, le modèle d’intelligence artificielle mentionné ci-dessus peut ainsi être basé sur des mesures biaisées. Le projet a pour but de réaliser un travail exploratoire pour évaluer la qualité de la synthèse de la parole d’une manière plus robuste que celle ayant été proposée jusqu’ici. Pour ceci, nous partons de l’hypothèse que la qualité de la synthèse de la parole peut être estimée par le biais de sa détection dans un environnement réel. En d’autres termes, un signal synthétisé parfaitement pour reproduire un signal de parole humaine ne devrait pas être détecté dans un environnement de la vie quotidienne. Basé sur cette hypothèse, nous proposons donc de monter une expérience de perception de la parole en milieu bruyant. Il existe des méthodes de reproduction de milieu sonore qui permettent de simuler un environnement existant au casque. L’avantage de ces méthodes est qu’il est également possible de jouer un enregistrement d’un milieu réel au casque tout en ajoutant des signaux comme s’ils avaient été présents dans la scène sonore enregistrée. Ceci implique d’une part une campagne de mesure acoustique dans des environnements bruyants de la vie quotidienne (transport, open space, cantine, etc.). Ensuite, une génération de parole synthétisée sera nécessaire tout en prenant en compte le contexte des enregistrements. Il sera également pertinent de faire varier les paramètres de la parole synthétisée tout en gardant la même sémantique. Les enregistrements de la vie quotidienne seront ensuite mixés aux signaux de parole synthétisée pour évaluer la détection de cette dernière. Nous utiliserons le pourcentage de fois que la parole synthétisée sera détectée comme indicateur de qualité. Ces pourcentages de détection seront ensuite comparés aux prédictions du modèle d’intelligence artificielle mentionné ci-dessus. Ainsi, nous pourrons conclure (1) si les méthodes sont équivalentes ou complémentaires et (2) quel(s) paramètre(s) de la parole synthétisée engendrent une détection de cette dernière en milieu bruyant.
Informations complémentaires:
• Encadrement: Le stage sera co-encadré par Aghilas Sini, maître de conférence au Laboratoire d’Informatique de l’Université du Mans (aghilas.sini@univ-lemans.fr) et Thibault Vicente, maître de conférence au Laboratoire d’Acoustique de l’Université du Mans (thibault.vicente@univ-lemans.fr).
• Niveau requis: Stage de M2 recherche.
• Période envisagée: 6 mois (Février à Juillet 2024).
• Lieu: Le Mans Université.
• Mots-clés: parole synthétisée, synthèse sonore binaurale, test par jury.
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.