Étude de l'algorithmie de l'apprentissage par renforcement pour la robotique
L'apprentissage par renforcement (RL) a démontré un fort potentiel pour les applications robotiques, en particulier en locomotion de robots à pattes. Toutefois, l'efficacité des solveurs RL reste insuffisante pour répondre aux exigences pratiques.
Ce projet, s'appuyant sur les avancées en optimisation de trajectoire, propose d'explorer l'utilisation de solveurs d'optimisation standards comme alternatives aux algorithmes RL populaires tels que PPO ou SAC. Nous nous concentrerons dans un premier temps sur les stratégies évolutionnaires (ES), en tirant parti de leur efficacité sur les architectures CPU, tout en explorant leur mise à l'échelle sur GPU afin d'obtenir des gains de performance significatifs.
À partir de cette base, nous chercherons à affiner la formulation du problème, notamment en étudiant l'approche du multiple shooting, afin d'améliorer l'exploration dans l'espace des états plutôt que dans celui des commandes. Nous mettrons en évidence les propriétés et l'intérêt de cette formulation - appelée transcription en optimisation de trajectoire - qui est rarement prise en compte dans le cadre du RL.
Par ailleurs, nous explorerons l'intégration de gradients issus du simulateur ou de réseaux de neurones lorsque cela est possible. L'objectif final est d'appliquer ces méthodes à des tâches réelles de locomotion de robots quadrupèdes.
Contexte de travail
Equipe Gepetto
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
Néant
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.