Apprentissage profond par transfert pour la prédiction de phénotypes à partir de données d’expression de gènes.
Contexte :
L’apprentissage profond (Deep Learning) est une avancée majeure de l’intelligence artificielle de ces dernières années. Cette approche de l’apprentissage automatique consiste à apprendre à un réseau de neurones de grande taille à réaliser une tâche de prédiction à l’aide d’un ensemble de données d’apprentissage. L’apprentissage profond s’est rapidement imposé comme un standard dans de plusieurs domaines en pulvérisant les records des précédentes méthodes de l’état de l’art. Ses domaines de prédilection sont principalement l’analyse d’images et le traitement du langage naturel. Un des futurs enjeux majeurs de cette approche est son application à la santé.
Nos thèmes de recherche se concentrent plus spécifiquement sur la prédiction de phénotypes à partir de données d’expression de gènes. Les technologies de génomiques actuelles permettent de mesurer simultanément l’expression des tous les gènes d’un prélèvement biologique. L’expression d’un gène correspond à la quantité ARN qui est « produit » par ce gène, on peut se le représenter comme le niveau d’activité du gène. Le profil d’expression génique d’un individu contient une grande quantité d’informations sur l’état de son organisme. On peut en particulier s’en servir pour apprendre des réseaux de neurones à prédire des phénotypes (diagnostiques, pronostiques, réponse aux traitements,… ) permettant d’aider à la décision médicale. L’un des principaux verrous scientifiques à lever pour avancer dans ce domaine est l’apprentissage de réseaux de neurones à partir de base d’apprentissage de petite taille. Dans ce stage nous proposons d’attaquer ce problème à l’aide de méthodes d’apprentissage par transfert.
Sujet :
L’analyse de données transcriptomiques par apprentissage profond est un domaine de recherche très récent et seulement une poignée de projets s’intéressent à la prédiction de phénotypes. La raison de ce faible nombre de travaux provient du manque de grands jeux de données transcriptomiques disponibles dû à leur coût élevé d’acquisition. Alors que les réseaux de neurones profonds traitant des images ou du langage naturel sont construits à partir de plusieurs centaines de milliers ou millions d’exemples, les jeux de données transcriptomiques contiennent très peu de patients (quelques milliers au mieux). A cause de ce faible nombre d’exemples, l’apprentissage des réseaux de neurones profonds se heurte à des problèmes de sur-apprentissage, le réseau apprend par cœur les données mais pas le concept sous-jacent.
Dans ce sujet nous comptons pallier le problème de la petite taille des données d’apprentissage en utilisant des méthodes d’apprentissage par transfert. L’apprentissage par transfert consiste à transférer une partie de la connaissance contenue dans un réseau de neurones vers un autre réseau apprenant une autre tâche afin d’aider son apprentissage. Dans ce stage nous utiliseront ces méthodes pour transférer de l’information à travers plusieurs réseaux appris à partir de petit jeux de données transcriptomiques dans le but d’améliorer les performances de prédictions. Le travail consistera à faire un état de l’art et à sélectionner les méthodes d’apprentissage par transfert les plus performantes actuellement sur les données images tel que CycleGAN, MUNIT, ADA, DANN. Puis il faudra adapter les approches sélectionnées pour une utilisation sur les données transcriptomiques. La dernière étape sera de tester les méthodes développées à travers une série d’expérimentations sur des jeux de données publiques.
Début du stage : 2019
Durée : 5-6 mois
Encadrant : Pr Hanczar Blaise
Type d'emploi : Temps plein, Stage
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.