Bonjour Ă  tous,
Vous le savez sans-doutes, j’ai passĂ© ces dernières annĂ©es Ă  prĂ©parer ma thèse de doctorat en bioinformatique Ă  l’Institut Pasteur. Je soutiendrais donc bientĂ´t cette thèse intitulĂ©e “Des sĂ©quences au savoir, amĂ©liorer et apprendre des alignements de sĂ©quences”. La soutenance se dĂ©roulera en Anglais.

Cette soutenance se dĂ©roulera le 2 DĂ©cembre Ă  13h30, sur le campus Jussieu de Sorbonne UniversitĂ©. Elle se tiendra dans l’amphithéâtre Durand du batiment Esclangon (cf. carte ci-dessous). Un Ă©venement de calendrier est disponible ici.
Si vous ne pouvez pas venir, pas de soucis! La soutenance sera aussi joignable en visioconférence via Microsoft Teams (lien ici)

La soutenance sera suivie d’un petit pot avec de la nourriture et des boissons dans l’Atrium (cf. carte ci dessous), puis d’une soirĂ©e dans un bar proche:Le Baker Street Pub (details ci-dessous). Si vous ne pouvez pas assister Ă  la soutenance ou au pot j’espère que vous pourrez venir au bar!

Carte du campus


Afin que je puisse m’organiser, veuillez remplir ce formulaire, Ă©galement disponible en bas de page

Jury

La soutenance se fera en présence de mon Jury de thèse dont la composition est donnée ci-dessous:

Brona Brejova Associate Professor Rapportrice
Macha Nikolski Group Leader Rapportrice
Élodie Laine Associate Professor Examinatrice
Olivier Gascuel Research Director Examinateur
Jean-Philippe Vert Research Director Examinateur
Paul Medvedev Associate Professor Membre Invité
Rayan Chikhi Group Leader Directeur de thèse

Déroulement de la soutenance

L’emploi du temps provisoire est le suivant:

13:30 14:15 Présentation
14:15 15:00 ~ 15:30 Questions du Jury
15:30 16:00 Déliberations du Jury
16:00 16:15 Verdict du Jury
16:15 18:00 Pot de thèse
18:00 ? Soirée 🎉

La soirée

La soirĂ©e se tiendra au Baker Street Pub au 9 rue des boulangers. Le bar est proche de l’universitĂ©. On s’y rendra probablement aux alentours de 18h. J’ai rĂ©servĂ© un espace semi-privĂ© oĂą nous pourrons mettre notre propre musique. Cependant, cet espace est en sous-sol donc l’accès Ă  internet est très mauvais. Voici donc un lien vers une playlist partagĂ©e oĂą vous pouvez ajouter les morceaux que vous voulez:

Ma thèse

Si vous souhaitez lire le manuscrit il est disponible (en anglais) sous forme de site web (thesis.lucblassel.com) ou alors d’un document pdf. Bonne chance!

Résumé

Dans cette thèse nous étudierons deux problèmes importants en bioinformatique, le premier concernant l’analyse primaire de données de séquencage, et le second concernant l’analyse secondaire de séquence par apprentissage automatique en vue d’obtenir des connaissances biologiques. L’alignement de séquences est l’un des outils les plus puissants et les plus importants dans le domaine de la biologie computationnelle. L’alignement de lectures de séquencage est souvent la première étape de nombreuses analyses telles que la détection de variations de structure, ou l’assemblage de génomes. Les technologies de séquençage à longue lectures ont amélioré la qualité des résultats pour toutes ces analyses. Elles sont, cependant, riches en erreurs de séquençage et posent des problèms algorithmiques à l’alignement. Une technique répandue pour réduire les effets néfastes de ces erreurs est la compression d’homopolymères. Cette technique cible le type d’erreur de séquençage à longue lectures le plus fréquent. Nous présentons une technique plus générale que la compression d’homopolymères, que nous appelons les “mapping-friendly sequence reductions” (MSR). Nous montrons ensuite que certaines de ces MSRs améliorent la précision des alignements de lecture sur des génomes entiers d’humain, de drosophile et d’E. coli. L’amélioration des méthodes d’alignment de séquences est cruciale pour les analyses en aval. Par exemple, les alignements de séquences multiples sont indispensables pour étudier la pharmaco-résistance des virus. Grâce à la quantité toujours croissante d’alignements de séquences multiples annotés et de haute qualité, il est aujourd’hui devenu possible et utile d’étudier la résistance des virus à l’aide de méthodes d’apprentissage automatique. Nous avons utilisé un très grand alignement de séquences multiples de séquences de VIH britanniques et entraîné plusieurs classificateurs pour distinguer les séquences non-traitées des séquences traitées. En étudiant les variables importantes aux classificateurs, nous identifions des mutations associées à la résistance. Nous avons ensuite supprimé des données, avant l’entraînement, le signal de pharmaco-résistance connu. Nous conservons le pouvoir discriminant des classificateurs, et avons identifié 6 nouvelles mutations associées à la résistance. Une étude plus approfondie a montré que celles-ci étaient très probablement accessoires et liées à des mutations de résistance connues.

Formulaire