La recherche en biologie computationnelle par Sébastien Boisvert http://boisvert.info BIF-1000 La profession de bioinformatien Mercredi le 19 octobre 2011 Local PLT-2510 30 minutes 1
Questions * Quand as-tu décidé de faire de la bioinformatique et pourquoi? Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique? Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour? Que vois-tu comme avenir pour toi et pour la bio-informatique en général? * Questions pertinentes selon Élénie Godzaridis, collègue (bio-) informaticienne 2
Question 1 Quand as-tu décidé de faire de la bioinformatique et pourquoi? 3
31 mars 1998: StarCraft Secondaire 1 Programmation 4
31 mars 1998: The Matrix Un monde de machines qui cultivent les humains pour obtenir de l'énergie. Les humains vivent dans la matrice, un monde virtuel créé par les machines. 5
1998: TI-80 Texas Instrument Processor proprietary Frequency 980 khz User Memory 7 KB of RAM Programmable en BASIC 6
1999: Cours introduction à l'internet Secondaire 3 Appris le HTML et le CSS http://www.w3schools.com/ 7
2001: Cours de chimie Secondaire 5 Prof: Chau Ly-Hai Il a dit que la biotechnologie est l'avenir. 8
2002-2005: cégep DEC en techniques de laboratoire Spécialisation en biotechnologies 9 Cégep de Lévis-Lauzon
31 mars 2003: Red Hat Linux 9 10
Mai juin 2005: stage au CHUL Cancer du sein Séquençage de l'adn J'ai vu que l'informatique était très important en génétique 11
Réponse à la question Quand as-tu décidé de faire de la bioinformatique et pourquoi? Quand: au cégep Pourquoi: parce que la biotechnologie est l'avenir et que l'informatique est omni-présente dans notre société 12
Question 2 Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique? 13
Pour répondre à la question Description de mon cheminement universitaire 14
2005-2008: baccalauréat Biotechnologie Concentration en bio-informatique Université de Sherbrooke 1/3 informatique 2/3 biologie 0.001% bio-informatique 15
Mai août 2006: stage 1 Centre de recherche en infectiologie de l'université Laval Biopuces, biostatistiques Développement web Le parasite Leishmania Langages: ANSI C, ISO C++, Perl, Ruby, R, HTML, CSS GNU, Linux, subversion, Ruby on Rails 16
Janvier avril 2007: stage 2 Centre de recherche en infectiologie de l'université Laval Biopuces, biostatistiques Entrepôts de données, services web, interfaces Virus respiratoires Langages: ANSI C, ISO C++, R, Ruby, HTML, CSS Ruby on Rails 17
Sept. décembre 2007: stage 3 Groupe de recherche en apprentissage automatique de l'université Laval Virus de l'immuno-déficience humaine Technologies: Noyaux, Machines à vecteurs de support Langages: ISO C++, Ruby 18
Mai juillet 2008: stage à McGill Stage au Centre d'innovation de l'université McGill et Génome Québec Développement d'outils génomiques Génome de Leishmania tarentolae Technologie de séquençage 454 19
2008-2009: maîtrise Université Laval Directeur: Jacques Corbeil (médecine) Codirecteur: Mario Marchand (informatique) Jacques Corbeil Mario Marchand 20
2008-2009: articles Sébastien Boisvert, Mario Marchand, François Laviolette, and Jacques Corbeil. HIV-1 coreceptor usage prediction without multiple alignments: an application of string kernels. Retrovirology 2008 Dec 4;5:110. http://boisvert.info/publications.html 21
2009: Financement Frederick Banting and Charles Best Canada Graduate Scholarship - Master s Award, Canadian Institutes of Health Research (CIHR) 17500 $ pour 1 année 22
2010: début d'un doctorat Directeur: Jacques Corbeil (médecine) Codirecteur: François Laviolette (informatique) Frederick Banting and Charles Best Canada Graduate Scholarship - Doctoral Award Canadian Institutes of Health Research (CIHR) 105 000 $ pour 3 années François Laviolette 23
Réponse à la question Qu'as-tu retiré personnellement et professionnellement de ta formation universitaire en bio-informatique? Personnellement: j'aime concevoir et implémenter des logiciels utiles pour les biologistes et les gens en général, partager ma passion pour les logiciels libres et Linux Professionnellement: grand réseau de contact à travers le Canada, expertise dans des domaines de pointe de l'informatique et dans la génétique, profil interdisciplinaire 24
Question 3 Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour? 25
Défi 0 Parler deux langages pour les biologistes (1) et pour les informaticiens (2) 26
Défi 1 Comprendre la biologie derrière les données 27
2010: Illumina HiSeq 2000 Séquençeur d'adn Flow Cell v3 8 lignes 11 jours > 6 000 000 000 séquences de 101 nucléotides 28
Juillet août 2011: stage à Toronto Ontario Institute for Cancer Research Super-ordinateur à l'interne ~4000 coeurs Plusieurs séquençeurs Illumina HiSeq 2000 Plusieurs peta-octets de disques 29
Défi 2 Concevoir et implémenter des logiciels libres 30
Architecture d'un jeu vidéo (C++) Jeu multi-joueur: calcul sur plusieurs ordinateurs while(lejeuroule()){ recevoirdesinformationsduréseau(); recevoirdesentréesduclavieretdelasouris(); avanceretatdujeu(); envoyerdesinformationssurleréseau(); dessinerlejeusurecran(); jouerlessons(); } 31
Architecture de Ray (C++) Ray: logiciel que je développe Calcul distribué: calcul sur plusieurs ordinateurs while(leprogrammeroule()){ recevoirdesmessagesduréseau(); traiterlesmessagesreçus(); avanceretatducalcul(); envoyerdesmessagessurleréseau(); } 32
Défi 3 Utiliser des infrastructures informatiques de prochaine génération 33
2010: le colosse À l'université Laval 7680 coeurs de calcul Réseau Infiniband (latence de 10 us) 500 tera-octets de disques 34
Défi 4 Comprendre des concepts abstraits pour les améliorer 35
Graphe de Bruijn Un entier k, disons k=3 Un alphabet fini, disons {A,T,C,G} Les sommets: tous les mots de longueur k possibles avec {A,T,C,G} Arcs entre u et v si les k-1 dernières lettres de u sont les k-1 premières de v Exemple: ATG -> TGC 36
Séquences et chemins x = ATACGGCAT Sous-séquences de longueur 3 de x: {ATA,TAC,ACG,CGG,GGC,GCA,CAT} x est un chemin dans le graphe de Bruijn pour k=3 avec l'alphabet {A,T,C,G} ATA -> TAC -> ACG -> CGG -> GGC -> GCA -> CAT 37
Défi 5 Partager les découvertes 38
2010: première publication sur Ray Assembleur de novo ISO C++ 1998 Massivement distribué Standard MPI (Message-Passing Interface) http://denovoassembler.sourceforge.net Journal of Computational Biology, November 2010, 17(11): 1519-1533. 39
Réponse à la question Quel genre de défis rencontres-tu en tant que bio-informaticien en général et au jour le jour? En général: communication, algorithmes, planification Au jour le jour: trouver le bug X qui cause un problème 40
Question 4 Que vois-tu comme avenir pour toi et pour la bio-informatique en général? 41
Réponse à la question Que vois-tu comme avenir pour toi et pour la bioinformatique en général? Avoir une composante informatique dans une formation permet d'avoir des compétences ré-utilisables Pour toi: post-doctorats, professeur-chercheur en bioinformatique, consultant/conseiller en calcul à haute performance, consultant/conseiller en logiciels libres Pour la bio-informatique: je me base sur l'opinions des géants de la bio-informatique 42
Créer demain avec les géants d'hier 43
Eugene W. Myers E. Myers (1986). "An O(ND) Difference Algorithm and Its Variations". Algorithmica 1 (2): 251 266 algorithme pour obtenir la différence entre deux fichiers Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990). "Basic local alignment search tool". J Mol Biol 215 (3): 403 410. outil de recherche blast Myers EW et al. (2000) "A whole-genome assembly of Drosophila." Science. 24;287(5461):2196-204 preuve de concept du shotgun sequencing & assembly L'avenir: créer des algorithmes qui aident les biologistes 44
Pavel A. Pevzner Pevzner PA, Tang H, Waterman MS. (2001) "An Eulerian path approach to DNA fragment assembly" PNAS 14;98(17 ):9748-53. approche complètement différence pour assembler les génomes L'avenir: utiliser la combinatoire pour comprendre le vivant 45
Steven L. Salzberg The knight of open access and open source in bioinformatics Algorithmes en bioinformatique (MUMmer, bowtie, GLIMMER, et beaucoup d'autres) L'avenir: un monde bio-informatique ouvert, libre et honnête qui fait la promotion de l'innovation ouverte pour accélérer le progrès 46
George Church Le présent: on peut lire l'adn L'avenir: pouvoir écrire l'adn pour permettre le traitement de maladies génétiques et pour créer des énergies vertes 47
Jean-Philippe Vert Saigo H, Vert JP, Ueda N, Akutsu T. Protein homology detection using string alignment kernels. Bioinformatics. 22;20(11):1682-9. L'avenir: prédire le cancer avec l'intelligence artificielle 48
Pour en savoir plus Tweets Http://twitter.com/sebhtml Site web Http://boisvert.info Blogue http://dskernel.blogspot.com 49