Introduction à la Bioinformatique 1. Motivation et objectifs Définition simple: La bio-quoi??? La bioinformatique est l analyse des données biologiques pour : 1.l identification des propriétés intéressantes et 2.la construction des modèles biologiques en utilisant ses données. 1 2 Propriétés et modèles? Propriétés et modèles? Cancer l autisme alzheimer cycle cellulaire Cancer l autisme alzheimer cycle cellulaire Quelles sont les données importantes pour les biologistes? 3-1 3-2
Les données La structure des données ADN strings...ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG... Tous les organismes connus utilisent 2 types de données : 1. séquences de nucléotides 2. séquences d acides aminés séquences d acides nucléiques Et leurs structures 3D 4 5 La structure des données 2 La structure des données 3 Protéines strings l ADT Atome (x,y,z) Protéines 130 140 160 170 180 EARSLTTGET GYIPSNYVAP VDSIQAEEWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 220 230 240 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN GGYYITTRAQ FETLQQLVQH YSERAAGLCC 250 260 270 280 290 300 RLVVPCHKGM PRLTDLSVKT KDVWEIPRES LQLIKRLGNG QFGEVWLGTW NGNTKVAIKT séquences d acides aminés séquences de cordonnées d atomes 6 7
Explosion de données Uniprot/swissprot statistiques Release 174.0, oct 2009, 99 116 431 942 paires de base et 98 868 465 séquences Release 57.11, Novembre 2009 512 994 séquences Explosion de données 2 Nombre des structures de protéines RCSB protéine base de données version de 3 décembre 2009 8 9 Explosion de données 3 Explosion de données 4 ça ne termine pas... ExAC Rusch DB, Halpern AL, Sutton G, Heidelberg KB, Williamson S, et al. (2007) The Sorcerer II Global Ocean Sampling Expedition: Northwest Atlantic through Eastern Tropical Pacific. PLoS Biol 5(3): e77 10 Source: http://www.genome.gov/10005107 Source: http://exac.broadinstitute.org ENCODE Project Consortium. "The ENCODE (ENCyclopedia of DNA elements) project." Science 306.5696 (2004): 636-640. Lek M, et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. August 18, 2016. DOI:10.1101/030338. 11
On a les données......ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG...... et maintenant?...ttgtacatctctatctacttatcgtctagcagcagc TACTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTAC TATCGATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGG GTGTCATATATAGCCTCTAGCGCTAGCAGCTGATCGATC TAGTCGTTCATGTCGATGCAGCTAGTCTAGTCGTATCTA TACTAGCGACGATGCTAGCGTACGTAGCTATATAGCTAC TCTGATATACTGCCGCTAGTACGTACTGCAGCAGCTGAC TGCTGACTGCTGACTGACGTAGCTGACATTCATGCTAGC TAGCTTACATCGCGATCGTAGCTAGCGATCGTACGTAGC GCCTAGCGGTACTTGCGATCGTAGCTGCTGTAGTCGATT GTGCGATAGTCACTGTGCAGTCAGTCGATCGATCGACTG ACTGACGTCGACTGATCGACTGACTGACTGACTGACTGC ATGTCGTCGACTGACTGACGCTGCAGCTGACTGCATGAC GTCGACTGATGACTGACTGCGCGTCAGCTGACTGACTGA CTGACTGACTGTCAGTGACTGACTGACTGACTGACG... 12 13 Le rôle joué par informatique Le rôle joué par l informatique Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... 16 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 19 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 22 GGYYITTRAQ FETLQQLVQH YSERAAGLCC 14...TTGTACATCTCTATCTACTTATCGTCTAGCAGCAGCTA Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? 15
Le rôle joué par informatique Le rôle joué par informatique Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il des gènes contrôlée? TGACGTAGCTGACATTCATGCT... Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? Y a-t-il des protéines...ttgtacatctctatctacttatcgtctagcagcagcta Ou sont les gènes? CTGATCGTAGTCTCGTGATCCTAGTCATTCATGCTACTATC GATGCAGTCGATCGTAATCGGCGTAGTAGCGCCGGGTGTCA TATATAGCCTCTAGCGCTAGCAGCTGATCGATCTAGTCGTT CATGTCGATGCAGCTAGTCTAGTCGTATCTATACTAGCGAC Comment GATGCTAGCGTACGTAGCTATATAGCTACTCTGATATACTG l expression est-elle CCGCTAGTACGTACTGCAGCAGCTGACTGCTGACTGCTGAC Y a-t-il de gènes contrôlée? TGACGTAGCTGACATTCATGCT... Ce qui est la structure d une protéine? Quelles sont les protéines? 160 170 180 EWY FGKLGRKDAE RQLLSFGNPR GTFLIRESQT 190 200 210 TKGAYSLSIR DWDDMKGDHV KHYKIRKLDN 220 230 240 GGYYITTRAQ FETLQQLVQH YSERAAGLCC RLVVP Quels sont les acides aminés importants? Ce qui est la structure d une protéine? Quelles sont les partenaires d interaction? Ce qui sont les régularités? Ce qui sont les régularités? Est-ce que il existe une préférence? Est-ce que il existe une préférence? Est-ce que le gène est lié à une certaine maladie? Ce qui est la fonction d une protéine? Où peut une autre protéine être lier? 16 Objectifs du cours Où peut une autre protéine être lier? 17 Référence Part 1: Background Basics 1. The Nucleic Acid World 2. Protein Structure 3. Dealing with Databases Comprendre la vocabulaire biologique et bioinformatique les questions moléculaire et les techniques Comprendre bioinformatiques qui ont résolus ces questions. Part 2: Sequence Alignments 4. Producing and Analyzing Sequence Alignments 5. Pairwise Sequence Alignment and Database Searching 6. Patterns, Profiles, and Multiple Alignments Part 3: Evolutionary Processes 7. Recovering Evolutionary History 8. Building Phylogenetic Trees Être capable d expliquer et reproduire certaines algorithmes capable de choisir entre les algorithmes connus pour résoudre Être un problème moléculair Part 4: Genome Characteristics 9. Revealing Genome Features 10. Gene Detection and Genome Annotation Part 5: Secondary Structures 11. Obtaining Secondary Structure from Sequence 12. Predicting Secondary Structures Être capable de créer un nouveau algorithme qui peut résoudre Part 6: Tertiary Structures 13. Modeling Protein Structure 14. Analyzing Structure-Function Relationships une certaine question biomoléculaire Comprendre les publications dans le domaine. Augmentez votre intérêt pour des autres sciences et la Part 7: Cells and Organisms 15. Proteome and Gene Expression Analysis 16. Clustering Methods and Statistics 17. Systems Biology Appendices: Background Theory Appendix A. Probability, Information, and Bayesian Analysis Appendix B. Molecular Energy Functions Appendix C. Function Optimization recherche interdisciplinaire Site web: http://www.garlandscience.com/textbooks/0815340249.asp Marketa Zvelebil, Jeremy O. Baum. Understanding Bioinformatics August 2007 Paperback: 978-0-8153-4024-9 18 19
Cartes de compréhension Organigrammes L application montré ici est composé de 4 sujets les notions qui étaient expliquées dans les sections précédentes Une carte de la structure du chapitre: sujets et leurs relations les nouvelles notions qui sont expliquées dans la section suivante Chaque chapitre commence avec une carte de compréhension un outil pour visualiser et se rappeler les étapes qui sont nécessaire pour certaines applications. les flèches montrent comment les notions sont relatées Les sections dans chaque chapitre commence avec un organigramme. un outil pour visualiser et se rappeler les sujets couverts dans cette section. 20 21 Programme (provisoire) Date Description Portfolio Livre 19 septembre 2016 Pas de cours 26 septembre 2016 Introduction/Fondations moléculaire 5-44 3 octobre 2016 Fondations moléculaire/alignement des séquences 72-112 10 octobre 2016 alignement des séquences Jupyter+ P1 72-112 17 octobre 2016 Matrices de substitution P1+P2 72-112 24 octobre 2016 Trouver des séquences homologues P2 117-161 31 octobre 2016 7 novembre 2016 Date limite P1 et P2 14 novembre 2016 Alignement de groupes de séquences 167-219 21 novembre 2016 Hidden markov models and Profiles P3 167-219 28 novembre 2016 Structures secondaires P3+P4 413-515 5 décembre 2016 Arbres phylogénétiques P4 225-312 12 décembre 2016 19 décembre 2016 Date limite P3 et P4 Organisation Chaque lundi entre 10h et 12h Local?? Réunions pour le portfolio: Dr. Catharina Olsen vendredi de 16h à 18h dans 2 NO4.008 Assistance pour les 4 mini projets 22 23
Portfolio Chaque étudiant construira pendant l année un portfolio composé de 4 mini projets Un portfolio ou portefolio est un dossier personnel dans lequel les acquis de formation et les acquis de l'expérience d'une personne sont définis et démontrés en vue d'une reconnaissance par un établissement d'enseignement ou un employeur. Utilisant Jupyter notebooks (python) 50% du note final Portfolio Le portfolio sera composé de 4 mini projets 1.Une implémentation de l algorithme Needleman-Wunsch et l algorithme de Smith Waterman qui sera comparée avec le logiciel LALIGN, disponible en ligne (http://www.ch.embnet.org/software/lalign_form.html) 2.Une implémentation de l algorithme BLOSUM construite en utilisant des données liés à deux domaines protéiques differentes. 3.Un algorithme qui construit des PSSM pour des ensembles de séquences alignées et créez un Weblogo. 4.Une implémentation de l algorithme GOR IV pour prédire la structure secondaire des séquences. 24 25 Portfolios Date limite Partie 1; 7 Novembre 2016 Mini projet 1 et 2 Date Limite Partie 2; 19 Décembre 2016 Mini projet 3 et 4 IMPORTANT pour chaque projet vous construisez un jupyter notebook (python) Utilisez des examples pour illustrer votre code Ajoutez des explications: le but du projet, le traitement des données des figures 26 27
L examen Examen écrit 17 janvier2016 (9h30-12h) la théorie (transparents et livre) Un exemple est en ligne sur le site web 50% des points Continuation oral après l examen écrit +2 ou -2! Mes coordonnées Tom Lenaerts Bureau : 8ième étage, 2 NO 8.117 téléphone ULB : 02/650 60 04 courrier électronique: tlenaert@ulb.ac.be http://www.ulb.ac.be/di/map/tlenaert/ 28 29