M2 - STL. Algorithmes sur les séquences en bioinformatique. Qu est-ce que la bioinformatique? Cours 1: Introduction

M2 - STL Qu est-ce que la bioinformatique? Algorithmes sur les séquences en bioinformatique La bioinformatique est définie d habitude comme l analyse, la prédiction et la modélisation de données biologiques à l aide de l ordinateur. Cours 1: Introduction Alessandra Carbone Université Pierre et Marie Curie Nouvelles méthodes d analyse mathématique, informatique, physique sont demandées. A.Carbone - UPMC 2 1. Introduction aux séquences d ADN et aux mécanismes biologiques 2. Algorithmes de comparaison de séquences : utilisation de la programmation dynamique 3. Algorithmes de recherche de motifs : utilisation des modèles de Markov cachés 4. Algorithmes de prédiction des gènes 5. Algorithmes de prédiction de structures des ARN 6. Algorithmes d alignement de structures des protéines TP (4h) Programme du cours Alignement des séquences (Blast, ClustalW, analyse des paramètres) Alignement des structures de protéines Plan du cours en février (IAD) «Algorithmes sur arbres et graphes en bioinformatique» Introduction aux mécanismes biologiques Séquençage de génomes et problèmes algorithmiques Phylogénie des espèces et des molécules Interaction des molécules et réseaux biologiques Algorithmes pour la reconstruction de séquences à partir de cartes génétiques Algorithmes de traitement des réarrangements des génomes Algorithmes pour la construction d arbres phylogénétiques Reconstruction de réseaux biologiques Graphes aléatoires et graphes dits small world Recherche algorithmique de motifs combinatoires sur les réseaux biologiques TP (4h) A.Carbone - UPMC 3 A.Carbone - UPMC 4

Qu est-ce que la bioinformatique? Chemotaxis - Étudier l organisation des génomes - Élucider et quantifier les processus biologiques Un exemple de recherche des mécanismes : les réseaux de protéines dans la chemotaxis A.Carbone - UPMC 5 A.Carbone - UPMC 6 nager tâter Cellules utilisent des réseaux de protéines pour contrôler leurs comportement GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT A.Carbone - UPMC 7 Qu est-ce que code la séquence? A.Carbone - UPMC 8

ADN ADN double brin Lien phosphatique Lien hydrogène Lien C-C A.Carbone - UPMC 10 Table des énergies ADN double helice kcal/mol Formation spontanée Note: 1 mol = quantité de substance contenant 6.0221367 x 10 23 molécules A.Carbone - UPMC 11 A.Carbone - UPMC 12

Hibridation et l effet zipping Arrangement de l ADN dans une cellule A.Carbone - UPMC 13 A.Carbone - UPMC 14 Echelles - dimensions Transcription et traduction RNAmessager transcription protéine traduction A.Carbone - UPMC 15 A.Carbone - UPMC 16

Transcription Transcription dans les eucaryotes A.Carbone - UPMC 17 A.Carbone - UPMC 18 Exons et introns Traduction: redondance du code génétique A.Carbone - UPMC 19 A.Carbone - UPMC 20

Traduction De l ARN à la protéine Aminoacyl-tRNA synthetases A.Carbone - UPMC 21 A.Carbone - UPMC 22 Mutations: la similarité des protéines Repliement des protéines A.Carbone - UPMC 23 protéine ribosomale L20 Aquifex aeolicus protéine polya binding Homo sapiens A.Carbone - UPMC 24

Superposition des deux structures Substitution Délétion Insertion d acides-aminés Echelles et dimensions (continuation) bactérie et homme Programme d alignement de structures PROSUP bactérie: ----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQequiv.: *********** ******* ************************* homme: HRQALGERLYPRVQAMQPAFASKITG------MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: # # # # # A.Carbone - UPMC 25 Nombre d identité = 5; RMSD = 2.41Å A.Carbone - UPMC 26 Problèmes calculatoires I : la recherche des gènes dans les génomes procaryotes : http://www.tigr.org Etant donnée une séquence d ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns. Codons stop A.Carbone - UPMC 27 A.Carbone - UPMC 28

Problèmes calculatoires II : l alignement des séquences Les recherches des gènes peuvent être réalisées ab initio, comme dans la méthode précédente, ou bien en exploitant de l information sur les gènes déjà trouves dans d autres génomes. Etant données deux (ou plusieurs) séquences d ADN ou de protéines, trouver le meilleur alignement entre elles. A.Carbone - UPMC 29 A.Carbone - UPMC 30 Une séquence ACGTACGT a pu évoluer pour donner : ACG T A CG T ACACGGTCCTAATAATGGCC AC GTA C G T CAG GAAGATCTTAGTTC Les probabilités d insertion, délétion et substitution seront utilisées pour reconstruire l alignement cherché : matrices de substitution. probabilités de délétion: 0.0001 insertion: 0.001 substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002 Un alignement entre les deux séquences pourrait être AC AC GGTCCTAAT AATGGCC CAG GAA G AT CTTAGTTC A.Carbone - UPMC 31 A.Carbone - UPMC 32

On définie un coût/«pénalité» d occurrence pour l ensemble d opérations possibles. Pourquoi? ANNOTATION DES GENOMES Exemple: insertion -> ouverture d un gap avec pénalité Meilleur alignement = alignement avec pénalité ayant la plus petite somme de pénalités séquences similaires ont une origine commune et souvent une fonction similaire : recherche d homologie de séquences (les séquences sont issues d un ancêtre commun) A.Carbone - UPMC 33 A.Carbone - UPMC 34 Problèmes calculatoires III : le réarrangement des génomes Un exemple : l homme et la sourie La sourie a 2.1 x10 9 bp vs 2.9 x 10 9 bp chez l homme. A peu près 95% du matériel génétique est partagé. 99% des gènes partagés sur un totale de 30,000. Les 300 gènes sans homologues dans les deux espèces concernent surtout l immunité, la détoxification, l odeur et la sexualité. Homme et sourie Il existe une quantité significative de réarrangement des génomes entre homme et sourie. Ici on voit la carte du chromosome 3 chez l homme. Il contient des séquences homologues a au moins 5 chromosome de la sourie. A.Carbone - UPMC 35 A.Carbone - UPMC 36 homme sourie

Mécanismes: Duplication de gènes (un ou plusieurs a la fois), insertions Gene 1 2 3 4 Etant données deux permutations d un ensemble de segments génomiques, trouver l ensemble minimale d opérations pour transformer une permutation dans l autre 1 1 2 3 4 et inversion de gènes A.Carbone - UPMC 37 A.Carbone - UPMC 38 Un 2eme exemple : duplication massive du génome de la levure Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles: 10 substitutions par génération d un organisme 1 réarrangement non fatale chaque 5-10 millions d années La rarité des événements de réarrangement nous permet d établir l existence de processus évolutionnaires parce que la chance d un renversement est minuscule. En conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires. A.Carbone - UPMC 39 A.Carbone - UPMC 40

Problèmes calculatoires IV : le repliement des ARN Exemples : Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l ARN (sans ou avec pseudo-noeuds) ARN avec pseudo noeud A.Carbone - UPMC 41 A.Carbone - UPMC 42 Problèmes calculatoires IV : le repliement des protéines Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine Prédiction de-novo de la structure: problème ouvert Plusieurs approches pour approximer la structure de la protéine existent : Modélisation par homologie utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d au moins 30% est trouvée, c est assez probable que les deux protéines ont la même structure A.Carbone - UPMC 43 Threading classifie les structures connues dans des familles avec repliement similaire. Etant donnée une séquence d acides aminés, on sélectionne la famille d appartenance la plus probable. A.Carbone - UPMC 44

Problèmes calculatoires V : l assemblage des séquences Séquençage des génomes Pour séquencer des large portion d ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences. Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de l ensemble de sous-chaînes. Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème 45 est difficile a cause des nombreuses séquences répétées. A.Carbone - UPMC 46 De la séquence au comportement intégré Longueurs des génomes Annotation des génomes (vers la fonctionnalité des protéines) Comparaison entre génomes (évolution et génétique) Réseaux complexes d interaction (réseaux métaboliques, de régulation de gènes, d interactions protéines-protéines/ protéines-adn) Liaison entre les nombreux niveaux d organisation hiérarchique Construction de bases de données A.Carbone - UPMC 47 A.Carbone - UPMC 48

Comparaison des tailles des génomes Analyse statistique à large échelle Le génome de Plasmodium falciparum, le parasite qui cause la malaria, fait 23 Mb en taille. Le génome humain est environs 150 fois plus large, celui de la sourie > 100 fois, et celui de la drosophile > 5 fois plus grand. Questions: comment les génomes des ancêtres ont pu devenir plus longs au cours de l évolution? En quoi se différencie leur matériel génétique? A.Carbone - UPMC 49 A.Carbone - UPMC 50 Temperature de croissance optimale On peut aujourd hui définir des espaces formels de génomes Un nombre de gènes comparable A.Carbone - UPMC 51 pourcent AT A.Carbone - UPMC 52

Homologie des gènes entre espèces Recherche de protéines dans différentes espèces : comparaison de séquences Les bases de données d ADN sont plus larges que celles des protéines La traduction d une séquence d ADN dans une protéine induit une perte d information Les séquences de protéines sont plus préservées que les séquences d ADN. Traduire une séquence d ADN dans une protéine amène toujours à des meilleures résultats! A.Carbone - UPMC 53 A.Carbone - UPMC 54 A.Carbone - UPMC 55 A.Carbone - UPMC 56

Analyse des protéines dans différentes espèces : critère de détection de leur lien fonctionnel fusionnement de protéines A.Carbone - UPMC 57 A.Carbone - UPMC 58 Génomique comparative: profiles phylogénétiques Réseaux complexes d interaction : réseaux de protéines 1 1 1 A.Carbone - UPMC 59 A.Carbone - UPMC 60

La bioinformatique porte surtout sur les similarités entre espèces Analyse des régions non-codantes et recherche de motifs A.Carbone - UPMC 61 Jusqu aujourd hui elle explique très peu des telles différences A.Carbone - UPMC 62 Pour comprendre les différences entre organismes il faut descendre au niveau moléculaire et étudier les interactions entre gènes. Logique On cherche un modèle qui soit capable de générer pleins d organismes différents à partir d une combinaison de très peu de signaux et très peu de gènes! A.Carbone - UPMC 63 A.Carbone - UPMC 64

Exemple : développement de l oursin de mer A.Carbone - UPMC 65 A.Carbone - UPMC 66 Circuit de gènes de développement de l oursin Problème calculatoire V: la recherche de motifs régulateurs dans les régions promotrices -400-300 bps gène région promotrice A.Carbone - UPMC 67 A.Carbone - UPMC 68

Nouvelles technologies : les puces à ADN Exemple: analyse du cycle cellulaire de la levure A.Carbone - UPMC 69 A.Carbone - UPMC 70 Bases de données et outils Pourquoi rechercher dans les bases de données: Séquence d ADN nouvelle: est-elle/une partie/un homologue déjà dans la base? Recherche de l annotation de la séquence Recherche de séquences non-codantes similaires: éléments répétés, séquences régulatrices Trouver des mauvais sites d enzymes de restriction Recherche de protéines homologues Séquences et annotation GenBank Natl. Center Biol. Inform. http://www.ncbi.nlm.nih.gov DNA databank of Japan http://www.ddbj.nig.ac.jp/ EMBL-EBI + Sanger Inst. http://www.ensembl.org TIGR The Inst. For Genomic Res. http://www.tigr.org A.Carbone - UPMC 71 Centre National de Séquençage http://www.genoscope.cns.fr/ A.Carbone - UPMC 72

Génomes spécialisés Human Genome Database http://gdbwww.gdb.org/ Drosophila Database http://flybase.bio.indiana.edu/ C.elegans database http://www.wormbase.org/ Plasmodium falciparum database http://plasmodb.org/ Méthodes de recherche d annotation dans plusieurs bdd Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/ Entrez Recherche dans les bases de données de NCBI http://www.ncbi.nlm.nih.gov/entrez A.Carbone - UPMC 73 Croissance des bases de données d ADN Nombre de nucleotides A.Carbone - UPMC 74 La croissance est exponentielle Problèmes avec les bdd existantes Protéines (séquences d acides-aminés) Elles sont régulées par les utilisateurs plutôt que d avoir une gestion centralisée La donnée peux être changée/mise à jours seulement par son patron Séquences ne sont pas à jours Large redondance dans les bdd et entre elles Manque de standards pour les champs d accès ou l annotation A.Carbone - UPMC 75 PBD Protein Data Bank http://www.rcsb.org/pdb Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, http://www.expasy.org PIR Protein Information Resource http://pir.georgetown.edu Depuis 1960 A.Carbone - UPMC 76

Nouvelles structures et nombre totale de structures dans PDB A.Carbone - UPMC 77 Familles de protéines et classification Database of protein families and domains http://www.expasy.org/prosite/ Protein families database of alignments http://www.sanger.ac.uk/software/pfam/ Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/ Macromolecular Structure Database SSM (Secondary Structure Matching), http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/ SCOP - Structural Classification of Proteins http://scop.berkeley.edu/ FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/bioinformatics/databases/fssp-help.html 78 Protéines + Facteurs de transcription NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc. GenPept supplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale. Pfam BioBase Database http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System http://www.cbil.upenn.edu/tess/ Réseaux métaboliques BioCyc database http://www.biocyc.org/ KEGG pathways http://www.genome.jp/kegg/pathway.html A.Carbone - UPMC 79 A.Carbone - UPMC 80

D autres domaines de la bioinformatique Références bibliographiques d introduction - Structure de protéines Alignement de structures de protéines Prédiction de structure secondaire des protéines - Structures des ARN et dynamique de repliement - Prédiction des sites d interaction entre protéines, ou protéine/adn - Phylogénie des séquences - Analyse des séquences : biais des codons - Génomique comparative et l espace des génomes - Reconstruction des réseaux métaboliques * * * * * * A.Carbone et M.Gromov «Mathematical slices of molecular biology» Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001. http://www.ihes.fr/preprints/m01/resu/resu-m01-03.html#99-3 et références dans l article. A.Carbone - UPMC 81 A.Carbone - UPMC 82