Algorithmes sur les arbres et les graphes en bioinformatique

M2 - IAD Algorithmes sur les arbres et les graphes en bioinformatique Cours 1: Introduction Alessandra Carbone Université Pierre et Marie Curie Programme du cours 1. Introduction aux mécanismes biologiques Séquençage de génomes, réarrangement et problèmes algorithmiques Phylogénie des espèces et des molécules Interaction des molécules et réseaux biologiques 2. Algorithmes pour la reconstruction de séquences à partir de cartes génétiques 3. Algorithmes de traitement des réarrangements des génomes 4. Algorithmes pour la construction d arbres phylogénétiques 5-6. Reconstruction de réseaux biologiques Graphes aléatoires et graphes dits small world Recherche algorithmique de motifs combinatoires sur les réseaux biologiques TP (4h) Alignement des séquences (Blast, ClustalW, analyse des paramètres) Alignement des structures de protéines A.Carbone - UPMC 2 Qu est-ce que la bioinformatique? Chemotaxis - Étudier l organisation des génomes - Élucider et quantifier les processus biologiques Un exemple de recherche des mecanismes : les réseaux de protéines dans la chemotaxis A.Carbone - UPMC 3 A.Carbone - UPMC 4 nager tâter

Cellules utilisent des réseaux de protéines pour contrôler leurs comportement Virus : phage HK97 La structure crystalline du phage à ADN double brin HK97 (capside vide mature) a été déterminée a une résolution de 3.6Å (J.Johnson et al., Science 2000 and Science 2001) Capside icosahedrique : 660Å de diamètre A.Carbone - UPMC 5 A.Carbone - UPMC 6 Protéines topologiquement reliées, sous-unités de rotation et re-repliement locale Conformations intermediaires : de la Pro-head àla Head Pentamers (12 total) Hexamers (60 total) A.Carbone - UPMC 7 J.Johnson et al., Science 2000 J.Johnson et al., Science 2001 Quel est le mecanisme qui permet la formation des capsides? A.Carbone - UPMC 8

GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT ADN Qu est-ce que code la séquence? A.Carbone - UPMC 9 ADN double brin Lien phosphatique Lien hydrogène Table des énergies kcal/mol Lien C-C Formation spontanée Note: 1 mol = quantité de substance contenant 6.0221367 x 10 23 molécules A.Carbone - UPMC 11 A.Carbone - UPMC 12

ADN double helice Hibridation et l effet zipping A.Carbone - UPMC 13 A.Carbone - UPMC 14 Arrangement de l ADN dans une cellule Echelles - dimensions A.Carbone - UPMC 15 A.Carbone - UPMC 16

Transcription et traduction Transcription RNAmessager transcription protéine traduction A.Carbone - UPMC 17 A.Carbone - UPMC 18 Transcription dans les eucaryotes Exons et introns A.Carbone - UPMC 19 A.Carbone - UPMC 20

Traduction: redondance du code génétique Traduction A.Carbone - UPMC 21 A.Carbone - UPMC 22 De l ARN à la protéine Repliement des protéines Aminoacyl-tRNA synthetases A.Carbone - UPMC 23 A.Carbone - UPMC 24

Mutations: la similarité des protéines Superposition des deux structures Substitution Deletion Insertion d acides-aminés bactérie et homme Programme d alignement de structures PROSUP protéine ribosomale L20 Aquifex aeolicus protéine polya binding Homo sapiens A.Carbone - UPMC 25 bactérie: ----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQequiv.: *********** ******* ************************* homme: HRQALGERLYPRVQAMQPAFASKITG------MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: # # # # # A.Carbone - UPMC 26 Nombre d identité = 5; RMSD = 2.41Å Division cellulaire: la réplication dans les bactéries : L ADN a été étiqueté avec 3H-deoxythymidine, et la radioactivité a été détectée par l autoradiographie qui démontre que le chromosome de E.coli a deux fourchettes de réplication. A.Carbone - UPMC 27 A.Carbone - UPMC 28

Echelles et dimensions (continuation) Micrographe électronique de la réplication de l ADN chez les eucaryotes (Drosophile) A.Carbone - UPMC 29 A.Carbone - UPMC 30 Problèmes calculatoires I : la recherche des gènes dans les génomes procaryotes : http://www.tigr.org Etant donnée une séquence d ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns. A.Carbone - UPMC 31 A.Carbone - UPMC 32

Problèmes calculatoires II : l alignement des séquences Une séquence ACGTACGT a pu évoluer pour donner : ACG T A CG T ACACGGTCCTAATAATGGCC AC GTA C G T CAG GAAGATCTTAGTTC Etant données deux (ou plusieurs) séquences d ADN ou de protéines, trouver le meilleur alignement entre elles. probabilités de délétion: 0.0001 insertion: 0.001 substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002 Mutations ponctuelles Un alignement entre les deux séquences pourrait être A.Carbone - UPMC 33 AC AC GGTCCTAAT AATGGCC CAG GAA G AT CTTAGTTC A.Carbone - UPMC 34 Les probabilités d insertion, délétion et substitution serons utilisées pour reconstruire l alignement cherché : matrices de substitution. On définie un coût/«pénalité» d occurrence pour l ensemble d opérations possibles. Exemple: insertion -> ouverture d un gap avec pénalité Meilleur alignement = alignement avec pénalité ayant la plus petite somme de pénalités A.Carbone - UPMC 35 A.Carbone - UPMC 36

Homologie faible : quelques cas difficiles Petits bloques d identités A.Carbone - UPMC 37 A.Carbone - UPMC 38 Pourquoi? ANNOTATION DES GENOMES Problèmes calculatoires III : le réarrangement des génomes séquences similaires ont une origine commune et souvent une fonction similaire : recherche d homologie de séquences (les séquences sont issues d un ancêtre commun) Etant données deux permutations d un ensemble de segments génomiques, trouver l ensemble minimale d opérations pour transformer une permutation dans l autre A.Carbone - UPMC 39 A.Carbone - UPMC 40

Réarrangement chez les bactéries : Yersinia pseudotuberculosis versus Yersinia pestis A.Carbone - UPMC 41 A.Carbone - UPMC 42 Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles: L évolution des gènes et l évolution des génomes 10 substitutions par génération d un organisme 1 réarrangement non fatale chaque 5-10 millions d années La rareté des événements de réarrangement nous permet d établir l existence de processus évolutionnaires parce que la chance d un renversement est minuscule. En conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires. A.Carbone - UPMC 43 Inversions à large échelle Duplication de segments d ADN Transposition à large échelle Géne de transfert horizontale A.Carbone - UPMC 44

Duplication du génome de la levure et réarrangement A.Carbone - UPMC 45 A.Carbone - UPMC 46 Problèmes calculatoires IV : l assemblage des séquences Séquençage des génomes Pour séquencer des large portion d ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences. Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de l ensemble de sous-chaînes. Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème est difficile a cause des nombreuses séquences répétées. 47 A.Carbone - UPMC 48

Problèmes calculatoires V : reconstruction des arbres phylogenetiques Quelles sont les relations génétiques entre espèces? Idée : comparer des caractères spécifiques des espèces, sous l hypothèse que des espèces similaires soient génétiquement proches. Ancêtre le plus proche aux oiseaux et aux méduses Ancêtre le plus proche aux oiseaux, aux méduses et aux fougères Phylogénie classique: caractères physiques comme taille, couleur, nombre de pattes A.Carbone - UPMC 49 A.Carbone - UPMC 50 Phylogénie moderne : utilise l information génétique, séquences d ADN et de protéines. Les relations entres espèces sont déduites de bloques très conservés dans l alignement de plusieurs séquences, une pour chaque espèce considérée. Exemple: L origine africaine de tous les hommes modernes est indiquée dans les évidences génétiques: L ADN mitochondriale de 182 personnes a été analysé (cet ADN est particulièrement important parce que il est complètement copie de mère a enfant, sans recombinaison avec l ADN mitochondriale du père). A.Carbone - UPMC 51 A.Carbone - UPMC 52

A.Carbone - UPMC 53 A.Carbone - UPMC 54 Problèmes calculatoires VI : la détection des sites d interaction Etant donnée une séquence protéique, prédire la position des sites d interaction de cette protéine avec d autres protéines ou avec l ADN. PHYBAL alignment Evolutionary Trace Method, O. Lichtarge, 1996-2005 Détermination de positions conservées dans l arbre phylogénétique Classification hiérarchique des positions détectées Proximité structurale Site d interaction de RGS-Gα Prédiction des sites d interaction a partir de l évolution des séquences. A.Carbone - UPMC 55 A.Carbone - UPMC 56

Problèmes calculatoires VII : le repliement des protéines Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine Prédiction de-novo de la structure: problème ouvert Plusieurs approches pour approximer la structure de la protéine existent : Modélisation par homologie utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d au moins 30% est trouvée, c est assez probable que les deux protéines ont la même structure A.Carbone - UPMC 57 Threading classifie structures connues dans des familles avec repliement similaire. Etant donnée une séquence d acides aminés, on sélectionne la famille d appartenance la plus probable. A.Carbone - UPMC 58 Problèmes calculatoires VIII : le repliement des ARN Exemples : Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l ARN (sans ou avec pseudo-noeuds) ARN avec pseudo noeud A.Carbone - UPMC 59 A.Carbone - UPMC 60

De la séquence au comportement intégré Longueurs des génomes Annotation des génomes 5 décades (8 avec les virus) Distribution multimodale paire entre espèces Comparaison entre génomes Réseaux complexes d interaction (réseaux métaboliques, de régulation de gènes, d interactions protéines-protéines/ protéines-adn) Liaison entre les nombreux niveaux d organisation hiérarchique Construction de bases de données Sparrow, 1957 A.Carbone - UPMC 61 A.Carbone - UPMC 62 Analyse statistique à large échelle Temperature de croissance optimale A.Carbone - UPMC 63 A.Carbone - UPMC 64 pourcent AT

Peu de gènes, même genes Recherche de gènes dans différentes espèces : génomique comparative Les bases de données de ADN sont plus larges que celles des protéines La traduction d une séquence d ADN dans une protéine induit une perte d information Les séquences de protéines sont plus préservées que les séquences d ADN. Traduire une séquence d ADN dans une protéine amène toujours à des meilleures résultats! A.Carbone - UPMC 65 A.Carbone - UPMC 66 A.Carbone - UPMC 67 A.Carbone - UPMC 68

Recherche de gènes dans différentes espèces : critère de détection de leur lien fonctionnel A.Carbone - UPMC 69 A.Carbone - UPMC 70 Génomique comparative: profiles phylogénétiques Réseaux complexes d interaction : réseaux de protéines A.Carbone - UPMC 71 A.Carbone - UPMC 72

La bioinformatique porte surtout sur les similarités entre espèces Analyse des régions non-codantes et recherche de motifs A.Carbone - UPMC 73 Jusqu aujourd hui elle explique très peu des telles différences A.Carbone - UPMC 74 Pour comprendre les différences entre organismes il faut descendre au niveau moléculaire et étudier les interactions entre gènes. Logique On cherche un modèle qui soit capable de générer pleins d organismes différents à partir d une combinaison de très peu de signaux et très peu de gènes! A.Carbone - UPMC 75 A.Carbone - UPMC 76

Exemple : développement de l oursin de mer A.Carbone - UPMC 77 A.Carbone - UPMC 78 Circuit de gènes de développement de l oursin Problème calculatoire V: la recherche de motifs régulateurs dans les régions promotrices -400-300 bps gène région promotrice A.Carbone - UPMC 79 A.Carbone - UPMC 80

Nouvelles technologies : les puces à ADN Exemple: analyse du cycle cellulaire de la levure A.Carbone - UPMC 81 A.Carbone - UPMC 82 Bases de données et outils Pourquoi rechercher dans les bases de données: Séquence d ADN nouvelle: est-elle/une partie/un homologue déjà dans la base? Recherche de l annotation de la séquence Recherche de séquences non-codantes similaires: éléments répétés, séquences régulatrices Trouver des mauvais sites d enzymes de restriction Recherche de protéines homologues A.Carbone - UPMC 83 Séquences et annotation GenBank Natl. Center Biol. Inform. http://www.ncbi.nlm.nih.gov DNA databank of Japan http://www.ddbj.nig.ac.jp/ EMBL-EBI + Sanger Inst. http://www.ensembl.org TIGR The Inst. For Genomic Res. http://www.tigr.org Centre National de Séquençage http://www.genoscope.cns.fr/ A.Carbone - UPMC 84

Génomes spécialisés Human Genome Database http://gdbwww.gdb.org/ Drosophila Database http://flybase.bio.indiana.edu/ C.elegans database http://www.wormbase.org/ Plasmodium falciparum database http://plasmodb.org/ Méthodes de recherche d annotation dans plusieurs bdd Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/ Entrez Recherche dans les bases de données de NCBI http://www.ncbi.nlm.nih.gov/entrez A.Carbone - UPMC 85 Croissance des bases de données d ADN Nombre de nucleotides A.Carbone - UPMC 86 La croissance est exponentielle Problèmes avec les bdd existantes Protéines (séquences d acides-aminés) Elles sont régulées par les utilisateurs plutôt que d avoir une gestion centralisée La donnée peux être changée/mise à jours seulement par son patron Séquences ne sont pas à jours Large redondance dans les bdd et entre elles Manque de standards pour les champs d accès ou l annotation A.Carbone - UPMC 87 PBD Protein Data Bank http://www.rcsb.org/pdb Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, http://www.expasy.org PIR Protein Information Resource http://pir.georgetown.edu Depuis 1960 A.Carbone - UPMC 88

Nouvelles structures et nombre totale de structures dans PDB A.Carbone - UPMC 89 Familles de protéines et classification Database of protein families and domains http://www.expasy.org/prosite/ Protein families database of alignments http://www.sanger.ac.uk/software/pfam/ Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/ Macromolecular Structure Database SSM (Secondary Structure Matching), http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/ SCOP - Structural Classification of Proteins http://scop.berkeley.edu/ FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/bioinformatics/databases/fssp-help.html 90 Protéines + Facteurs de transcription NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc. GenPept supplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale. Pfam BioBase Database http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System http://www.cbil.upenn.edu/tess/ Réseaux métaboliques BioCyc database http://www.biocyc.org/ KEGG pathways http://www.genome.jp/kegg/pathway.html A.Carbone - UPMC 91 A.Carbone - UPMC 92

Références bibliographiques d introduction A.Carbone et M.Gromov «Mathematical slices of molecular biology» Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001. http://www.ihes.fr/preprints/m01/resu/resu-m01-03.html#99-3 et références dans l article. Article publie a bruxelles pour les reseaux d interaction. A.Carbone - UPMC 93 A.Carbone - UPMC 94