Algorithmes sur les arbres et les graphes en bioinformatique

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction aux bases de données: application en biologie

CHAPITRE 3 LA SYNTHESE DES PROTEINES

MABioVis. Bio-informatique et la

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Base de données bibliographiques Pubmed-Medline

Big data et sciences du Vivant L'exemple du séquençage haut débit

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

TD de Biochimie 4 : Coloration.

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Perl Orienté Objet BioPerl There is more than one way to do it

Bibliographie Introduction à la bioinformatique

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Les OGM. 5 décembre Nicole Mounier

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

VI- Expression du génome

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Extraction d information des bases de séquences biologiques avec R

Génétique et génomique Pierre Martin

Bases de données et outils bioinformatiques utiles en génétique

Contrôle de l'expression génétique :

MYRIAD. l ADN isolé n est à présent plus brevetable!

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Identification de nouveaux membres dans des familles d'interleukines

CATALOGUE DES PRESTATIONS DE LA

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Génomique Comparative et intégrative

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Séquence 2. L expression du patrimoine génétique. Sommaire

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Les débuts de la génétique

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Bases moléculaires des mutations Marc Jeanpierre

Prédiction de la structure d une

Biomarqueurs en Cancérologie

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Gènes Diffusion - EPIC 2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Structure quantique cohérente et incohérente de l eau liquide

2 C est quoi la chimie?

UE6 - Cycle de vie du médicament : Conception rationnelle

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Cellules procaryotes Service histologie Pr.k.mebarek

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Introduction à la Génomique Fonctionnelle

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Resolution limit in community detection

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Calcul intensif pour la biologie

Chapitre 7. Récurrences

Intelligence Artificielle et Robotique

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

L universalité et la variabilité de l ADN

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Univers Vivant Révision. Notions STE

Plus courts chemins, programmation dynamique

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Conception de Médicament

Détection et prise en charge de la résistance aux antirétroviraux

Compléments ments alimentaires Les règles du jeu - SCL / Strasbourg-Illkirch 14 octobre 2011

Les apports de l informatique. Aux autres disciplines

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Big Data et Graphes : Quelques pistes de recherche

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Si deux droites sont parallèles à une même troisième. alors les deux droites sont parallèles entre elles. alors

Gestion des Clés Publiques (PKI)

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Big Data et la santé

Création et développement d une base de données sur le VIH

Eco-système calcul et données

Conférence technique internationale de la FAO

Possibilités offertes après la L2?

I. La levure Saccharomyces cerevisiae: mode de vie

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

I. Une nouvelle loi anti-discrimination

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Big Data et Graphes : Quelques pistes de recherche

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Le théorème de Thalès et sa réciproque

Partie 7 : Gestion de la mémoire

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Transcription:

M2 - IAD Algorithmes sur les arbres et les graphes en bioinformatique Cours 1: Introduction Alessandra Carbone Université Pierre et Marie Curie Programme du cours 1. Introduction aux mécanismes biologiques Séquençage de génomes, réarrangement et problèmes algorithmiques Phylogénie des espèces et des molécules Interaction des molécules et réseaux biologiques 2. Algorithmes pour la reconstruction de séquences à partir de cartes génétiques 3. Algorithmes de traitement des réarrangements des génomes 4. Algorithmes pour la construction d arbres phylogénétiques 5-6. Reconstruction de réseaux biologiques Graphes aléatoires et graphes dits small world Recherche algorithmique de motifs combinatoires sur les réseaux biologiques TP (4h) Alignement des séquences (Blast, ClustalW, analyse des paramètres) Alignement des structures de protéines A.Carbone - UPMC 2 Qu est-ce que la bioinformatique? Chemotaxis - Étudier l organisation des génomes - Élucider et quantifier les processus biologiques Un exemple de recherche des mecanismes : les réseaux de protéines dans la chemotaxis A.Carbone - UPMC 3 A.Carbone - UPMC 4 nager tâter

Cellules utilisent des réseaux de protéines pour contrôler leurs comportement Virus : phage HK97 La structure crystalline du phage à ADN double brin HK97 (capside vide mature) a été déterminée a une résolution de 3.6Å (J.Johnson et al., Science 2000 and Science 2001) Capside icosahedrique : 660Å de diamètre A.Carbone - UPMC 5 A.Carbone - UPMC 6 Protéines topologiquement reliées, sous-unités de rotation et re-repliement locale Conformations intermediaires : de la Pro-head àla Head Pentamers (12 total) Hexamers (60 total) A.Carbone - UPMC 7 J.Johnson et al., Science 2000 J.Johnson et al., Science 2001 Quel est le mecanisme qui permet la formation des capsides? A.Carbone - UPMC 8

GGTACTTACCTTGGA GAGATTCCATTACCG CGCGTAGCGCTTAAT TCCGCGAGATCGAT CGATCGTGCATTCAA TTCAGCGCATACGAT CGACTACTTCAGCG GAATCAATCGAAGT ADN Qu est-ce que code la séquence? A.Carbone - UPMC 9 ADN double brin Lien phosphatique Lien hydrogène Table des énergies kcal/mol Lien C-C Formation spontanée Note: 1 mol = quantité de substance contenant 6.0221367 x 10 23 molécules A.Carbone - UPMC 11 A.Carbone - UPMC 12

ADN double helice Hibridation et l effet zipping A.Carbone - UPMC 13 A.Carbone - UPMC 14 Arrangement de l ADN dans une cellule Echelles - dimensions A.Carbone - UPMC 15 A.Carbone - UPMC 16

Transcription et traduction Transcription RNAmessager transcription protéine traduction A.Carbone - UPMC 17 A.Carbone - UPMC 18 Transcription dans les eucaryotes Exons et introns A.Carbone - UPMC 19 A.Carbone - UPMC 20

Traduction: redondance du code génétique Traduction A.Carbone - UPMC 21 A.Carbone - UPMC 22 De l ARN à la protéine Repliement des protéines Aminoacyl-tRNA synthetases A.Carbone - UPMC 23 A.Carbone - UPMC 24

Mutations: la similarité des protéines Superposition des deux structures Substitution Deletion Insertion d acides-aminés bactérie et homme Programme d alignement de structures PROSUP protéine ribosomale L20 Aquifex aeolicus protéine polya binding Homo sapiens A.Carbone - UPMC 25 bactérie: ----WIARINAAVRA--YGLNYSTFINGLKKAGIELDRKILADMAVRDPQAFEQVVNKVKEALQVQequiv.: *********** ******* ************************* homme: HRQALGERLYPRVQAMQPAFASKITG------MLLELSPAQLLLLLASEDSLRARVDEAMELIIAHG Identite: # # # # # A.Carbone - UPMC 26 Nombre d identité = 5; RMSD = 2.41Å Division cellulaire: la réplication dans les bactéries : L ADN a été étiqueté avec 3H-deoxythymidine, et la radioactivité a été détectée par l autoradiographie qui démontre que le chromosome de E.coli a deux fourchettes de réplication. A.Carbone - UPMC 27 A.Carbone - UPMC 28

Echelles et dimensions (continuation) Micrographe électronique de la réplication de l ADN chez les eucaryotes (Drosophile) A.Carbone - UPMC 29 A.Carbone - UPMC 30 Problèmes calculatoires I : la recherche des gènes dans les génomes procaryotes : http://www.tigr.org Etant donnée une séquence d ADN, prédire la position des gènes (Open Reading Frames, ORF), des exons et des introns. A.Carbone - UPMC 31 A.Carbone - UPMC 32

Problèmes calculatoires II : l alignement des séquences Une séquence ACGTACGT a pu évoluer pour donner : ACG T A CG T ACACGGTCCTAATAATGGCC AC GTA C G T CAG GAAGATCTTAGTTC Etant données deux (ou plusieurs) séquences d ADN ou de protéines, trouver le meilleur alignement entre elles. probabilités de délétion: 0.0001 insertion: 0.001 substitution A/G, T/C: 0.00008 substitution A/C, T/G: 0.00002 Mutations ponctuelles Un alignement entre les deux séquences pourrait être A.Carbone - UPMC 33 AC AC GGTCCTAAT AATGGCC CAG GAA G AT CTTAGTTC A.Carbone - UPMC 34 Les probabilités d insertion, délétion et substitution serons utilisées pour reconstruire l alignement cherché : matrices de substitution. On définie un coût/«pénalité» d occurrence pour l ensemble d opérations possibles. Exemple: insertion -> ouverture d un gap avec pénalité Meilleur alignement = alignement avec pénalité ayant la plus petite somme de pénalités A.Carbone - UPMC 35 A.Carbone - UPMC 36

Homologie faible : quelques cas difficiles Petits bloques d identités A.Carbone - UPMC 37 A.Carbone - UPMC 38 Pourquoi? ANNOTATION DES GENOMES Problèmes calculatoires III : le réarrangement des génomes séquences similaires ont une origine commune et souvent une fonction similaire : recherche d homologie de séquences (les séquences sont issues d un ancêtre commun) Etant données deux permutations d un ensemble de segments génomiques, trouver l ensemble minimale d opérations pour transformer une permutation dans l autre A.Carbone - UPMC 39 A.Carbone - UPMC 40

Réarrangement chez les bactéries : Yersinia pseudotuberculosis versus Yersinia pestis A.Carbone - UPMC 41 A.Carbone - UPMC 42 Les réarrangements des génomes sont rares par rapport aux mutations ponctuelles: L évolution des gènes et l évolution des génomes 10 substitutions par génération d un organisme 1 réarrangement non fatale chaque 5-10 millions d années La rareté des événements de réarrangement nous permet d établir l existence de processus évolutionnaires parce que la chance d un renversement est minuscule. En conséquence, par la découverte de tous réarrangements, nous pouvons reconstruire des hypothèses évolutionnaires. A.Carbone - UPMC 43 Inversions à large échelle Duplication de segments d ADN Transposition à large échelle Géne de transfert horizontale A.Carbone - UPMC 44

Duplication du génome de la levure et réarrangement A.Carbone - UPMC 45 A.Carbone - UPMC 46 Problèmes calculatoires IV : l assemblage des séquences Séquençage des génomes Pour séquencer des large portion d ADN, il est possible de le partager dans des petits fragments et effectuer le séquençage sur ces morceaux. Le problème que se présent est la reconstruction de la chaîne a partir de ces séquences. Etant donné un ensemble de séquences, trouver la chaîne de longueur minimale qui contient tous les membres de l ensemble de sous-chaînes. Ce problème est NP-complet. Il y a des algorithmes gourmands qui réalisent le réassemblage de façon satisfaisante en temps raisonnable. Le problème est difficile a cause des nombreuses séquences répétées. 47 A.Carbone - UPMC 48

Problèmes calculatoires V : reconstruction des arbres phylogenetiques Quelles sont les relations génétiques entre espèces? Idée : comparer des caractères spécifiques des espèces, sous l hypothèse que des espèces similaires soient génétiquement proches. Ancêtre le plus proche aux oiseaux et aux méduses Ancêtre le plus proche aux oiseaux, aux méduses et aux fougères Phylogénie classique: caractères physiques comme taille, couleur, nombre de pattes A.Carbone - UPMC 49 A.Carbone - UPMC 50 Phylogénie moderne : utilise l information génétique, séquences d ADN et de protéines. Les relations entres espèces sont déduites de bloques très conservés dans l alignement de plusieurs séquences, une pour chaque espèce considérée. Exemple: L origine africaine de tous les hommes modernes est indiquée dans les évidences génétiques: L ADN mitochondriale de 182 personnes a été analysé (cet ADN est particulièrement important parce que il est complètement copie de mère a enfant, sans recombinaison avec l ADN mitochondriale du père). A.Carbone - UPMC 51 A.Carbone - UPMC 52

A.Carbone - UPMC 53 A.Carbone - UPMC 54 Problèmes calculatoires VI : la détection des sites d interaction Etant donnée une séquence protéique, prédire la position des sites d interaction de cette protéine avec d autres protéines ou avec l ADN. PHYBAL alignment Evolutionary Trace Method, O. Lichtarge, 1996-2005 Détermination de positions conservées dans l arbre phylogénétique Classification hiérarchique des positions détectées Proximité structurale Site d interaction de RGS-Gα Prédiction des sites d interaction a partir de l évolution des séquences. A.Carbone - UPMC 55 A.Carbone - UPMC 56

Problèmes calculatoires VII : le repliement des protéines Etant donnée une séquence de protéines, prédire la structure tertiaire de la protéine Prédiction de-novo de la structure: problème ouvert Plusieurs approches pour approximer la structure de la protéine existent : Modélisation par homologie utilise une base de données de protéines pour chercher des séquences similaires. Si une protéines avec homologie d au moins 30% est trouvée, c est assez probable que les deux protéines ont la même structure A.Carbone - UPMC 57 Threading classifie structures connues dans des familles avec repliement similaire. Etant donnée une séquence d acides aminés, on sélectionne la famille d appartenance la plus probable. A.Carbone - UPMC 58 Problèmes calculatoires VIII : le repliement des ARN Exemples : Etant donnée une séquence de nucléotides AUCG, prédire la structure secondaire de l ARN (sans ou avec pseudo-noeuds) ARN avec pseudo noeud A.Carbone - UPMC 59 A.Carbone - UPMC 60

De la séquence au comportement intégré Longueurs des génomes Annotation des génomes 5 décades (8 avec les virus) Distribution multimodale paire entre espèces Comparaison entre génomes Réseaux complexes d interaction (réseaux métaboliques, de régulation de gènes, d interactions protéines-protéines/ protéines-adn) Liaison entre les nombreux niveaux d organisation hiérarchique Construction de bases de données Sparrow, 1957 A.Carbone - UPMC 61 A.Carbone - UPMC 62 Analyse statistique à large échelle Temperature de croissance optimale A.Carbone - UPMC 63 A.Carbone - UPMC 64 pourcent AT

Peu de gènes, même genes Recherche de gènes dans différentes espèces : génomique comparative Les bases de données de ADN sont plus larges que celles des protéines La traduction d une séquence d ADN dans une protéine induit une perte d information Les séquences de protéines sont plus préservées que les séquences d ADN. Traduire une séquence d ADN dans une protéine amène toujours à des meilleures résultats! A.Carbone - UPMC 65 A.Carbone - UPMC 66 A.Carbone - UPMC 67 A.Carbone - UPMC 68

Recherche de gènes dans différentes espèces : critère de détection de leur lien fonctionnel A.Carbone - UPMC 69 A.Carbone - UPMC 70 Génomique comparative: profiles phylogénétiques Réseaux complexes d interaction : réseaux de protéines A.Carbone - UPMC 71 A.Carbone - UPMC 72

La bioinformatique porte surtout sur les similarités entre espèces Analyse des régions non-codantes et recherche de motifs A.Carbone - UPMC 73 Jusqu aujourd hui elle explique très peu des telles différences A.Carbone - UPMC 74 Pour comprendre les différences entre organismes il faut descendre au niveau moléculaire et étudier les interactions entre gènes. Logique On cherche un modèle qui soit capable de générer pleins d organismes différents à partir d une combinaison de très peu de signaux et très peu de gènes! A.Carbone - UPMC 75 A.Carbone - UPMC 76

Exemple : développement de l oursin de mer A.Carbone - UPMC 77 A.Carbone - UPMC 78 Circuit de gènes de développement de l oursin Problème calculatoire V: la recherche de motifs régulateurs dans les régions promotrices -400-300 bps gène région promotrice A.Carbone - UPMC 79 A.Carbone - UPMC 80

Nouvelles technologies : les puces à ADN Exemple: analyse du cycle cellulaire de la levure A.Carbone - UPMC 81 A.Carbone - UPMC 82 Bases de données et outils Pourquoi rechercher dans les bases de données: Séquence d ADN nouvelle: est-elle/une partie/un homologue déjà dans la base? Recherche de l annotation de la séquence Recherche de séquences non-codantes similaires: éléments répétés, séquences régulatrices Trouver des mauvais sites d enzymes de restriction Recherche de protéines homologues A.Carbone - UPMC 83 Séquences et annotation GenBank Natl. Center Biol. Inform. http://www.ncbi.nlm.nih.gov DNA databank of Japan http://www.ddbj.nig.ac.jp/ EMBL-EBI + Sanger Inst. http://www.ensembl.org TIGR The Inst. For Genomic Res. http://www.tigr.org Centre National de Séquençage http://www.genoscope.cns.fr/ A.Carbone - UPMC 84

Génomes spécialisés Human Genome Database http://gdbwww.gdb.org/ Drosophila Database http://flybase.bio.indiana.edu/ C.elegans database http://www.wormbase.org/ Plasmodium falciparum database http://plasmodb.org/ Méthodes de recherche d annotation dans plusieurs bdd Sequence Retrieval System Lien à 80 bases de données biologiques http://srs.ebi.ac.uk/ Entrez Recherche dans les bases de données de NCBI http://www.ncbi.nlm.nih.gov/entrez A.Carbone - UPMC 85 Croissance des bases de données d ADN Nombre de nucleotides A.Carbone - UPMC 86 La croissance est exponentielle Problèmes avec les bdd existantes Protéines (séquences d acides-aminés) Elles sont régulées par les utilisateurs plutôt que d avoir une gestion centralisée La donnée peux être changée/mise à jours seulement par son patron Séquences ne sont pas à jours Large redondance dans les bdd et entre elles Manque de standards pour les champs d accès ou l annotation A.Carbone - UPMC 87 PBD Protein Data Bank http://www.rcsb.org/pdb Expert Protein Analysis System : SwissProt + TrEMBL, Prosite, http://www.expasy.org PIR Protein Information Resource http://pir.georgetown.edu Depuis 1960 A.Carbone - UPMC 88

Nouvelles structures et nombre totale de structures dans PDB A.Carbone - UPMC 89 Familles de protéines et classification Database of protein families and domains http://www.expasy.org/prosite/ Protein families database of alignments http://www.sanger.ac.uk/software/pfam/ Homologous Structure alignment Database http://www-cryst.bioc.cam.ac.uk/~homstrad/ Macromolecular Structure Database SSM (Secondary Structure Matching), http://www.ebi.ac.uk/msd-srv/ssm/ssmstart.html CATH - Protein Structure Classification http://www.biochem.ucl.ac.uk/bsm/cath/ SCOP - Structural Classification of Proteins http://scop.berkeley.edu/ FSSP - repository for secondary structure alignment data http://www.rfcgr.mrc.ac.uk/bioinformatics/databases/fssp-help.html 90 Protéines + Facteurs de transcription NRL_3D directement relie a la structure des protéines; contient séquences extraites de PDB avec structures secondaires, sites actifs, sites de liaison, annotations, détails de méthodes expérimentales, résolution, R-facteur, etc. GenPept supplément a Genbank; traduction de régions codantes dans GenBank. Annotation minimale. Pfam BioBase Database http://www.gene-regulation.com/pub/databases.html#transfac Tess - Transcription Element Search System http://www.cbil.upenn.edu/tess/ Réseaux métaboliques BioCyc database http://www.biocyc.org/ KEGG pathways http://www.genome.jp/kegg/pathway.html A.Carbone - UPMC 91 A.Carbone - UPMC 92

Références bibliographiques d introduction A.Carbone et M.Gromov «Mathematical slices of molecular biology» Gazette des Mathématiciens, édition spéciale, Société Mathématique de France, numéro 88, 11-80, 2001. http://www.ihes.fr/preprints/m01/resu/resu-m01-03.html#99-3 et références dans l article. Article publie a bruxelles pour les reseaux d interaction. A.Carbone - UPMC 93 A.Carbone - UPMC 94