Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Documents pareils
Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

TD de Biochimie 4 : Coloration.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Biomarqueurs en Cancérologie

Cellules procaryotes Service histologie Pr.k.mebarek

Big data et sciences du Vivant L'exemple du séquençage haut débit

Les OGM. 5 décembre Nicole Mounier

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

MABioVis. Bio-informatique et la

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Eco-système calcul et données

CATALOGUE DES PRESTATIONS DE LA

Environmental Research and Innovation ( ERIN )

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

ÉCOLES NORMALES SUPÉRIEURES ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES CONCOURS D ADMISSION SESSION 2013 FILIÈRE BCPST COMPOSITION DE BIOLOGIE

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

UE6 - Cycle de vie du médicament : Conception rationnelle

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Contrôle de l'expression génétique :

Physiopathologie : de la Molécule à l'homme

Gènes Diffusion - EPIC 2010

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Génétique et génomique Pierre Martin

Intrants médicamenteux en agriculture et en santé : les écosystèmes microbiens sont-ils un problème ou une solution?

Univers Vivant Révision. Notions STE

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Respiration Mitochondriale

Liste des matières enseignées

Séquence 2. L expression du patrimoine génétique. Sommaire

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Stages - le calendrier

grande simple microscope microscope inventé années biologie = cellule) et (logos de plus en Anglais. Utilise un La microscopie, 1665,

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Séquence 4. La nature du vivant. Sommaire. 1. L unité structurale et chimique du vivant. 2. L ADN, support de l information génétique

Conférence technique internationale de la FAO

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

Analyse des données de séquençage massif par des méthodes phylogénétiques

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

STRUCTURE ET FONCTION DES PLURICELLULAIRES

Introduction aux bases de données: application en biologie

TP N 3 La composition chimique du vivant

2 C est quoi la chimie?

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

VI- Expression du génome

Identification de nouveaux membres dans des familles d'interleukines

SESSION 2013 ÉPREUVE À OPTION. (durée : 4 heures coefficient : 6 note éliminatoire 4 sur 20) CHIMIE

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Rapport Scientifique Seine-Aval 3

Thermodynamique (Échange thermique)

et des sciences du vivant. Les microtechnologies

Université Louis Pasteur Strasbourg I Ecole Doctorale des Sciences de la Vie et de la Santé THESE. En vue de l obtention du grade de

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

EXERCICES : MECANISMES DE L IMMUNITE : pages

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Les cytokines et leurs récepteurs. Laurence Guglielmi

BREVET D ÉTUDES PROFESSIONNELLES AGRICOLES SUJET

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Epreuve de biologie... 2 Annexe : Liste des sujets de la session

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Les bases de données transcriptionnelles en ligne

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Vue d ensemble de la vie microbienne

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Conception de Médicament

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Banque Agro-Veto Session 2014 Rapport sur les concours A filière BCPST

La PCR quantitative (qpcr) et le guide de bonnes pratiques MIQE : adaptation et pertinence dans le contexte de la biologie clinique

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

LES BIOTECHNOLOGIES DANS LE DIAGNOSTIC DES MALADIES INFECTIEUSES ET LE DÉVELOPPEMENT DES VACCINS

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

Etnoka.fr. De la démocratie en France

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Production d une protéine recombinante

1. Principes de biochimie générale. A. Bioénergétique et dynamique. a) Intro: Les mitochondries passent leur temps à fabriquer de l énergie.

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

Possibilités offertes après la L2?

Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés

LE CALENDRIER DES STAGES

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

ATELIER SANTE PREVENTION N 2 : L ALIMENTATION

Possibilités offertes après la L2?

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Transcription:

Introduction La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques. Interdisciplinaire par nature, la bioinformatique est fondée sur les acquis de la biologie, des mathématiques et de l'informatique. En cela, elle constitue une branche nouvelle de la biologie : c'est l'approche in silico, qui vient compléter les approches classiques in situ (dans le milieu naturel), in vivo (dans l'organisme vivant) et in vitro (en éprouvette) de la biologie traditionnelle.

Introduction Plusieurs domaines d application (liste non exhaustive) : la génétique des populations l environnement (données écologiques) la biologie structurale la biologie moléculaire et la génétique l évolution Le cours portera sur les approches en analyse de séquences, donc les deux derniers domaines d application.

Introduction Développement de méthodes et de logiciels permettant : de gérer et d organiser les informations génétiques et génomiques d analyser ces informations (par approches comparatives ou exploratrices) prédire et produire des connaissances nouvelles dans le domaine ainsi qu'élaborer de nouveaux concepts approche théorique qui permet : d'effectuer la synthèse des données disponibles (à l'aide de modèles et de théories) d'énoncer des hypothèses généralisatrices (ex: comment les protéines se replient ou comment les espèces évoluent) de formuler des prédictions, à partir d'une approche par modélisation appliquée à des objets formalisés.

Historique rapide de la bioinformatique Années 70 : Premières comparaisons de séquences. Années 80 : Premières méthodes de prédiction. Premières méthodes d alignement. Banques de données. Méthodes de recherche dans les banques de données (Fasta et Blast). Années 90 : Perfectionnement des méthodes. Approches intégrées. Fin des années 1990 : premiers génomes complets procaryotes et premier génome complet eucaryote (levure, 1996) Années 2000 : Génomique Début des approches globales, (transcriptomique et protéomique) Prédiction de la structure 3D des protéines Aujourd hui : Génomique : 3102 génomes complets (150 archaea, 2784 bactéries, 168 eucaryotes), 7741 projets de séquençage en cours (179 archaea, 5516 bactéries, 2046 eucaryotes). 340 études de métagénomes (données de Genome Online database (GOLD)). Post-génomique : approches omiques (protéome, transcriptome, interactome, métabolome, ) Début de la biologie des systèmes : réseau de régulation, réseau d interaction, modélisation de la cellule. Demain : Biologie des systèmes et biologie synthétique

Séquences disponibles : quelques chiffres

(Quelques) données et connaissances disponibles Cytoplasme Noyau interactome chromosome génome protéome gaattcggccattcacatagc ctctacctccccctgccagtc ggctgggacaactcgggcaaa cccagctgagcttgagcg... transcription complexe protéique protéine ADN gène MTGLAEEWWFDSGRAALGAD ARDWKKFTQALESRFTPSTY AMNMEEDWSNLQCGPNESSY SYETRFRAARHHLSREA... ARNm traduction transcriptome Cellule eucaryote métabolome

(Quelques) données et connaissances disponibles métabolisme Cytoplasme Noyau interactome chromosome génome protéome gaattcggccattcacatagc ctctacctccccctgccagtc ggctgggacaactcgggcaaa cccagctgagcttgagcg... transcription complexe protéique protéine ADN gène MTGLAEEWWFDSGRAALGAD ARDWKKFTQALESRFTPSTY AMNMEEDWSNLQCGPNESSY SYETRFRAARHHLSREA... ARNm traduction transcriptome Cellule eucaryote métabolome

Transcriptome Transcriptome : ensemble des ARNm ou transcrits présents dans une population de cellules dans des conditions données. Accès au niveau d expression de milliers de gènes simultanément (potentiellement l ensemble des gènes d un organisme) = instantané de l état d une cellule ou d une population de cellules Données d expression des gènes obtenues par : qpcr Puces à ADN Séquençage ultra-haut débit

Échantillon test Acquisition des données Échantillon référence Jaune : signal similaire des deux échantillons Rouge : signal fort échantillon de référence Vert: signal fort échantillon test ARNm extraction réverse transcription et amplification ADNc scan marquage + hybridation puis lavage

probesets gènes Analyse et interprétation des données mesures condition s normalisation filtrage Identification des gènes différentiellement exprimés interprétation Caractérisation d un ensemble de gènes Identification des ensembles de gènes co-exprimés 10

Gènes co-exprimés Motivation : les gènes ayant des profils d expression similaires sont potentiellement co-régulés et participent à un même processus biologique But : regrouper les gènes impliqués dans un même processus biologique Robinson et al. 2002 11

Protéomique Protéome : ensemble des protéines exprimées dans une cellule, une partie d'une cellule (membranes, organites) ou un groupe de cellules (organe, organisme, groupe d'organismes) dans des conditions données et à un moment donné. = instantané de l état d une cellule ou d une population de cellules Séparation des protéines par gels d électrophorèse (1D, 2D) puis identification des spots par spectrométrie de masse Échantillon test Échantillon référence

Identification des protéines Digestion du spot par une enzyme (ex: trypsine) et mesure du poids des peptides obtenus Digestion in silico du protéome Recherche des protéines correspondant au profil observé

Réseaux de gènes, de protéines Réseaux : d interactions protéine - protéine de régulation des gènes métabolisme (enzymes substrats) transduction du signal

Biologie structurale Séquence protéique >gi 5524211 gb AAD44166.1 cytochrome b LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX IENY Prédiction ou résolution de la structure tridimensionnelle Prédiction des interactions protéine protéine ou protéine - ligand

Biologie des systèmes Intégration et synthèse des connaissances modélisation d un système circuit de régulation des gènes ou réseaux processus biologique (respiration) organite (mitochondrie) cellule population écosystème Exemple : F1-F0 ATP synthase Membrane mitochodriale L'énergie proton-motrice est utilisée pour ajouter un groupe phosphate minéral à une molécule d'adénosine diphosphate (ADP) pour former une molécule d'adénosine triphosphate (ATP) À terme : simulation d une cellule virtuelle et prédiction de son comportement

Trois grands domaines où intervient la bioinformatique Organisation et stockage des données Acquisition des données Exploitation des données et connaissances

Bioinformatique des séquences

Pourquoi comparer des séquences (nucléiques ou protéiques)? Hypothèse 1: si deux ou plusieurs séquences possèdent des résidus conservés (bases ou acides aminés), cela signifie qu elles ont une histoire évolutive commune. Elles ont évoluées à partir d une séquence ancêtre commune. On dit qu elles sont homologues. Hypothèse 2 : si deux séquences sont homologues, alors elles doivent avoir des fonctions similaires. Le pourcentage de similitude entre deux séquences est considéré comme reflétant la distance évolutive existant entre ces deux séquences. Les différences observées sont dues à l accumulation de mutations au cours du temps. Les mutations prises en compte sont les substitutions et les insertions/délétions (indels).

Homologie - orthologie- paralogie Deux gènes sont homologues s'ils ont divergé à partir d'une séquence ancêtre commune. Deux gènes sont orthologues si leur divergence est due à la spéciation (le gène ancêtre commun se trouvait dans l'organisme ancêtre). Deux gènes sont paralogues si leur divergence est due à la duplication du gène ancêtre. Donc deux séquences sont ou ne sont pas homologues. Dire que la protéine X a 80% d'homologie avec la protéine Y est donc incorrect: soit: les deux protéines présentent 80% d'identité (résidus identiques) les deux protéines présentent 80% de similitude (résidus similaires)

Homologie - orthologie- paralogie Ancêtre commun Organisme O G spéciation G duplication G G Organisme A Organisme B G Organisme O G Organisme O Génes orthologues Génes paralogues