De la biologie molécualire à la génomique Pierre Neuvial École Nationale de la Statistique et de l Administration Économique Méthodes statistiques pour la biologie
Plan du cours 1 Introduction à la biologie moléculaire Les acides nucléiques : ADN et ARN De l ADN à l ADN : la réplication De l ADN à l ARN : la transcription De l ARN à la protéine : la traduction 2 Quelques mots sur le séquençage Les génomes : quelques repères La séquence, point de départ de la génomique
Dogme central de la biologie moléculaire Mécanismes de stockage, de réplication, et d expression de l information biologique Les protéines, unités fonctionnelles essentielles de la cellule assurent les principales fonctions cellulaires produites par les gènes Dans le noyau ADN ADN réplication ADN ARN transcription Hors du noyau ARN protéine traduction
Les acides nucléiques : ADN et ARN Composants de base : les nucléotides Les nucléotides groupement phosphate sucre base azotée Acide Désoxyribo-Nucléique sucre : le désoxyribose bases azotées : A, T, G, C Acide Ribo-Nucléique sucre : le ribose bases azotées : A, U, G, C
Les acides nucléiques : ADN et ARN Structure bidimensionnelle Complémentarité Appariement entre bases azotées : stable : liaisons hydrogène spécifique : A=T (A=U) et G C Antiparallélisme Brins complémentaires antiparallèles : Polarité (5 3 ) inversée Sens de lecture opposé
Les acides nucléiques : ADN et ARN ADN : structure tridimensionnelle Double hélice formée de brins anti-parallèles Propriétés de la double-hélice structure physiquement et chimiquement stable capable d auto-reproduction et d auto-réparation Caractéristiques physiques tourne à droite (en général) pas de 3.4nm (10.5 bp)
Les acides nucléiques : ADN et ARN ADN : les chromosomes Compaction de l information 2m d ADN dans chaque cellule (de diamètre 10 à 20µm) structure de stockage : le chromosome Différents degrés de compaction nucléosomes : enroulement de 100 bp autour de protéines, les histones hélice de nucléosomes (δ = 30nm) boucles ancrées sur un échafaudage protéique bras de chromosome : super-hélice
De l ADN à l ADN : la réplication Principe de la réplication Réplication semi-conservative Chacune des molécules filles hérite d un brin de l ADN parental Fourche de réplication brin primaire ( leading strand ) synthétisé en continu brin secondaire ( lagging strand ) synthétisé en discontinu
De l ADN à l ADN : la réplication Yeux de réplication Origines de réplication nombreux points de démarrage de la réplication bien que l ADN soit une molécule longue, sa réplication est relativement rapide (de qq minutes à qq heures) Yeux de réplication séparation des deux brins mise en place des premières amorces démarrage des fourches de réplication dans les deux sens
De l ADN à l ARN : la transcription Mécanismes généraux Initiation fixation de l ARN polymérase au niveau du promoteur séparation des deux brins d ADN Élongation lecture du brin matrice ajout de nucléotides en 3 Terminaison atteinte d un site de terminaison libération du brin transcrit
De l ADN à l ARN : la transcription Épissage des ARNm chez les eucaryotes Exemple de modifications post-transcriptionnelles Épissage (splicing) excision des introns réunion des exons Épissage alternatif un même gène peut donner naissance à différentes protéines selon la cellule phénomène d économie pour la cellule (chez les eucaryotes pluricellulaires)
De l ARN à la protéine : la traduction Existence d un code génétique Codons et acides aminés il existe 20 acides aminés différents l alphabet des nucléotides comporte 4 lettres besoin de 3 nucléotides pour coder tous les acides aminés Propriétés du code génétique universel : commun à (presque) tous les êtres vivants non ambigu : un unique acide aminé par codon dégénéré : plusieurs codons par acide aminé
De l ARN à la protéine : la traduction Les ARN, acteurs essentiels de la traduction Trois principaux types d ARN ARNr (80%) ARN ribosomal : s associe à des protéines pour former les ribosomes, siège de la traduction ARTt (15%) ARN de transfert : lien entre le codon et l acide aminé ARNm (3%) ARN messager : porteur du message génétique via l enchaînement des codons Tous ces ARN jouent un rôle fondamental dans la traduction ARNm et ARNt ont un rôle directement fonctionnel Seuls les ARN messagers sont traduits en protéine
De l ARN à la protéine : la traduction Mécanismes généraux Initiation Les deux sous-unités du ribosome s associent avec la méthionine (AUG) en site 1 Élongation recrutement de l ARNt complémentaire au codon du site 2 formation d une liaison peptidique avec la chaîne d acides aminés existante translocation de l ARNt du site 2 au site 1 Terminaison Arrêt de la synthèse au premier codon stop
Définition de la génomique Génomes et génomique génome : ensemble du matériel génétique d un individu ou d une espèce génomique : étude exhaustive des génomes, en particulier de la structure et la fonction de leurs gènes Étapes vers la compréhension d un langage inconnu isoler le texte : séquençage identifier les instructions : annotation structurale comprendre le sens : annotation fonctionnelle Le séquençage est une étape préliminaire indispensable à l annotation des génomes
Quelques mots sur le séquençage Séquençage : principe général Méthode de Sanger réaliser des copies incomplètes de la molécule d ADN didésoxyribonucléotides identifier pour chaque fragment le nucléotide où la copie s est arrêtée électrophorèse Limites de la méthode et stratégie de séquençage Taille des fragments limitée à 500-1000 nucléotides fragmentation aléatoire (enzymatique ou mécanique) lecture des fragments : méthode de Sanger assemblage de la séquence complète
Quelques mots sur le séquençage Stratégies de séquençage à grande échelle Limites de la fragmentation aléatoire taux de couverture : τ = nombre de nucleotides sequences longueur de la sequence nombreux fragments non couverts, même avec τ élevé (proba de non couverture d un nucléotide en e τ ) assemblage après fragmentation en k séquences : O(k 2 ) : pas envisageable pour les grands génomes (k 10 7 ) Approche en deux temps : séquençage après cartographie construction d une banque (ordonnée) de grands fragments séquençage de chacun des fragments par la méthode précédente
Les génomes : quelques repères Taille des génomes Quelques ordres de grandeur Organisme Taille Description Human immunodeficiency virus 1 10 kb HIV Hepatitis B virus 30 kb virus de l hépatite B Mycoplasma genitalium 0.6 Mb parasite des voies génitales Haemophilius influenzae 1.8Mb bacille infectieux Escherichia coli 4.6 Mb bacille modèle Homo sapiens 3.2 Gb homme Bases de données de séquences nombreuses : GenBank, Embl, SwissProt, Ensembl... volumes en croissance exponentielle
Les génomes : quelques repères Le génome humain Le projet public de séquençage du génome humain 1990-1998 : cartographie 1998-2000 : première ébauche de la séquence (τ = 5) 2000-2003 : séquence complète (τ = 10) Ordres de grandeur dans le génome humain 3.2 10 9 nucléotides, 97% de non codant 25000 gènes longueur des gènes : de 1000 à 3000 bases (chacun réparti sur 30 à 40000 bases avec les introns) 1 de différence entre les génomes de deux individus
La séquence, point de départ de la génomique Une révolution en biologie moléculaire Après le séquençage Objectif fondamental : comprendre la fonction des gènes Moyens : développement d outils de production massive de données biologiques Changement d échelle gène par gène mesure de l activité d un génome entier en une seule expérience Changement de paradigme Approche réductionniste : on émet une hypothèse, et on réalise une expérience permettant de la tester Approche globale : exploratoire et génératrice d hypothèses
La séquence, point de départ de la génomique Enjeux de l annotation des génomes Le rôle de la statistique Analyse de séquences détection de gènes inférence de signaux biologiques phylogénie étude des polymorphismes Génomique fonctionnelle (post-génomique) mesure à grande échelle des altérations génétiques, de l expression des gènes, de l activité des protéines étude de la régulation des gènes étude des interactions des gènes