Transcriptome, Protéome et quelques problématiques statistiques Olivier Martin Inra, Avignon BioSP IUT Avignon
Plan I. Rappels de biologie II. Le transcriptome : principes et techniques III. Le protéome : principes et techniques IV. Planification expérimentale, Pré-traitement et normalisation V. Analyse différentielle et rappel sur les tests Comparaison de 2 moyennes (données indépendantes) Comparaison de 2 moyennes (données appariées)
I. Rappels de biologie
L'ADN Un code à 4 bases (Adénine, Cytosine, Thymine, Guanine) complémentaires 2 à 2 (A-T et C-G). Organisation en gènes et chromosomes Nombre de gènes estimés Bactérie : 4000 Levure : 6000 Drosophile : 13000 Homme : entre 25000 et 30000
«Dogme de la biologie moléculaire»
«Dogme de la biologie moléculaire» Transcription inverse Replication de l'arn ADN ARN Protéines Replication de l'adn Transcritpion Traduction Support de l'information génétique Agent de liaison messager entre l'information génétique et les activités de la cellule Ouvrier de la cellule : fonction biologique
La génomique La génomique est l étude complète et systématique des génomes Objectifs : connaître le nombre, la position des gènes sur le génome, leur séquence et leurs produits cellulaires 1ère étape : séquençage systématique et automatique 2ème étape : annotation automatique des séquences
L ère post-génomique Structurale Génomique Comparative Fonctionnelle Transcriptome Protéome Prédiction de structure
Séquençage à grande échelle Génomique fonctionnelle 5% des gènes ont des fonctions biologiques connues 65% des gènes ont des fonctions prédites 30% ont des fonctions inconnues Etude du transcriptome et du protéome
II. Le transcriptome
Étude du transcriptome Étudier en masse, en une seule expérience l expression des gènes Identifier des réseaux de régulation de gènes Principe: mesure indirecte de leur abondance en ARNm (niveau d expression) Technologie: Les puces à ADN (microarrays)
Transcriptome : exemple d'une puce à ADN Fonction : Mesurer le niveau d'expression de plusieurs milliers de gènes simultanément Physiquement : Une grille régulière composée de plusieurs milliers de spots (un pour chaque gène) portés par une plaque de verre, une membrane de nylon,...
Le transcriptome : Principes de la puce a ADN
Le transcriptome : Principes de la puce a ADN
Différents types de biopuces Support des sondes Lame de verre membrane de nylon Densité des sondes Macroarrays (quelques dizaines/cm²) Microarrays (plusieurs milliers) Type de sondes ADNc Oligonucléotides Marquage des cibles Lame de verre membrane Affymetrix Radioactif Fluorochromes (Cy3, Cy5)
Quelques applications des microarrays... Étude exploratoire des mécanismes génétiques cellulaires Étude temporelle de phénomènes cellulaires Comparaison de tissus cancéreux/sains Étude de maladies génétiques
Intervention des statistiques 1. Comment organiser l expérience pour optimiser l analyse statistique? : Plan d expérience 2. Comment prendre en compte les biais expérimentaux? : Normalisation 3. Comparer l expression des gènes entre différentes conditions : Analyse différentielle 4. Peut-on regrouper des individus à partir de leur profil d expression? : Classification supervisée 5. Les gènes peuvent-ils constituer un outil de diagnostic? : Classification supervisée
Quelques expériences... Données de Golub et al., 1999 But : Trouver les gènes différentiellement exprimés entre 2 types de leucémie (ALL, AML) Expressions des gènes mesurées avec 38 puces Affymetrix représentant 6817 gènes humains 38 échantillons d'arnm de tumeurs (27 ALL et 11 AML) un patient par puce : données indépendantes Pas de référence.
Quelques expériences... Données de Callow et al., 2000 But : Identifier les gènes différentiellement exprimés dans des cellules hépatiques de souris pour lesquelles un gène (Apo AI) était réprimé par rapport à des souris contrôles Expressions des gènes mesurées avec 16 puces 2 couleurs représentant 6226 gènes. L'échantillon de référence résulte du pooling des 8 échantillons contrôles 1 puce : une des deux conditions (apo AI ou contrôle) versus la référence et 8 répétitions dans chaque condition. Comparaison indirecte des 2 conditions (via la réf.) : données indépendantes.
Quelques expériences... Données Hertzberg, 2001 But : Etudier l'expression de 2995 gènes du peuplier pour 6 différentes profondeurs dans le tronc. Le contrôle correspond au pool des 6 échantillons analysés. Comparer (classer) les profils d'expression des gènes pour 6 profondeurs de bois différentes : problématique de clustering.
Le transcriptome et le séquençage haut débit La technique des puces à ADN est de moins en moins utilisée. La quatification du transcriptome est de plus en plus réalisé par du séquencage haut débit
III. Le protéome
Étude du protéome Étudier en masse et en quelques expériences les protéines et leur(s) état(s) Identifier des réseaux de régulation de protéines et des interactions entre protéines Principe: mesure indirecte de leur abondance Technologie: Les gels et la spectrométrie
Protéome : exemple d'un gels 2D Fonction : Séparer et quantifier l'ensemble des protéines solubles d'une cellule
Le protéome : Principes du gel 2D IEF : IsoElectric Focalisation SDS-PAGE : Sodium Dodécyl Sulfate Poly Acrylamide Gel Elecrophoresis
Analyse d'image d'un gel 2D Objectif : Identifier et séparer les taches qui correspondent à des protéines
Analyse d'image d'un gel 2D Difficulté : Définir correctement les contours du spot, et donc pour quantifier le niveau d'expression d'une protéine
Analyse d'image d'un gel 2D Objetcif : Etablir des correspondances entre les différents spots (protéines) de différents gels en se basant uniquement sur la localisation des spots sur les gels.
Le protéome et la spectrométrie de masse Objectif : Pouvoir associer à chaque spot du gel le nom de la protéine correspondante
Interrogation MASCOT d'un spectre
Résultat d'interrogation Mascot
La protéomique haut débit La technique des gels 2D n est pas très précise et est de moins en moins utilisée, voire abandonnée La quatification du protéome est réalisé par du séquencage haut débit
IV. La planification expérimentale La planification expérimentale Pré-traitement et normalisation
Rappel... Prélèvement des cellules à étudier Composition d'une population de référence Extraction des ARNm des deux populations de cellules : la référence et la condition d'intérêt Marquage des deux populations avec des fluorophores de couleurs différentes Rouge pour la population étudié et Vert pour la référence Les deux populations marquées sont mélangées et placées sur la puce Hybridation entre les cibles et sondes complémentaires
Mise en évidence du biais de marquage
Objectif de la planification Rendre l'analyse des données et l interprétation le plus efficace possible, compte tenu de la question biologique posée et des contraintes expérimentales. Identifier des gènes différentiellement exprimés Comparer des profils d'expression obtenus dans différentes conditions Déterminer s'il existe une relation entre un profil d'expression et un statut clinique afin de faire du diagnostic
Variabilité technique et biologique Variablité technique Permet l'observation et la quantification des biais Affine la mesure pour un individu Variabilité biologique Observer la variabilité des gènes entre individus Prendre en compte cette variabilité Conclusions généralisables aux populations
Quantifier la variabilité technique? A B 1 2 3 n 1 2 3 n
Quantifier la variabilité biologique? A1 A2 A3 An B1 B2 B3 Bn 1 2 3 n 1 2 3 n
Quantifier les variabilités biologique et technique? A1 A2 A3 Ak B1 B2 B3 Bk n1 nk n1 nk
Plan d'expériences (2 canaux) Proposition 1 (A 1 B 1 ) et (A 2 B 2 ) Proposition 2 A 1 B 1 et A 1 B 1 Proposition 3 : Dye swap (A 1 B 1 et A 1 B 1 ) et ( A 2 B 2 et A 2 B 2 )
Plan d'expériences (2 canaux) On a vu qu il existe un biais dû à l'utilisation des marqueurs Cy5 et Cy3. Une stratégie pour prendre en compte ce problème est le plan en dye-swap : Le dye-swap vise à éliminer le déséquilibre de marquage entre les deux marqueurs : il s'agit d'une répétition technique en inversant les marquages.
Plan d'expériences (2 canaux) Comparaison de plusieurs traitements : Plan en étoile Plan en boucle A1 A2 A1 A2 A3 A3 A0 AT AT-1 AT AT-1
Démarche statistique Modélisation : Traduire les questions biologiques au travers d'un modèle statistique avec des paramètres Contraintes : Nombre de lames, biais à contrôler,... : proposer un plan d'expériences Estimation des paramètres Estimer les paramètres, évaluer la précision de l'estimation et conclure quant à la question biologique de départ.
Exemple d'un modèle simple Mesure pour un gène : On note X itr le niveau d'expression d'un gène i sous la condition t pour la répétition r Modèle : X it r = m it + B r + E itr mesure = signal + effet lame + bruit avec : m it = niveau d'expression moyen du gène dans la condition t B r = niveau d'expression moyen de la lame r E itr = terme résiduel dû à la variabilité (aléatoire) des mesures
Problème de la variabilité... La variabilité entre les répétitions est prise en compte par la variance du terme résiduel E itr : on note V(E itr ) = σ 2 Quelques remarques : Si les répétitions sont des individus différents alors σ est la variabilité biologique Si les répétitions correspondent à différents échantillons d'un même individu alors σ est la variabilité technique σ doit il être constant pour toutes les répétitions? Tous les traitements? On utilise souvent une transformation logarithmique sur les données afin de «stabiliser» la variance des observations.
Plan d'expériences (2 canaux) Etude de deux conditions : On veut comparer deux conditions notées t=1, 2 et estimer la différence : δ = m 1 - m 2 Particularité : Il faut attribuer des marqueurs (Cy5 et Cy3) pour chaque ARNm de chaque lame. Remarque : On peut penser que le fait de disposer de 2 marqueurs va introduire un effet marqueur dans les mesures Modifier le modèle de départ pour l'analyse? Exemples : Quel(s) plan(s) d'expériences si on désire comparer deux conditions avec 4 lames 2 couleurs? Quel modèle écrire pour prendre en compte les marqueurs, les conditions, les répétitions, : analyse de variance?
Mise en évidence du biais de marquage
Pré-traitement et Normalisation Pré-traitement Sélectionner les données propres au processus biologique étudié, supprimer certaines anomalies dans les données récoltées, repérer certaines anomalies (bruit de fond dans l analyse d image, spots saturés en intensité, soustraction du bruit de fond aux intensités, etc ) et choisir une transformation adéquate (souvent la transformation logarithmique) Normalisation Identifier et supprimer les différences systématiques qui ne sont pas dues à la différence d expression et qui ne seront pas prises en compte par la suite. Ces 2 étapes sont cruciales avant toute analyse statistique.
L analyse d image
L analyse d image La quantité d ARNm est supposée proportionnelle à l intensité médiane (ou moyenne) des pixels qui composent le spot. L analyse d image permet de repérer les spots sur la lame, de définir les pixels qui sont considérés comme du signal (foreground) et ceux qui sont du bruit de fond (background) La mesure d expression varie entre 1=2^0 et 65536=2^16 Quantités données par le scanner : Signaux moyens et médians pour le signal et bruit de fond Bruit de fond (plusieurs algos) Qualité du spot : forme, étendue
Pré-traitement : transformation logarithmique? Données plus facilement interprétables R/G = 2 log 2 (R/G)=1 R/G=0.5 log 2 (R/G)=-1 Symétrie de la mesure des expressions
Pré-traitement: soustraction du bruit de fond?
Normalisation Pour s assurer que les différences observées sont bien dues à des niveaux d expression différents, et non à des biais techniques. La normalisation correspond à la détection de biais techniques et la mise en place de procédures de correction. Quelques biais connus : Expérimentateurs, réglages techniques, fluorochrome, aiguille du robot, température, ph, etc
Correction, identification des biais expérimentaux
Mise en évidence de l effet bloc
Normalisation LOESS par bloc
MA-plots: visualisation de l effet intensité M=log2(R/V) A=1/2 [log2(r)+log2(v)] Log ratio des intensité Intensité moyenne
Comment normaliser? Choisir une méthode pour corriger les biais techniques indésirables en utilisant tous les gènes (ou un sous ensemble) : Normalisation sur l ensemble des puces en utilisant une analyse de variance Utilisation de méthodes graphiques : MA plot et boxplot Normalisation par lame basée sur une correction lowess La normalisation est une étape délicate car elle a un impact fort sur le reste des analyses Définir une procédure que l on applique en routine.
L analyse différentielle et rappels sur les tests
L analyse différentielle Etant donné 2 conditions expérimentales A et B, on souhaite identifier les gènes qui ont une différence d expression entre les deux conditions. Une solution consiste à utiliser les tests d hypothèses. Les hypothèses : H0 = {le niveau d expression du gène est identique entre les conditions A et B} H1 = {le niveau d expression du gène est différent entre les conditions A et B} On réalise un test de comparaison de 2 moyennes : H0 : μ A = μ B contre H1 : μ A μ B On dira que le gène est différentiellement exprimé si on rejette H0.
Niveau/Puissance d un test (simple) Décision Accepter H0 Rejeter H0 Réalité H0 vraie 1 α α H0 fausse β 1 β α est le risque de première espèce = P(H1/H0) = proba de détecter une fausse différence (faux positifs) β est le risque de seconde espèce 1-β est la puissance = P(H1/H1) = proba de détecter une vraie différence (vrais positifs)
Zone de Rejet
Test de comparaison de la moyenne de deux populations Test de Student La technologie induit un choix de modélisation: les données sont appariées pour la technologie des cdna arrays Comment modéliser la variance? Variance commune à tous les gènes Variance différente pour tous les gènes
Structure des données Condition 1 Condition 2 r1 R r1 R Gène 1 Gène g X 1g1 X 2g1 Gène G