Méthodes statistiques pour l analyse de puce à ADN Tristan Mary-Huard Institut National Agronomique Paris-Grignon
4 questions Comment récupérer un signal utilisable pour chaque gène? Normalisation Comment utiliser ce signal pour trouver les gènes différentiellement exprimés, ou des groupes fonctionnels? Analyse différentielle et clustering Comment organiser l expérience pour répondre efficacement aux questions précédentes? Plan d expérience
Préambule Sur quelles données travaille-t-on?
Résultat MicroArray Grille Fichier «.gpr»
Quelques bonnes pratiques... Signal : log en base 2 de l intensité médiane du spot Sont retirés de l étude : Spots considérés inexploitables par le biologiste Spots où rien n a été déposé Le bruit de fond n est pas soustrait
Normalisation
Décomposition du signal Qu est-ce qui influe sur l intensité mesurée en un spot donné? X glft = m + a + b + g + d g + ( ag ) + ( ad gf ) gt l f t + E glft g = gène l = lame f = fluorochrome t = traitement
Décomposition de la différence En vert (f 1 ) le traitement t 1, en rouge (f 2 ) le traitement t 2 : X glf - X = ( g f -g ) ( 1 f + d 2 t -d 1 2 1t1 glf2t2 t + ( ag gf -ag ) ( 1 gf + ad 2 gt -ad 1 gt 2 + E - E ) ( glf1t1 glf2t2 ) ) D gl = m * + a * g * * ( f ) + b g ( t) + Egl
Le terme d interaction D gl = m * + a * g * * ( f ) + b g ( t) + Egl Différence due aux fluorochromes 2 origines : Optique : V brille plus que R Biologique : V et R accrochent différemment sur certains gènes La LOESS va corriger le biais optique
Normalisation LOESS En ordonnée : différence d expression M=log(V)- log(r) En abscisse : expression moyenne A=(log(V)+ log(r))/2 M A Martin-Magniette,URGV
Normalisation LOESS Graphe MA: données brutes Graphe MA : après loess
Après normalisation LOESS Le signal corrigé : D gl = a ** ( f ) + b * ( t) + E ** g g gl Où les artefacts restants sont dus à la partie biologique de l interaction. Existe-t-il d autres artefacts à inclure?
Prise en compte d autres facteurs Effet «Bloc» ou «Aiguille»
Visualisation de l effet aiguille par box-plots
Prise en compte de l effet aiguille Il suffit de l ajouter au modèle : X glftb = m + a + b + g + d + q g + ( ag ) + aq + (abgq ) l gf + ( ad ) gt ( ) gb glfb + E glfkbt f t b La différence s écrit : D gbl = m * + a * * * * g ( f ) + b g ( t) + q gbl ( f ) + Egbl
Boxplot par aiguille après correction
Contre-exemple Effet «Spotting» Mary-Huard & al, 2003
Contre-exemple L effet identifié est dû aux plaques. Deux possibilités : Différences de préparation entre les plaques Différences dues aux gènes présents dans les plaques Pas de correction possible pour les puces bactéries ou végétale L effet reste!!!
Conclusions sur la normalisation Plusieurs difficultés : Le protocole expérimental diffère suivants les laboratoires Les biais à corriger changent avec la nature des données Biais universels : adapter la méthode de correction aux données (Bloc : LOESS ou médiane) Effets à corriger «contestés» (Background)
Conclusions sur la normalisation Commencer par des lames jaunes! Garantir les mêmes conditions techniques pour toute les lames d une expérience Même expérimentateur, même scanner... Pas de changement de PMT Contrôle qualité (Lames jaunes) Enlever les biais techniques sans enlever le signal
Bibliographie (normalisation) Normalization for cdna microarray data, Yang et al., 2002 Microarray data normalization and transformation, Quackenbush, Nat. Genet., 32, 2002
Analyse différentielle
Analyse différentielle But : Déterminer les gènes s exprimant différemment suivant le traitement. Méthodologie statistique : Théorie des tests H 0 = {Il n y a pas de différence d expression} H 1 = {Il y a une différence d expression} Construction d une statistique de test Détermination du seuil
Statistique de test Indicateur, calculé à partir des données, qui renseigne sur la question posée. On observe : D gl = log(v) gl - log(r) gl La statistique de test utilisée est : T Ecart-type des différences g = sˆ g D / g n g Moyenne des différences Nbre de répétitions
Modélisation de la variance Une variance pour chaque gène : sˆ 2 g = 1 n g  ng -1 l= 1 ( D gl - D g ) 2 Peu de répétitions par gène variance mal estimée En général, on trouve alors peu de gènes différentiellement exprimés.
Modélisation de la variance Une variance commune à tous les gènes : G 2 1 sˆ = sˆ Â G g= 1 Suppose que tous les gènes ont la même variabilité! 2 g
Modélisation de la variance Compromis : il existe des classes de variance 2 sˆ1 2 sˆ 2 2 sˆ3 2 sˆ 4 Difficulté : choisir le nombre de groupes et les seuils. Delmar & al, 2004
Comment fixer le seuil? (1 gène) T g grand : on rejette l hypothèse H 0 Que peut-on garantir? Le gène est déclaré différentiellement exprimé Le gène est déclaré non différentiellement exprimé Le gène est différentiellement exprimé Bonne décision Erreur de type II (FNeg) Le gène n'est pas différentiellement exprimé Erreur de type I (FPos) Bonne décision
Comment fixer le seuil? Minimiser l erreur de type I : Seuil Seuil Minimiser l erreur de type II : Seuil Seuil Choix : garantir le risque de faux positif P(FPos) < 5%
Comment fixer le seuil? T g grand : on rejette l hypothèse H 0 Seuil fixé par le biologiste : T g = n g D sˆ g g > 2 Ne dépend pas : de la quantité d information (n g ) de la garantie fixée ( P(FPos) < 5% )
Comment fixer le seuil? Seuil fixé par le statisticien : D g Tg = ng > sˆ g Seuil Observations Garantie 2 5 10 5% 12,71 2,776 2,262 1% 63,66 4,604 3,25 0,10% 636,6 8,61 4,781
Combien de répétitions? T g = n g D sˆ g g On déclare le gène différentiellement exprimé lorsque T g est grande. Deux cas : Différence réelle entre traitements grande (en Ecart Type) La différence observée rend T g grande Différence réelle entre les traitements est petite T g sera grande si n g est grand
Combien de répétitions? a = 5%
Tests pour plusieurs gènes 1 gène 5% d erreur 10000 gènes 500 erreurs (FP) en moyenne Nécessité de prendre en compte le nombre de gènes testés. Procédures d ajustement pour tests multiples : Bonferroni FDR
Ajustement de Bonferroni Pour un gène : P( 1 FP) < 5% P( le gène est déclaré P mais ne l est pas) < 5% Pour N gènes : P( 1 FP parmi les gènes testés) < 5% P({gène 1 est FP} ou {gène 2 est FP} ou N Â i= 1 ou {gène N est FP}) < 5% P(gène i est FP) < 5% P(gène i est FP) < 5/N %
Conclusions sur l analyse différentielle La méthodologie garantit le contrôle du nombre de faux positifs La méthode doit prendre en compte le nombre de gènes, le nombre de répétitions, et le niveau de garantie fixé La puissance dépendra essentiellement: du nombre de répétitions de la méthode d ajustement de la modélisation de la variance
Classification non supervisée (Clustering)
Objectif Etablir une typographie des gènes qui rende compte de leur(s) fonction(s) En pratique, recherche de groupes de gènes ou de tissus ayant des profils d expression similaires. On cherche à constituer des groupes homogènes et distincts.
Difficulté combinatoire Il y a 10 47 manières de répartir 100 gènes en 3 groupes. Pas d étude exhaustive possible! Méthodes heuristiques : A nombre de groupes inconnu (CAH) A nombre de groupes connu a priori (K-means) Méthodes statistiques : Modèles de mélange
Exemple : cinétique On réalise une expérience pour observer l expression des gènes aux temps 1,,t,,T. On souhaite regrouper les gènes ayant le même profil au cours du temps. On dispose pour chaque gène de son profil : g = (x g1,, x gt,, x gt )
Classification hiérarchique ascendante (CAH)
Classification hiérarchique ascendante (CAH) Les groupes sont construits itérativement en regroupant les deux gènes ou les deux groupes les plus proches. On construit ainsi un «arbre» de classification. Il faut définir : Une distance (ou une similarité) entre gènes d(g,g ) Une distance (ou une similarité) entre classes D(C,C )
Distance entre gènes La définition de la distance doit prendre en compte notre idée de la ressemblance : Distance euclidienne Coefficient de corrélation 2 ' ) ( '), (  - = t t x gt x g g g d    - - - - = t g t g t g gt t g t g g gt x x x x x x x x g g s 2 ' ' 2 ' ' ) ( ) ( ) )( ( '), (
Distance entre classes Même problème de définition : Lien simple : D( C, C') = min gœc, g ' ŒC ' d( g, g') Lien moyen : D( C, C') = 1 C C' Â Â gœc g ' ŒC ' d( g, g') Centroïde : D ( C, C') = d( g, g')
Impact des distances
Classification hiérarchique ascendante (CAH) Interprétation du biologiste Eisen & al. 1996
Alizadeh 2000 Objectif : Distinguer différents types de lymphomes (DLBCL, FL, CLL) et les caractériser à partir des profils d expression de gènes
Alizadeh 2000 Sur l arbre : 2 sous-groupes du lymphome DLBLC En orange les gènes sous-exprimés dans le sous-groupe 1 En bleu les gènes sur-exprimés dans le sous groupe 1
Les K-means (nuées dynamiques) On suppose le nombre de classes K connu. Initialisation : choix de K points parmi g 1,,g G qui sont les moyennes m 10,,m K 0 des K classes. Etape n : chaque gène g i est affecté à une classe C k n : n n d ( gi, mk ) = min d( gi, mk ') on recalcule les moyennes de chaque classe m n + 1 k = k ' 1 C k  g i ŒC k g i
Exemple : 3 populations
Exemple : 3 populations
K-means Inconvénients des K-means : l algorithme peut ne pas converger une classe peut être vide très sensible aux points de départ En pratique : Utilisation des K-means lorsque l on sait choisir des points de départs en essayant beaucoup de points de départ différents
Conclusions sur le clustering Importance du choix des paramètres : Distances entre gènes et entre classes Distances entre gènes et nombre de classes Comparaison K-means / CAH La CAH est stable (donne les mêmes résultats sur les mêmes données) La CAH est plus adaptée aux données de biopuces En pratique, K-means peu utilisés
Conclusions sur le clustering Comparaison méthodes heuristiques / statistiques Tester le nombre de groupes Proposer plusieurs classements pour un gène N est pas censée être utilisée pour : L analyse différentielle La prédiction fonctionnelle Le clustering est généralement la première étape (descriptive) d une analyse plus approfondie
Bibliographie (classification) Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling, Alizadeh et al., Nature, 403, 2000 Cluster analysis and display of genome-wide expression patterns, Eisen et al., PNAS, 97, 2000
Plans d expériences
Les objectifs Rendre l analyse des données et leur interprétation aussi simple et efficace que possible, compte tenu de la question posée et des contraintes expérimentales et matérielles.
Quelques conventions... A B Interprétation : 2 lames Ind du groupe de traitement A, marqué en V Ind du groupe de traitement B, marqué en R
Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V
Les trois types de variabilité Churchill 2002
Spot 2 Erreurs de mesure Spot 1 Bonne réplicabilité Peu de duplicats
Quelle variabilité prendre en compte? Variabilité technique Variabilité biologique Permet l observation et la quantification des biais Affine la mesure pour un individu Les conclusions ne sont valables que pour l individu Permet l observation de la variabilité interindividus Prend en compte cette variabilité Les conclusions sont généralisables aux populations étudiées
Exemple Lignée cellulaire TRT 1 TRT 2 Lame 1 Lame 2 Lame 3 Lame 4 4 lames, 4 répétitions techniques, pas de répétition biologique Conclusions valables pour la lignée seulement
Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V
Théorique Importance du dye swap Le dye-swap permet d annuler en grande partie le biais d accrochage des fluorochromes Expérimental CATMA (URGV) HIV (CEA) Nbre Gènes Nbre FPos ~20 000 40 à 60 ~20 000 450 à 700 Martin-Magniette et al (2005).
Remarque... A 1 B 1 A 1 A 2 A 2 B 2 B 1 B 2 Dans le cas n 2, confusion entre le changement de lame et le changement de traitement Un bon plan d expérience évite le plus possible les confusions d effets
Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V
Comparaisons directes et indirectes A 1 B 1 A 1 Ref B 1 Chaque différence d AB = log( A) - 2 une variance de s. log( B) estimée avec Cas indirect : d + A, B = d A, Ref d Ref, B d A, B ) = V ( d A, Ref ) + V ( d Ref, B ) = 2 V ( s 1 d = ( d + d Cas direct : A, B A, B A, B 1 2 V ( d ) V ( d ) + V ( d ) / 4 = A, B 2 ) / 2 ( ) = A, B A, B 2 s 2 2
Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V
Conclusion Choix du plan d expérience : Question posée Privilégier les répétitions biologiques Variabilité technique Éviter la confusion d effets Efficacité de la comparaison Comparaison directe
Comparaison de plusieurs traitements T 1 T 2 T 1 T 2 T 1 T 3 T 3 T 4 T 1 T 4 T 2 T 3... Combiner comparaisons directes et indirectes
Comparaison indirecte Deux traitements ne peuvent être comparés que s ils sont «connectés» : T 1 T 2 T 3 T 4 La précision de la comparaison des deux traitements dépend du nombre et de la taille de leurs connections. Hiérarchiser les comparaisons
Plan en étoile Point de vue technique T 1 T 2 Ref T 4 T 3 Choix de la référence Beaucoup d information collectée sur la référence Si k répétitions par comparaison et N traitements, Nk lames Possibilité de rajouter un traitement
Plan en étoile Point de vue analyse T 1 T 2 Ref T 4 T 3 Aucune comparaison directe entre traitements Même précision pour tous les traitements Adapté pour les comparaisons type mutants vs sauvage...
Plan en boucle Point de vue technique T 1 T 2 T 4 T 3 Si k répétitions et N traitements, Nk lames Collecte d information équilibrée Difficile de rajouter un traitement
Plan en boucle Point de vue analyse T 1 T 2 T 4 T 3 Comparaisons directes et indirectes Précision variable suivant les comparaisons et suivant la taille de la boucle (N) Adapté pour les études de cinétiques...
Précision des comparaisons Speed 2002
Conclusions Choix du plan (plusieurs traitements) : Dépend du nombre de traitements Nécessite de hiérarchiser les questions Dépend de la normalisation Fluorochromes Nbre gènes différentiellement exprimés Il n existe pas toujours de plans optimaux, mais il existe toujours des plans plus mauvais que les autres!
Bibliographie (plans d expériences) Fundamentals of experimental design for cdna microarrays, Churchill, Nat. Genet. Suppl., 32 (2002) Design issues for cdna microarray experiments, Speed, Nat. Genet., 8 (2002) Analysis of variance for gene expression microarray data, Kerr & all, JCB,7 (2000)
Bibliographie (statistiques) Probabilités, analyse des données et statistiques Saporta, Editions Technip Statistique inférentielle, idées, démarches, exemples Daudin, Robin et Vuillet, Presses Universitaires de Rennes Méthodes statistiques Tassi, Economica
Logiciels d analyse statistique Pour la classification : Genesis http://genome.tugraz.at/software/genesis/description.html Pour l analyse différentielle : Anapuce http://www.inapg.inra.fr/ens_rech/mathinfo/recherche/mathematique/outil.html Bioconductor http://www.bioconductor.org/
Annexes
ANALYSE DYE SWAP Log 2 (Ratio lame1 ) + Log 2 (Ratio lame2 ) Log 2 (Ratio lame1 ) + Log 2 (Ratio lame2 ) 2 Log 2 (I Cy3* I Cy5 ) lame1 + Log 2 (I Cy3* I Cy5 ) lame2 Log 2 (I Cy3* I Cy5 ) lame1 + Log 2 (I Cy3* I Cy5 ) lame2 2
Effet bloc - Pelouse
Modélisation de la variance Une variance par gène : T g = n g D sˆ g g Méthodes alternatives : Une variance commune à tous les gènes (approximation normale) Regrouper les gènes en populations de variances homogènes Les résultats changent beaucoup!!!
Ajustement de Bonferroni On veut garantir : P( Il existe un FP parmi les N gènes) < 5% P({gène 1 est FP} ou {gène 2 est FP} ou ou {gène N est FP}) < 5% N Â i= 1 P(gène i est FP) < 5% Il suffit de fixer P(gène i est FP) < 5/N %
Obtenu à partir des données
Calcul de la p-value On connaît la distribution de T g sous l hypothèse H 0. On peut donc calculer : p g = P Ho ( T > T g ) Cette probabilité mesure la cohérence entre l hypothèse nulle et les observations : une valeur faible entraîne un rejet de H 0
Comment fixer le seuil? (1 gène) p g < 0,05 : on rejette l hypothèse H 0 Remarques : la p-value dépend de la quantité d information (n g ) le seuil dépend de l erreur de type I que l on tolère le seuil ne dépend pas de l erreur de type II Il peut y avoir beaucoup de FP.
LAMES TORONTO Lame Cy5/Cy3 Lame Cy3/Cy5 Intensités brutes Log 2 (I Cy5 /I Cy3 ) Log 2 (I Cy3* I Cy5 ) Log 2 (I Cy3 /I Cy5 ) Log 2 (I Cy3* I Cy5 ) Intensités soustraites par le bruit de fond Log 2 (I Cy5 /I Cy3 ) Log 2 (I Cy3* I Cy5 ) Log 2 (I Cy3 /I Cy5 ) Log 2 (I Cy3* I Cy5 ) Cabannes