Méthodes statistiques pour l analyse de puce à ADN. Tristan Mary-Huard Institut National Agronomique Paris-Grignon



Documents pareils
BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

La classification automatique de données quantitatives

Introduction au datamining

Agrégation des portefeuilles de contrats d assurance vie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Dérivés Financiers Contrats à terme

La fonction exponentielle

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Chapitre 3. Les distributions à deux variables

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Classification non supervisée

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Introduction au Data-Mining

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Dossier justificatif des travaux de R&D déclarés au titre du CIR

Chp. 4. Minimisation d une fonction d une variable

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le risque Idiosyncrasique

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Gènes Diffusion - EPIC 2010

MAP 553 Apprentissage statistique

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

données en connaissance et en actions?

Optimisation, traitement d image et éclipse de Soleil

Systèmes de transmission

Principe d un test statistique

Qu est-ce qu une probabilité?

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

23. Interprétation clinique des mesures de l effet traitement

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Calculs financiers (1) : intérêts simples, composés.

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Leçon N 4 : Statistiques à deux variables

Lois de probabilité. Anita Burgun

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Correction du baccalauréat ES/L Métropole 20 juin 2014

Estimation et tests statistiques, TD 5. Solutions

Introduction aux Statistiques et à l utilisation du logiciel R

Monitoring d un Datacenter du concept à la réalisation

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Transmission d informations sur le réseau électrique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Analyse de la variance Comparaison de plusieurs moyennes

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

MODE OPERATOIRE NORMALISE : Date d application :

TS 31 ATTAQUE DE FOURMIS!

Big Data et Graphes : Quelques pistes de recherche

PROGRAMME (Susceptible de modifications)

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Recherche dans un tableau

Interpréter correctement l évolution de la part salariale.

TP Modulation Démodulation BPSK

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Associations Dossiers pratiques

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

MABioVis. Bio-informatique et la

Probabilités (méthodes et objectifs)

Spectrophotométrie - Dilution 1 Dilution et facteur de dilution. 1.1 Mode opératoire :

Identification de nouveaux membres dans des familles d'interleukines

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

C f tracée ci- contre est la représentation graphique d une

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Analyse Combinatoire

MIS 102 Initiation à l Informatique

Les probabilités. Chapitre 18. Tester ses connaissances

Spécificités, Applications et Outils

Base de données opérationnelle pour les phénomènes PAN Commission SIGMA 2 - AAAF

Limitations of the Playstation 3 for High Performance Cluster Computing

Exercices supplémentaires sur l introduction générale à la notion de probabilité

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Rappels sur les suites - Algorithme

1 Définition de la non stationnarité

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Comment utiliser les générateurs de mots clés?

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

La comptabilité de gestion : Fiche pourquoi?

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Transcription:

Méthodes statistiques pour l analyse de puce à ADN Tristan Mary-Huard Institut National Agronomique Paris-Grignon

4 questions Comment récupérer un signal utilisable pour chaque gène? Normalisation Comment utiliser ce signal pour trouver les gènes différentiellement exprimés, ou des groupes fonctionnels? Analyse différentielle et clustering Comment organiser l expérience pour répondre efficacement aux questions précédentes? Plan d expérience

Préambule Sur quelles données travaille-t-on?

Résultat MicroArray Grille Fichier «.gpr»

Quelques bonnes pratiques... Signal : log en base 2 de l intensité médiane du spot Sont retirés de l étude : Spots considérés inexploitables par le biologiste Spots où rien n a été déposé Le bruit de fond n est pas soustrait

Normalisation

Décomposition du signal Qu est-ce qui influe sur l intensité mesurée en un spot donné? X glft = m + a + b + g + d g + ( ag ) + ( ad gf ) gt l f t + E glft g = gène l = lame f = fluorochrome t = traitement

Décomposition de la différence En vert (f 1 ) le traitement t 1, en rouge (f 2 ) le traitement t 2 : X glf - X = ( g f -g ) ( 1 f + d 2 t -d 1 2 1t1 glf2t2 t + ( ag gf -ag ) ( 1 gf + ad 2 gt -ad 1 gt 2 + E - E ) ( glf1t1 glf2t2 ) ) D gl = m * + a * g * * ( f ) + b g ( t) + Egl

Le terme d interaction D gl = m * + a * g * * ( f ) + b g ( t) + Egl Différence due aux fluorochromes 2 origines : Optique : V brille plus que R Biologique : V et R accrochent différemment sur certains gènes La LOESS va corriger le biais optique

Normalisation LOESS En ordonnée : différence d expression M=log(V)- log(r) En abscisse : expression moyenne A=(log(V)+ log(r))/2 M A Martin-Magniette,URGV

Normalisation LOESS Graphe MA: données brutes Graphe MA : après loess

Après normalisation LOESS Le signal corrigé : D gl = a ** ( f ) + b * ( t) + E ** g g gl Où les artefacts restants sont dus à la partie biologique de l interaction. Existe-t-il d autres artefacts à inclure?

Prise en compte d autres facteurs Effet «Bloc» ou «Aiguille»

Visualisation de l effet aiguille par box-plots

Prise en compte de l effet aiguille Il suffit de l ajouter au modèle : X glftb = m + a + b + g + d + q g + ( ag ) + aq + (abgq ) l gf + ( ad ) gt ( ) gb glfb + E glfkbt f t b La différence s écrit : D gbl = m * + a * * * * g ( f ) + b g ( t) + q gbl ( f ) + Egbl

Boxplot par aiguille après correction

Contre-exemple Effet «Spotting» Mary-Huard & al, 2003

Contre-exemple L effet identifié est dû aux plaques. Deux possibilités : Différences de préparation entre les plaques Différences dues aux gènes présents dans les plaques Pas de correction possible pour les puces bactéries ou végétale L effet reste!!!

Conclusions sur la normalisation Plusieurs difficultés : Le protocole expérimental diffère suivants les laboratoires Les biais à corriger changent avec la nature des données Biais universels : adapter la méthode de correction aux données (Bloc : LOESS ou médiane) Effets à corriger «contestés» (Background)

Conclusions sur la normalisation Commencer par des lames jaunes! Garantir les mêmes conditions techniques pour toute les lames d une expérience Même expérimentateur, même scanner... Pas de changement de PMT Contrôle qualité (Lames jaunes) Enlever les biais techniques sans enlever le signal

Bibliographie (normalisation) Normalization for cdna microarray data, Yang et al., 2002 Microarray data normalization and transformation, Quackenbush, Nat. Genet., 32, 2002

Analyse différentielle

Analyse différentielle But : Déterminer les gènes s exprimant différemment suivant le traitement. Méthodologie statistique : Théorie des tests H 0 = {Il n y a pas de différence d expression} H 1 = {Il y a une différence d expression} Construction d une statistique de test Détermination du seuil

Statistique de test Indicateur, calculé à partir des données, qui renseigne sur la question posée. On observe : D gl = log(v) gl - log(r) gl La statistique de test utilisée est : T Ecart-type des différences g = sˆ g D / g n g Moyenne des différences Nbre de répétitions

Modélisation de la variance Une variance pour chaque gène : sˆ 2 g = 1 n g  ng -1 l= 1 ( D gl - D g ) 2 Peu de répétitions par gène variance mal estimée En général, on trouve alors peu de gènes différentiellement exprimés.

Modélisation de la variance Une variance commune à tous les gènes : G 2 1 sˆ = sˆ Â G g= 1 Suppose que tous les gènes ont la même variabilité! 2 g

Modélisation de la variance Compromis : il existe des classes de variance 2 sˆ1 2 sˆ 2 2 sˆ3 2 sˆ 4 Difficulté : choisir le nombre de groupes et les seuils. Delmar & al, 2004

Comment fixer le seuil? (1 gène) T g grand : on rejette l hypothèse H 0 Que peut-on garantir? Le gène est déclaré différentiellement exprimé Le gène est déclaré non différentiellement exprimé Le gène est différentiellement exprimé Bonne décision Erreur de type II (FNeg) Le gène n'est pas différentiellement exprimé Erreur de type I (FPos) Bonne décision

Comment fixer le seuil? Minimiser l erreur de type I : Seuil Seuil Minimiser l erreur de type II : Seuil Seuil Choix : garantir le risque de faux positif P(FPos) < 5%

Comment fixer le seuil? T g grand : on rejette l hypothèse H 0 Seuil fixé par le biologiste : T g = n g D sˆ g g > 2 Ne dépend pas : de la quantité d information (n g ) de la garantie fixée ( P(FPos) < 5% )

Comment fixer le seuil? Seuil fixé par le statisticien : D g Tg = ng > sˆ g Seuil Observations Garantie 2 5 10 5% 12,71 2,776 2,262 1% 63,66 4,604 3,25 0,10% 636,6 8,61 4,781

Combien de répétitions? T g = n g D sˆ g g On déclare le gène différentiellement exprimé lorsque T g est grande. Deux cas : Différence réelle entre traitements grande (en Ecart Type) La différence observée rend T g grande Différence réelle entre les traitements est petite T g sera grande si n g est grand

Combien de répétitions? a = 5%

Tests pour plusieurs gènes 1 gène 5% d erreur 10000 gènes 500 erreurs (FP) en moyenne Nécessité de prendre en compte le nombre de gènes testés. Procédures d ajustement pour tests multiples : Bonferroni FDR

Ajustement de Bonferroni Pour un gène : P( 1 FP) < 5% P( le gène est déclaré P mais ne l est pas) < 5% Pour N gènes : P( 1 FP parmi les gènes testés) < 5% P({gène 1 est FP} ou {gène 2 est FP} ou N Â i= 1 ou {gène N est FP}) < 5% P(gène i est FP) < 5% P(gène i est FP) < 5/N %

Conclusions sur l analyse différentielle La méthodologie garantit le contrôle du nombre de faux positifs La méthode doit prendre en compte le nombre de gènes, le nombre de répétitions, et le niveau de garantie fixé La puissance dépendra essentiellement: du nombre de répétitions de la méthode d ajustement de la modélisation de la variance

Classification non supervisée (Clustering)

Objectif Etablir une typographie des gènes qui rende compte de leur(s) fonction(s) En pratique, recherche de groupes de gènes ou de tissus ayant des profils d expression similaires. On cherche à constituer des groupes homogènes et distincts.

Difficulté combinatoire Il y a 10 47 manières de répartir 100 gènes en 3 groupes. Pas d étude exhaustive possible! Méthodes heuristiques : A nombre de groupes inconnu (CAH) A nombre de groupes connu a priori (K-means) Méthodes statistiques : Modèles de mélange

Exemple : cinétique On réalise une expérience pour observer l expression des gènes aux temps 1,,t,,T. On souhaite regrouper les gènes ayant le même profil au cours du temps. On dispose pour chaque gène de son profil : g = (x g1,, x gt,, x gt )

Classification hiérarchique ascendante (CAH)

Classification hiérarchique ascendante (CAH) Les groupes sont construits itérativement en regroupant les deux gènes ou les deux groupes les plus proches. On construit ainsi un «arbre» de classification. Il faut définir : Une distance (ou une similarité) entre gènes d(g,g ) Une distance (ou une similarité) entre classes D(C,C )

Distance entre gènes La définition de la distance doit prendre en compte notre idée de la ressemblance : Distance euclidienne Coefficient de corrélation 2 ' ) ( '), (  - = t t x gt x g g g d    - - - - = t g t g t g gt t g t g g gt x x x x x x x x g g s 2 ' ' 2 ' ' ) ( ) ( ) )( ( '), (

Distance entre classes Même problème de définition : Lien simple : D( C, C') = min gœc, g ' ŒC ' d( g, g') Lien moyen : D( C, C') = 1 C C' Â Â gœc g ' ŒC ' d( g, g') Centroïde : D ( C, C') = d( g, g')

Impact des distances

Classification hiérarchique ascendante (CAH) Interprétation du biologiste Eisen & al. 1996

Alizadeh 2000 Objectif : Distinguer différents types de lymphomes (DLBCL, FL, CLL) et les caractériser à partir des profils d expression de gènes

Alizadeh 2000 Sur l arbre : 2 sous-groupes du lymphome DLBLC En orange les gènes sous-exprimés dans le sous-groupe 1 En bleu les gènes sur-exprimés dans le sous groupe 1

Les K-means (nuées dynamiques) On suppose le nombre de classes K connu. Initialisation : choix de K points parmi g 1,,g G qui sont les moyennes m 10,,m K 0 des K classes. Etape n : chaque gène g i est affecté à une classe C k n : n n d ( gi, mk ) = min d( gi, mk ') on recalcule les moyennes de chaque classe m n + 1 k = k ' 1 C k  g i ŒC k g i

Exemple : 3 populations

Exemple : 3 populations

K-means Inconvénients des K-means : l algorithme peut ne pas converger une classe peut être vide très sensible aux points de départ En pratique : Utilisation des K-means lorsque l on sait choisir des points de départs en essayant beaucoup de points de départ différents

Conclusions sur le clustering Importance du choix des paramètres : Distances entre gènes et entre classes Distances entre gènes et nombre de classes Comparaison K-means / CAH La CAH est stable (donne les mêmes résultats sur les mêmes données) La CAH est plus adaptée aux données de biopuces En pratique, K-means peu utilisés

Conclusions sur le clustering Comparaison méthodes heuristiques / statistiques Tester le nombre de groupes Proposer plusieurs classements pour un gène N est pas censée être utilisée pour : L analyse différentielle La prédiction fonctionnelle Le clustering est généralement la première étape (descriptive) d une analyse plus approfondie

Bibliographie (classification) Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling, Alizadeh et al., Nature, 403, 2000 Cluster analysis and display of genome-wide expression patterns, Eisen et al., PNAS, 97, 2000

Plans d expériences

Les objectifs Rendre l analyse des données et leur interprétation aussi simple et efficace que possible, compte tenu de la question posée et des contraintes expérimentales et matérielles.

Quelques conventions... A B Interprétation : 2 lames Ind du groupe de traitement A, marqué en V Ind du groupe de traitement B, marqué en R

Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V

Les trois types de variabilité Churchill 2002

Spot 2 Erreurs de mesure Spot 1 Bonne réplicabilité Peu de duplicats

Quelle variabilité prendre en compte? Variabilité technique Variabilité biologique Permet l observation et la quantification des biais Affine la mesure pour un individu Les conclusions ne sont valables que pour l individu Permet l observation de la variabilité interindividus Prend en compte cette variabilité Les conclusions sont généralisables aux populations étudiées

Exemple Lignée cellulaire TRT 1 TRT 2 Lame 1 Lame 2 Lame 3 Lame 4 4 lames, 4 répétitions techniques, pas de répétition biologique Conclusions valables pour la lignée seulement

Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V

Théorique Importance du dye swap Le dye-swap permet d annuler en grande partie le biais d accrochage des fluorochromes Expérimental CATMA (URGV) HIV (CEA) Nbre Gènes Nbre FPos ~20 000 40 à 60 ~20 000 450 à 700 Martin-Magniette et al (2005).

Remarque... A 1 B 1 A 1 A 2 A 2 B 2 B 1 B 2 Dans le cas n 2, confusion entre le changement de lame et le changement de traitement Un bon plan d expérience évite le plus possible les confusions d effets

Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V

Comparaisons directes et indirectes A 1 B 1 A 1 Ref B 1 Chaque différence d AB = log( A) - 2 une variance de s. log( B) estimée avec Cas indirect : d + A, B = d A, Ref d Ref, B d A, B ) = V ( d A, Ref ) + V ( d Ref, B ) = 2 V ( s 1 d = ( d + d Cas direct : A, B A, B A, B 1 2 V ( d ) V ( d ) + V ( d ) / 4 = A, B 2 ) / 2 ( ) = A, B A, B 2 s 2 2

Comparaison de deux traitements A 1 B 1 A 1 B 1 I II A 1 B 1 A 1 B 1 A 2 B 2 A 2 B 2 III IV A 1 Ref B 1 A 2 Ref B 2 V

Conclusion Choix du plan d expérience : Question posée Privilégier les répétitions biologiques Variabilité technique Éviter la confusion d effets Efficacité de la comparaison Comparaison directe

Comparaison de plusieurs traitements T 1 T 2 T 1 T 2 T 1 T 3 T 3 T 4 T 1 T 4 T 2 T 3... Combiner comparaisons directes et indirectes

Comparaison indirecte Deux traitements ne peuvent être comparés que s ils sont «connectés» : T 1 T 2 T 3 T 4 La précision de la comparaison des deux traitements dépend du nombre et de la taille de leurs connections. Hiérarchiser les comparaisons

Plan en étoile Point de vue technique T 1 T 2 Ref T 4 T 3 Choix de la référence Beaucoup d information collectée sur la référence Si k répétitions par comparaison et N traitements, Nk lames Possibilité de rajouter un traitement

Plan en étoile Point de vue analyse T 1 T 2 Ref T 4 T 3 Aucune comparaison directe entre traitements Même précision pour tous les traitements Adapté pour les comparaisons type mutants vs sauvage...

Plan en boucle Point de vue technique T 1 T 2 T 4 T 3 Si k répétitions et N traitements, Nk lames Collecte d information équilibrée Difficile de rajouter un traitement

Plan en boucle Point de vue analyse T 1 T 2 T 4 T 3 Comparaisons directes et indirectes Précision variable suivant les comparaisons et suivant la taille de la boucle (N) Adapté pour les études de cinétiques...

Précision des comparaisons Speed 2002

Conclusions Choix du plan (plusieurs traitements) : Dépend du nombre de traitements Nécessite de hiérarchiser les questions Dépend de la normalisation Fluorochromes Nbre gènes différentiellement exprimés Il n existe pas toujours de plans optimaux, mais il existe toujours des plans plus mauvais que les autres!

Bibliographie (plans d expériences) Fundamentals of experimental design for cdna microarrays, Churchill, Nat. Genet. Suppl., 32 (2002) Design issues for cdna microarray experiments, Speed, Nat. Genet., 8 (2002) Analysis of variance for gene expression microarray data, Kerr & all, JCB,7 (2000)

Bibliographie (statistiques) Probabilités, analyse des données et statistiques Saporta, Editions Technip Statistique inférentielle, idées, démarches, exemples Daudin, Robin et Vuillet, Presses Universitaires de Rennes Méthodes statistiques Tassi, Economica

Logiciels d analyse statistique Pour la classification : Genesis http://genome.tugraz.at/software/genesis/description.html Pour l analyse différentielle : Anapuce http://www.inapg.inra.fr/ens_rech/mathinfo/recherche/mathematique/outil.html Bioconductor http://www.bioconductor.org/

Annexes

ANALYSE DYE SWAP Log 2 (Ratio lame1 ) + Log 2 (Ratio lame2 ) Log 2 (Ratio lame1 ) + Log 2 (Ratio lame2 ) 2 Log 2 (I Cy3* I Cy5 ) lame1 + Log 2 (I Cy3* I Cy5 ) lame2 Log 2 (I Cy3* I Cy5 ) lame1 + Log 2 (I Cy3* I Cy5 ) lame2 2

Effet bloc - Pelouse

Modélisation de la variance Une variance par gène : T g = n g D sˆ g g Méthodes alternatives : Une variance commune à tous les gènes (approximation normale) Regrouper les gènes en populations de variances homogènes Les résultats changent beaucoup!!!

Ajustement de Bonferroni On veut garantir : P( Il existe un FP parmi les N gènes) < 5% P({gène 1 est FP} ou {gène 2 est FP} ou ou {gène N est FP}) < 5% N Â i= 1 P(gène i est FP) < 5% Il suffit de fixer P(gène i est FP) < 5/N %

Obtenu à partir des données

Calcul de la p-value On connaît la distribution de T g sous l hypothèse H 0. On peut donc calculer : p g = P Ho ( T > T g ) Cette probabilité mesure la cohérence entre l hypothèse nulle et les observations : une valeur faible entraîne un rejet de H 0

Comment fixer le seuil? (1 gène) p g < 0,05 : on rejette l hypothèse H 0 Remarques : la p-value dépend de la quantité d information (n g ) le seuil dépend de l erreur de type I que l on tolère le seuil ne dépend pas de l erreur de type II Il peut y avoir beaucoup de FP.

LAMES TORONTO Lame Cy5/Cy3 Lame Cy3/Cy5 Intensités brutes Log 2 (I Cy5 /I Cy3 ) Log 2 (I Cy3* I Cy5 ) Log 2 (I Cy3 /I Cy5 ) Log 2 (I Cy3* I Cy5 ) Intensités soustraites par le bruit de fond Log 2 (I Cy5 /I Cy3 ) Log 2 (I Cy3* I Cy5 ) Log 2 (I Cy3 /I Cy5 ) Log 2 (I Cy3* I Cy5 ) Cabannes