Principe des Tests Statistiques



Documents pareils
Principe d un test statistique

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TESTS D'HYPOTHESES Etude d'un exemple

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Lois de probabilité. Anita Burgun

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Biostatistiques : Petits effectifs

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Représentation d une distribution

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

Cours de Tests paramétriques

Un code-barre sur la tête?

Un exemple de régression logistique sous

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Données longitudinales et modèles de survie

FORMULAIRE DE STATISTIQUES

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

choisir H 1 quand H 0 est vraie - fausse alarme

INF6304 Interfaces Intelligentes

La fonction ET et la fonction OU. La Fonction ET

Présentation BAI -CITC

Introduction aux Statistiques et à l utilisation du logiciel R

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TABLE DES MATIERES. C Exercices complémentaires 42

Mesures et incertitudes

Lire ; Compter ; Tester... avec R

Relation entre deux variables : estimation de la corrélation linéaire

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Transmission d informations sur le réseau électrique

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à l algorithmique et à la programmation (Info 2)

Probabilités conditionnelles Loi binomiale

Chapitre 3. Les distributions à deux variables

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

T de Student Khi-deux Corrélation

STATISTIQUES. UE Modélisation pour la biologie

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Estimation et tests statistiques, TD 5. Solutions

La simulation probabiliste avec Excel

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

L'ELASTICITE-PRIX I- QUAND LES PRIX VARIENT...

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

DCG 6. Finance d entreprise. L essentiel en fiches

Monitoring d un Datacenter du concept à la réalisation

Thèmes et situations : La poste et la banque. Fiche pédagogique

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Introduction à la Statistique Inférentielle

Aide-mémoire de statistique appliquée à la biologie

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Qu est-ce-qu un Warrant?

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Séries Statistiques Simples

Que faire lorsqu on considère plusieurs variables en même temps?

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

EmonCMS sur EWATTCH Cloud

Thèmes et situations : Achat-Vente. Fiche pédagogique

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Comment évaluer une banque?

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Chapitre 2/ La fonction de consommation et la fonction d épargne

LES MODELES DE SCORE

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Travail de projet sur VBA

Initiative sur les bourses d études : le mauvais chemin vers l égalité des chances dossierpolitique

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

BMCE Direct SOLUTION DE BANQUE A DISTANCE

Cours de méthodes de scoring

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Objectif. 1 La durée de la période transitoire sera confirmée ultérieurement.

SMS sur le réseau fixe

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

23. Interprétation clinique des mesures de l effet traitement

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Bilan de l enquête de satisfaction 2012

1 Définition de la non stationnarité

Mise à jour Comptabilité intermédiaire - Analyse théorique et pratique, Questions, exercices, problèmes, cas.

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

BMCE Direct. Guide d utilisateur Entreprise SOLUTION DE BANQUE A DISTANCE Avenue Hassan II - Casablanca, Maroc

Système de sécurité de périmètre INTREPID

Calculs de probabilités conditionelles

Gérer sa trésorerie. Fiche. au quotidien. Sage 100 Trésorerie Version 16. Déroulement des étapes à suivre pour gérer sa trésorerie quotidienne.

Démographie des masseurs-kinésithérapeutes

Grilles de lecture données environnement 2013 Tableau de bord de suivi des opérations de démantèlement

LE COSMODETECTEUR : UN EXEMPLE DE CHAÎNE DE MESURE

Transcription:

Principe des Tests Statistiques Vocabulaire & Notions Générales Marc AUBRY Plateforme Transcriptome Biogenouest Rennes Askatu

Les Étapes d un Test Statistique Question scientifique Choix d un test statistique Les conditions d application du test sont-elles compatibles avec le protocole d étude envisagé? Réalisation de l étude Analyse des données Tableau de données Les données sont-elles compatibles avec les conditions d application du test? Individu n 1 3 4... Variable Aléatoire n 1 3 4 5... Réalisation du test Poser les deux hypothèses de test H 0 et H 1 Calculer la Statistique de Test : ST calc Utiliser ST calc pour déterminer la p value Conclure : rejeter ou non H 0 à l aide de la p value

Les Hypothèses de Test Elles dérivent de la question scientifique posée On formule deux hypothèses qui sont deux réponses possibles et exclusives de cette question H 0 : hypothèse principale, ou hypothèse nulle H 1 : hypothèse alternative Ces hypothèses sont toujours formulées au niveau de la population visée (elles traduisent la problématique posée) les hypothèses H 0 et H 1 portent sur la valeur vraie de la variable [condition] et non pas sur une valeur observée [point de mesure] Population [Hypothèses] variable aléatoire x N : effectif μ : moyenne σ : variance L échantillon servira à trancher entre les deux hypothèses, grâce au test statistique Échantillon [Test Statistique] n : effectif m : moyenne s : variance

La Statistique de Test (ST) La ST est un système de calcul utilisé par un test statistique qui permet de rejeter ou non l hypothèse H 0 une formule à appliquer une fois que l échantillon est obtenu La valeur de la ST calculée va varier suivant l échantillon réalisé une ST est une variable aléatoire à cause de l échantillonnage des individus mesurés Il existe différents types de ST suivant : le test statistique dont elles proviennent (paramétrique/non-paramétrique) leur formule (présence ou non d estimateurs) leur distribution de probabilité (connue/inconnue) Le test t de Student de comparaison de deux moyennes observées est un test paramétrique dont la formule contient 4 estimateurs (m 1,m,s 1,s ) et dont la distribution de probabilité de la ST sous H 0 suit une loi de Student exemples Le test de χ de conformité est un test non-paramétrique dont la formule contient 1 estimateur (p i ) et dont la distribution de probabilité de la ST sous H 0 suit une loi de χ Le test exact de Fisher (tableau x ) est un test non-paramétrique, dont la formule ne contient pas d estimateur et dont la distribution de probabilité de la ST sous H 0 suit une loi hypergéométrique Le test exact de Fisher (tableau k x c) est un test non-paramétrique, dont la formule ne contient pas d estimateur et dont les différentes possibilités de valeur de la ST sous H 0 forment une combinatoire de probabilités

Exemple Le test t de Student de comparaison de deux moyennes observées m 1 et m Variables mesurées une variable quantitative [ d un gène] une variable qualitative à deux classes [deux conditions expérimentales] Population 1 Échantillon 1 N 1 μ 1 σ 1 n 1 m 1 s 1 effectif moyenne variance effectif moyenne variance N μ σ n m s Population Échantillon Test paramétrique distribution normale de la variable quantitative dans les deux classes de la variable qualitative variances égales de la variable quantitative dans les deux classes de la variable qualitative Hypothèses de test H 0 : μ 1 = μ ; les moyennes sont identiques dans la population visée H 1 : μ 1 μ ; les moyennes sont différentes dans la population visée Loi de probabilité suivie par la ST sous H 0 La ST t suit une loi de Student à (n 1 + n - ) degrés de liberté Calcul de la ST sous H 0 : ST calc avec

ST calc et p value Fluctuation de la ST due à l échantillonnage (sous H 0 ) La p value est l aire sous la courbe de la loi suivie par la ST sous H 0 α seuil p value Loi de probabilité continue α seuil p value ST calc ST seuil ST calc ST seuil Une ST est une variable aléatoire à cause de l échantillonnage des individus mesurés L hypothèse H 0 donne une distribution de la ST L échantillon donne une valeur de la ST (ST calc ) La p value indique si cette valeur est cohérente avec la distribution (et donc avec l hypothèse H 0 )

Vrais Positifs Conclusion d un Test H 0 vraie (H 1 fausse) Réalité/Vérité H 0 fausse (H 1 vraie) [Conclure, c est deux vérités, deux décisions soit quatre probabilités] Décision H 0 acceptée (H 1 rejetée) H 0 rejetée (H 1 acceptée) Bonne décision (1-α) Erreur α Erreur β Bonne décision (1-β) Faux Négatifs risque de ème espèce (risque β) risque de se tromper quand on accepte H 0 sous H 0 1-α α Faux Positifs risque de 1 ère espèce (risque α) risque de se tromper quand on rejette H 0 Vrais Négatifs (puissance du test) capacité du test à identifier une différence réelle sous H 1 β 1-β p value du test seuil de rejet ou seuil de signification de l hypothèse H 0 α

Puissance d un Test sous H 0 sous H 1 sous H 0 sous H 1 Δ β de l effectif (n) de l échantillon --- la puissance augmente quand n augmente de l écart (Δ) entre les paramètres testés --- la puissance augmente quand Δ augmente α μ 1 μ β [? % de faux négatifs] [5% de faux positifs] [75% de faux négatifs] 1-β = 0.5 La puissance (1-β) est une variable qui dépend de : du α seuil choisi --- la puissance diminue quand α seuil décroît la variance de la population (σ ) --- la puissance diminue quand σ augmente α [5% de faux positifs] Décision H 0 vraie Réalité H 0 fausse H 0 acceptée 1-α β H 0 rejetée α 1-β

Tests Multiples & Correction Multiplier les tests statistiques augmente la probabilité globale de se tromper quand on rejette H 0 (risque α) Analogie avec la roulette russe Un risque α de 5% est équivalent à un barillet de 0 emplacements avec une seule balle dedans Le risque que le coup parte est p=1/0, soit 5% Si l on recommence n fois de suite, la probabilité que le coup parte va augmenter suivant une binomiale B(n,p) essai ouf pan! p_one_shot 1 0 1 0.0500000 1 1 0.0950000 3 1 0.1353750 4 3 1 0.1714750 5 4 1 0.03666 6 5 1 0.31343 7 6 1 0.578 8 7 1 0.793349 9 8 1 0.98539 10 9 1 0.315147 Au bout de 10 tentatives, le risque est d environ 3% : il y a 3% de chances que le coup parte une seule fois sur les 10 tentatives Evidemment, le coup peut partir plusieurs fois et il faut s intéresser à la probabilité que le coup parte au moins une fois sur les n tentatives c-a-d la somme des probabilités que le coup parte 1 fois, fois,..., 10 fois, sur les 10 tentatives Il y a 40% de chances que le coup parte au moins une fois sur 10 tentatives Il faut corriger le seuil α de rejet de H 0 dans une série de tests statistiques (q value) Family-Wise Error Rate (FWER) [Bonferroni] probabilité d au moins une erreur de type I False Discovery Rate (FDR) [Benjamini-Hochberg] proportion attendue d erreurs de type I parmi les hypothèse rejetées Gaël Millot [Il y a 64% de chances que le coup parte au moins une fois sur 0 tentatives] Décision H 0 vraie Réalité H 0 fausse H 0 acceptée 1-α β H 0 rejetée α 1-β