STATISTIQUE Notion de test et niveau de signification

Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

Introduction aux Statistiques et à l utilisation du logiciel R

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Principe d un test statistique

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours de Tests paramétriques

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à la statistique non paramétrique

Lire ; Compter ; Tester... avec R

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 3. Les distributions à deux variables

VI. Tests non paramétriques sur un échantillon

Introduction à l approche bootstrap

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Cahiers de l IMA. Fascicule SPSS

Équivalence et Non-infériorité

ELEC2753 Electrotechnique examen du 11/06/2012

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exemples d application

Package TestsFaciles

Biostatistiques : Petits effectifs

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Une étude de différentes analyses réalisées par le BIT

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La crise économique vue par les salariés français

Les relations commerciales UE-Japon: la question des marchés publics

Utilisation du Logiciel de statistique SPSS 8.0

T de Student Khi-deux Corrélation

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Probabilités III Introduction à l évaluation d options

La nouvelle planification de l échantillonnage

LIVRET DE facebook.com/asmadigames

Parole d utilisateur. Témoignage Gestion de la relation client. L Oréal fidélise ses clients en réduisant sa charge de travail

Exposition. VLR plongée e commission photo

B B A C U C C U C G 2 E 0 B 0

Activité au 31 décembre Conférence téléphonique du 3 février 2015

ICHEC MANAGEMENT SCHOOL

1 Définition de la non stationnarité

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Ecran : Processeur : OS : Caméra : Communication : Mémoire : Connectique : Audio : Batterie : Autonomie : Dimensions : Poids : DAS :

Introduction à la Statistique Inférentielle

Jabra CLEAR. Jabra MODE D EMPLOI

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Recherche dans un tableau

Coup de Projecteur sur les Réseaux de Neurones

Groupe Eyrolles, 2006, ISBN :

CH IV) Courant alternatif Oscilloscope.

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Mesure du surendettement en Europe

STATISTIQUES. UE Modélisation pour la biologie

Le chi carré. Le sommaire. Approche quantitative

Louis Laurencelle, a vol. 11 no. 1. Introduction

Introduction au pricing d option en finance

L Equilibre Macroéconomique en Economie Ouverte

Etude du niveau stress ressenti par les salariés de plusieurs entreprises du tertiaire. Un outil de mesure.

SELENE : Guide d utilisation de l outil de remontée des fichiers de promouvables

Comment la recherche en sciences humaines est-elle utilisée? Observations tirées du sondage du groupe d experts chargé de l examen des pratiques d

Tarifs WebArtDesign à Grenoble: Création Site Internet, Référencement, Création Graphique, Création Log...

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

1. Structure d un programme C. 2. Commentaire: /*..texte */ On utilise aussi le commentaire du C++ qui est valable pour C: 3.

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Principaux partenaires commerciaux de l UE, (Part dans le total des échanges de biens extra-ue, sur la base de la valeur commerciale)

Incertitudes expérimentales

Comment bien régresser: La statistique peut-elle se passer d artefacts?

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Problèmes de crédit et coûts de financement

DESS INGENIERIE FINANCIERE

Title Text. Gestion de données de mobilité Mobility data management

Chapitre 4 : Régression linéaire

FORMULAIRE DE STATISTIQUES

Évaluation de la régression bornée

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Les débats sur l évolution des

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La légalité du «marketing viral»

Principe de symétrisation pour la construction d un test adaptatif

Leçon N 4 : Statistiques à deux variables

Tableau récapitulatif de l analyse fréquentielle

quelques Repères pour Doctorants

Estimation du coût de l incessibilité des BSA

TABLE DES MATIERES. C Exercices complémentaires 42

Limitations of the Playstation 3 for High Performance Cluster Computing

Leçon n 4. Analyse graphique Techniques de construction de barres et styles de. Fenêtres d analyse graphique. Leçon n 4

Tutoriel Sage One Edition Expert-Comptable. - Le cabinet d Expertise-Comptable doit appeler le Service Client Sage One au

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Transcription:

STATISTIQUE Notion de test et niveau de signification Sept.-Nov.2010 Bruno Depay

Le Figaro, lundi 18 octobre 2010

«Le téléphone sonne»émission de radio consacrée aux statistiques France Inter 20 octobre 2010

Données du problème La consommation X de boissons au cola suit habituellement une loi N(µ 0 =5, σ). Une campagne de promotion est organisée. Après la campagne, on a obtenu sur un échantillon de 40 personnes une consommation moyenne de 5.88 avec un écart-type de 2.97. On suppose qu après la campagne X N(µ, σ). La campagne de promotion est considérée comme un succès si µ > 5.

Question Au vu des résultats sur l échantillon, peut-on considérer, avec une faible probabilité d erreur, que la campagne de promotion a été un succès? Autrement dit : La moyenne µ estimée par x = 5.88 est-elle significativement supérieure à µ 0 = 5?

Rappel Nous savons comment répondre à cette question en utilisant un intervalle de confiance. [ x t ( n 1 ) s ; x ( n 1 ) α α 1 1 2 n 2 n + t s ]

Conclusion? On ne peut pas affirmer, avec un risque de 5% d erreur, que la consommation µ est significativement supérieure à µ 0.

Conclusion? On peut affirmer, avec un risque de 10% d erreur, que la consommation µ est significativement supérieure à µ 0.

Conclusion? 7% est le risque d erreur seuil que l on accepte pour affirmer que la consommation µ 0 est significativement supérieure à µ.

Niveau de signification α=5% α=10% α=7% Le niveau de signification (SIG) correspond à la valeur minimum du risque que l on peut accepter pour rejeter l hypothèse de départ. Ici l hypothèse de départ est : µ = µ 0 et on a SIG = 7%

Test d hypothèse Le test d hypothèse est une méthode qui permet de comparer une moyenne µ à un standard µ 0 Il nous donne directement le niveau de signification (SIG), que nous utiliserons lors de l étude de la régression multiple.

Test d hypothèse : démarche On pose une hypothèse de départ H 0 considérée comme vraie, et une hypothèse alternative H 1. On définit une statistique qui suit une loi de probabilité connue pour H 0. On fixe une règle de décision qui permettra ou non de rejeter H 0 au profit de H 1.

Test de comparaison bilatéral d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t t 1-(α/2) (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig/2 = Prob(t(n-1) t )

Niveau de signification (Sig) La plus petite valeur de α avec laquelle on rejette H 0 Loi de Student à (n-1) ddl Sig/2 α/2 Sig/2 - t 0 t t 1-α/2 (n-1) On peut rejeter H 0 avec un risque α si t >t 1-α/2 (n-1) (soit Sig α)

Application : t =? t = x s µ 0 / n One-Sample Statistics Consommation de boisson au cola N Mean Std. Deviation Std. Error Mean 40 5,88 2,972,470 One-Sample Test Consommation de boisson au cola t df Sig. (2-tailed) Test Value = 5 95% Confidence Interval of the Mean Difference Difference Lower Upper 1,862 39,070,875 -,08 1,83

Conclusion de ce test pour Rola-Cola On ne peut pas rejeter, avec un risque α<7%, l hypothèse que µ = µ 0. Autrement dit : Si on prend un risque α<7%, on ne peut pas dire que la consommation de Rola- Cola suite à la campagne de promotion est significativement différente.

Test de comparaison unilatéral Dans notre exemple on peut utiliser un test de comparaison unilatéral si on part de l hypothèse que la moyenne de consommation ne peut qu avoir augmentée après la campagne de publicité. On ne cherche plus à savoir si µ µ 0 mais seulement si µ > µ 0

Test de comparaison unilatéral (à droite) d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ > µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t t 1-α (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig = Prob(t(n-1) t)

Niveau de signification (Sig) La plus petite valeur de α avec laquelle on rejette H 0 Loi de Student α Sig 0 t t 1-α (n-1) On peut rejeter H 0 avec un risque α si t >t 1-α (n-1) (soit Sig α)

Application t = 1,862 (inchangé) t 0,95 (39)=1,685 Donc t > t 0,95 (39) Le niveau de signification vaut : Sig = Prob(t(39)>1,862)=3,5% Donc en prenant un test de comparaison unilatéral à droite, le niveau de signification est de 3,5%

Importance de l hypothèse H 1 On peut rejeter avec un risque d erreur α=5% l hypothèse H 0 : µ = µ 0 au profit de H 1 : µ > µ 0 Ainsi dans notre exemple avec : -les mêmes données -le même risque d erreur α -la même hypothèse de départ H 0 On rejette ou non H 0 selon la nature de H 1

Importance de l hypothèse H 1 Après la campagne de publicité 1/ Je ne peux pas affirmer avec 5% d erreur que la consommation est différente 2/ Je peux affirmer avec 5% d erreur que la consommation a augmentée (= j ai 95% de chance d avoir raison qu elle a augmenté en supposant dès le départ qu elle ne peut pas diminuer)

Importance de l hypothèse H 1 Conclusion : lorsqu on utilise les tests en statistique, attention aux formulations. De la même façon que précédemment, nous pouvons faire un test de comparaison unilatéral à gauche.

Test de comparaison unilatéral (à gauche) d une moyenne µ à un standard µ 0 Test : H 0 : µ = µ 0 H 1 : µ < µ 0 Statistique utilisée : x µ t = 0 s / n Règle de décision : On rejette H 0 au profit de H 1, au risque α de se tromper, si t -t 1-α (n-1) Niveau de signification (Sig) du t observé : Plus petite valeur de α conduisant au rejet de H 0 : Sig = Prob(t(n-1) t)

Remarques importantes Tout est important dans la construction d un test statistique : la définition de l hypothèse H 0 : elle doit être solidement établie et on doit avoir une bonne raison de la rejeter La définition de l hypothèse H 1 Le niveau d erreur que l on se fixe : 5% est standard, 1% pour les cas où le rejet de H 0 a des conséquences importantes

Remarques importantes Ce niveau seuil d erreur acceptable est fixé par le décideur, et non le statisticien. La statistique est une aide à la décision, ce n est pas elle qui la prend.

Application pour la régression Cor(X,Y) est-il significatif avec α = 5%? Test : H 0 : Cor(X,Y) = 0 (= le modèle n est pas bon) H 1 : Cor (X,Y) 0 (= le modèle est bon) Règle de décision On rejette H 0 avec un risque d erreur α = 5% si Cor( X, Y ) 2 n (il faut n > 20) 28

Cor(X,Y) est-il significatif avec α choisi? Test : H 0 : Cor(X,Y) = 0 H 1 : Cor(X,Y) 0 Règle de décision On rejette H 0 avec un risque d erreur α si Cor( X, Y ) t t 1 α / 2 2 1 α / 2 ( n 2 ) ( n 2 ) + n 2 α

-1 -a 0 a 1 R: cor. négative Pas de corrélation Cor. positive (bon) (pas bon) (bon) Ici on note a = t t 1 α / 2 2 1 α / 2 ( n 2 ) ( n 2 ) + n 2 Exemple avec n= 36 et R=Cor(X,Y)=0.41 : Que peut-on dire avec = 2%? = 1%? 30

Résultats : Avec α = 2%, t 1-α/2 (34) = 2,441 et a=0,3861 donc R >a. On rejette avec α = 2% l hypothèse que le modèle est mauvais. Avec α = 1%, t 1-α/2 (34) = 2,728 et a=0,4237 donc R <a. On ne rejette pas avec α = 1% l hypothèse que le modèle est mauvais. donc 1%< SIG <2% 32

Exemple d un R non significatif Correlations PRIXM2 Pearson Correlation Sig. (2-tailed) N SURFACE.199.309 28 Prix au m Surface Rouge : droite des moindres carrés ( y= bo + b1x ) Bleu : moyenne des prix (y = y) Rsq =. On a 30.9% de chance de se tromper si on dit qu il y a une corrélation linéaire entre le prix au m² et la surface. On considère que la corrélation entre le prix au m² et la surface (0.199) n est pas significative. 33

Ex : appartements du XIX arrondissement Model 1 (Constant) Surface en m a. Dependent Variable: Prix en k Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig. 28,519 17,077 1,670,105 5,390,184,983 29,342,000 SIG < 0,1%

Ce qu il faut retenir La démarche d un test : importance des hypothèses H 0 (hypothèse de prudence) et H 1. Statistique utilisée pour un test de comparaison à une moyenne : x t = s µ 0 / n

Ce qu il faut retenir Test de comparaison bilatéral d une moyenne µ à un standard µ 0 : on rejette H 0 au profit de H 1 si t t 1-(α/2) (n-1) Niveau de signification (SIG) : la plus petite valeur de α conduisant au rejet de H 0 C est le décideuret non le statisticien qui fixe les hypothèses et qui se situe par rapport au niveau de signification (ou qui fixe le seuil d erreur acceptable).

«42.7 percent of all statistics are made up on the spot.» Steven Wright

Prochain cours Mercredi 27 octobre Exercice : régression simple