LES TESTS STATISTIQUES

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TABLE DES MATIERES. C Exercices complémentaires 42

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Introduction à la Statistique Inférentielle

Biostatistiques : Petits effectifs

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Principe d un test statistique

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Cours de Tests paramétriques

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à la statistique non paramétrique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

FORMULAIRE DE STATISTIQUES

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Estimation et tests statistiques, TD 5. Solutions

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Lois de probabilité. Anita Burgun

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Exemples d application

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Calcul élémentaire des probabilités

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

La simulation probabiliste avec Excel

Introduction aux Statistiques et à l utilisation du logiciel R

Annexe commune aux séries ES, L et S : boîtes et quantiles

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La pratique du coaching en France. Baromètre 2010

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

VI. Tests non paramétriques sur un échantillon

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Cours 9 : Plans à plusieurs facteurs

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

STATISTIQUES. UE Modélisation pour la biologie

Localisation des fonctions

Programmes des classes préparatoires aux Grandes Ecoles

Comparaison de populations

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Econométrie et applications

PROBABILITES ET STATISTIQUE I&II

Lire ; Compter ; Tester... avec R

Probabilités conditionnelles Loi binomiale

Cours de méthodes de scoring

1 Définition de la non stationnarité

T de Student Khi-deux Corrélation

Probabilités III Introduction à l évaluation d options

Bases : Probabilités, Estimation et Tests.

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Hedging delta et gamma neutre d un option digitale

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

IBM SPSS Statistics Base 20

Package TestsFaciles

Optimisation des ressources des produits automobile première

Moments des variables aléatoires réelles

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

PROGRAMME (Susceptible de modifications)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

FONCTION DE DEMANDE : REVENU ET PRIX

TSTI 2D CH X : Exemples de lois à densité 1

INFIRMIER(E) GRADUE(E) SPECIALISE(E) EN SANTE COMMUNAUTAIRE HAUTE ECOLE DE LA PROVINCE DE LIEGE PROFESSEUR : RENARD X.

Introduction à l approche bootstrap

Loi binomiale Lois normales

Théorie des probabilités

Coûts, avantages et inconvénients des différents moyens de paiement

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Algebra & Trigonometry High School Level Glossary English / French

Une introduction au langage R

L exclusion mutuelle distribuée

La crise économique vue par les salariés français

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

choisir H 1 quand H 0 est vraie - fausse alarme

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

LES MODELES DE SCORE

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Modélisation du risque opérationnel Approche Bâle avancée

GESTION DES INVESTISSEMENTS RENTABILITE ECONOMIQUE

quelques Repères pour Doctorants

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Équivalence et Non-infériorité

Régression linéaire. Nicolas Turenne INRA

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

données en connaissance et en actions?

Soutenance de stage Laboratoire des Signaux et Systèmes

Simulation de variables aléatoires

Microsoft Excel : tables de données

Transcription:

Université Paris IX Dauphine Ecole Doctorale de Gestion B. Goldfarb goldfarb@dauphine.fr C. Pardoux pardoux@dauphine.fr LES TESTS STATISTIQUES 16 décembre 2004

Objectif Éprouver des hypothèses de recherche concernant : la comparaison de certains paramètres à des valeurs données, l égalité de plusieurs paramètres, l existence de liaisons entre des variables,...

Tests d hypothèse Un test d'hypothèse consiste à choisir entre deux hypothèses incompatibles en se fondant sur des résultats d'échantillonnage. L'une des deux hypothèses à tester est généralement privilégiée par rapport à l'autre : on tient à limiter à priori la probabilité de la rejeter à tort. Cette hypothèse désigne traditionnellement les situations d absence de changement par rapport à un statu quo, ou encore l absence de différence entre des paramètres. Cette hypothèse, notée H 0, est appelée hypothèse nulle. L'autre hypothèse, notée H 1, est appelée hypothèse alternative.

Deux familles de tests Tests paramétriques : tests d hypothèses relatives à un ou plusieurs paramètres d une ou plusieurs variables aléatoires de lois connues. Tests non paramétriques : tests ne nécessitant pas d hypothèses sur la distribution sous-jacente. Pour de petits échantillons, on est utilise plutôt des tests non paramétriques, sauf si la variable étudiée suit une loi normale.

Exemples Tests paramétriques Test bilatéral (un seul échantillon) H 0 : m = m 0 contre H 1 : m m 0 Test unilatéral (deux échantillons) H 0 : p 1 p 2 contre H 1 : p 1 > p 2 Test non paramétrique H 0 : V 1 et V 2 indépendantes contre H 1 : V 1 et V 2 non indépendantes

Deux risques d erreur α = probabilité de choisir H 1 alors que H 0 est vraie ou Risque de 1 ère espèce β = probabilité de choisir H 0 alors que H 1 est vraie ou Risque de 2 nde espèce Décision Réalité H 0 vraie H 0 fausse H 0 non rejetée H 0 rejetée Décision correcte Probabilité = 1- α Erreur de première espèce Probabilité = α Erreur de seconde espèce Probabilité = β Décision correcte Probabilité = 1- β

Puissance d un test π = probabilité de rejeter H 0 alors que H 0 est fausse = 1 β La puissance d un test est liée au type de test statistique, et à la taille de l échantillon. A taille d échantillon égale, les tests non paramétriques sont moins puissants que les tests paramétriques.

Exemple Prenons l'exemple d'un caractère distribué selon une loi normale de moyenne m inconnue et d'écart-type connu σ et supposons que m ne puisse prendre que l'une ou l'autre de deux valeurs fixées m 0 et m 1 avec m 0 < m 1. La statistique X n étant un «bon» estimateur de m, on va opter pour l'une des deux valeurs selon la réalisation x n de X n donnée par l'échantillon : si x n est inférieur ou égal à une valeur c, appelée valeur critique, on décide de retenir l'hypothèse m = m 0, et dans l'autre cas, on retient l'hypothèse m = m 1. On commettra alors une erreur de choix pour m si on observe : c alors que m = m 1, ou si on observe > c alors que m = m 0. x n x n

Deux approches pour établir la conclusion H 0 : m = m 0 contre H 1 : m = m 1 avec m 0 < m 1 1. Pour un risque de 1 ère espèce α, la valeur critique c est telle que : α ( ) = PX> c m= m c= m + u 0 0 1 α Conclusion du test : non rejet de H 0 si c 2. Calcul du niveau de signification du test, fonction de la valeur observée, c est-à-dire de la probabilité p (appelée aussi p- valeur) telle que : Conclusion du test : non rejet de H 0 si p α x n x n p= P( X > x ) n m= m0 σ n

Mise en œuvre d un test Choix de H 0 et H 1, et du risque de 1 ère espèce α Règle de décision : soit, en se basant sur la région critique soit, au vu du niveau de signification du test Conclusion du test : rejet ou non-rejet de H 0

Pratique d un test avec le logiciel SPSS Onglet «Analyse» et choix de module : «Comparer les moyennes» et ensuite «Test T pour échantillon unique», «Tests non paramétriques» et ensuite «Test du Khi-deux», test «binomial», «Statistiques descriptives» et ensuite «Tableaux croisés» pour un test d indépendance de deux variables...

«Comparer les moyennes» avec SPSS «Test T pour échantillon unique» Le prix X d un même article (exprimé en euros) relevé au hasard dans 9 magasins de Paris a donné les résultats suivants : 42,7 42,6 43,0 43,3 42,8 43,1 43,4 42,1 42,6 On suppose que X suit une loi de normale de moyenne m inconnue et d écarttype σ inconnu. Testez au risque de 1 espèce α = 2,5% : H 0 : m m 0 = 43 contre H 1 : m < m 0 Statistiques sur échantillon unique PRIX N Moyenne Ecart-type Erreur standard moyenne 9 42,844,403,134 Test sur échantillon unique PRIX Valeur du test = 43 Intervalle de confiance Sig. Différence 95% de la différence t ddl (bilatérale) moyenne Inférieure Supérieure -1,157 8,281 -,156 -,466,155

«Comparer les moyennes» avec SPSS Interprétation des résultats Test sur échantillon unique PRIX Valeur du test = 43 Intervalle de confiance Sig. Différence 95% de la différence t ddl (bilatérale) moyenne Inférieure Supérieure -1,157 8,281 -,156 -,466,155 SPSS indique un niveau de signification associé à un test bilatéral symétrique, c est-à-dire au test : H 0 : m = m 0 = 43 contre H 1 : m m 0 Un risque α pour un test bilatéral symétrique correspond à un risque α/2 pour un test unilatéral. La p-valeur donnée pour un test bilatéral égale à 0,281 correspond à une p-valeur égale à 0,1405 pour un test unilatéral, valeur supérieure à 2,5% Non rejet de l hypothèse nulle.

Test non paramétrique avec SPSS «Test binomial» Test de l égalité de la proportion des lecteurs dernière période Télérama égale à 0,06. SPSS fait le test : proportion des «non LDP» égale à 0,94, car «non LDP» > «LDP» Statistiques descriptives LDP Télérama N Moyenne Ecart-type Minimum Maximum 3000,051,219 0 1 LDP Groupe 1 Groupe 2 Total Test binomial Signification Proportion Test de asymptotique Modalité N observée. proportion (unilatérale) non LDP 2848,949,94,016 a LDP 152,051 a. Basée sur l'approximation de Z. 3000 1,000 Un risque α pour un test bilatéral symétrique correspond à un risque α/2 pour un test unilatéral. La p-value est égale à 3,2% si le test est le suivant : H 0 : p = p 0 = 0,06 contre H 1 : p p 0

Test de comparaison de deux proportions «Comparer les moyennes», et ensuite «Test T pour échantillons indépendants» Test de l égalité des proportions de lecteurs dernière période Télérama Homme et Femme. La statistique de test est la différence entre les moyennes de deux variables de Bernoulli. Statistiques de groupe LDP Télérama SEXE Homme Femme Erreur standard N Moyenne Ecart-type moyenne 1429,0490,216,0057 1571,0522,222,0056 Test d'échantillons indépendants LDP Télérama Hypothèse de variances égales Hypothèse de variances inégales Test de Levene sur l'égalité des variances F Sig. t 1 λ α ddl Test-t pour égalité des moyennes Sig. (bilatérale) Différence moyenne Différence écart-type,641,423 -,400 2998,689 -,003,008 -,401 2985,5,689 -,003,008 p-value = 68,9% non rejet de l égalité des moyennes

Bilan La conclusion d un test d hypothèse se fait en terme de rejet ou de non-rejet de l hypothèse nulle, et cette conclusion est fonction : de l échantillon observé, et du risque de 1 ère espèce α choisi. Ne pas oublier que les tests paramétriques ou non paramétriques s effectuent nécessairement sur des échantillons aléatoires.

Conclusion Les logiciels statistiques ont rendu l utilisation des tests statistiques extrêmement simples. La principale difficulté est de choisir le test adapté à ses données et à son problème. Avant l utilisation d une procédure, il ne faut pas oublier d utiliser les représentations graphiques pour une 1 ère approche : Box-plot en parallèle pour des comparaisons de distributions, de tendances centrales, Diagramme quantile-quantile pour des ajustements,

Vue générale pratique TESTS D'HYPOTHESE TESTS PARAMETRIQUES TESTS NON PARAMETRIQUES A - MOYENNES Abis - PROPORTIONS B - VARIANCES C - TESTS DE RANG D - TESTS D'ADEQUATION 1 échantillon 1 échantillon 1 échantillon 2 échantillons Khi-deux 2 échantillons 2 échantillons 2 échantillons k échantillons Kolmogorov et Kolmogorov-Smirnov k échantillons k échantillons k échantillons corrélation

Tests paramétriques Tester une ou plusieurs moyennes 1 échantillon 2 échantillons k échantillons de variance connue de variances connues Homoscédasticité Analyse de la variance à 1 facteur (ANOVA) Rapport de variances Loi de Fisher Moyenne d'échantillon Loi de Gauss Différence des Moyennes Loi de Gauss Tests post-hoc de variance inconnue de variances inconnues mais égales Bonferroni Homoscédasticité Least Significant Difference LSD de Fisher Procédure de Scheffé Procédures de Tukey Moyenne d'échantillon Loi de Student Différence des moyennes Calcul de variance poolée Loi de Student de variances inconnues et inégales Student-Newman-Keuls SNK Waller-Duncan Hochberg Problème de Behrens-Fisher voir plutot solution non paramétrique Méthode des contrastes etc...

Tests paramétriques Tester une ou plusieurs proportions 1 échantillon 2 échantillons k échantillons Une proportion est une moyenne Proportions = moyennes Petits échantillons test du Khi-deux N > 50 Np(1-p) >18 N > 50 Np(1-p) > 18 dans chaque échantillon effectif concerné > 5 dans chaque échantillon Moyenne d'échantillon Loi de Gauss Autre Solution Différence des Moyennes Loi de Gauss Petits échantillons test du Khi-deux test peu robuste Utlise la loi de Fisher Test exact de Fisher : peu accessible

Tests paramétriques Tester une ou plusieurs variances 1 échantillon 2 échantillons k échantillons moyenne connue moyennes connues solution 1 : test de Bartlett Variance d'échantillon Loi du Khi deux à N ddl moyenne inconnue Rapport des variances d'échantillon Loi de Fisher moyennes inconnues test peu robuste peu accessible Solution 2 : test de Cochran Echantillons de même taille Variance corrigée d'échantillon Loi du Khi deux à N-1 ddl Rapport des variances corrigées Loi de Fisher test peu robuste peu accessible

Tests non paramétriques Tests des rangs (Fishériens) 2 échantillons k échantillons corrélation Test de Mann & Whitney : identité des 2 distributions Test de Wilcoxon : Identité des 2 distributions Test de Kruskall & Wallis Identité des k distributions Test de corrélation des rangs de Kendall indépendance variable étudiée quelconque observations appariées : étudie les différences variable étudiée continue variable étudiée continue ou ordinale échantillons d'au moins 5 observations observations appariées variable étudiée continue ou ordinale Petits échantillons (< 8) : calculs exacts Grands échantillons : calculs approchés par Gauss Petits échantillons (< 8) : calculs exacts Grands échantillons : calculs approchés par Gauss Tables exactes pour quelques cas Loi approchée du Khi-deux (k-1 ddl) n < 15 : Tables exactes sinon, approximation par Gauss