Eléments de Statistique Chapitre 5 : Tests statistiques élémentaires

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Biostatistiques : Petits effectifs

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Principe d un test statistique

VI. Tests non paramétriques sur un échantillon

Lois de probabilité. Anita Burgun

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à la statistique non paramétrique

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Cours de Tests paramétriques

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Estimation et tests statistiques, TD 5. Solutions

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

LES GENERATEURS DE NOMBRES ALEATOIRES

TSTI 2D CH X : Exemples de lois à densité 1

TESTS D'HYPOTHESES Etude d'un exemple

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Simulation de variables aléatoires

Probabilités sur un univers fini

Précision d un résultat et calculs d incertitudes

Lire ; Compter ; Tester... avec R

FORMULAIRE DE STATISTIQUES

Introduction à la Statistique Inférentielle

Limites finies en un point

Relation entre deux variables : estimation de la corrélation linéaire

Annexe commune aux séries ES, L et S : boîtes et quantiles

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Couples de variables aléatoires discrètes

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

3. Conditionnement P (B)

Modélisation aléatoire en fiabilité des logiciels

Programmes des classes préparatoires aux Grandes Ecoles

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction aux Statistiques et à l utilisation du logiciel R

Probabilités sur un univers fini

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TP N 57. Déploiement et renouvellement d une constellation de satellites

Travaux dirigés d introduction aux Probabilités

Probabilités III Introduction à l évaluation d options

T de Student Khi-deux Corrélation

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

PROBABILITES ET STATISTIQUE I&II

4 Distributions particulières de probabilités

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Texte Agrégation limitée par diffusion interne

TD1 Signaux, énergie et puissance, signaux aléatoires

Moments des variables aléatoires réelles

Introduction à l approche bootstrap

3. Caractéristiques et fonctions d une v.a.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

données en connaissance et en actions?

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

M2 IAD UE MODE Notes de cours (3)

Cours 9 : Plans à plusieurs facteurs

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Amphi 3: Espaces complets - Applications linéaires continues

Intérêt du découpage en sous-bandes pour l analyse spectrale

Coefficients binomiaux

Problèmes de crédit et coûts de financement

Calcul élémentaire des probabilités

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Chapitre 3. Les distributions à deux variables

Probabilités conditionnelles Loi binomiale

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

I. Polynômes de Tchebychev

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

INTRODUCTION. 1 k 2. k=1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

1. Vocabulaire : Introduction au tableau élémentaire

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Variables Aléatoires. Chapitre 2

CAPTEURS - CHAINES DE MESURES

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Cours de méthodes de scoring

Quantification Scalaire et Prédictive

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Résumé du Cours de Statistique Descriptive. Yves Tillé

1 Définition de la non stationnarité

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La nouvelle planification de l échantillonnage

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Chapitre 3 : INFERENCE

Table des matières. I Mise à niveau 11. Préface

Le modèle de Black et Scholes

Transcription:

Eléments de Statistique Chapitre 5 : statistiques élémentaires INSA de Toulouse - 3ICBE Statistique

problématique et exemple Généralités sur les tests Décision Objectif Question : Des différences entre un modèle a priori et des observations sont-elles significatives ou considérées comme acceptables par l effet du hasard Test : proédure permettant de confronter une hypothèse à la réalité des données prendre une décision en contrôlant le risque d erreur Exemples de question : un médicament est-il efficace? des pièces sont-elles conformes? Quel mode de culture bactienne est le plus efficace?...

problématique et exemple Généralités sur les tests Décision Problématique Quatre conditions sont requises : 1 Seules deux répones possibles : oui / non 2 Une expérimentation planifiée fournit les données 3 Les données sont la réalisation de variables aléatoires décrites par un modèle statistique 4 La réponse est caractérisée par l acceptation ou le rejet d une hypothèse (H 0 ) du modèle statistique Décision Accepter H 0 fait répondre Non : les différences observées sont imputables au seul hasard Rejeter H 0 fait répondre Oui : les différences observées sont significatives car trop improbables

problématique et exemple Généralités sur les tests Décision Exemple : les faiseurs de pluie Pluviométrie en Beauce : X N (600, 100 2 ) Une insémination (iodure d argent) augmente-elle la pluviométrie de 50mm? { H0 : µ = 600mm H 1 : µ > 600mm ou µ = 650mm Que conclure à partir des observations? Année 1951 1952 1953 1954 1955 1956 1957 1958 1959 mm 510 614 780 512 501 534 603 788 650

problématique et exemple Généralités sur les tests Décision Question H 0 est-elle vraisemblable au regard des observations? Prendre le risque a priori α = 0, 05 de croire à tort les faiseurs de pluie Hypothèses Moyenne empirique X n = 1 n n i=1 X i tend vers µ (LGN) Si H 0 vraie, X n N (600, 100 2 /9) (n = 9 années) Sinon H 1 : µ > 600 x n = 610.2mm

problématique et exemple Généralités sur les tests Décision Contrôle du risque de première espèce Rejet de H 0 P H0 (Rejet de H 0 ) < α P H0 ( Xn > x n ) < α Sous H 0, Z = Xn 600 100/3 N (0, 1) P H0 (X n > 610.2) = ( ) 610.2 600 P Z > 100/3 = P (Z > 0.306) = 1 P (Z < 0.306) = 1 0.6406 = 0.354 > α

problématique et exemple Généralités sur les tests Décision Choix de H 0 et H 1 H 0 et H 1 ne jouent pas des rôles symétriques H 0 est sous la forme d un consensus dont les données doivent apporter la preuve de la remise en cause Le risque α contrôle la probabilité de se tromper en remettant en cause H 0 Le couple (H 0, H 1 ) (hypothèse nulle, hypothèse alternative) 1 H 0 simple et H 1 = H0 c, le test est dit bilatéral H 0 = {θ = θ 0 } et H 1 = {θ θ 0 }; 2 H 0 composite et H 1 = H0 c, le test est dit unilatéral H 0 = {θ θ 0 } et H 1 = {θ > θ 0 }.

problématique et exemple Généralités sur les tests Décision Niveau et puissance de test Deux façons de se tromper : 1 Rejeter une hypothèse alors qu elle est vraie : α (niveau ou risque de première espèce) borne la probabilité de rejeter à tort ou probabilité d avoir un faux-négatif 2 Accepter une hypothèse alors qu elle est fausse : β (risque de deuxième espèce) borne la probabilité d accepter à tort ou probabilité d avoir un faux-positif La puissance (1 β(θ)) mesure la probabilité de rejeter H 0 alors qu elle est fausse (vrai négatif). En général : écrire H 0 de sorte que rejeter H 0 alors qu elle est vraie (risque de première espèce qui est maîtrisé) est beaucoup plus coûteux que de la conserver à tort (risque de deuxième espèce, non maîtrisé)

problématique et exemple Généralités sur les tests Décision Démarche d un test 1 Choix de H 0 et de H 1 2 Choix arbitraire de α = 10%, 5%, 1% 3 Détermination de la statistique de test 4 Allure de la région de rejet en fonction de H 1 5 Calcul de la région de rejet en fonction de α et H 0 6 Calcul de la réalisation de la statistique de test 7 Conclusion : rejet ou acceptation de H 0 au risque α 8 Si possible, calcul de la puissance du test : 1 β

problématique et exemple Généralités sur les tests Décision Région critique, probabilité critique ou P-valeur Usage devenu désuet des tables statistiques (α-quantiles) Les logiciels calculent les probabilités critiques (P-values) Région critique d un test bi-latéral : R = { T > l} La probabilité critique ou P-valeur est la probabilité pour que la statistique de test T soit dans la région critique la probabilité pour que la statistique de test T dépasse, sous l hypothèse H 0, la valeur seuil Plus cette probabilité est proche de 0, plus forte est la contradiction entre H 0 et le résultat observé avec l échantillon. Probabilité critique de test bilatéral : P c (t) = P H0 { T l} Décision : Si {P c (t) < α} {t R} Rejet de H 0

problématique et exemple Généralités sur les tests Décision Choix du test (modèle gaussien, binomial ou n assez grand ) Un échantillon : comparer la moyenne à une valeur théorique (σ connu ou non) Deux échantillons indépendants : comparer deux moyennes (variance connue ou égales ou n grand), deux variances, deux proportions ; Deux échantillons appariés ou même échantillon observé à deux instants Plusieurs échantillons indépendants : ANOVA à un facteur de comparaison Comparaison de deux distributions (χ2 d indépendance) Normalité d une distribution (distributions non-gaussiennes et petits échantillons) Deux échantillons indépendants Deux échantillons appariés

sur un échantillon sur deux échantillons d ajustement Moyenne µ inconnue et variance σ 2 connue On suppose que l on observe les réalisations d un n-échantillon (X 1,..., X n ) issu d une loi N (µ, σ 2 ) avec µ inconnue et σ 2 connue. On se donne donc l hypothèse nulle H 0 : µ = µ 0, µ 0 étant une valeur donnée par l énoncé ou provenant de connaissances théoriques. Ensuite, il existe trois types d hypothèse H 0 correspondant à leur alternative spécifique H 1 : H 0 composite : µ µ 0 contre H 1 : µ > µ 0, test unilatéral à droite H 0 composite : µ µ 0 contre H 1 : µ < µ 0, test unilatéral à gauche H 0 simple : µ = µ 0 contre H 1 : µ µ 0, test bilatéral

sur un échantillon sur deux échantillons d ajustement Test unilatéral à droite H 1 : µ > µ 0 (cas de l exemple introductif). Statistique de test : la moyenne empirique X n = 1 n n i=1 X i. Région de rejet : Rejet de H 0 P H0 (X n > x n ) < α, la région de rejet étant donnée par la forme de H 1. Calcul de x n, la valeur observée de X n. Détermination de P H0 (X n > x n ). Sous H 0, on a que X n N (µ 0, σ2 n ). On définit alors Z = Xn µ 0 σ/, qui suit N (0, 1). ( ) n Ainsi on a : P H0 (X n > x n ) = P Z > xn µ 0 σ/ n Probabilité critique P H0 (X n > x n ) à comparer avec α

sur un échantillon sur deux échantillons d ajustement Test unilatéral à gauche H 1 : µ < µ 0. Même méthode que précédemment, sauf que l on remplace l événement {X n > x n } par {X n < x n } Test bilatéral H 1 : µ µ 0. Même méthode que précédemment, sauf que l on remplace l événement {X n > x n } par { X n µ 0 > x n µ 0 }. Test bilatéral et intervalle de confiance H 0 : µ = µ 0 est équivalente à µ 0 est à l intérieur (acceptation) ou à l extérieur (rejet) de l intervalle de confiance

sur un échantillon sur deux échantillons d ajustement Moyenne µ inconnue et variance σ 2 inconnue Réalisations d un n-échantillon (X 1,..., X n ) issu d une loi N (µ, σ 2 ) avec µ inconnue et σ 2 inconnue H 0 : µ = µ 0 contre H 1 : µ µ 0 σ 2 inconnue estimée par la variance empirique S 2 n s n est l estimation ponctuelle de l écart-type empirique S n Sous H 0 : T n = Xn µ 0 S n/ n liberté Student à (n 1) degrés de Probabilité critique est calculée à partir de la loi de Student Règle de décision : ( ) Rejet de H 0 P Xn µ 0 H0 S n/ n > xn µ 0 s n/ < α n Idem pour les tests unilatéraux et l intervalle de confiance

sur un échantillon sur deux échantillons d ajustement Test sur l écart type d une loi gaussienne analogues à ceux sur la moyenne Statistique compare S 2 n et un paramètre σ 2 0 Le rapport (n 1) S2 n chi-deux à (n 1) ddl σ0 2 Contrôle de qualité : test unilatéral de dérive d un procédé même si la moyenne reste nominale H 0 : σ σ 0 contre l alternative H 1 : σ > σ 0 Probabilité critique : P H0 ((n 1) S2 n σ 2 0 Rejette H 0 si : (n 1)s2 n σ 2 0 ) > (n 1) s2 n σ0 2 > χ 2 n 1;1 α s2 n > σ2 0 χ2 n 1;1 α n 1 χ 2 n 1;1 α est l (1 α)-quantile d une loi du chi-deux à (n 1) degrés de liberté

sur un échantillon sur deux échantillons d ajustement Test bilatéral sur une proportion X suit une loi binomiale B(n, π) H 0 : π = π 0 contre l hypothèse alternative H 1 : π π 0 Problème : Loi discrète, fontion de répartition étagée, le test de niveau α n est pas connu pour toute valeur Considérer une approximaiton gaussienne de la loi binomiale (TLC) sous la condition que les nombres nπ 0 et n(1 π 0 ) soient suffisamment grands (> 10) Statistique de test : 1 α/2-quantile de cette loi Idem pour les tests unilatéraux X nπ 0 N (0, 1) comparée avec le nπ0 (1 π 0 )

sur un échantillon sur deux échantillons d ajustement Moyennes de deux échantillons indépendants, σ 1 et σ 2 connues X et Y gaussiennes de moyennes (µ 1, µ 2 ) et de variances (σ 2 1, σ2 2 ) Échantillons (n 1, n 2 ) X, Y), S1 2, S2 2 les estimateurs des espérances et variances S 2 = (n 1 1)S 2 1 (n 2 1)S 2 2 n 1 +n 2 2 H 0 : µ 1 = µ 2 est basée sur la loi des différences des moyennes (X Y) est gaussienne d espérance nulle et de variance (σ 2 1 /n 1 + σ 2 2 /n 2) H 0 : µ 1 = µ 2 est équivalente à µ 1 µ 2 = 0 (X Y) gaussienne de variance connue (cf. un échantillon)

sur un échantillon sur deux échantillons d ajustement Moyennes de deux échantillons indépendants, σ 1 = σ 2 inconnues Hypothèse d égalité des variances vérifiable par un test ci-après (X Y) est gaussienne d espérance nulle et de variance σ 2 (1/n 1 + 1/n 2 ) La variance doit être estimée par S 2 La statistique de test (X Y) S (1/n 1 +1/n 2 ) T n 1 +n 2 2 H 0 : µ 1 = µ 2 est équivalente à µ 1 µ 2 = 0 Pour une variable aléatoire (X Y) gaussienne et de variance connue Cf. test à un échantillon

sur un échantillon sur deux échantillons d ajustement Moyennes de deux échantillons indépendants, σ 1 σ 2 inc. Test précédent si échantillons grands (> 20) ou correction du test de Welch Deux échantillons indépendants et comparaison de σ 1 et σ 2 Tester H 0 : σ 1 = σ 2 avant de tester l égalité des moyennes Statistique de test : S1 2/S2 2 rapport de deux chi-deux Variable aléatoire suivant une loi de Fisher à (n 1 1) et (n 2 1) ddl La plus grande quantité, disons S1 2, est placée au numérateur Rejeter H 0 si la réalisation s 2 1 /s2 2 > F (n 1 1),(n 2 2);α/2

sur un échantillon sur deux échantillons d ajustement Deux échantillons indépendants et comparaison de proportions X ert Y binomiales de paramètres (n 1, π 1 ) et (n 2, π 2 ) Test approximatif (n 1 et n 2 grands) car approximation gaussienne de lois binomiales H 0 : π 1 = π 2 et P = X+Y n 1 +n 2 ; S 2 d = P(1 P)(1/n 1 + 1/n 2 ) (X/n 1 Y/n 2 ) suit approximativement une loi gaussienne de moyenne nulle et de variance π(1 π)(1/n 1 + 1/n 2 ) Rejeter H 0 si X/n 1 Y/n 2 P(1 P)(1/n1 +1/n 2 ) > u 1 α/2

sur un échantillon sur deux échantillons d ajustement Deux échantillons appariés Deux variables observées sur le même échantillon ou mesures répétées Mesures appariées v.s. échantillons indépendants D = X Y de variables gaussiennes (µ 1, µ 2, variance σ 2 ) D est gaussienne de moyenne µ 1 µ 2 et de variance σ 2 D estimateur de la moyenne de D, S D de sa variance H 0 : µ 1 µ 2 = 0 contre H 1 : µ 1 µ 2 (test à un échantillon) n D S D suit une loi de Student à (n 1) ddl H 0 est rejetée si n D S D > t n 1;1 α/2 de la loi de Student Test apparié plus puissant

sur un échantillon sur deux échantillons d ajustement ANOVA : Comparaison de plusieurs échantillons gaussiens m échantillons indépendants ou m classes de X Influence d un facteur X à m niveaux sur Y Modèle linéaire et ANalysis Of VAriance Plus de deux facteurs, comparaisons multiples... H 0 : µ 1 = = µ k contre H1 : deux moyennes sont différentes Comparaison des variances inter et intra-classes Hypothèses préalables : 1 X suit une loi gaussienne (on n grand) 2 Variances des sous-groupes sont identiques (Bartlett, Levenes)

sur un échantillon sur deux échantillons d ajustement ANOVA : Notations X gaussienne observée sur m échantillons de tailles n k x moyenne générale, x k, moyenne dans chaque classe Décomposition de la variance ou sommes des carrés : SST = SSB + SSW n (x i x) 2 = m n k (x k x) 2 + i=1 k=1 m n k (x i,k x k ) 2 k=1 i=1 SST variabilité totale ou somme des carrés totaux. SSB variabilité des moyennes des groupes ou variabilité inter-classe (between) ou expliquée. SSW variabilité résiduelle ou variabilité intra-classe (within)

sur un échantillon sur deux échantillons d ajustement ANOVA : Statistique de test Carrés moyens MSB=SSB/(m 1) et MSW=SSW/(n m) Statistique de test F=MSB/MSW F grand : variance inter-classe l emporte sur l intra-classe Significativité de la dispersion des moyennes Tableau de l ANOVA Source de variation d.d.l. Somme des carrés Variance F Modèle (inter) m 1 SSB MSB=SSB/(m 1) MSB/MSW Erreur (intra) n m SSW MSW=SSW/(n m) Total n 1 SST

sur un échantillon sur deux échantillons d ajustement ANOVA : décision Si X gaussienne, égalité des variances et sous H 0 : µ 1 = = µ m F suit une Fisher à (m 1) et (n m) ddl Comparer la P-valeur ou probabilité critique avec α Comparaison des moyennes par paires (Scheffé, Tukey) Etude des résidus : normalité

sur un échantillon sur deux échantillons d ajustement d ajustement de deux lois Comparer deux fonctions de répartition : F = F 0 Comparer la loi des à X i à une loi donnée Exemple N (0, 1), X i uniforme sur {1, 2, 3} Test du chi-deux si X i v.a.r. discrètes Test de Kolmogorov, Shapiro-Wilks... sinon

sur un échantillon sur deux échantillons d ajustement Test du chi-deux : problématique Juger si un échantillon est compatible avec une loi donnée Deux cas : F est entièrement spécifiée : paramètres connus Seule la forme est connue et les paramètres estimés (X 1,..., X n ) un n-échantillon X définie sur {x 1,..., x k } Un vecteur de R k, p = (p 1,..., p k ), tel que p 1 +... + p k = 1 H 0 : pour tout i de 1 à k, P(X = x i ) = p i H 1 : il existe i de 1 à k tel que P(X = x i ) p i

sur un échantillon sur deux échantillons d ajustement Test du χ 2 pour une loi uniforme discrète Exemple : dé biaisé ou non au risque de 1% H 0 : Pour tout i = 1,..., 6, P(X = x i ) = p i = 1 6 n observations, N i le nombre de variables parmi X 1,..., X n égales à x i N i = n j=1 1 {X j =x i } Statistique de test : D 2 = k (N i np i ) 2 i=1 np i chi-deux à ν ddl ν = k 1 si la distribution théorique est connue ν = k 1 r si r paramètres sont estimés ( k Rejet de H 0 P H0 i=1 α (N i np i ) 2 np i > ) k (N i,obs np i ) 2 i=1 np i <

sur un échantillon sur deux échantillons d ajustement Exemple de test du χ 2 Face 1 2 3 4 5 6 N i,obs : Effectifs 7 18 26 15 18 16 np i 16.67 16.67 16.67 16.67 16.67 16.67 (N i,obs np i ) 2 np i 5.61 0.11 5.23 0.17 0.11 0.03 Effectifs théoriques : np i = 100 1/6 = 16.67 sous H 0 D 2 obs = k (N i,obs np i ) 2 i=1 np i = 11.24 Probabilité critique : P H0 (D 2 > D 2 obs ) = 0.0468 (χ2 à 5 ddl)

sur un échantillon sur deux échantillons d ajustement Test du χ 2 de contingence X (x 1,..., x r ) et Y (y 1,..., y c ) qualitatives H 0 : les variables sont indépendantes Table de contingence : n lh ; n l+ = c h=1 n lh et n +h = r l=1 Profils n lh n l+, n lh n +h ou fréquences conditionnelles Sous H 0, profils proches des distributions marginales : f h l = n lh n l+ f +h = n +h n et f l h = n lh n +h f l+ = n l+ n Fréquences conjointes proches des produits des fréquences marginales f hl = n lh n f +hf l+ = n +h n l+ n n Statistique de test : D χ 2 = r l=1 c h=1 (f lh f l+ f +h ) 2 f l+ f +h = r l=1 c h=1 n 2 lh n l+ n +h 1 n grand ( n +hn l+ n > 5), nd χ 2 approchée par un χ 2 à (r 1)(c 1) ddl

sur un échantillon sur deux échantillons d ajustement Droite de Henri ou QQ-plot Visualiser le caractère gaussien d une distribution dans une échelle gausso-arithmétique Fonction inverse de la fonction de répartition de la loi gaussienne Répartition empirique d une gaussienne devient linéaire Droite de Henri associée à une série de notes : 3,7,7,10,11,11,15,15,16,18

sur un échantillon sur deux échantillons d ajustement

sur un échantillon sur deux échantillons d ajustement Test de Kolmogorov Tester que la loi des X i est continue (normale, exponentielle) H 0 : F = F th contre H 1 : F F th Fonction de répartition empirique pour le n-échantillon (X 1,..., X n ) F n (t) = 1 n n i=1 1 {X i t} = 0 si t < x (1) i n si x (i 1) t < x (i) 1 si t > x n Statistique de test : D n = sup t R F n (t) F th (t) Rejet de H 0 P H0 ( supt R F n (t) F th (t) > D n,obs ) < α Loi de D n tabulée ou calcul de la probabilité critique Kolmogorov préférable au χ 2 (découpage en classe)

sur un échantillon sur deux échantillons d ajustement

Test de Wilcoxon-Mann-Whitney pour deux échantillons indépendants Hypothèse (normalité, binomiale) non vérifiée et n petit Principe : deux séries de valeurs mélangées et ordonnées par valeurs croissantes doivent conduire à un mélance homogène si H0 (identité des distributions) est vérifiée Deux échantillons (x 1,..., x n ) et (y 1,..., y m ) Les suites sont fusionnées et ordonnées R 1 (R 2 ) désigne la somme des rangs de l échantillon 1 (échantillon 2) { } U = min U 1 = nm + n(n+1) 2 R 1 ; U 1 = nm + m(m+1) 2 R 2 Loi de U tabulée (n, m < 16) ou approchée par N ((nm + 1)/2, nm(n + m + 1)/12)

Test de Wilcoxon pour échantillons appariés (x i, y i ) n paires d observations de X et Y sur le même échantillon (d 1,...d n ) suite des différences ordonnées par ordre croissant des valeurs absolues d i R + (R ) somme des rangs correspondants aux valeurs positives (négatives) R = min(r +, R ) Si d i = 0, l effectif n est réduit d une unité et en cas d ex-æquo, le rang moyen est utilisé La loi de la statistique R est tabulée ou approchée par N (n(n + 1)/4, n(n + 1)(2n + 1)/24) Test de Wilcoxon plus puissant que celui dit des signes

Test de Kruskal-Wallis pour plusieurs échantillons Généralisation à m échantillons de Wilcoxon-Mann-Whitney Chaque observation x i,k appartenant à l un k des m échantillons et est remplacée par son rang r i,k dans la suite ordonnée de toutes les valeurs Moyenne globale des rangs : r = (n + 1)/2 Moyenne des rangs de l échantillon k : r k H = 12 m n(n+1) k=1 n k(r k r) 2 = 12 m Sk 2 n(n+1) k=1 n k 3(n + 1) S k somme des ranks du kème échantillon, n k l effectif Loi de H tabulée ou approchée par une loi du chi-deux à (m 1) degrés de liberté