Quelques tests liés aux variables discrètes

Documents pareils
distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Lire ; Compter ; Tester... avec R

Un exemple de régression logistique sous

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Introduction à la statistique non paramétrique

VI. Tests non paramétriques sur un échantillon

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Introduction aux Statistiques et à l utilisation du logiciel R

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités sur un univers fini

Initiation à l analyse en composantes principales

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Biostatistiques : Petits effectifs

Analyse des correspondances avec colonne de référence

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Feuille d exercices 2 : Espaces probabilisés

Chapitre 3. Les distributions à deux variables

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Principe de symétrisation pour la construction d un test adaptatif

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Analyse de la variance Comparaison de plusieurs moyennes

Données longitudinales et modèles de survie

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

La simulation probabiliste avec Excel

Modèles pour données répétées

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

Corrigé des TD 1 à 5

Programmation linéaire

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Texte Agrégation limitée par diffusion interne

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Probabilités sur un univers fini

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Data issues in species monitoring: where are the traps?

Lois de probabilité. Anita Burgun

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Extraction d information des bases de séquences biologiques avec R

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

PROBABILITÉS CONDITIONNELLES

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

I. Cas de l équiprobabilité

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Résolution d équations non linéaires

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

La pratique du coaching en France. Baromètre 2010

P1 : Corrigés des exercices

INF6304 Interfaces Intelligentes

Exemple PLS avec SAS

PROBABILITES ET STATISTIQUE I&II

Introduction à l approche bootstrap

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

Programmes des classes préparatoires aux Grandes Ecoles

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Principe d un test statistique

Objets Combinatoires élementaires

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

CHAPITRE 5. Stratégies Mixtes

Construction d un cercle tangent à deux cercles donnés.

Exercices sur le chapitre «Probabilités»

1 Première section: La construction générale

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Etude des propriétés empiriques du lasso par simulations

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Mesure et gestion des risques d assurance

Probabilités conditionnelles Loi binomiale

Fluctuation d une fréquence selon les échantillons - Probabilités

FIMA, 7 juillet 2005

Modèles et simulations informatiques des problèmes de coopération entre agents

FORMULAIRE DE STATISTIQUES

Cours Informatique Master STEP

Simulation de variables aléatoires

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Transcription:

Fiche TD avec le logiciel : tdr321 Quelques tests liés aux variables discrètes D Chessel, AB Dufour & JR Lobry Khi2 de contingence, test exact de Fisher, test de McNemar : quelques exemples Table des matières 1 Quelques rappels 2 11 La table de contingence observée 2 12 Le Chi-Deux de Contingence 2 13 Indices descriptifs 3 14 Le test du Chi-Deux de Contingence 3 2 Exemples 7 21 Enquête sociologique 7 22 Latéralité manuelle 9 23 Tennis et badminton : le test exact de Fisher[3] 10 24 Avec ou sans bruit : test de McNemar[4] 13 Références 15 1

D Chessel, AB Dufour & JR Lobry 1 Quelques rappels 11 La table de contingence observée Soient A et B, deux variables qualitatives ayant respectivement p et q modalités Soit n, le nombre d individus sur lesquels A et B ont été observées La table de contingence observée est un tableau croisé où les colonnes correspondent aux q modalités de la variable B et les lignes aux p modalités de la variable A On note n ij le nombre d individus possédant à la fois la modalité i de la variable A et la modalité j de la variable B Remarques : B1 B2 Bj Bq total A1 n 11 n 12 n 1j n 1q n 1 A2 n 21 n 22 n 2j n 2q n 2 Ai n i1 n i2 n ij n iq n i Ap n p1 n p2 n pj n pq n p total n 1 n 2 n j n q n - les sommes marginales lignes sont n i = q n ij j=1 - les sommes marginales colonnes sont n j = p n ij i=1 - Les totaux des lignes sont identiques aux fréquences absolues issues de l étude univariée de A - Les totaux des colonnes sont identiques aux fréquences absolues issues de l étude univariée de B - Les sommes marginales sont liées entre elles par n = n = q n j = p j=1 n i i=1 - L ordre d entrée des variables dans la table de contingence n a aucune importance Mais on peut privilégier une des variables en constituant un tableau de profils associés aux lignes (respectivement aux colonnes) - Le tableau des profils lignes (respectivement colonnes) est défini par les fréquences conditionnelles : nij n i (respectivement nij (respectivement colonnes) est alors ramenée à l unité 12 Le Chi-Deux de Contingence n j ) La somme de chaque ligne Afin de mesurer l intensité de la relation entre deux variables qualitatives, on calcule un paramètre statistique appelé Chi-deux, lié à la loi de probabilité notée χ 2 Pour éviter les confusions, on utilisera la notation χ 2 obs pour la statistique calculée à partir des observations et χ 2 pour désigner la loi (χ 2 n pour un χ 2 à n degrés de liberté) La statistique χ 2 obs permet de comparer les valeurs de la table de contingence observée avec les valeurs d une table de contingence théorique Les données de la table de contingence théorique sont définies par : - les sommes marginales lignes sont identiques à celles de la table observée ; - les sommes marginales colonnes sont identiques à celles de la table observée ; Logiciel R version 261 (2007-11-26) tdr321rnw Page 2/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry - le nombre d individus possédant à la fois la modalité i de la variable A et la modalité j de la variable B est ni n j n La valeur du Chi-Deux est définie par χ 2 obs = p i=1 j=1 ( q nij ni n j n i n j n Si χ 2 obs = 0, il y a indépendance entre les variables A et B Si χ2 obs est petit, les effectifs observés sont presque identiques aux effectifs théoriques Les deux variables sont peu liées entre elles Si χ 2 obs est grand, les effectifs observés sont différents des effectifs théoriques Les deux variables sont liées entre elles Afin d évaluer le degré de relation entre les deux variables qualitatives, divers indices ont été proposés Une valeur proche de 0 caractérise l indépendance Une valeur proche du maximum de l indice caractérise la liaison fonctionnelle 13 Indices descriptifs Le coefficient de contingence de Pearson est C = n ) 2 χ 2 obs χ 2 obs +n Le nombre de lignes et de colonnes de la table de contingence détermine la valeur k 1 k maximale de C Elle est égale à où k = min(p, q) et reste toujours inférieure à 1 Le coefficient de Tschuprow est T = Il ne peut atteindre 1 χ 2 obs n (p 1)(q 1) que pour les tableaux carrés Et il n est comparable que pour des tableaux de même taille χ Le coefficient de Cramer : V = 2 obs n min(p 1,q 1) Ce coefficient est le seul qui soit normé (maximum égale à 1) quelle que soit la dimension de la table de contingence 14 Le test du Chi-Deux de Contingence Le test du Chi-Deux est destiné à décider si la valeur observée est compatible avec la variabilité aléatoire d un tirage sur deux variables indépendantes Il est fondé sur la loi multinomiale qui induit la normalité approchée des fréquences observées dans chacune des cases de la table de contingence Reprenons encore une fois le raisonnement par simulation, introduit dans : http://pbiluniv-lyon1fr/r/tdr32pdf Supposons que la proportion de campeurs dans l ensemble des touristes, un jour précis dans une station donnée, soit de 1 3 et que les touristes soient de trois nationalités, disons Français pour la moitié, Allemands pour 1 4 et Hollandais pour la même proportion Si on interroge 100 touristes au hasard on aura en gros une moitié de Français, un quart d Allemands et un quart de Hollandais Si le mode de logement est indépendant de la nationalité on aura dans chaque catégorie un tiers en gros de campeurs On n aura jamais exactement 1667 touristes français campeurs La probabilité qu un touriste soit français est de 1 2 La probabilité qu un touriste soit campeur est de 1 3, la probabilité qu un touriste soit campeur français est de 1 6 Logiciel R version 261 (2007-11-26) tdr321rnw Page 3/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry On a une distribution de fréquences multinomiale à 6 catégories FC, FNC, AC, ANC, HC et HNC avec les probabilités ( 1 6, 1 3, 1 12, 1 6, 1 12, 1 6 ) table(sample(c("fc", "FNC", "AC", "ANC", "HC", "HNC"), 100, rep = T, prob = c(1/6, 1/3, 1/12, 1/6, 1/12, 1/6))) AC ANC FC FNC HC HNC 7 24 17 29 10 13 Chacun des effectifs suit une loi binomiale mais ces lois ne sont pas indépendantes car leur somme fait 100 (si une catégorie est bien représentée, une autre l est forcément moins) La variabilité autour du modèle, inhérente au tirage aléatoire est la variabilité d échantillonnage L écart entre l observation et l attendu mesuré par le χ 2 obs a lui-même une variabilité d échantillonnage proba <- c(1/6, 1/3, 1/12, 1/6, 1/12, 1/6) fun1 <- function(k) { w <- sample(c("fc", "FNC", "AC", "ANC", "HC", "HNC"), 100, rep = T, prob = proba) w <- factor(w, levels = c("fc", "FNC", "AC", "ANC", "HC", "HNC")) w <- asnumeric(table(w)) } w <- matrix(sapply(1:1000, fun1), nrow = 6) KO1 <- asnumeric(apply(w, 2, function(x) sum((x - 100 * proba)^2/100/proba))) hist(ko1, proba = T, nclass = 30, col = grey(09)) x0 <- seq(0, 20, le = 100) lines(x0, dchisq(x0, df = 5), lwd = 3, col = "red") lines(x0, dchisq(x0, df = 4), lty = 2) lines(x0, dchisq(x0, df = 6), lty = 2) Histogram of KO1 Density 000 005 010 015 0 5 10 15 KO1 Quand tous les paramètres sont connus, l écart suit une loi χ 2 5 Mais quand on les ignore, si on utilise les marges comme estimation des probabilités, il n en est rien Logiciel R version 261 (2007-11-26) tdr321rnw Page 4/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry KO2 <- asnumeric(apply(w, 2, function(x) chisqtest(matrix(x, nrow = 2))$statistic)) hist(ko2, proba = T, nclass = 30, col = grey(09)) lines(x0, dchisq(x0, df = 2), lwd = 3, col = "red") lines(x0, dchisq(x0, df = 1), lty = 2) lines(x0, dchisq(x0, df = 3), lty = 2) Histogram of KO2 Density 00 01 02 03 04 0 2 4 6 8 10 12 KO2 Le test consiste à replacer l obsevation par rapport à l ensemble des résultats aléatoires donc à préciser le caractère anormal de l observation par la probabilité critique : P (χ 2 (p 1)(q 1)) > χ2 obs) Si celle-ci est trop petite, l écart entre les données et le modèle est trop grand et l hypothèse d indépendance est rejetée Une littérature ancienne et abondante a longuement discuté des conditions d utilisation de la loi, sachant qu on utilise un théorème d approximation Il est logique d admettre que l approximation tient si chacune des variables qui permettent de la calculer, donc les effectifs par case, supporte l approximation normale Par exemple, ici, c est très vrai (justifier les calculs) : par(mfrow = c(1, 3)) hist(w[1, ], main = "FC", proba = T, col = grey(09), ylim = c(0, 015), nclass = 12, xlab = "") lines(x0 <- seq(min(w[1, ]), max(w[1, ]), le = 50), dnorm(x0, 100/6, sqrt(500/36)), lwd = 2) hist(w[2, ], main = "FNC", proba = T, col = grey(09), ylim = c(0, 015), nclass = 12, xlab = "") lines(x0 <- seq(min(w[2, ]), max(w[2, ]), le = 50), dnorm(x0, 100/3, sqrt(200/9)), lwd = 2) hist(w[5, ], main = "HNC", proba = T, col = grey(09), ylim = c(0, 015), nclass = 12, xlab = "") lines(x0 <- seq(min(w[5, ]), max(w[5, ]), le = 50), dnorm(x0, 50/6, sqrt(1100/144)), lwd = 2) Logiciel R version 261 (2007-11-26) tdr321rnw Page 5/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry FC FNC HNC Density 000 005 010 015 Density 000 005 010 015 Density 000 005 010 015 10 15 20 25 30 20 25 30 35 40 45 50 0 5 10 15 Mais évidemment ces variables ne sont pas indépendantes : signif(cor(t(w)), 3) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1000-0349 -0105-0201 -01450-02320 [2,] -0349 1000-0186 -0301-01770 -03000 [3,] -0105-0186 1000-0120 -01600-01700 [4,] -0201-0301 -0120 1000-01510 -02020 [5,] -0145-0177 -0160-0151 10000-00937 [6,] -0232-0300 -0170-0202 -00937 10000 Démontrer que cette matrice de corrélation a une valeur propre nulle Toutes les corrélations sont négatives car la somme des variables est constante C est encore beaucoup plus sensible si on fixe les marges de la table de contingence Dans ce cas, les variables dans chaque case sont hypergéométriques et les corrélations sont amplifiées (c est pourquoi on perd les degrés de liberté) : a <- w[, 1] campi <- rep(c("c", "NC", "C", "NC", "C", "NC"), a) natio <- rep(c("f", "F", "A", "A", "H", "H"), a) table(campi, natio) natio campi A F H C 13 15 5 NC 17 36 14 fun2 <- function(k) { return(asnumeric(table(campi, sample(natio, 100)))) } w <- matrix(sapply(1:1000, fun2), nrow = 6) signif(cor(t(w)), 3) [,1] [,2] [,3] [,4] [,5] [,6] [1,] 1000-1000 -0664 0664-0351 0351 [2,] -1000 1000 0664-0664 0351-0351 [3,] -0664 0664 1000-1000 -0467 0467 [4,] 0664-0664 -1000 1000 0467-0467 [5,] -0351 0351-0467 0467 1000-1000 [6,] 0351-0351 0467-0467 -1000 1000 Logiciel R version 261 (2007-11-26) tdr321rnw Page 6/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry Démontrer que cette matrice de corrélation a 4 valeurs propres nulles On a dit que pour appliquer un test du Chi-Deux, il faut que l effectif total n soit grand et que les effectifs théoriques soient tous supérieurs à 5 On a dit ensuite qu il faut que moins de 20% des effectifs théoriques soient inférieurs à 5 mais supérieurs à 1 Les conseils les plus célèbres sont ceux de WG Cochran[2] - si n < 20, il faut appliquer le test exact de Fisher - si 20 n < 40 et si les effectifs théoriques sont supérieurs ou égaux à 5, on peut réaliser le test du Chi-Deux avec la correction de continuité de Yates χ 2 c = p i=1 j=1 ( ) q nij ni n j 2 0, 5 n n i n j n En effet, les effectifs observés varient par saut d une unité et leur approximation à la loi Normale qui est continue, engendre une sur-évaluation systématique du Chi-Deux - si n 40 et si les proportions ne sont voisines ni de 0, ni de 1, alors on peut réaliser le test classique du Chi-Deux Ces conseils n ont plus qu un intérêt historique : en cas de doute, on fait 100000 simulations à marges fixées et on aura une idée précise du caractère non aléatoire de l observation 2 Exemples 21 Enquête sociologique Lors d une enquête[1] sur le tourisme et les pratiques de loisir en Ardèche, 2953 personnes ont été interrogées à l aide d un questionnaire bilingue français / anglais 592 d entre eux proviennent de la zone du moyen Vivarais Peut-on mettre en évidence une différence d âge entre campeurs et non campeurs? Campeurs Non Campeurs 16-19 ans 7 4 20-24 ans 43 21 25-29 ans 37 37 30-39 ans 99 78 40-49 ans 79 62 50-54 ans 19 25 55-59 ans 15 15 60-65 ans 9 15 Plus de 65 ans 2 24 Un individu manquant donne n = 591 pour une table de contingence avec p = 2 et q = 9 Saisir les données et faire des calculs élémentaires : noncampeur <- c(4, 21, 37, 78, 62, 25, 15, 15, 24) campeur <- c(7, 43, 37, 99, 79, 19, 15, 9, 2) client <- matrix(c(campeur, noncampeur), nrow = 9) nomligne = c("16-19", "20-24", "25-29", "30-39", "40-49", "50-54", "55-59", "60-65", "+65") nomcol = c("camping", "non_camping") rownames(client) <- nomligne colnames(client) <- nomcol totligne <- apply(client, 1, sum) totcol <- apply(client, 2, sum) Logiciel R version 261 (2007-11-26) tdr321rnw Page 7/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry ou encore : rowsums(client) 16-19 20-24 25-29 30-39 40-49 50-54 55-59 60-65 +65 11 64 74 177 141 44 30 24 26 colsums(client) camping non_camping 310 281 ou encore : margintable(client, 1) 16-19 20-24 25-29 30-39 40-49 50-54 55-59 60-65 +65 11 64 74 177 141 44 30 24 26 margintable(client, 2) camping non_camping 310 281 Calculer les statistiques descriptives χ 2 obs (3251), C (02283), T (01395) et V (02345) Exécuter le test du Khi2 Éditer les profils lignes et colonnes Éditer les profils théoriques Caractériser l écart entre les données et le modèle Quelques questions simples mais de fond quand on pratique : 1 Quel est la nature de l objet ttt? 2 Quel est le nombre de ses composantes? 3 Quels sont les noms des composantes? 4 Que signifie chacune des composantes? 5 Comment est calculée la composante residuals? 6 Donner la part de chaque classe d âge dans la constitution du χ 2 obs 7 A partir de quel âge le camping est-il vraiment délaissé? 8 Représenter le taux de campeurs en fonction de l âge 9 Représenter une des colonnes de résidus en fonction de l âge 10 Résumer le lien mis en évidence entre âge et mode de résidence des touristes en Ardèche Entre faire un test et analyser les données il y a un écart! Pour approfondir cet aspect, lire un article de fond[5] Plus difficile : chisqtest(client[-9, ]) Pearson's Chi-squared test data: client[-9, ] X-squared = 107239, df = 7, p-value = 01511 Commenter Pour lever la difficulté, on pourra recourir au modèle linéaire généralisé : x = 1:8 glm0 <- glm(client[-9, ] ~ 1 + x, family = binomial) summary(glm0) anova(glm0, test = "Chisq") Logiciel R version 261 (2007-11-26) tdr321rnw Page 8/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry 22 Latéralité manuelle On connaît pour 119 étudiants en Activités Physiques et Sportives (APS) et 88 étudiants en Biologie la main préférentielle d écriture : droite gauche total APS 101 18 119 Biologie 81 7 88 total 182 25 207 Éditer le tableau des profils lignes qui permet de répondre à la question : quelle est, pour chaque filière, la proportion de droitiers et de gauchers? Éditer le tableau des profils colonnes qui permet de répondre à la question : quelle est la répartition des droitiers (resp des gauchers) dans les deux filières? Calculer les statistiques descriptives χ 2 obs (1821), C (005543), T (003301) et V (005552) Lorsqu on a une table de contingence 2x2, le coefficient de Tschuprow est identique au coefficient de Cramer Du point de vue descriptif, les coefficients sont proches de 0 et il n existe pas de lien entre la main d écriture et la filière Au plan inférentiel, le test du Chi2 est ici un test de comparaison de proportion : chisqtest(matrix(c(101, 81, 18, 7), ncol = 2)) Pearson's Chi-squared test with Yates' data: matrix(c(101, 81, 18, 7), ncol = 2) X-squared = 18214, df = 1, p-value = 01771 continuity correction proptest(matrix(c(101, 81, 18, 7), ncol = 2)) 2-sample test for equality of proportions with continuity correction data: matrix(c(101, 81, 18, 7), ncol = 2) X-squared = 18214, df = 1, p-value = 01771 alternative hypothesis: twosided 95 percent confidence interval: -016727504 002384494 sample estimates: prop 1 prop 2 08487395 09204545 Le test de comparaison de deux proportions se retrouve facilement dans le cas d une table de contingence 2x2 Dans l exemple ci-dessus, supposons que l on désire comparer la proportion de gauchers dans chacune des deux populations d étudiants L hypothèse nulle est l identité des proportions La valeur de la statistique du test de comparaison de deux proportions est : f 1 f 2 z = ( ) 1 ˆp n 1 + 1 n 2 avec ˆp = k 1 + k 2 n 1 + n 2 avec n j, k j, f j (j = 1, 2) l effectif total, les fréquences absolue et relative du groupe j Analyser les composantes des deux objets Les deux tests donnent exactement le même résultat Mais le second est préférable au premier! POURQUOI? Logiciel R version 261 (2007-11-26) tdr321rnw Page 9/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry 23 Tennis et badminton : le test exact de Fisher[3] On considère une table de contingence 2x2 On note A et B les deux variables qualitatives observées sur n individus Lorsque les effectifs sont trop petits, on transforme l inconvénient des échantillons de petite taille en bénéfice en énumérant l ensemble des arrangements possibles des observations puis en calculant les probabilités exactes de chaque arrangement a b a + b c d c + d a + c b + d n Probabilité du test : La probabilité associée à la table de contingence observée est définie par : p = (a+b)!(c+d)!(a+c)!(b+d)! n!a!b!c!d! On calcule ensuite les probabilités des tables de contingence présentant des situations aussi extrêmes que celle observée : p j avec j = 1, m La probabilité critique finale est : P = m p j j=1 Exemple : on fait passer un test de réactivité visuelle à un groupe de 36 sportifs spécialistes soit de tennis, soit de badminton Le test se présente de la manière suivante Deux lampes sont placées à droite et à gauche du sujet Chaque lampe s allume de façon aléatoire, avec un temps d attente variable (entre 0,2s et 0,5s) Le sujet est assis, les mains sur les genoux Dès qu une lampe s allume, il doit frapper une plaque située en dessous de la lampe correspondante On considère qu un sujet a réussi le test lorsqu il a réalisé la bonne association (lumière, frappe) au moins 7 fois sur 10 Les résultats sont consignés dans la table de contingence ci-dessous Tennis Badminton Total Echec 4 2 6 Succès 16 14 30 Total 20 16 36 vision <- matrix(c(4, 16, 2, 14), 2, 2) dimnames(vision) <- list(c("echec", "succes"), c("tennis", "badminton")) res3 <- chisqtest(vision) res3$expected tennis badminton echec 3333333 2666667 succes 16666667 13333333 Remarque : On ne se sert ici du Chi-Deux que pour avoir la table des effectifs théoriques n = 36 et certains effectifs théoriques sont inférieurs à 5 On ne peut pas augmenter la taille de l échantillon On applique le test exact de Fisher Pour ce faire, on construit les tables de contingence des situations encore plus extrêmes que celle observée On repère l effectif le plus petit de la table de contingence (échec / badminton : 2) et on fait varier ce dernier jusqu à 0 On obtient deux possibilités : Tennis Badmington Total Echec 5 1 6 Succès 15 15 30 Total 20 16 36 Logiciel R version 261 (2007-11-26) tdr321rnw Page 10/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry Tennis Badmington Total Echec 6 0 6 Succès 14 16 30 Total 20 16 36 Hypergeometric package:stats R Documentation The Hypergeometric Distribution Description: Usage: Density, distribution function, quantile function and random generation for the hypergeometric distribution dhyper(x, m, n, k, log = FALSE) phyper(q, m, n, k, lowertail = TRUE, logp = FALSE) qhyper(p, m, n, k, lowertail = TRUE, logp = FALSE) rhyper(nn, m, n, k) Arguments: x, q: vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls m: the number of white balls in the urn n: the number of black balls in the urn k: the number of balls drawn from the urn p: probability, it must be between 0 and 1 nn: number of observations If 'length(nn) > 1', the length is taken to be the number required Il y a k = 6 boules tirées (échec) dans une urne avec m = 16 blanches (badminton) et n = 20 noires (tennis) il y a x = 0, 1, 2, 3, 4, 5, 6 blanches tirées (échec et tennis) et donc la loi complète est : dhyper(0:6, 16, 20, 6) [1] 0019899455 0127356514 0298491831 0327755736 0177534357 0044850785 [7] 0004111322 sum(dhyper(0:6, 16, 20, 6)) [1] 1 Vérifier en utilisant le formule explicite p = (a+b)!(c+d)!(a+c)!(b+d)! n!a!b!c!d! Donner la probabilité critique du test qui est par définition : Logiciel R version 261 (2007-11-26) tdr321rnw Page 11/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry [1] 04457478 On a directement ce résultat en utilisant la fonction fishertest Entrer la matrice 2*2 de manière à ce que la première valeur soit la variable à tester (les 4 tests possibles sont évidemment identiques) et utiliser l alternative less pour savoir si l observation est trop petite, greater pour savoir si elle est trop grande ou le défaut two side pour savoir si elle est anormale dans un sens ou dans l autre Ici, a priori nous n avons aucune raison de faire une hypothèse alternative précise et cet exercice est purement didactique fishertest(matrix(c(2, 14, 4, 16), 2, 2), alt = "less") Fisher's Exact Test for Count Data data: matrix(c(2, 14, 4, 16), 2, 2) p-value = 04457 alternative hypothesis: true odds ratio is less than 1 95 percent confidence interval: 0000000 3625182 sample estimates: odds ratio 05801421 fishertest(matrix(c(2, 14, 4, 16), 2, 2), alt = "greater") Fisher's Exact Test for Count Data data: matrix(c(2, 14, 4, 16), 2, 2) p-value = 08527 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 006840447 Inf sample estimates: odds ratio 05801421 fishertest(matrix(c(2, 14, 4, 16), 2, 2)) Fisher's Exact Test for Count Data data: matrix(c(2, 14, 4, 16), 2, 2) p-value = 06722 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 004585961 478653951 sample estimates: odds ratio 05801421 Retrouver ces valeurs avec la loi hypergéométrique : sum(dhyper(0:2, 16, 20, 6)) [1] 04457478 sum(dhyper(2:6, 16, 20, 6)) [1] 0852744 sum(dhyper(0:2, 16, 20, 6)) + sum(dhyper((4:6), 16, 20, 6)) Logiciel R version 261 (2007-11-26) tdr321rnw Page 12/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry [1] 06722443 A retenir : quand on fait un test bilatéral, le cas par défaut, on prend exactement le même nombre de valeurs extrêmes de chaque côté, ici 0-1-2 à gauche et 4-5-6 à droite Autre exemple : fishertest(matrix(c(0, 3, 6, 4), 2)) Fisher's Exact Test for Count Data data: matrix(c(0, 3, 6, 4), 2) p-value = 01923 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0000000 2577685 sample estimates: odds ratio 0 dhyper(0, 3, 10, 6) + dhyper(3, 3, 10, 6) [1] 01923077 24 Avec ou sans bruit : test de McNemar[4] Soit une variable qualitative binaire observée sur un échantillon de n individus dans deux conditions différentes On note S et E les deux modalités de la variable qualitative On obtient une table de contingence 2x2 Succès en condition 1 Échec en condition 1 Succès en condition 2 N SS N SE Échec en condition 2 N ES N EE Sur un tel tableau un χ 2 obs n a aucun sens Il sera d autant plus significatif qu il n y aura aucune signification expérimentale Oh le beau cas! Supposons par exemple qu un ensemble d individus soit formé de deux groupes Le premier réussit l épreuve imposée quoi qu il arrive, le second ne connaît que l échec en toute circonstance Si on fait l expérience dans deux conditions on obtient (on suppose en plus qu il y a eu une erreur de mesure!) : res <- matrix(c(12, 1, 0, 7), 2) dimnames(res) <- list(c("e", "S"), c("e", "S")) res E S E 12 0 S 1 7 fishertest(res)$pvalue [1] 00001031992 chisqtest(res)$pvalue [1] 00003990513 Logiciel R version 261 (2007-11-26) tdr321rnw Page 13/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry proptest(res)$pvalue [1] 00003990513 Un test très significatif pour dire que ceux qui sont bons sont bons et que ceux qui sont mauvais sont mauvais! Bravo En fait, on est dans un cas extrême de non indépendance des observations, le résultat des deux essais pour le même individu étant fortement corrélé Mais ce n est pas la question On demande si le changement de condition a eu un effet Le problème consiste à mettre en évidence une différence entre les deux situations On comprend que l individu réalisant le même score dans les deux conditions n apporte rien pour la comparaison ellemême Ce qui importe, ce sont les effectifs dans SE et ES L hypothèse nulle est que les deux conditions sont identiques vis à vis de la variable qualitative étudiée Si les deux conditions sont identiques, cela signifie que la répartition des individus entre ES et SE est la même Ceci nous donne un effectif théorique : N ES + N SE 2 Si l effectif théorique est supérieur à 5, on pense immédiatement au test du Chi-Deux : ( χ 2 NES ( N ES +N SE )) 2 ( 2 + NSE ( )) N ES +N SE 2 2 obs = ( NES ) +N SE 2 soit χ 2 = (N ES N SE ) 2 (N ES + N SE ) Avec la correction de continuité de Yates, on a : χ 2 = ( N ES N SE 1) 2 (N ES + N SE ) Comme on ignore les individus ayant répondu de la même façon dans les conditions, il n y a qu un degré de liberté à cette statistique du Chi-Deux On inclut généralement directement la correction de continuité de Yates Exemple : on fait passer un test de réactivité visuelle à un groupe de 118 sujets Chaque sujet passe le test dans deux conditions différentes : avec ou sans bruit dans la salle Le test se présente comme suit Deux lampes sont placées à droite et à gauche du sujet Chaque lampe s allume de façon aléatoire, avec un temps d attente variable (entre 02s et 05s) Le sujet est assis les mains sur les genoux Dès qu une lampe s allume, il doit frapper une plaque située en dessous de la lampe correspondante On considère qu un sujet a réussi le test lorsqu il a réalisé la bonne association lumière, frappe au moins 7 fois sur 10 avec Succès avec Échecs sans Succès 62 26 sans Échecs 7 23 Hypothèse H 0 : Qu il y ait ou non du bruit dans la salle, les sportifs réagissent de la même manière au test de réactivité visuelle Logiciel R version 261 (2007-11-26) tdr321rnw Page 14/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry bruit <- matrix(c(62, 7, 26, 23), nrow = 2) dimnames(bruit) <- list(c("s", "E"), c("s", "E")) bruit S E S 62 26 E 7 23 mcnemartest(bruit) McNemar's Chi-squared test with continuity correction data: bruit McNemar's chi-squared = 98182, df = 1, p-value = 0001728 Notons que le test exact est bien simple d accès Dans le sens succès avec bruit & échec sans bruit, on observe 7 cas Dans le sens échec avec bruit & succès sans bruit on observe 26 cas Évidemment le bruit est néfaste au résultat Mais supposons que nous ayons beaucoup moins d observations bruit <- matrix(c(12, 1, 7, 6), nrow = 2) dimnames(bruit) <- list(c("s", "E"), c("s", "E")) bruit S E S 12 7 E 1 6 mcnemartest(bruit) McNemar's Chi-squared test with continuity correction data: bruit McNemar's chi-squared = 3125, df = 1, p-value = 00771 Le résultat peut être amélioré en faisant directement le test unilatéral Nous avons 8 répétitions, X = 1 pour succès avec bruit & échec sans bruit et Y = 7 pour échec avec bruit & succès sans bruit La probabilité critique du test unilatéral de l hypothèse nulle le bruit n a pas d effet contre l alternative le bruit a un effet négatif est simplement : sum(dbinom(0:1, 8, 05)) [1] 003515625 On peut encore l appeler test de McNemar Mais on peut aussi retenir le raisonnement qu on emploiera à sa convenance sans qu on puisse toujours y mettre un nom Pour finir, un exercice célèbre : Variante 1 : dans une famille bien élevée de 3 enfants, chacun fait la vaisselle à son tour Au bout d un mois, il y a 4 assiettes cassées, 3 par le même et la dernière par un autre Peut-on dire qu il existe un enfant moins adroit que les autres? Variante 2 : dans une famille bien élevée de 3 enfants, chacun fait la vaisselle à son tour Au bout d un mois, il y a 4 assiettes cassées, 3 par le plus jeune et la dernière par un autre Peut-on dire que le petit n est pas encore aussi adroit que les autres? Logiciel R version 261 (2007-11-26) tdr321rnw Page 15/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf

D Chessel, AB Dufour & JR Lobry Références [1] P Chazaud, A-B Dufour, and B Vignal Vers une typologie des campeurs l exemple de l ardèche Cahiers Espaces, 36 :61 68, 1994 [2] WG Cochran Some methods for strenghening the common chi square tests Biometrics, 10 :417 451, 1954 [3] RA Fisher The logic of inductive inference Journal of the Royal Statistical Society Series A, 98 :39 54, 1935 [4] I McNemar Note on the sampling error of the difference between correlated proportions or percentages Psychometrika, 12 :153 157, 1947 [5] N G Yoccoz Use, overuse, and misuse of significance tests in evolutionary biology and ecology Bulletin of the Ecological Society of America, 72 :106 111, 1991 Logiciel R version 261 (2007-11-26) tdr321rnw Page 16/16 Compilé le 2008-01-28 Maintenance : S Penel, URL : http://pbiluniv-lyon1fr/r/fichestd/tdr321pdf