Les tests statistiques élémentaires avec R

Les tests statistiques élémentaires avec R Loïc PONGER MNHN CNRS UMR 7196 INSERM U565 16 mars 2016

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

List of functions Qualitative data Means or medians comparison Student test : t.test() or pairwise.t.test() Wilcoxon (Mann-Whitney) test : wilcox.test() or pairwise.wilcox.test() ANOVA and Tukey test : aov(), TukeyHSD() Kruskal-Wallis test : kruskal.test() Correlation of quantitative data Pearson test : cor.test() Spearman test : cor.test() Correlation χ 2 (between two qual. variable) : chisq.test() Adequation χ 2 test (for a qual. data and a theorical distribution) : chisq.test() Variance comparison Fisher-Snedecor test : var.test() Bartlett test : bartlett.test() Normality Shapiro-Wilk test : shapiro.test() Other Kolmogorov-Smirnov test : ks.test()

Remarques Plan List of functions Which test to compare means or medians? Parametric or non-parametric test? Among the parametric tests... Among the non-parametric tests... How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques

Parametric or non-parametric tests Parametric tests have more power than the equivalent non-parametric tests because they make some assumptions about the probability distributions of the variables. But they cannot be used if these assumptions are not verified. Non-parametric tests make no assumptions about the data so they can be used in all the cases without any risk. However they have less power than parametric tests. By the way... a test with less power will require a larger sample size to draw conclusions with the same degree of confidence. In other words, a test with less power will not be significant if the difference if small.

Quantitative data : to compare mean or median data type? Continue discrete w. huge range Ranks discrete w. small range I don t care sample size? Big Medium Small Data normality? yes no Parametric tests Non parametric tests

Big, medium or small samples Big A statistical theory, known as the central limit theorem, has shown that if the dataset is big enough (infinity?!), you can apply a parametric test, even if your data are not normally distributed. In practical cases, infinity is approximated by... 30... Not big If the dataset is not big enough and the parametric tests can be used if, and only if, the data are normaly distributed : Medium In this case, the normality of the data can be checked by a statistical test (by a Shapiro test or a qqplot for example). If the data are normally distributed, a parametric test can be applied. If not, a non-parametric have to be used. Small In the dataset is small (less than 15), there is not enough data to check the normality of the dataset and non-parametric tests have to be used.

parametric tests : mean comparison sample number? One sample and theorical mean Two samples Two or more samples Paired data? yes no ANOVA Homoscedasticity? Significant? yes no yes Student test for one sample Student test for two paired samples Post-hoc tests : TukeyHSD test or pairwise Student test Student test for two independant samples Welch test for two independant samples

non-parametric tests : median/rank comparison sample number? One sample and theorical median Two samples Two or more samples Paired data? yes no Kruskal-Wallis test Significant? yes Wicolxon test for one sample Wicolxon test for two paired samples Wicolxon test for two independant samples Post-hoc tests : pairwise Wilcoxon test

ANOVA vs. Kruskal-Wallis test In R, the validity of the ANOVA has to be checked from the residuals available from the oav object : homoscedasticity by using a Bartlett test (bartlett.test()) normality by using a Shapiro test (shapiro.test())... if at least one of these tests is significant the ANOVA should be replaced by a Kruskall-Wallis test.

Correlation tests qualitatives data : independance χ 2 test quantitatives and continue data : Normality : Pearson test No normality : Spearman test quantitative rank/discrete data : Spearman test

Tests for qualitative data Two qualitatives variables : independance χ 2 test One qualitative variable and one theorical distribution : adequation χ 2 test

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test de Student pour un échantillon 1. Comparaison d une moyenne observée à une valeur théorique 2. Conditions d application : X doit être distribuée selon une loi normale (théorème central limite). 3. En pratique :. n est grand (n > 30) ou...... la normalité des données est vérifiée 4. Hypothèses : HO : µ == µ 0 H 1 : µ µ 0 ( two.sided ), µ < µ 0 ( less ) ou µ > µ 0 ( greater ) 5. Statistique : sous H O,...... t = x µ 0 s suit une loi de Student à n 1 ddl n 1

Test de Student pour deux échantillons appariés 1. Comparaison des moyennes de deux échantillons appariés. 2. Préambule : calcul des différences de toutes les paires (Y = X 1 X 2 ), calcul de la moyenne des différences (Ȳ ), calcul de la variance des différences (s 2 Y ) 3. Condition d application : Ȳ doit être distribuée selon une loi normale (théorème central limite). n est grand (n > 30) ou...... la normalité des données (Y ) est vérifiée 4. Hypothèses : HO : µ 1 == µ 2 H1 : µ 1 µ 2 ( two.sided ), µ 1 < µ 2 ( less ) ou µ 1 > µ 2 ( greater ) 5. Statistique : sous H O,...... t = ȳ 0 sy n 1 suit une loi de Student à n 1 ddl

Test de Student pour deux échantillons indépendants 1. Conditions d utilisation : X 1 et X 2 doivent être distribuées selon une loi normale (théorème central limite). n1 et n 2 sont grands (n > 30) ou...... la normalité des données (X 1 et X 2 ) est vérifiée 2. Hypothèses : H O : µ 1 == µ 2 H1 : µ 1 µ 2 ( two.sided ), µ 1 < µ 2 ( less ) ou µ 1 > µ 2 ( greater ) 3. Statistique : Sous H 0,... Si les variances sont égales (test de Student sensus stricto), t = x1 x2 avec s = (n1 1)s1 2+(n2 1)s2 2 s ( 1 n + 1 1 n ) 1+n 2 2) suit une loi de 2 Student à n 1 + n 2 2ddl Si les variances sont différentes (test de Welch), t = x 1 x 2 s s 2 avec s = 1 n 1 + s2 2 (n 2 suit une loi de Student à (s 2 1 /n1+s2 2 /n2)2 (s1 2/n1)2 /(n 1 1)+(s2 2/n2)2 /(n ddl 2 1)

Test de Wilcoxon pour un échantillon 1. Comparaison d une médiane observée et d une valeur théorique 2. Hypothèses : HO : med == med 0 H1 : med med 0 ( two.sided ), med < med 0 ( less ) ou med > med 0 ( greater ) 3. Statistique : À chaque Xi, on associe sa valeur absolue Z i = X i med 0 On classe les Z i et à chaque Z i, on associe son rang R i On calcule V = R i pour tous les i tel que X i > med 0 Sous H0 et n petit, V suit une loi de distribution connue (dépendant de n) Sous H0 et n grand, Z = V E(V ) sqrt(v (V )) suit une loi normale centrée réduite avec n = n 1 + n 2, E(V ) = n(n+1) 4 (somme des rangs : n(n+1) ) et V (V ) = n(n+1)(2n+1) 2 24

Test de Wilcoxon pour deux échantillons appariés 1. Comparaison des médianes de deux échantillons appariés 2. Hypothèses : H O : med 1 == med 2 H 1 : med 1 med 2 ( two.sided ), med 1 < med 2 ( less ) ou med 1 > med 2 ( greater ) 3. Statistique : On calcule la différence entre les éléments de chaque paire X i = A i B i puis on compare les différences à 0 (test de Wilcoxon pour un échantillon). On calcule V = Ri pour tous les i tel que X i > 0 Sous H0 et n petit, V suit une loi de distribution connue (dépendant de n) Sous H 0 et n grand, Z = V E(V ) n(n+1) sqrt(v (V )), avec E(V ) = 4 (somme des rangs : n(n+1) 2 ) et V (V ) = n(n+1)(2n+1) 24, suit une loi normale centrée réduite

Test de Wilcoxon pour deux échantillons indépendants 1. Comparaison des médianes de deux échantillons indépendants 2. Hypothèses : HO : med 1 == med 2 H 1 : med 1 med 2 ( two.sided ), med 1 < med 2 ( less ) ou med 1 > med 2 ( greater ) 3. Statistique : On réunit et on ordonne les valeurs de X 1 et de X 2. À chaque valeur, on associe son rang. On calcule W la somme des rangs des valeurs de X1 Sous H0 et n petit, W suit une loi de distribution connue (dépendant de n) Sous H0 et n grand, Z = W E(W ) sqrt(v (X )) suit une loi normale centrée réduite avec n = n 1 + n 2, E(W ) = n(n+1) 4 V (W ) = n(n+1)(2n+1) 24 (somme des rangs : n(n+1) ) et 2

L analyse de variance 1. Comparaison de k moyennes issues de k échantillons indépendants 2. Hypothèses : HO : toutes les moyennes sont égales H 1 : au moins deux moyennes sont différentes 3. Statistique : Calcul des variances intergroupe et intragroupe (ou résiduelle) Calcul du rapport F = inter/intra Sous H 0, F suit une loi de Fischer à k 1 et n k ddl 4. Validation du modèle : normalité des résidus homoscédasticité des résidus

Test de Tukey HSD 1. Comparaison multiple de moyennes, correction pour les comparaisons multiples (α) 2. Conditions d application : normalité et homoscédasticité des variables 3. Hypothèse : H 0 : les moyennes sont égales 4. Statistique : sous H 0, Q a,b = max( X a, X b ) min( X a, X b ) SE suit une loi des étendues studentisées avec SE, l écart type des variables étudiées (écart type résiduel)

Test de Kruskal-Wallis 1. Comparaison de k médianes 2. Hypothèse : HO : toutes les médianes sont égales H1 : aux moins deux médianes sont différentes 12 3. Statistique : sous H 0, H = N (N+1) Ri 2 n i approximativement une loi de χ 2 à k-1 ddl 3 (n + 1) suit

Test du χ 2 d indépendance 1. Tester la corrélation ou l indépendance de deux variables quantitatives ayant n et p modalités 2. Conditions d application : les Eff theo doivent être supérieurs à 5, sinon faire des simulations (ou voir le test exact de Fischer) 3. Hypothèses : HO : les deux variables sont indépendantes H1 : les deux variables ne sont pas indépendantes 4. Statistique : χ 2 = (Eff obs Eff theo ) 2 Eff theo (n 1) (p 1) ddl suit une loi de χ 2 à

Test du χ 2 d ajustement 1. Tester l ajustement à une loi théorique donnée 1 2. Conditions d application : les Eff theo doivent être supérieurs à 5, sinon faire des simulations (ou voir le test exact de Fischer) 3. Hypothèses : H O : les observations suivent la loi théorique H 1 : les observations ne suivent pas la loi théorique 4. Statistique : χ 2 = (Eff obs Eff theo ) 2 Eff theo (n 1) ddl suit une loi de χ 2 à 1. Attention les paramètres de la loi ne doivent pas être estimés à partir des données, sinon il faut corriger le nombre de ddl.

Test de Pearson 1. Tester la présence d une corrélation linéaire entre deux variables 2. Conditions d application : normalité des variables, lien linéaire entre les variables 3. Hypothèses : HO : r == 0 H1 : r 0 4. Statistique : sous H 0, t = r 1 r 2 ddl n 2 suit une loi de Student à n-2

Test de Spearman 1. Tester la présence d une corrélation entre deux variables 2. Hypothèses : HO : r == 0 H 1 : r 0, r < 0 ou r > 0 3. Statistique : sous H 0,......, si n est petit, r = 1 6 d 2 i n(n 2 1) suit un loi déterminée...., si n est grand, Z = r E(r) suit une loi normale V (r) centrée-réduite. avec d i étant la différence de rang entre les x i et les y i, E(r) = 0 et V (r) = 1/(n 1)

Test de Shapiro-Wilk 1. Tester la normalité d une distribution 2. Hypothèses : HO : La distribution des X suit une loi normale H 1 : La distribution des X ne suit pas une loi normale 3. Statistique : les valeurs sont ordonnées (xi, valeur de rang i), pour chaque x i, une valeur a i correspondant à la valeur attendue sous l hyp. H 0 est calculée. La statistique du test est : W = ( n i=1 a i x i ) 2 n i=1 (x i x) 2 (le rapport des étendues partielles et des carrés des écarts à la moyenne) Cette statistique est liée au graphique quantile-quantile. Plus W est petit, plus la distribution de la variable X s éloigne d une distribution normale.

Test de Fischer-Snedecor 1. Comparer les variances de deux échantillons 2. Hypothèses : H O : σ 1 == σ 2 H 1 : σ 1 σ 2 3. Statistique : Sous H 0,...... F = σ 1 /σ 2 suit une loi de Fischer à n 1 1 et n 2 1 ddl

Test de Bartlett 1. Comparer les variances de k échantillons 2. Condition d application : les variables doivent être distribuées selon la loi normale 3. Hypothèse : HO : les k σ i sont égaux H1 : au moins deux σ i sont différents 4. Statistique : Sous H 0,...... χ 2 =... suit une loi du chi 2 à k 1 ddl Note : il existe d autres tests (Levene, Log-anova,Cochran,...)

Test de Kolmogorov-Smirnov Principes 1. Ce test consiste à calculer la différence maximale existant entre les distributions de fréquences relatives cumulées (dfrc) de deux échantillons 2. Hypothèses : HO : les dfrc de X 1 et de X 2 sont identiques H1 : les dfrc de X 1 et de X 2 sont différentes, la dfrc de X 1 est plus faible que celle de X 2, la dfrc de X 1 est plus élevée que celle de X 2 3. Statistique : sous H 0, la statistique est : D = max(f X 1 F X 2 ) est suit une loi particulière

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

t.test() x valeurs du premier échantillon y valeurs du second échantillon (si nécessaire) mu moyenne de référence (un seul échantillon) paired pour échantillons appariés var.equal test de Student ou test de Welch alternative test unilatéral ou bilatéral mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(3,5,8,5,6,7) mesvaleurs3=c(2,4,7,3,7,6) t.test(x=mesvaleurs1,y=mesvaleurs2, paired=f, alternative="two.sided") t.test(x=mesvaleurs2,mu=5,alternative="greater") t.test(x=mesvaleurs2,y=mesvaleurs3, paired=t)

wilcox.test() x valeurs du premier échantillon y valeurs du second échantillon (si nécessaire) mu médiane de référence (un seul échantillon) paired pour échantillons appariés alternative test unilatéral ou bilatéral exact pour n petit, calcule la p-value selon la table, sinon approx. normale mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(3,5,8,5,6,7) mesvaleurs3=c(2,4,7,3,7,6) wilcox.test(x=mesvaleurs1,y=mesvaleurs2, paired=f, alternative="two.sided") wilcox.test(x=mesvaleurs2,mu=5,alternative="greater") wilcox.test(x=mesvaleurs2,y=mesvaleurs3, paired=t)

aov() et TukeyHSD() aov() x valeurs numériques y groupes TukeyHSD() x un objet de type aov mesvaleurs=c(1,4,5,3,6,3,6) mesgroupes=factor(c("a","a","b","b","c","c","c")) myanova=aov(mesvaleurs~mesgroupes) #test de normalité des résidus shapiro.test(myanova$residuals) #test d'homoscédasticité des résidus bartlett.test(myanova$residuals,mesgroupes) #test des contrastes TukeyHSD(myanova)

kruskal.test() valeurs et groupes x un vecteur avec toutes les valeurs numériques g les groupes (même longueur que x) mesvaleurs=c(1,4,5,3,6,3,6) mesgroupes=factor(c("a","a","b","b","c","c","c")) kruskal.test(x=mesvaleurs,g=mesgroupes) liste de vecteurs de valeurs x une liste de vecteurs contenant les valeurs des différentes groupes A=c(1,4) B=c(5,3) C=c(6,3,6) kruskal.test(x=list(a,b,c))

chisq.test() Test d indépendance x le tableau des observations simulate.p.value pour faire des simulation si petits effectifs data=matrix(c(10,20,30,40), by.row=t) chisq.test(x=data,simulate.p.value=true) Test d ajustement x le vecteur des observations p le vecteur des fréquences théoriques data=c(23,34,56,65) freq=c(0.1,0.2,0.4,0.3) chisq.test(x=data,p=freq)

cor.test() formula une formule décrivant la relation entre les Y et les X method pearson ou spearman mesx=c(1,4,5,3,6,3,6) mesy=c(2,4,6,2,7,5,7) cor.test(mesy~mesx,method="pearson")

ks.test() x un vecteur avec les valeurs numériques de la première distribution y un vecteur avec les valeurs numériques de la seconde distribution alternative test unilatéral ou bilatéral mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(1,1,4,2,4,3,5,3,6) ks.test(x=mesvaleurs1,y=mesvaleurs2)

Glycémie Problème On a mesuré la glycémie (en g/l) chez 21 patients (fichier gly.dat). Est-ce que le taux de glucose de ces patients diffère de la valeur de référence, 1 g/l? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Anorexie Problème Dans le cadre d une étude dont le but est de trouver un remède à l anorexie, on a mesuré le poid de 46 jeunes filles anorexiques avant et après un traitement (fichier anorexic.dat, données issues de Larry Winner s web site). La moyenne passe de 82,89 lb à 87,47 lb (1 lb = 0,45 kg). Est-ce que le traitement à un effet significatif sur le poids des jeunes filles? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Pois Problème Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). Mendel a croisé des pois jaunes et ronds (caractères dominants) et obtient dans la descendance les graines suivantes : jaunes+rondes, 315 ; jaunes+ridées, 101 ; vertes+rondes, 108 ; vertes+ridées, 32. Mendel a proposé que la distribution des caractères dans la descendance devrait être 9/16, 3/16, 3/16 et 1/16 respectivement. Peut-on valider sa théorie? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Canidés Problème Des chercheurs étudient la phylogénie des canidés en comparant des données morphométriques (largeur de la mandibule, en cm) de chiens modernes de Thaïlande à celles des loups indiens (fichier loup.dat). Ces données suggèrent-elles une différence de la largeur de la mandibule entre les chiens thaïs et les loups indiens? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Oeufs de coucous Problème On a mesuré la longueur des oeufs de coucous présents dans les nids de 6 espèces d oiseaux. Y a t-il une différence de variance entre les groupes (fichier cuckoo.dat)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Aspirine Problème On a étudié 2 l effet de l aspirine sur la probabilité d avoir un infarctus du myocarde. Ainsi, au sein de 11037 personnes qui ont eu de l aspirine, 104 ont subit un infarctus. Parallèlement, parmi les 11034 personnes ayant eu un placebo, 189 ont subit un infarctus. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question 2. issu de Physicians Health Study (1988 NEJM 318 : 262-264)

Mathématiques et géographie Problème On a relevé les notes de 50 étudiants dans deux matières différentes : les mathématiques et la géographie. Y a t il un lien entre les notes observées dans ces deux matières (fichier math_geo.dat)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Oeufs de drosophiles Problème On dispose des oeufs de drosophiles élevées dans 4 températures différentes (fichier oeuf_droso.dat). Y a t il un effet de la température sur la longueur des oeufs? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Nombres (pseudo-)aléatoires Problème On a utilisé 5 méthodes différentes pour générer 1000 nombres pseudo-aléatoires (fichier random.dat). Est-ce qu il y a des différences entre ces méthodes? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Nascar Problème On dispose des statistiques des courses de Nascard de 1975 à 2003 (fichier nascard.dat). On souhaite connaître les noms des différents constructeurs ayant gagné une course et si le nombre de victoire pour chaque constructeur diffère de l aléatoire. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Cerveaux et QI Problème On dispose des mensurations de 40 cerveaux et du QI correspondant pour des hommes et des femmes (fichier brain_size_iq.dat). Est-ce qu il y a un effet du genre sur le poids du cerveau (Weight)? Est-ce qu il y a un lien entre le poids du cerveau et le QI (FSIQ)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Le Titanic Problème On dispose d un tableau comprenant pour chaque personne à bord de la classe (0 = crew, 1 = first, 2 = second, 3 = third), l âge (1 = adult, 0 = child), le sexe (1 = male, 0 = female) et s il a survécu au naufrage (1 = yes, 0 = no). En testant individuellement chaque variable, indiquées celles qui sont liées à la survie. Le fichier s appelle titanic.xls. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer les tests permettant de répondre à la question

Test uni ou bilatéral? La réponse à cette question dépend du but initial des travaux. La question se pose avant de faire les mesures sur l échantillon. Prenons un exemple : une rumeur annonce que les prix ont augmenté avec le changement de monnaie. Le gouvernement décide de vérifier cette rumeur et de comparer les prix de 40 produits avant et après le changement de monnaie. Il peut faire pour cela un test unilatéral : cas 1 La moyenne avant est de 34 équivalent euros et la moyenne après est de 45 euros. On fera donc un test unilatéral pour tester le bien fondé de cette rumeur cas 2 La moyenne avant est de 54 équivalent euros et la moyenne après est de 45 euros. On ne fera pas de test. En décidant de faire un test unilatéral, le gouvernement s interdit de tester une baisse potentielle des prix. Attention : ceci est un point important car pour les mêmes données, un test unilatéral divise par deux la valeur de la probabilité!!