Les tests statistiques élémentaires avec R

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction à la statistique non paramétrique

Exemple PLS avec SAS

Introduction aux Statistiques et à l utilisation du logiciel R

Instructions Mozilla Thunderbird Page 1

Biostatistiques : Petits effectifs

Application Form/ Formulaire de demande

Analyse de la variance Comparaison de plusieurs moyennes

Lire ; Compter ; Tester... avec R

Le No.1 de l économie d énergie pour patinoires.

Paxton. ins Net2 desktop reader USB

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

POLICY: FREE MILK PROGRAM CODE: CS-4

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

APPENDIX 6 BONUS RING FORMAT

Once the installation is complete, you can delete the temporary Zip files..

Gestion des prestations Volontaire

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Estimation et tests statistiques, TD 5. Solutions

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

DOCUMENTATION - FRANCAIS... 2

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Stakeholder Feedback Form January 2013 Recirculation

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

WEB page builder and server for SCADA applications usable from a WEB navigator

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Principe de symétrisation pour la construction d un test adaptatif

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Bourses d excellence pour les masters orientés vers la recherche

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

This is a preview - click here to buy the full publication NORME INTERNATIONALE INTERNATIONAL STAN DARD. Telecontrol equipment and systems

How to Login to Career Page

Institut français des sciences et technologies des transports, de l aménagement

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

sur le réseau de distribution

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Garage Door Monitor Model 829LM

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Technologies quantiques & information quantique

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Introduction à l approche bootstrap

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

Contents Windows

Archived Content. Contenu archivé

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Improving the breakdown of the Central Credit Register data by category of enterprises

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

RÈGLEMENT SUR LES CEINTURES DE SÉCURITÉ ET LES ENSEMBLES DE RETENUE POUR ENFANTS R.R.T.N.-O. 1990, ch. M-35

Sécurité relative aux sièges auto et aux rehausseurs

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

1.The pronouns me, te, nous, and vous are object pronouns.

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Revision of hen1317-5: Technical improvements

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

Contrôle d'accès Access control. Notice technique / Technical Manual

GAME CONTENTS CONTENU DU JEU OBJECT OF THE GAME BUT DU JEU

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

86 rue Julie, Ormstown, Quebec J0S 1K0

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

UNIVERSITE DE YAOUNDE II

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

Notice Technique / Technical Manual

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Principe d un test statistique

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

FOURTH SESSION : "MRP & CRP"

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Innovation in Home Insurance: What Services are to be Developed and for what Trade Network?

Guide d'installation rapide TFM-560X YO.13

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Dis où ces gens vont d après les images / Tell where these people are going based on the pictures.

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

FCM 2015 ANNUAL CONFERENCE AND TRADE SHOW Terms and Conditions for Delegates and Companions Shaw Convention Centre, Edmonton, AB June 5 8, 2015

Forthcoming Database

Z-Axis Compliance Device Compliance en z

Spécial Catégorie 6 Patch Cords

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?


Transcription:

Les tests statistiques élémentaires avec R Loïc PONGER MNHN CNRS UMR 7196 INSERM U565 16 mars 2016

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

List of functions Qualitative data Means or medians comparison Student test : t.test() or pairwise.t.test() Wilcoxon (Mann-Whitney) test : wilcox.test() or pairwise.wilcox.test() ANOVA and Tukey test : aov(), TukeyHSD() Kruskal-Wallis test : kruskal.test() Correlation of quantitative data Pearson test : cor.test() Spearman test : cor.test() Correlation χ 2 (between two qual. variable) : chisq.test() Adequation χ 2 test (for a qual. data and a theorical distribution) : chisq.test() Variance comparison Fisher-Snedecor test : var.test() Bartlett test : bartlett.test() Normality Shapiro-Wilk test : shapiro.test() Other Kolmogorov-Smirnov test : ks.test()

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Remarques Plan List of functions Which test to compare means or medians? Parametric or non-parametric test? Among the parametric tests... Among the non-parametric tests... How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques

Parametric or non-parametric tests Parametric tests have more power than the equivalent non-parametric tests because they make some assumptions about the probability distributions of the variables. But they cannot be used if these assumptions are not verified. Non-parametric tests make no assumptions about the data so they can be used in all the cases without any risk. However they have less power than parametric tests. By the way... a test with less power will require a larger sample size to draw conclusions with the same degree of confidence. In other words, a test with less power will not be significant if the difference if small.

Quantitative data : to compare mean or median data type? Continue discrete w. huge range Ranks discrete w. small range I don t care sample size? Big Medium Small Data normality? yes no Parametric tests Non parametric tests

Big, medium or small samples Big A statistical theory, known as the central limit theorem, has shown that if the dataset is big enough (infinity?!), you can apply a parametric test, even if your data are not normally distributed. In practical cases, infinity is approximated by... 30... Not big If the dataset is not big enough and the parametric tests can be used if, and only if, the data are normaly distributed : Medium In this case, the normality of the data can be checked by a statistical test (by a Shapiro test or a qqplot for example). If the data are normally distributed, a parametric test can be applied. If not, a non-parametric have to be used. Small In the dataset is small (less than 15), there is not enough data to check the normality of the dataset and non-parametric tests have to be used.

Remarques Plan List of functions Which test to compare means or medians? Parametric or non-parametric test? Among the parametric tests... Among the non-parametric tests... How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques

parametric tests : mean comparison sample number? One sample and theorical mean Two samples Two or more samples Paired data? yes no ANOVA Homoscedasticity? Significant? yes no yes Student test for one sample Student test for two paired samples Post-hoc tests : TukeyHSD test or pairwise Student test Student test for two independant samples Welch test for two independant samples

Remarques Plan List of functions Which test to compare means or medians? Parametric or non-parametric test? Among the parametric tests... Among the non-parametric tests... How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques

non-parametric tests : median/rank comparison sample number? One sample and theorical median Two samples Two or more samples Paired data? yes no Kruskal-Wallis test Significant? yes Wicolxon test for one sample Wicolxon test for two paired samples Wicolxon test for two independant samples Post-hoc tests : pairwise Wilcoxon test

ANOVA vs. Kruskal-Wallis test In R, the validity of the ANOVA has to be checked from the residuals available from the oav object : homoscedasticity by using a Bartlett test (bartlett.test()) normality by using a Shapiro test (shapiro.test())... if at least one of these tests is significant the ANOVA should be replaced by a Kruskall-Wallis test.

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Correlation tests qualitatives data : independance χ 2 test quantitatives and continue data : Normality : Pearson test No normality : Spearman test quantitative rank/discrete data : Spearman test

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Tests for qualitative data Two qualitatives variables : independance χ 2 test One qualitative variable and one theorical distribution : adequation χ 2 test

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test de Student pour un échantillon 1. Comparaison d une moyenne observée à une valeur théorique 2. Conditions d application : X doit être distribuée selon une loi normale (théorème central limite). 3. En pratique :. n est grand (n > 30) ou...... la normalité des données est vérifiée 4. Hypothèses : HO : µ == µ 0 H 1 : µ µ 0 ( two.sided ), µ < µ 0 ( less ) ou µ > µ 0 ( greater ) 5. Statistique : sous H O,...... t = x µ 0 s suit une loi de Student à n 1 ddl n 1

Test de Student pour deux échantillons appariés 1. Comparaison des moyennes de deux échantillons appariés. 2. Préambule : calcul des différences de toutes les paires (Y = X 1 X 2 ), calcul de la moyenne des différences (Ȳ ), calcul de la variance des différences (s 2 Y ) 3. Condition d application : Ȳ doit être distribuée selon une loi normale (théorème central limite). n est grand (n > 30) ou...... la normalité des données (Y ) est vérifiée 4. Hypothèses : HO : µ 1 == µ 2 H1 : µ 1 µ 2 ( two.sided ), µ 1 < µ 2 ( less ) ou µ 1 > µ 2 ( greater ) 5. Statistique : sous H O,...... t = ȳ 0 sy n 1 suit une loi de Student à n 1 ddl

Test de Student pour deux échantillons indépendants 1. Conditions d utilisation : X 1 et X 2 doivent être distribuées selon une loi normale (théorème central limite). n1 et n 2 sont grands (n > 30) ou...... la normalité des données (X 1 et X 2 ) est vérifiée 2. Hypothèses : H O : µ 1 == µ 2 H1 : µ 1 µ 2 ( two.sided ), µ 1 < µ 2 ( less ) ou µ 1 > µ 2 ( greater ) 3. Statistique : Sous H 0,... Si les variances sont égales (test de Student sensus stricto), t = x1 x2 avec s = (n1 1)s1 2+(n2 1)s2 2 s ( 1 n + 1 1 n ) 1+n 2 2) suit une loi de 2 Student à n 1 + n 2 2ddl Si les variances sont différentes (test de Welch), t = x 1 x 2 s s 2 avec s = 1 n 1 + s2 2 (n 2 suit une loi de Student à (s 2 1 /n1+s2 2 /n2)2 (s1 2/n1)2 /(n 1 1)+(s2 2/n2)2 /(n ddl 2 1)

Test de Wilcoxon pour un échantillon 1. Comparaison d une médiane observée et d une valeur théorique 2. Hypothèses : HO : med == med 0 H1 : med med 0 ( two.sided ), med < med 0 ( less ) ou med > med 0 ( greater ) 3. Statistique : À chaque Xi, on associe sa valeur absolue Z i = X i med 0 On classe les Z i et à chaque Z i, on associe son rang R i On calcule V = R i pour tous les i tel que X i > med 0 Sous H0 et n petit, V suit une loi de distribution connue (dépendant de n) Sous H0 et n grand, Z = V E(V ) sqrt(v (V )) suit une loi normale centrée réduite avec n = n 1 + n 2, E(V ) = n(n+1) 4 (somme des rangs : n(n+1) ) et V (V ) = n(n+1)(2n+1) 2 24

Test de Wilcoxon pour deux échantillons appariés 1. Comparaison des médianes de deux échantillons appariés 2. Hypothèses : H O : med 1 == med 2 H 1 : med 1 med 2 ( two.sided ), med 1 < med 2 ( less ) ou med 1 > med 2 ( greater ) 3. Statistique : On calcule la différence entre les éléments de chaque paire X i = A i B i puis on compare les différences à 0 (test de Wilcoxon pour un échantillon). On calcule V = Ri pour tous les i tel que X i > 0 Sous H0 et n petit, V suit une loi de distribution connue (dépendant de n) Sous H 0 et n grand, Z = V E(V ) n(n+1) sqrt(v (V )), avec E(V ) = 4 (somme des rangs : n(n+1) 2 ) et V (V ) = n(n+1)(2n+1) 24, suit une loi normale centrée réduite

Test de Wilcoxon pour deux échantillons indépendants 1. Comparaison des médianes de deux échantillons indépendants 2. Hypothèses : HO : med 1 == med 2 H 1 : med 1 med 2 ( two.sided ), med 1 < med 2 ( less ) ou med 1 > med 2 ( greater ) 3. Statistique : On réunit et on ordonne les valeurs de X 1 et de X 2. À chaque valeur, on associe son rang. On calcule W la somme des rangs des valeurs de X1 Sous H0 et n petit, W suit une loi de distribution connue (dépendant de n) Sous H0 et n grand, Z = W E(W ) sqrt(v (X )) suit une loi normale centrée réduite avec n = n 1 + n 2, E(W ) = n(n+1) 4 V (W ) = n(n+1)(2n+1) 24 (somme des rangs : n(n+1) ) et 2

L analyse de variance 1. Comparaison de k moyennes issues de k échantillons indépendants 2. Hypothèses : HO : toutes les moyennes sont égales H 1 : au moins deux moyennes sont différentes 3. Statistique : Calcul des variances intergroupe et intragroupe (ou résiduelle) Calcul du rapport F = inter/intra Sous H 0, F suit une loi de Fischer à k 1 et n k ddl 4. Validation du modèle : normalité des résidus homoscédasticité des résidus

Test de Tukey HSD 1. Comparaison multiple de moyennes, correction pour les comparaisons multiples (α) 2. Conditions d application : normalité et homoscédasticité des variables 3. Hypothèse : H 0 : les moyennes sont égales 4. Statistique : sous H 0, Q a,b = max( X a, X b ) min( X a, X b ) SE suit une loi des étendues studentisées avec SE, l écart type des variables étudiées (écart type résiduel)

Test de Kruskal-Wallis 1. Comparaison de k médianes 2. Hypothèse : HO : toutes les médianes sont égales H1 : aux moins deux médianes sont différentes 12 3. Statistique : sous H 0, H = N (N+1) Ri 2 n i approximativement une loi de χ 2 à k-1 ddl 3 (n + 1) suit

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test du χ 2 d indépendance 1. Tester la corrélation ou l indépendance de deux variables quantitatives ayant n et p modalités 2. Conditions d application : les Eff theo doivent être supérieurs à 5, sinon faire des simulations (ou voir le test exact de Fischer) 3. Hypothèses : HO : les deux variables sont indépendantes H1 : les deux variables ne sont pas indépendantes 4. Statistique : χ 2 = (Eff obs Eff theo ) 2 Eff theo (n 1) (p 1) ddl suit une loi de χ 2 à

Test du χ 2 d ajustement 1. Tester l ajustement à une loi théorique donnée 1 2. Conditions d application : les Eff theo doivent être supérieurs à 5, sinon faire des simulations (ou voir le test exact de Fischer) 3. Hypothèses : H O : les observations suivent la loi théorique H 1 : les observations ne suivent pas la loi théorique 4. Statistique : χ 2 = (Eff obs Eff theo ) 2 Eff theo (n 1) ddl suit une loi de χ 2 à 1. Attention les paramètres de la loi ne doivent pas être estimés à partir des données, sinon il faut corriger le nombre de ddl.

Test de Pearson 1. Tester la présence d une corrélation linéaire entre deux variables 2. Conditions d application : normalité des variables, lien linéaire entre les variables 3. Hypothèses : HO : r == 0 H1 : r 0 4. Statistique : sous H 0, t = r 1 r 2 ddl n 2 suit une loi de Student à n-2

Test de Spearman 1. Tester la présence d une corrélation entre deux variables 2. Hypothèses : HO : r == 0 H 1 : r 0, r < 0 ou r > 0 3. Statistique : sous H 0,......, si n est petit, r = 1 6 d 2 i n(n 2 1) suit un loi déterminée...., si n est grand, Z = r E(r) suit une loi normale V (r) centrée-réduite. avec d i étant la différence de rang entre les x i et les y i, E(r) = 0 et V (r) = 1/(n 1)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test de Shapiro-Wilk 1. Tester la normalité d une distribution 2. Hypothèses : HO : La distribution des X suit une loi normale H 1 : La distribution des X ne suit pas une loi normale 3. Statistique : les valeurs sont ordonnées (xi, valeur de rang i), pour chaque x i, une valeur a i correspondant à la valeur attendue sous l hyp. H 0 est calculée. La statistique du test est : W = ( n i=1 a i x i ) 2 n i=1 (x i x) 2 (le rapport des étendues partielles et des carrés des écarts à la moyenne) Cette statistique est liée au graphique quantile-quantile. Plus W est petit, plus la distribution de la variable X s éloigne d une distribution normale.

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test de Fischer-Snedecor 1. Comparer les variances de deux échantillons 2. Hypothèses : H O : σ 1 == σ 2 H 1 : σ 1 σ 2 3. Statistique : Sous H 0,...... F = σ 1 /σ 2 suit une loi de Fischer à n 1 1 et n 2 1 ddl

Test de Bartlett 1. Comparer les variances de k échantillons 2. Condition d application : les variables doivent être distribuées selon la loi normale 3. Hypothèse : HO : les k σ i sont égaux H1 : au moins deux σ i sont différents 4. Statistique : Sous H 0,...... χ 2 =... suit une loi du chi 2 à k 1 ddl Note : il existe d autres tests (Levene, Log-anova,Cochran,...)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Moyennes et médianes Corrélation Normalité Variances Divers Syntaxe des fonctions Cas pratiques

Test de Kolmogorov-Smirnov Principes 1. Ce test consiste à calculer la différence maximale existant entre les distributions de fréquences relatives cumulées (dfrc) de deux échantillons 2. Hypothèses : HO : les dfrc de X 1 et de X 2 sont identiques H1 : les dfrc de X 1 et de X 2 sont différentes, la dfrc de X 1 est plus faible que celle de X 2, la dfrc de X 1 est plus élevée que celle de X 2 3. Statistique : sous H 0, la statistique est : D = max(f X 1 F X 2 ) est suit une loi particulière

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

t.test() x valeurs du premier échantillon y valeurs du second échantillon (si nécessaire) mu moyenne de référence (un seul échantillon) paired pour échantillons appariés var.equal test de Student ou test de Welch alternative test unilatéral ou bilatéral mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(3,5,8,5,6,7) mesvaleurs3=c(2,4,7,3,7,6) t.test(x=mesvaleurs1,y=mesvaleurs2, paired=f, alternative="two.sided") t.test(x=mesvaleurs2,mu=5,alternative="greater") t.test(x=mesvaleurs2,y=mesvaleurs3, paired=t)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

wilcox.test() x valeurs du premier échantillon y valeurs du second échantillon (si nécessaire) mu médiane de référence (un seul échantillon) paired pour échantillons appariés alternative test unilatéral ou bilatéral exact pour n petit, calcule la p-value selon la table, sinon approx. normale mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(3,5,8,5,6,7) mesvaleurs3=c(2,4,7,3,7,6) wilcox.test(x=mesvaleurs1,y=mesvaleurs2, paired=f, alternative="two.sided") wilcox.test(x=mesvaleurs2,mu=5,alternative="greater") wilcox.test(x=mesvaleurs2,y=mesvaleurs3, paired=t)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

aov() et TukeyHSD() aov() x valeurs numériques y groupes TukeyHSD() x un objet de type aov mesvaleurs=c(1,4,5,3,6,3,6) mesgroupes=factor(c("a","a","b","b","c","c","c")) myanova=aov(mesvaleurs~mesgroupes) #test de normalité des résidus shapiro.test(myanova$residuals) #test d'homoscédasticité des résidus bartlett.test(myanova$residuals,mesgroupes) #test des contrastes TukeyHSD(myanova)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

kruskal.test() valeurs et groupes x un vecteur avec toutes les valeurs numériques g les groupes (même longueur que x) mesvaleurs=c(1,4,5,3,6,3,6) mesgroupes=factor(c("a","a","b","b","c","c","c")) kruskal.test(x=mesvaleurs,g=mesgroupes) liste de vecteurs de valeurs x une liste de vecteurs contenant les valeurs des différentes groupes A=c(1,4) B=c(5,3) C=c(6,3,6) kruskal.test(x=list(a,b,c))

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

chisq.test() Test d indépendance x le tableau des observations simulate.p.value pour faire des simulation si petits effectifs data=matrix(c(10,20,30,40), by.row=t) chisq.test(x=data,simulate.p.value=true) Test d ajustement x le vecteur des observations p le vecteur des fréquences théoriques data=c(23,34,56,65) freq=c(0.1,0.2,0.4,0.3) chisq.test(x=data,p=freq)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions t.test() wilcox.test() aov.test() et TukeyHSD() kruskal.test() chisq.test() cor.test()

cor.test() formula une formule décrivant la relation entre les Y et les X method pearson ou spearman mesx=c(1,4,5,3,6,3,6) mesy=c(2,4,6,2,7,5,7) cor.test(mesy~mesx,method="pearson")

ks.test() x un vecteur avec les valeurs numériques de la première distribution y un vecteur avec les valeurs numériques de la seconde distribution alternative test unilatéral ou bilatéral mesvaleurs1=c(1,4,5,3,6,3,6) mesvaleurs2=c(1,1,4,2,4,3,5,3,6) ks.test(x=mesvaleurs1,y=mesvaleurs2)

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Glycémie Problème On a mesuré la glycémie (en g/l) chez 21 patients (fichier gly.dat). Est-ce que le taux de glucose de ces patients diffère de la valeur de référence, 1 g/l? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Anorexie Problème Dans le cadre d une étude dont le but est de trouver un remède à l anorexie, on a mesuré le poid de 46 jeunes filles anorexiques avant et après un traitement (fichier anorexic.dat, données issues de Larry Winner s web site). La moyenne passe de 82,89 lb à 87,47 lb (1 lb = 0,45 kg). Est-ce que le traitement à un effet significatif sur le poids des jeunes filles? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Pois Problème Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). Mendel a croisé des pois jaunes et ronds (caractères dominants) et obtient dans la descendance les graines suivantes : jaunes+rondes, 315 ; jaunes+ridées, 101 ; vertes+rondes, 108 ; vertes+ridées, 32. Mendel a proposé que la distribution des caractères dans la descendance devrait être 9/16, 3/16, 3/16 et 1/16 respectivement. Peut-on valider sa théorie? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Canidés Problème Des chercheurs étudient la phylogénie des canidés en comparant des données morphométriques (largeur de la mandibule, en cm) de chiens modernes de Thaïlande à celles des loups indiens (fichier loup.dat). Ces données suggèrent-elles une différence de la largeur de la mandibule entre les chiens thaïs et les loups indiens? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Oeufs de coucous Problème On a mesuré la longueur des oeufs de coucous présents dans les nids de 6 espèces d oiseaux. Y a t-il une différence de variance entre les groupes (fichier cuckoo.dat)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Aspirine Problème On a étudié 2 l effet de l aspirine sur la probabilité d avoir un infarctus du myocarde. Ainsi, au sein de 11037 personnes qui ont eu de l aspirine, 104 ont subit un infarctus. Parallèlement, parmi les 11034 personnes ayant eu un placebo, 189 ont subit un infarctus. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question 2. issu de Physicians Health Study (1988 NEJM 318 : 262-264)

Mathématiques et géographie Problème On a relevé les notes de 50 étudiants dans deux matières différentes : les mathématiques et la géographie. Y a t il un lien entre les notes observées dans ces deux matières (fichier math_geo.dat)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Oeufs de drosophiles Problème On dispose des oeufs de drosophiles élevées dans 4 températures différentes (fichier oeuf_droso.dat). Y a t il un effet de la température sur la longueur des oeufs? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Nombres (pseudo-)aléatoires Problème On a utilisé 5 méthodes différentes pour générer 1000 nombres pseudo-aléatoires (fichier random.dat). Est-ce qu il y a des différences entre ces méthodes? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Nascar Problème On dispose des statistiques des courses de Nascard de 1975 à 2003 (fichier nascard.dat). On souhaite connaître les noms des différents constructeurs ayant gagné une course et si le nombre de victoire pour chaque constructeur diffère de l aléatoire. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Cerveaux et QI Problème On dispose des mensurations de 40 cerveaux et du QI correspondant pour des hommes et des femmes (fichier brain_size_iq.dat). Est-ce qu il y a un effet du genre sur le poids du cerveau (Weight)? Est-ce qu il y a un lien entre le poids du cerveau et le QI (FSIQ)? 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer le test permettant de répondre à la question

Le Titanic Problème On dispose d un tableau comprenant pour chaque personne à bord de la classe (0 = crew, 1 = first, 2 = second, 3 = third), l âge (1 = adult, 0 = child), le sexe (1 = male, 0 = female) et s il a survécu au naufrage (1 = yes, 0 = no). En testant individuellement chaque variable, indiquées celles qui sont liées à la survie. Le fichier s appelle titanic.xls. 1. Importer les données dans R 2. Calculer les paramètres descriptifs pertinents (moyennes, fréquences, variances,...) 3. Faire un graphique permettant de représenter vos données 4. Effectuer les tests permettant de répondre à la question

Plan List of functions Which test to compare means or medians? How to test correlation? How to play with qualitative data? Rappels théoriques sur les tests Syntaxe des fonctions Cas pratiques Remarques

Test uni ou bilatéral? La réponse à cette question dépend du but initial des travaux. La question se pose avant de faire les mesures sur l échantillon. Prenons un exemple : une rumeur annonce que les prix ont augmenté avec le changement de monnaie. Le gouvernement décide de vérifier cette rumeur et de comparer les prix de 40 produits avant et après le changement de monnaie. Il peut faire pour cela un test unilatéral : cas 1 La moyenne avant est de 34 équivalent euros et la moyenne après est de 45 euros. On fera donc un test unilatéral pour tester le bien fondé de cette rumeur cas 2 La moyenne avant est de 54 équivalent euros et la moyenne après est de 45 euros. On ne fera pas de test. En décidant de faire un test unilatéral, le gouvernement s interdit de tester une baisse potentielle des prix. Attention : ceci est un point important car pour les mêmes données, un test unilatéral divise par deux la valeur de la probabilité!!