C. Lalanne. 22 février 2005 LENA, CNRS UPR 640. C. Lalanne. Introduction

Statistiques Appliquées à l Expérimentation en Sciences Humaines LENA, CNRS UPR 640 22 février 2005 Analyse

Objectifs : recueillir recueil et traitement de données numériques décrire production de résumés numériques et graphiques synthétiques inférer analyse inférentielle Organisation : ce qui sera traité. ce qui sera survolé. ce qui ne sera pas traité. s il reste du temps, s il y a des questions... Analyse

résumer transformer les données brutes en un ensemble d indicateurs descriptifs (échantillon) décrire caractériser la distribution des observations (univarié), comparer les distributions (multivarié) et analyser les effets des facteurs en fonction du type de variable (quantitative/quantitative, quantitative/qualitative, etc.) (échantillon) expliquer / prédire généraliser les résultats observés sur la population non observée, expliquer la variabilité, prédire des valeurs non observées en fonction d un modèle linéaire (population) Analyse

situation expérimentale situation contrôlée - effet exclusif du ou des facteur(s) d étude (hypothèse générale) protocole expérimental formaliser cette situation expérimentale à l aide de méthodes spécifiques d allocation des sujets et de répartition des conditions expérimentales notion de plan expérimental (hypothèse(s) opérationnelle(s)) Analyse

un peu de vocabulaire... observation, effectif, individu, unité statistique échantillon, groupe, population (parente ou ) variable, facteur, caractère niveau, modalité, traitement Analyse

variable = constituée d un ensemble de modalités mutuellement exclusives définissant son domaine de variation. variables qualitative ou quantitative - ordinale, nominale, dichotomisée - discrète, continue variables dépendante et indépendante - VD = variable mesurée - VI = variable manipulée (invoquée ou provoquée) Analyse

différentes méthodes d allocation des sujets dans différentes conditions expérimentales définies par les variables de l étude (i.e. facteurs) groupes indépendants individus différents dans les groupes (ou conditions) (pas de corrélation entre résultats) groupes appariés mêmes individus dans les différentes conditions (corrélation inter-conditions liée à l appariement) mesures répétées chaque i-ème individu passe toutes les conditions ( généralisation de l appariement) Intérêt : décomposer les différentes sources de variation de la VD variabilité expliquée par le(s) facteur(s) vs. fluctuations aléatoires Analyse

Formalisme particulier 2 notions pour les relations k-aires entre variables : relation d emboîtement S < G > relation de croisement S T e.g. un facteur de groupement/classification (sexe des sujets) et un facteur croisé (type d items présenté) plan : S < A > B - facteurs élémentaires = A, B, S(A) - termes d interaction = AB, BS(A) Analyse

2 exemples de plans classiques : plan factoriel plan en carré latin permet de ventiler les conditions au travers d un nombre optimal de sujets Analyse

e.g. 2 facteurs A et B à 2 et 3 modalités : S 3 < A 2 B 3 > ou S 6 < B 3 > A 2 et carré latin à 3 facteurs A 2 B 3 s7, s8, s9 s10, s11, s12 s1, s2, s3 s4, s5, s6 s13, s14, s15 s16, s17, s18 A 2 B 3 s4, s5, s6 s4, s5, s6 s1, s2, s3 s1, s2, s3 s7, s8, s9 s7, s8, s9 B 3 A 3 a2b1c2 a2b2c3 a2b3c1 a1b1c1 a1b2c2 a1b3c3 a3b1c3 a3b2c1 a3b3c2 Analyse

résumer l information - codage, recodage des données - différentes représentations numériques : effectifs, effectifs cumulés, fréquences, fréquences cumulées,... - différents indicateurs de synthèse : tendance centrale, dispersion,... - différentes représentations graphiques : diagramme en bâtonnets, histogrammes, boîtes à moustaches,... décrire l information - situer un individu (ou une observation) dans la distribution d effectifs (cas univarié) - caractériser les liaisons entre variables (cas bivarié) L analyse univariée précède toujours l analyse bivariée! étape préalable indispensable à l analyse inférentielle Analyse

cas univarié indicateurs de tendance centrale indicateurs de dispersion indicateurs de forme de la distribution cas bivarié indicateurs de différence : variables quantitative/qualitative indicateurs : variables quantitative/quantitative indicateurs : variables quantitative/qualitative Analyse

Mode valeur de la variable étudiée associée au plus grand nombre d observations e.g. âges (arrondis à l année) relevés dans une classe : 16 17 17 16 18 16 15 16 17 15 16 17 16 mode = 16 (observé 6 fois) variables ordinales Médiane valeur telle que 50 % des effectifs sont situés avant med = 16 (var discrète : calcul à partir des effectifs cumulés) variables nominales, quantitatives (discrètes/continues) Analyse

Méthode de calcul de la médiane cas discret : à partir des effectifs cumulés N i e.g. effectifs d une classe de neige en fonction de l âge x i 13 14 15 16 17 18 19 20 21 n i 6 3 4 1 3 4 1 2 2 N i 6 9 13 14 17 21 22 24 26 f i 0.23 0.12 0.15 0.04 0.12 0.15 0.04 0.08 0.08 F i 0.23 0.35 0.50 0.54 0.66 0.81 0.85 0.93 1.00 - rang médian (n/2 ou n/2 + 1 suivant la parité de n) - médiane = valeur VD correspondante au rang médian ici, rang médian = 13.5 med = 16 Analyse

Illustration sur un histogramme (e.g. même type de données regroupées par classe) : cas continu : formule d interpolation [ ( n x med = x 2 med + N ] med 1) h n med formule d accroissement appliquée aux données représentées sur une courbe des effectifs cumulés Analyse

Moyenne arithmétique centre de gravité, quantification ou x = 1 n x = n i=1 x i n p i x i i=1 avec p i = n i /n > 0 et i p i = 1. Remarque. Autres types de moyenne (géométrique, harmonique, quadratique)... Analyse

Comment quantifier la dispersion des notes autour des indicateurs de tendance centrale? e.g. différentes mesures des écarts associés aux valeurs centrales (médiane et moyenne) Analyse

Étendue - écart entre valeur max et valeur min - sensible aux valeurs extrêmes Intervalle inter-quantile - écart entre 1er et 3ème quartile - moins sensible aux valeurs extrêmes Écarts à la moyenne - (x i x) ou x i x - indices relatifs, ne renseignent que sur les écarts locaux - sensible aux valeurs extrêmes Écart moyen (EAM) - moyenne des écarts absolus à la moyenne : EAM = 1 n n x i x i=1 - sensible aux valeurs extrêmes Analyse

Somme des carrés des écarts - (x i x) 2 - sensible aux valeurs extrêmes - propriétés intéressantes : écarts quadratiques Variance - moyenne des écarts quadratiques - formule : V (x) = 1 n (x i x) 2 n i=1 - sensible aux valeurs extrêmes - non-interprétable dans l unité de mesure, mais propriétés intéressantes pour l inférence Analyse

Écart-type - racine carrée de la variance - sensible aux valeurs extrêmes - exprimé dans l unité de mesure Coefficient de variation - pondération de l écart-type en fonction de la moyenne - formule : cv x = σ x x 100 - utile pour la comparaison de groupes non-homogènes du point de vue de leurs moyennes Analyse

différents moyens d étude : alignement des indicateurs de tendance centrale e.g. mode < médiane < moyenne : asymétrie à droite indicateurs caractéristiques (moments centrés d ordre 3 et 4) Coefficient d asymétrie moyenne des cubes des valeurs centrées-réduites des observations symétrie relative de la distribution d effectifs par rapport à la moyenne Coefficient d aplatissement moyenne des puissances quatrièmes des observations centrées-réduites mesure de dispersion exprimée en fonction de la valeur de la moyenne ± son écart-type Remarque. toujours en référence à une distribution normale Analyse

Différence entre deux échantillons quantifier une différence, du point de vue d une variable quantitative, entre deux échantillons définis par une variable qualitative (facteur) : notion d effet d un facteur effet moyen d obs - d obs = x 1 x 2 - interprétation sens et ampleur (critères sémantiques) effet calibré EC - EC = d obs /s (s = variance intra) - interprétation sens et ampleur (critères psychométriques) - Critères psychométriques : - EC < 1/3, l effet est considéré comme faible ; - 1/3 EC 2/3, l effet est considéré comme intermédiaire ; - EC > 2/3, l effet est considéré comme important. Analyse

Liaison var. quantitative/quantitative liaison entre 2 variables numériques continues : association linéaire Attention : pas nécessairement de relation de causalité entre les variables! 2 indicateurs : covariance cov(x, y) = i (x i x)(y i ȳ) coefficient de corrélation linéaire (Bravais Pearson) r xy = cov(x, y) σ x σ y r 1 Analyse

Liaison var. quantitative/quantitative mesurent le degré d association linéaire r xy est plus facilement interprétable car indicateur borné On distinguera le sens de la liaison (signe de r) et son ampleur (valeur absolue de r) Critères (psychométriques) : - r < 0.20 : corrélation faible - r > 0.40 : corrélation forte (dépend également du contexte) Analyse

Liaison var. quantitative/quantitative Autre indicateur : coefficient de détermination R 2 = r 2 xy indique la part de variabilité de Y expliquée par la prise en compte de la liaison linéaire Critères (psychométriques) : - 0 R 2 < 0.04 : R 2 faible - 0.04 R 2 0.16 : R 2 intermédiaire - R 2 > 0.16 : R 2 important Analyse

Liaison var. quantitative/quantitative Ne pas négliger l interprétation graphique... Analyse

Liaison var. quantitative/quantitative... tout en prenant garde aux unités des axes! Analyse

Liaison var. quantitative/qualitative variabilité totale observée sur n sujets répartis en plusieurs groupes (facteur) : V totale = V inter + V intra i.e. fluctuations inter-groupes (V inter ) et intra-groupes (V intra ) Qauntification de la liaison entre la variable qualitative (facteur) et les réponses observées (variable quantitative quelconque)? η 2, rapport de variance η 2 = V inter V totale mesure analogue au coefficient de détermination ; mêmes critères d interprétation... Analyse

Objectifs des procédures inférentielles - échantillon extrait d une population parente non observée - effet moyen d un ou plusieurs facteurs sur VD mesurée au travers de cette échantillon - généralisation à la population parente : effet parent? estimation paramètres de population décision concernant un modèle probabiliste Analyse

Formalisme notations : - échantillon : x, s 2,... - population : µ, σ,... notions d estimateur : estimer les paramètres de population à partir de l échantillon... moyenne empirique x = estimateur sans biais de la moyenne de population µ mais variance classique doit être corrigée car sous-estime la variance de population (estimateur biaisé) : s 2 = variance classique avec dénominateur à n 1 estimation ponctuelle Analyse

Loi normale loi normale N (µ; σ) = loi continue à 2 paramètres, très utilisée en statistiques et en calcul des probabilités f (x) = 1 σ 2π e (x µ) 2 2σ 2 forme de la distribution d échantillonnage de la moyenne : X N (µ; σ/ n) Remarque. loi (faible) des grands nombres, théorème central limite... Analyse

Loi normale loi normale centrée-réduite N (0; 1) : z i = x i x σ Avantage : la fonction de répartition est tabulée ; on connaît donc la proportion des valeurs situées avant une certaine valeur Analyse

Calcul élémentaire de probabilités e.g. distribution théorique de la taille des individus (sexe masculin, nationalité française, âge 20-35 ans) = N (170; 10) P(X < 185) = P(Z < 185 170 10 ) = 0.933 P(X > 198) = 1 P(X < 198) = 1 P(Z < 198 170 10 ) = 0.003 P(174 < X < 186) = P(X < 186) P(X < 174) = P(Z < 186 170 10 ) P(Z < 174 170 10 ) = 0.290 Analyse

Intervalles de confiance - PP connue X N (µ; σ/ n) alors la statistique Z = x µ σ/ N (0; 1) n et P( z α/2 Z z α/2 ) = 1 α d où IC 100(1 α) = [ X zα/2 σ/ n; X + z α/2 σ/ n ] Analyse

Intervalles de confiance - PP inconnue σ inconnue... même raisonnement mais avec la statistique T = X µ S/ n T (n 1) loi de Student intervalle de confiance construit de manière identique : IC 100(1 α) = [ X tα/2 S/ n; X + t α/2 S/ n ] avec S comme estimé de la variance parente. Analyse

Principe des tests statistiques test d hypothèse : schéma d inférence statistiques et lois de distribution type d hypothèse alternative (orientée ou non) risque d erreur et seuil de décision, puissance des tests conditions d application (paramétriques vs. non-paramétriques), robustesse des tests interprétation Test de typicalité Analyse

différentes techniques en fonction du type de variables, et en fonction du protocole expérimental... 1 ou 2 échantillon(s) : comparaison de moyennes 1 var. quantitative/1 var. qualitative : ANOVA à un seul facteur (modèles I et II) 1 var. quantitative/p var. qualitatives : ANOVA à plusieurs facteurs (modèles I, II, III ; plan factoriel/hiérarchique/bloc/mesures répétées) 1 var. quantitative/1 var. quantitative : Corrélation/Régression 1 var. quantitative/p var. quantitatives : Régression multiple 2 var. quantitatives/1 var. qualitative : Analyse de Covariance Analyse

p var. quantitatives/q var. qualitatives : Analyse de variance multivariée 1 var. qualitative/p var. quantitatives : Analyse Discriminante 1 var qualitative/p var. qualitatives : Régression logistique sans oublier les méthodes d analyse factorielle simples et multiples, sans visée inférentielle : ACP, AFC, ACM, etc. Analyse

Analyse

Données. - 1 VD numérique quelconque - 1 échantillon sélectionné au hasard, n observations ( x, s x ) Question. L échantillon observé provient-il de la même population que la population? (test de conformité) Conditions d applications. normalité Hypothèses. H 0 : µ = µ 0 ; H 1 : µ µ 0 (non orientée) ou H 1 : µ > µ 0 (orientée) ou H 1 : µ < µ 0 (orientée) Remarque. H 0 : µ = µ 0 µ µ 0 = 0 H 1 : µ > µ 0 µ µ 0 > 0 Analyse

Seuil de décision. - H 1 non-orientée test bilatéral, risque de première espèce α - H 1 orientée test unilatéral, risque de première espèce α/2 Statistique de test. avec s X = P n i=1 (x i x) 2 n 1 Décision. rejet H 0 ssi t obs > t α,n 1 t obs = X µ 0 s X n (variance corrigée de l échantillon) loi de Student a (n 1) dl Analyse

Echantillons indépendants Données. - 1 VD numérique quelconque - 2 échantillons indépendants sélectionnés au hasard, n 1 et n 2 observations ( x 1, s x1, x 2, s x2 ) indépendants = pas de corrélation entre les deux séries d observations (2 groupes de sujets différents) Question. Les échantillons observés proviennent-ils de la même population parente ou de populations ayant des caractéristiques similaires? Conditions d applications. normalité (iid) homogénéité des variances (homoscédasticité) Hypothèses. H 0 : µ 1 = µ 2 ; H 1 : µ 1 µ 2 (non orientée) ou H 1 : µ 1 > µ 2 (orientée) ou H 1 : µ 1 < µ 2 (orientée) Analyse

Echantillons indépendants Seuil de décision. - H 1 non-orientée test bilatéral, risque de première espèce α - H 1 orientée test unilatéral, risque de première espèce α/2 Statistique de test. avec s X1 X 2 commune) = s2 c n 1 + s2 c n 2 Décision. rejet H 0 ssi t obs > t α,n 1 t obs = t obs = X 1 X 2 s X1 X 2 où s 2 c = SC1+SC2 ν 1+ν 2 (variance loi de Student a (n 1 + n 2 2) dl Analyse

Test approximatif de Welch si hypothèse d homoscédasticité non vérifiée : Statistique de test. t obsw = X 1 X 2 s 2 1 n 1 + s2 2 n 2 à comparer à la distribution du t de Student avec ν = «s 1 2 2 n + s2 2 1 n2 s 1 2! 2 n 1 n 1 1 + s 2 2! 2 n 2 n 2 1 ddl Analyse

Echantillons appariés même principe général, sauf que l on prend en compte l appariement des observations... On se ramène au cas de la comparaison d un échantillon à une moyenne théorique en dérivant le protocole par différence, et en posant H 0 : µ 1 µ 2 = 0 vs. H 1 : µ 1 µ 2 0 (non orientée) Statistique de test. t obs = X 1 X 2 sd 2 n où sd 2 est la variance (estimée) de l échantillon dérivé par différence. Remarque. sd 2 = s2 1 + s2 2 2ρs 1s 2 Analyse

Alternatives non-paramétriques échantillons indépendants Wilcoxon-Mann-Whitney échantillons appariés Wilcoxon (test des signes) Analyse

Lors d une expérimentation médicale, on a relevé le temps de sommeil de 10 patients sous l effet de deux médicaments. Chaque sujet a pris successivement l un et l autre des deux médicaments. Ces données ont été recueillies pour tester l hypothèse que le médicament m2 est plus efficace que le médicament m1. i1 i2 i3 i4 i5 i6 i7 i8 i9 i10 m1 5.7 3.4 4.8 3.8 4.9 8.4 8.7 5.8 5 7 m2 6.9 5.8 6.1 5.1 4.9 9.4 10.5 6.6 9.6 8.4 Analyse

Analyse

H 0 : µ 2 = µ 1 vs. H 1 : µ 2 > µ 1 (hypothèse orientée) α = 0.025 Procédure manuelle : t obs = d obs s 2 n = 1.58 1.51 10 conclusion : test significatif, rejet H 0 = 4.06 > t 0.005,9 = 3.250 Analyse

ANOVA d ordre 1 : Comparaison de k moyennes ANOVA = ANalysis Of VAriance généralisation de la comparaison de 2 moyennes à k moyennes 1 variable de classement = facteur à k modalités 2 questions : effet global du facteur? effets spécifiques du facteur? 2 techniques : ANOVA comparaisons multiples Analyse

Types d ANOVA différents modèles d ANOVA : modèle I : effets fixes modèle II : effets aléatoires modèle III : effets mixtes (uniquement pour les ANOVA à plusieurs facteurs) et différents types de plan : plan factoriel plan hiérarchique plan avec blocs plan avec mesures répétées avec ou sans réplication Analyse

Données Données. - 1 VD numérique quelconque - 1 VI qualitative (facteur à k modalités) : k échantillons indépendants sélectionnés au hasard, n k observations organisation dans un tableau : - observations en lignes - modalités du facteur en colonnes g 1 g 2... g i... g k X 11 X 21... X i1... X k1 X 12 X 22... X i2... X k2 X 13 X 23... X i3... X k3.................. X 1j X 2j... X ij... X kj.................. X 1n1 X 2n2... X ini... X 1 X 2... X i... X kni X k X Analyse

Test d hypothèse Conditions d application. résidus indépendants, distribués selon une loi normale N (0; σ) (σ = Cte) homogénéité des variances (homoscédasticité) A vérifier avant le test d hypothèse! - normalité : droite de Henry, test d ajustement à une loi normale (e.g. Shapiro-Wilks), tests généraux d adéquation (Kolmogorov-Smirnov, Anderson-Darling,...) - homoscédasticité : tests de Cochran, Bartlett, Hartley, Levene Remarque. Modèle I robuste aux déviations par rapport à normalité. Hypothèses. H 0 : µ 1 = µ 2 = µ 3 =... = µ k H 1 : µ 1 µ 2 ou µ 1 µ 3 ou µ 2 µ 3... Attention! H 0 stipule que toutes les moyennes sont égales, alors que H 1 sera acceptée si au moins une paire de moyennes diffère Analyse

Tableau d ANOVA Analyse. décomposition des sources de variabilité : V inter : variance dûe au facteur V intra : variance résiduelle Autre formulation : V totale = V inter + V intra (y ij ȳ) = (ȳ i ȳ) + (y ij ȳ i ) Analyse

- on travaillera préférentiellement avec les sommes des carrés (SC) et les ddl variance (estimée) = carré moyen (CM) = SC/ddl - tout est résumé dans le tableau d analyse de la variance : Variance SC dl CM F P Totale k P ni i=1 j=1 (X ij X ) 2 n-1 CMt=SCt/dl P Groupes k i=1 n i ( X i X ) 2 k-1 CMg=SCg/dl CMg/CMe P Erreur k P ni i=1 j=1 (X ij X i ) 2 n-k CMe=SCe/dl Analyse

Statistique de test Valeur de test. F obs = CMg CMe loi de Fisher Snedecor a (k 1, n k) dl Décision. rejet H 0 ssi F obs > F α,(ν1,ν 2) si rejet H 0, il faut étudier quelles sont les paires de moyennes significativement différentes comparaisons multiples Analyse

Comparaisons multiples différents types de comparaisons multiples : planifiées vs. non-planifiées idée = modifier la statistique du t ou ajuster seuil α car probabilité de commettre une erreur de type I augmente avec le nombre de comparaisons : 1 (1 α) m, avec m = k(k 1) 2 e.g. 5 comparaisons α = 0.40 plus de 15 tests de comparaisons multiples disponibles... Test de Bonferroni, LSD, Scheffé, Tukey, GT2, Student-Newman-Keuls, Duncan, Dunnett... Tukey < Newman-Keuls < Duncan (puissance) Analyse