Master 2 IEAPS STATISTIQUES METHODES QUANTITATIVES Didier Delignières



Documents pareils
LA MESURE EN PSYCHOLOGIE Didier Delignières Université Montpellier I

1. Vocabulaire : Introduction au tableau élémentaire

Relation entre deux variables : estimation de la corrélation linéaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

TABLE DES MATIERES. C Exercices complémentaires 42

Statistiques Descriptives à une dimension

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Logiciel XLSTAT version rue Damrémont PARIS

FORMULAIRE DE STATISTIQUES

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 3. Les distributions à deux variables

CAPTEURS - CHAINES DE MESURES

TESTS D'HYPOTHESES Etude d'un exemple

Principe d un test statistique

Statistique Descriptive Élémentaire

Evaluation de la variabilité d'un système de mesure

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Biostatistiques : Petits effectifs

D'UN THÉORÈME NOUVEAU

I. Ensemble de définition d'une fonction

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

Complément d information concernant la fiche de concordance

Introduction à l approche bootstrap

Statistique : Résumé de cours et méthodes

Résumé du Cours de Statistique Descriptive. Yves Tillé

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Table des matières. I Mise à niveau 11. Préface

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Exercices - Polynômes : corrigé. Opérations sur les polynômes

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

Élément 424b Introduction à la statistique descriptive

Fonctions de plusieurs variables

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Cours 9 : Plans à plusieurs facteurs

Cours 02 : Problème général de la programmation linéaire

Séries Statistiques Simples

Aide-mémoire de statistique appliquée à la biologie

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

DOCM Solutions officielles = n 2 10.

Raisonnement par récurrence Suites numériques

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Probabilités sur un univers fini

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

3. Caractéristiques et fonctions d une v.a.

Introduction à la Statistique Inférentielle

Les probabilités. Chapitre 18. Tester ses connaissances

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Chapitre 1 Régime transitoire dans les systèmes physiques

Introduction aux Statistiques et à l utilisation du logiciel R

Statistiques 0,14 0,11

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Notion de fonction. Résolution graphique. Fonction affine.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction à la statistique non paramétrique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Loi binomiale Lois normales

IBM SPSS Statistics Base 20

Statistiques - Cours. 1. Gén éralités. 2. Statistique descriptive univari ée. 3. Statistique descriptive bivariée. 4. Régression orthogonale dans R².

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Programmation linéaire

Fonction inverse Fonctions homographiques

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

1 Complément sur la projection du nuage des individus

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Correction du baccalauréat STMG Polynésie 17 juin 2014

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

VI. Tests non paramétriques sur un échantillon

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Les devoirs en Première STMG

STATISTIQUES. UE Modélisation pour la biologie

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

BACCALAUREAT GENERAL MATHÉMATIQUES

Pour l épreuve d algèbre, les calculatrices sont interdites.

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

T de Student Khi-deux Corrélation

Date : Tangram en carré page

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Leçon N 4 : Statistiques à deux variables

Polynômes à plusieurs variables. Résultant

Précision d un résultat et calculs d incertitudes

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

TSTI 2D CH X : Exemples de lois à densité 1

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Estimation et tests statistiques, TD 5. Solutions

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Unité E Variation et analyse statistique

Transcription:

Master IEAPS STATISTIQUES METHODES QUANTITATIVES Didier Delignières Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à établir les responsabilités.. La mesure. Puisque les statistiques servent à traiter des données numériques, se pose dans un premier temps le problème du recueil de ces données, c'est-à-dire le problème de la mesure... Mesure, échantillon, population. Une échantillon est un ensemble de données (et non un ensemble d'individus). Un échantillon est supposé représentatif d'une population parente de données. Il faut noter que la population parente n'est pas une population démographique: c'est l'ensemble des mesures possibles, compte-tenu de l'ensemble des variables incontrôlables. La population parente est donc toujours infinie. Une donnée est une information de nature numérique. La mesure va consister à relever des données numériques constituant l'échantillon. Stevens (98/9) a proposé une théorie désormais classique de la mesure. S'insurgeant contre l'idée ancienne que mesurer, c'est compter, il estime que le système numérique est un modèle comprenant plusieurs sortes, ou plutôt plusieurs niveaux de règles. La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en suivant une règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes sortes de mesure. La mesure sera possible quand il y aura isomorphisme entre les relations empiriques des objets et les relations formelles des nombres. A cette condition, les secondes servent de modèle pour les premières... Les niveaux de mesure Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles les nombres peuvent servir de modèles. Chacune de ces échelles se caractérise, au

niveau mathématique, par le type de transformation que l'on peut opérer sur l'ensemble de l'échelle sans en modifier la nature.... Echelles nominales L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules opérations empiriques possibles sont les relations d'égalité et d'inégalité entre les objets. La Classification Périodique des Eléments est une échelle de mesure de ce niveau (échelle nominale). Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se passe par exemple lorsque l'on modifie un codage (passer de homme=m et femme =F à homme = et femme=). L'analyse statistique va principalement porter sur les données de numération: à chaque classe déterminée par l'échelle nominale est affecté un effectif. Les données de numération sont toujours des entiers. Les données de numération peuvent être présentées sous forme de tableaux de contingence. A B C Total Effectifs x y z x+y+z Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise alors l'effectif d'une classe par le nombre total d'observations. La somme des fréquences est alors égale à. En multipliant une fréquence par 00, on obtient un pourcentage. L'intérêt des fréquences est de pouvoir faire des comparaisons entre distributions portant sur des effectifs totaux différents.... Echelles ordinales L'ordre: les nombres représentent les objets selon leur rang. Les opérations de détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des minéraux est un exemple de ce type de mesure (échelle ordinale). Les échelles ordinales supportent toute transformation monotone croissante. Ce type de fonction respecte l'ordre de données et les propriétés de l'échelle sont conservées. Les données relevées sont appelées données de rang. On peut noter que les rangs statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même en cas d'ex-aecquo. Par exemple: rang attribué rang statistique

A B. C. D

Exercice: attribuer les rangs Nbre de fautes 0 7 8 9 0 Effectifs 0 0 Rangs. 8 9.. 8 0... Echelles d'intervalles Les intervalles: les nombres peuvent servir à représenter les différences ou les distances entre les éléments. On obtient des échelles de classement à intervalles égaux. Les opérations de détermination de l'égalité des intervalles et des différences sont possibles. les échelles de température Celsius et Fahrenheit sont de ce niveau. Les échelles d'intervalles supportent toute transformation affine de type y=ax + b. Ces transformations conservent la proportionnalité des intervalles et des différences. C'est une opération de ce type qui est réalisée lorsque l'on convertit des degrés Fahrenheit et degrés Celsius.... Echelles de rapport C =(F - ) x (/9) Les rapports: les nombres peuvent servir à représenter les rapports entre éléments. La détermination de l'égalité des rapports est possible. Ces échelles se distinguent des précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle Kelvin de température est une échelle de rapport. Les échelles de rapport ne supportent qu'une multiplication par une constante (y=ax). Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de l'échelle demeure donc invariante, et la proportionnalité des rapports est maintenue. C'est ce type de transformation qui est utilisé par exemple pour convertir une mesure des miles aux kilomètres: mile=. x km On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les transformations permises sont précises. Et la transformation permise à un niveau donnée est toujours un cas particulier de la fonction permise au niveau inférieur. Les échelles d'intervalles et de rapport procurent des données dites de scores. Les données de scores peuvent être représentées de diverses manières: - le tableau des effectifs (quels effectifs pour chaque niveau de mesure).

- le tableau des groupement en classes d'intervalles égaux - le tableau des proportions - le tableau des fréquences Classe Valeur centrale Effectif Fréquence Pourcentage x n -x n' X=(x n -x n' )/ n n/n (n*00)/n - histogramme (effectif) - courbe de fréquence Exercice: Score Effectif Fréquence Pourcentage 7.07..9....08 7.. 9.....8 00. Statistiques descriptives. Un premier objectif des statistiques est de décrire au mieux les échantillons, c'est-à-dire de les synthétiser au travers d'indices descriptifs, appelés également résumés statistiques. Ces résumés visent avant tout à donner des renseignements sur la tendance centrale et sur la dispersion de la distribution... Tendance centrale.... Moyenne. La valeur centrale qui résume au mieux une distribution de données de scores est la moyenne arithmétique: x m = N nulle: La moyenne a une propriété fondamentale: la somme des écarts à la moyenne est

Σ (x-m)=0 Les échelles de rapports permettent également le calcul de la moyenne géométrique, définie comme la racine nième du produit des n valeurs, ces dernières étant toutes strictement positives, et de la moyenne harmonique, définie comme l'inverse de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes strictement positives. Ces moyennes sont souvent préférée à la moyenne arithmétique, notamment en psychophysique. Exercice: Score 7 8 Effectif 8 7 9 Totaux partiels Effectifs cumulés 8 9 0 9 8 9 7 9 m= Σ(x)/N= 9/9 =.99... Médiane. Le concept de moyenne n'a de sens que pour les données de scores, c'est-à-dire pour les échelles d'intervalles et de rapport. La tendance centrale d'une distribution de variables ordinales est représenté par la médiane. La médiane est définie comme la valeur de la variable telle que 0% des observations lui soient inférieure et 0% lui soient supérieure. Lorsque ne nombre total d'observation est impair, le définition de la médiane ne pose pas de problème: le rang médian est égal à : k=(n+)/ Dans le cas d'effectifs pair, on prend en général pour convention "d'arrondir" k au premier entier supérieur au quotient obtenu. Il est à noter que la médiane représente souvent non pas une donnée mais une classe de données ayant obtenu le même rang. Ceci peut poser problème quand par exemple on veut diviser un groupe par une coupure à la médiane (median split). Il faut alors décider à quelle demi-distribution appartiendra la classe médiane: on décide en général de réaliser l'affectation qui respectera au mieux la répartition théorique de 0-0. Notons enfin qu'il est tout à fait possible de calculer la médiane d'un échantillon de données de scores. Exercice:

k=(9+)/= 0/=0 La médiane est égale à... Mode. En ce qui concerne les échelles nominales, c'est-à-dire les données de numération, ni la moyenne ni la médiane ne sont accessibles. Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand (ou comme la valeur la plus fréquemment attribuée). Le mode n'a vraiment de sens que si une catégorie présente un effectif nettement supérieur aux autres. On peut noter enfin que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles. Exercice: Mode=.. Mesure de dispersion. Ces paramètres rendent compte de la façon dont se dispersent les données autour de la tendance centrale.... Variance et écart-type Plusieurs mesures de la dispersion sont envisageables: on peut par exemple mesurer l'intervalle de variation, c'est-à-dire la différence entre la plus grande et la plus petite mesure. Cet indice ne rend pas compte de la dispersion des notes autour de la moyenne. Une approche plus intéressante consiste à calculer la somme des carrés des écarts à la moyenne. Il est à rappeler que la somme des écarts à la moyenne est toujours nulle (les intervalles s'annulant de part et d'autre de la moyenne). On peut contourner le problème soit en prenant les valeurs absolues de écarts à la moyenne, soit en les élevant au carré. Cet indice ne peut cependant être utilisé que pour la comparaison d'échantillons de taille identique. Pour des échantillons de taille différentes, on a recours à la variance, qui est égale à la moyenne des carrés des écarts à la moyenne: On montre que: ( x m) v = N 7

Σ(x-m)² =Σ(x²-mx+m²) =Σx²-mΣx+Σm² =Σx²-(Σx/N)Σx+N(Σx/N)² =Σx²-(Σx)²/N+Σx²/N =Σx²-(Σx)²/N On a donc une expression plus simple de la variance: v = ( x) x N N Cette variance calculée sur un échantillon n'est évidemment qu'une estimation de la variance de la population parente. On montre qu'une meilleure estimation est obtenue par la formule suivante: v = ( x) x N N N- exprime le nombre de degrés de liberté de la variable: c'est-à-dire qu'il suffit que N- valeurs soient connues pour la détermination de la nième valeur. On note également que l'écart entre variance estimée et variance calculée est d'autant plus faible que N est grand. On utilise plus couramment l'écart-type, qui est égal à la racine carrée de la variance. σ = v L'écart-type a l'avantage d'être une mesure de distance (ou d'intervalle), alors que la variance est une mesure d'un intervalle au carré. Une grandeur donnée peut de ce fait être comparée à son écart-type, mais pas à sa variance. 8

x x-m (x-m)² x 7 Σx= N= m=/=.909 -.909 -.909 -.909 -.909-0.909.09.09.09.09.09.09 8. 8... 0.8.90.90.90.7.7 9. 9 9 Σ(x-m)²=.90 Σx = calcul : v=.909/0=.9 σ=. calcul v =(-(²/))/0 =(-(89/))/0 =(-8.09)/0 =.909/0 =.9 Exercice: Classe 8- -7 8-7 7-77 78-8 8-87 88-9 Valeur centrale x i 0 70 7 80 8 90 Effectif n i 9 Σn i =0 (N) n i x i n i x i 0 80 7 080 90 Σn i x i =0 (Σx) 00 08900 00 7 900 07 00 Σn i x i =900 (Σx ) 9

Moyenne = 7. Variance = (900-((0)²/0)/0 =.7 Ecart-type = 7. On peut noter à ce niveau que si l'on transforme une distribution d'intervalle par une transformation affine (y=ax + b), on a les relations suivantes: m= (a*m) + b σ=a*σ Les échelles de rapport permettent également le calcul du coefficient de variation, égal à l'écart-type divisé par la moyenne: ce coefficient permet de comparer la dispersion de deux distributions en s'affranchissant de l'unité de mesure, et même de la réalité mesurée (la taille est-elle plus dispersée que le poids?).... Autres mesures de dispersion. L'entropie est une mesure spécifique de la dispersion pour les échelles nominales. Elle est maximale lorsque les observations se répartissent de manière équilibrée sur toutes les catégories. Elle est minimale lorsque ces observations ne se répartissent que sur un nombre restreint de classes. La dispersion des distributions ordinales est appréciée par une série de valeurs jalonnant la distribution, appelées quantiles. Si l'on sépare la distribution en 0 intervalles, on parle de déciles. Dans ce cas 0% des observations figurent dans chacun des 0 intervalles. On utilise souvent les quartiles, divisant la distribution en quatre intervalles regroupant chacun % de l'effectif: on distingue alors le quartile inférieur (premier quartile), la médiane (second quartile) et le quartile supérieur (ou troisième quartile). Pratiquement, la position du quartile est donné par: (rang de la première donnée + rang de la médiane)/ et la position du Quartile : (rang de la médiane + rang de la dernière donnée)/. L'utilisation des quartiles, déciles et centiles est extrêmement répandue dans la standardisation des tests. Elle permet de situer rapidement un sujet au sein d'une population de référence (par exemple, une personne qui pèse 70kg et mesure m80 estelle plus lourde que grande ou plus grande que lourde?). 0

Exercice: Calcul des quartiles et déciles. Scores brutes Scores classés Rangs 9 78 9 7 98 8 78 9 9 9 0 98 N= Moyenne= 88/=. Rang médiane= (+)/= Médiane= 9 Rang Quartile = (+)/=. Quartile = Rang Quartile = (+)/=8. Quartile = 78. Distribution des échantillons. On appelle distribution la répartition des effectifs sur chacun des niveaux de la mesure. Dans le cas des données de scores, on répartit les effectifs sur des intervalles de mesures. On représente graphiquement les distributions par des courbes de fréquences. Ces distributions peuvent être symétriques, modérément dissymétriques, biaisées à gauche ou à droite, en J ou en I, ou bimodales. Couramment, les statisticiens modélisent leurs distributions en fonctions binomiales ou normales. Le modèle binomial et le modèle normal renvoient à peu près à la même réalité (distributions symétriques autour de la moyenne). Néanmoins le modèle binomial renvoie à des variations discrètes et la modèle normal à des variations continues. Ces modèles sont intéressants dans le sens où ces distributions possèdent des propriétés mathématiques puissantes qui sous-tendent les tests statistiques... La distribution binomiale Une variable se répartit selon une distribution binomiale en n+ classes si les fréquences des n+ valeurs de la variable sont données par les termes successifs du développement de (p+q) n, avec p+q=.

Par exemple, on tire dans une urne contenant un grand nombre de boules noire ou blanche, dans les proportions p et q, respectivement. Le nombre de boules noires peut prendre n+ valeurs: 0,,,..., n. Les différentes probabilités d'apparition de ces valeurs suit une loi binomiale. La distribution binomiale est symétrique si p=q=/, et se rapproche de la symétrie si n devient grand. La moyenne de la distribution est et la variance de la distribution m=n*q v=n*p*q.. La distribution normale La distribution normale est symétrique, et centrée sur sa moyenne. Elle présente deux points d'inflexion I et I', symétriques (points où la tangente traverse la courbe). Ces points d'inflexion sont situés à un écart-type de la moyenne I=m+σ et I'=m-σ L'équation de la courbe représentative est de la forme suivante: f( x) = e σ π ( x m) σ Une distribution normale est entièrement définie par sa moyenne et son écarttype. On dit qu'une variable est normale si elle se distribue de telle sorte que les fréquences d'apparition des différents scores possibles suivent une loi normale. On dit que la courbe des fréquences de la variable est une courbe normale ou courbe de Gauss. Une telle courbe apparaît en traduction de l'influence d'un facteur principal, associé à d'autres facteurs non contrôlés, aléatoires (centrage sur le facteur principal, écart symétrique dus aux facteurs aléatoires.... Les tests de normalité. Plusieurs tests de normalité sont disponibles. Une première solution consiste à examiner les coefficients de skewness et de Kurtosis. Le coefficient de skewness est un indice d'asymétrie.

g m = avec m / m x m = ( ) et m n x m = ( ) n Si la distribution est normale, g=0 Le coefficient de Kurtosis est un indice d'aplatissement. g m = avec m m x m = ( ) n On doit obtenir g=0 si la distribution est normale. En cas de doute, on peut utiliser le test de Kolmogorov-Smirnov. Ce test est basé sur la comparaison des fréquences cumulées observées aux fréquences cumulées théoriques, calculées à partir de la table de la loi normale. - On commence par ordonner les données - On calcule les fréquences correspondant à chaque niveau de score - On calcule les fréquences cumulées correspondant à chaque niveau de score - On calcule les scores z correspondant à chaque niveau de score - On calcule pour chaque niveau de score les fréquences théoriques, à partir de la table de la loi normale (il faut tenir compte du fait que la table donne les fréquences des événements extérieurs à (-z,z). - On calcule les différences entre fréquence observée et théorique, pour chaque niveau de score. Score Effectifs Fréquence Fréquence cumulée 0 0 0. 0. 0.0 0. 0. 0. 0. 0. 0. 0. 0.7.0 z -. -0.8-0.8 0.0 0.7.0 Fréquence cumulée théorique 0.09 0.9 0. 0.0 0.7 0.8 Différence 0.08 0.0 0.08-0.0-0.0 0.7 m=.8 σ=. Le test porte sur la différence absolue maximale entre fréquence théorique et observée (ici.0). La table de Kolmogorov-Smirnov donne la différence maximale

théorique acceptable, en fonction de l'effectif de l'échantillon. Ces valeurs sont données directement pour les effectifs inférieurs à, et doivent être calculés au-delà. Ici pour N=0, on a Dth=.0 pour p=.0. On peut admettre l'hypothèse nulle et considérer la distribution comme normale. Exercice Score Effectifs Fréquence Fréquence cumulée 7 8 9 0 7 0 0. 0.9 0.077 0.08 0.08 0.077 0.000 0.08 0.08 0. 0.9 0.79 0.807 0.8 0.9 0.9 0.9.000 z -0.7-0.9 0. 0.97.0.8.90.7.87 Fréquence cumulée théorique 0. 0.8 0.9 0.7 0.80 0.9 0.97 0.990 0.997 Différence 0.90 0.0 0.09 0.08 0.00 0.008 0.00 0.09 0.00 m=. σ=. N= Dmax=0.0. à p=.0, Dth=.7. On peut donc refuser l'hypothèse nulle et affirmer que la distribution n'est pas normale... La loi normale réduite Si l'on transforme une distribution en retranchant la moyenne et en divisant par l'écart-type, on obtiendra une nouvelle distribution, de moyenne 0 et d'écart-type : c'est une distribution centrée réduite. z=(x-m)/σ Une telle transformation permet par exemple de comparer des distributions en s'affranchissant des unités de mesure. Exercice: m=0 σ= x 0 0 0 80 9 00 z -. - - - 0. La loi normale réduite a des propriétés très importantes. On a étudié sa distribution, et notamment on a établi les correspondances entre les abscisses (les différentes valeurs de z) et les aires délimitées par ces abscisses.

La table fait correspondre à chaque valeur de z l'aire extérieure à la bande de plan située entre z et -z. Exemples: - z=.0 la table indique p=. Ceci signifie que.% de la distribution des z est située en dehors de l'intervalle (-.;.). Ou encore que 00-.=8.% de la distribution sont situés entre -. et.. Ou encore que (8.)/=.% de la distribution des z est situé entre 0 et.. La table peut être utilisée à l'inverse: Quelle est la valeur z pour que 0% de la distribution soit supérieure à z, ou inférieure à -z. Pour p=.0, la table indique z=.. La table normale réduite est à la base de la plupart des procédures statistiques. Quelques applications.. Français moyenne écart-type 7 Maths Moyenne 8 écart-type a. Un élève obtient en Français et 7 en maths. Sa performance relative estelle meilleure en français ou en maths? z fr =z math = Les performances sont équivalentes. b. Un élève obtient en français. Quelle note devrait-il obtenir en math pour une performance équivalente? z fr =(-)/7=-. si z math =-. x math =(-.*) + 8=.. Soit une distribution normale, m=7, σ=8 Quel pourcentage de notes sont situé entre x=7 et x=8. - Transformation en notes z z=- z= - table de la loi réduite:

z= p=.7 Si p' est la proportion de notes entre x et x, p'= -p =.8 8.% des notes sont situées entre 7 et 8.. Quel est le pourcentage de notes entre x= m+σ et x= m-σ? z=- z= p=.0 p'=.9 9.% des mesures sont situées entre x et x. Si l'on tire une note au hasard, il y a 9.% de chances qu'elle soit située entre x et x.. Quel est le pourcentage de notes entre x= m+σ et x= m-σ? 99.7%. Quelques valeurs remarquables de z: % p' z 90.0. 9.0.9 99.0... Limites de confiance de la moyenne d'un échantillon Un échantillon est toujours considéré comme extrait d'une population parente. Il n'en est pas l'image parfaite. Il existe une erreur due à l'échantillonnage. Tous les paramètres calculés (i.e. moyenne, écart-type) ne sont que des estimations de ceux de la population parente. Quelle confiance accorder à la valeur d'un paramètre calculé sur un échantillon?... Population parente à paramètres connus Soit une population parente de moyenne M=9. et σ=.. De cette population on extrait au hasard des échantillons de taille N. Les différentes moyennes obtenues 7

constituent un échantillon de moyenne, d'une population parente des échantillons de mesures, de moyenne m=m, et d'écart-type E. E est appelé erreur-type. On montre que E = σ N 8

E est d'autant plus réduit que N est élevé: N E.7.8 00. Soit une population parente de moyenne M=0 et σ=. On extrait un échantillon d'effectif N=. Entre quelles limites a-t-on 90% chances de trouver la moyenne de l'échantillon? Il faut calculer les limites L et L de l'intervalle sur la distribution des moyennes. E=/ =/=. L= M-(.*E)=.87 L= M+(.*E)=. On a 90% de chances pour que la moyenne de l'échantillon se situe entre ces deux limites. Ou encore, j'ai 0% de chances de me tromper en disant que la moyenne se situe entre L et L. Exercice:. Soit une population parente de moyenne M=0 et σ=. On extrait un échantillon d'effectif N=. Entre quelles limites a-t-on 9% chances de trouver la moyenne de l'échantillon? Il faut calculer les limites L et L de l'intervalle sur la distribution des moyennes. E=/ =/=. L= M-(.9*E)=.0 L= M+(.9*E)=.90 On a 9% de chances pour que la moyenne de l'échantillon se situe entre ces deux limites. Ou encore, j'ai % de chances de me tromper en disant que la moyenne se situe entre L et L.. Au seuil p=.0, L=.0 et L=.0 9

. M=00 σ=0 N=0 7% p=. z=. L=9.8 L=0. E=0/.7=.7. M=00 σ=0 a. Quel effectif donner à l'échantillon pour avoir 9% de chance que la moyenne soit situé à +/- de la moyenne? L=9 L=0 z=.9 L=M-z(σ/ N) donc N=[(z*σ)/(M-L)] N=[(.9*0)/()] = (7.8) =. N= b. si p=.0 N=0... Population parente à paramètres inconnus On ne connaît que les paramètres de l'échantillon. Quelle confiance accorder à cette estimation? Les limites de confiance de la moyenne de l'échantillon sont L=m-t(σ/ N) et L=m+t(σ/ N) t est le t de Student, donné par une table spécifique. t dépend du seuil de probabilité choisi, et du nombre de degrés de liberté de l'échantillon ddl=n- Exemples: N= P=.0 t=.0 N=0 P=.0 t=.7 Exercice:. Echantillon de notes: 0 9 9 7 9 9 0 0

0 7 9 0 Au seuil.0, quelles sont les limites de confiance de la moyenne obtenue? N= m=.=. σ=. t=.07 L=0.8 L=. Au seuil.0, L=0. et L=.. Dans une épreuve, on fait l'hypothèse que la moyenne sera. On obtient une moyenne de. pour un écart-type de. ( N=9). L'hypothèse est-elle invalidée? Première méthode: ddl=8 t=.0 L=. -.0(/ 9) =.7 L=.0 Au seuil p=.0, l'hypothèse est invalidée. La différence entre la moyenne attendue et la moyenne obtenue est trop grande pour n'être expliquée que par le hasard. Seconde méthode, plus rapide: m A On calcule t tcalc = σ =.7 N On compare ensuite t calc et t lu, pour savoir si la différence est significative au seuil choisi. Si t calc > t lu, la différence est significative. Par contre, au seuil.0, on ne peut pas dire que cette différence est significative (t lu =.7) On peut noter qu'un test statistique met toujours à l'épreuve une hypothèse nulle, ou hypothèse de différence nulle H 0 : la différence constatée n'est pas significative.. Comparaison de moyennes. Les principes précédent sont principalement utilisés pour la comparaison des moyennes de deux ou plusieurs échantillons... Echantillons appariés

Lorsque les deux échantillons sont appariés (mesures répétées), on calcule pour chaque paire x x la différences d, puis m d la moyenne des différences. Si l'hypothèse nulle est vraie, cette moyenne devrait être égale à 0. le problème se ramène donc à la comparaison d'une moyenne obtenue et d'une moyenne attendue. On calcule t selon la formule précédente, avec A=0 Md t = df=n- σ Exemple: d N x x d A B C D E F G H 8 8 7 0 0 7 7 - - -7 7 H 0 : m et m sont les estimations d'une même moyenne. m=. et m= m d =/8=.7 σ d =. t calc =.0 au seuil p=.0, ddl=7, t lu =. t calc <t lu, H 0 est acceptée On n'apporte pas la preuve que des progrès ont été réalisés

Exercice: x x d A B C D E F G H I J 8 0 9 8 8 0-08 m=. m= 0.8 M d =. N=0 σ d =. t calc =.098 ddl=9 tlu=. H 0 est rejetée. On peut affirmer qu'il y a un progrès lié à l'enseignement... Echantillons indépendants Le problème est de comparer les moyennes de deux échantillons indépendants (ils peuvent avoir des effectifs différents). L'hypothèse est que les deux moyennes sont égales, donc que la différence entre m et m est voisine de zéro. Il serait possible de calculer les intervalles de confiance de chaque moyenne, et de voir si les deux intervalles ont une intersection non nulle. On calcule en fait une statistique t, selon les principes précédents. Il est cependant nécessaire de calculer une estimation de la variance de la distribution des différences (m-m). On montre que la meilleure estimation de cette variance intragroupe est égale à: V ε = v( n ) + v ( n ) n + n Puis on calcule la quantité t m m t = dll=(n +n )- V ( ε + ) n n

Ces statistiques t doivent être comprises comme le rapport entre la variance véritable (ou la différence véritable entre les moyennes) et la variance d'erreur (c'est-àdire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les groupes, alors la variance véritable et la variance d'erreur sont équivalentes. le rapport sera alors égal à. Lorsque t est significatif, on en conclut que la variance véritable est supérieure à la variance d'erreur. Exemple:. m=, σ= m=, σ= Vε=[²(0-)+²(-)]/(0-)+(-)=. t=(-)/ (.(/0)+(/))=.8 dll=0+-= On prend sur la table le ddl immédiatement inférieur (0) à p=.0, t=.0 tcalc>tlu l'hypothèse nulle est rejetée. Il y a donc une différence significative entre les deux groupes.. groupe :, 0,,,, 0,, 8,, 7,, 7 groupe :,,, 8, 9,,,,, 0 m=. m=. n= n=0 v=.7 v=.9 Vε=90. t=.79 tlu=.09 tcalc<tlu l'hypothèse nulle est acceptée. On n'apporte pas la preuve d'un comportement différent entre les deux groupes... Analyse de variance

... Analyse de variance à un facteur Le test de Student ne peut comparer que deux groupes. Lorsque l'on a plus de deux groupes expérimentaux, il est nécessaire d'utiliser l'analyse de variance, ou ANOVA. L'analyse de variance va comme le test de Student porter sur un rapport entre la variance véritable (c'est-à-dire liée à un facteur expérimental) et la variance liée à l'erreur expérimentale. Mais la comparaison ne portera pas sur deux échantillons, mais sur l'ensemble des échantillons affectés par le facteur. Le cas le plus simple est l'analyse de variance à un facteur: il s'agit en fait de comparer plusieurs échantillons indépendants. L'usage de tests de Student répétés est inapproprié. Deux conditions doivent être réunies: - les distributions doivent être normales. - les variances doivent être homogènes. L'hypothèse nulle est que les moyennes m, m,..,mn, ne diffèrent pas dans leur ensemble. Principe de solution: La variance totale dépend de deux sources de variation: - La variance intra-groupe (c'est-à-dire la variance de la variable, à l'intérieur de chaque groupe, autour des moyennes de groupe). - La variance inter-groupe, qui mesure la dispersion des moyennes La statistique F de Snedecor est le rapport entre la variance inter-groupe et la variance intra-groupe. F est d'autant plus petit que la variance intergroupe est faible et la variance intra-groupe élevée. Dans ce cas, le moyennes sont proches et les distributions tendent à se chevaucher. Inversement, il est d'autant plus grand que la variance inter-groupe est forte et la variance intra-groupe faible. Dans ce cas les moyennes sont nettement séparées et les distributions, peu étalées, ne se chevauchent pas. Le théorème fondamental de l'analyse de variance énonce l'additivité des sommes de carré: SC totale= SC inter + SC intra SC Totale= ij (x ij -m)² m représentant la moyenne totale

SC inter= n i (m i -m)² n i représentant l'effectif du groupe i et m i la moyenne du groupe i. SC inter est donc la somme des carrés des écarts des moyennes de groupe à la moyenne générale, pondérée par l'effectif de chaque groupe. SC Intra= ij (x ij -m i )² SC Intra est égale à la somme des sommes de carrés de chaque groupe. Par ailleurs, on a une additivité des degrés de liberté: ddl Total= ddl Inter + ddl Intra N-= (K-) + (N-K) K représentant le nombre de groupes et N l'effectif total. L'analyse de variance n'utilise pas de scores de variance, mais des grandeurs appelées carrés moyens (mean squares), définis comme le rapport entre les sommes de carrés et le nombre correspondant de degrés de liberté. Le carré moyen total est égal à: CM total=( ij (x ij -m)²)/n- On voit que CM total est égal à la variance de l'échantillon total des scores. On a vu précédemment une formule de calcul plus rapide, soit: CM total = N étant l'effectif cumulé des k groupes. Le carré moyen intra-groupe est égal à: La variance inter-groupe est égale à: ( x) x N N CM Intra= ( ij (x ij -m i )²)/(N-k) CM inter= (n i (m i -m)²)/(k-) Afin de comprendre le sens des carrés moyens inter et intra, on peut considérer le cas où l'effectif des K groupes est identique. Dans ce cas, le carré moyen intra-groupe

est égal à la moyenne des variances de chaque groupe. Par ailleurs le carré moyen intergroupe est égal au produit de l'effectif par la variance des moyennes de groupe. On dispose également de formules rapides pour le calcul des carrés moyens inter et intra. xi x ( ( ) ) ni CMintra= N K xi x ( ( ) ( ) ) ni N CMinter= k- La méthode "ABC" de calcul permet de simplifier l'analyse: On commence par calculer les trois grandeurs: A= x² B=(x)²/N C=[(x i )²/n i ]= (x )²/n +(x )²/n +... +(x k )²/n k Le tableau d'anova est constitué de la manière suivante: Source Somme des ddl Carrés moyens F carrés (variance) Inter (réelle) C-B K- (C-B)/(K-) CMinter/CMintra Intra (erreur) A-C N-K (A-C)/(N-K) Total A-B N- Exemple: Groupes 7 8 8 7 7 8 9 7

Effectif (n i ) 7 N= x i 9 x= m i. M=. ( )² 7 Vt = 77. =. 9 ( ² + ² 9 + ² + ² ) ² Vinter = 7 =7.9/=.98 ² ² 9² ² 7 ( + + + ) Vintra = 7 =9./8=. Fcalc=.98/.=.8 La table de F est lue en fonction du nombre de degré de liberté du numérateur (K-) et du dénominateur (N-K) Flu=. à p=.0 Fcalc<Flu L'hypothèse nulle est acceptée, on n'apporte pas la preuve d'une différence entre les moyennes. Remarque: la comparaison de deux groupes peut être réalisée indifféremment par le t de student et par l'analyse de variance. On remarque alors que F=t². Exemple: X X² X X² X X² 0 7 0 00 9 00 9 7 9 8 9 8 7 9 9 Σx=0 m=0 Σx²= A=ΣX²=++0=879 Σx= m=7 Σx²= B=(Σx)²/N=(0++0)²/=0²/=0/=7 Σx=0 m= Σx²=0 8

C=[(x i )²/n i ]=0²/ + ²/ + 0²/ = 00/ + / + 00/=8 9

Source Somme des ddl Carrés moyens F carrés (variance) Inter (réelle) 90.0 0.00 Intra (erreur). Total pour p=.0, F,=.88 L'hypothèse nulle est rejetée. Test post-hoc. L'analyse de variance ne permet que de déceler des différences d'ensemble dans les moyennes, mais pas de localiser avec précision les différences. Si le facteur comporte plusieurs niveaux, il est nécessaire de procéder à des tests post-hoc (Newmann-Keuls, Scheffé,...), pour localiser avec précision les différences. Les tests post-hoc ne peuvent être réalisés que si l'analyse de variance est significative. La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une somme pondérée de moyennes: C= c m + c m +... + c k m k avec c i =0 et c i = (afin d'homogénéiser les coefficients) exemples:, -, 0, 0 pour comparer m avec m, 0, -, 0 pour comparer m avec m /, /, -/, -/ pour comparer m et m avec m et m Le contraste est jugé significatif si la valeur absolue de C est supérieure à ci S = ( k )( Fc)( CMint ra)( ) n k étant le nombre de niveaux de la V.I. Fc étant la valeur critique de F avec k- et n-k ddl, pour le seuil α déterminé. i 0

n i étant l'effectif du groupe du niveau i Exemple: VD CAT VD 8 8 8 9 8 9 8 A=ΣX²=7 B=(Σx)²/N=7 /=8. C=[(x i )²/n i ]=0.8 C-B= 7.87879 A-C=.7 A-B=. Source Somme des ddl Carrés moyens F carrés (variance) CAT 7.9 8.. erreur.7 8.97 p=.00 Moyennes= :.7 : : 8. Post-hoc.,-,0 C=-0. S=.9 0,,- C=-. S=.7,0,- C=-.9 S=.7 Matrice calculée par systat Sheffe

.000.98.000.070.097.000 Mais: /,/,- C=-.79 S=.8... Analyse de variance à deux facteurs Lorsque l'on croise plusieurs facteurs, l'analyse de variance donne des renseignements d'une part sur les effets simples, mais également sur les effets d'interaction entre les facteurs. Le tableau ci-dessous expose le problème d'une ANOVA x (anova à deux facteur, comprenant respectivement et niveaux B B A mab mab ma A mab mab ma A mab mab ma mb mb Il s'agit d'étudier d'une part l'effet principal A (sur les moyennes colonnes ma, d'autre part l'effet principal B (dur les moyennes lignes mb) et enfin l'effet d'interaction, sur l'ensemble des moyennes mab. On utilise trois statistiques F: - F A = (Variance réelle due à A)/(variance d'erreur) - F B = (Variance réelle due à B)/(variance d'erreur) - F AB = (Variance réelle due à AxB)/(variance d'erreur) La méthode ABC est organisée selon le tableau suivant: A= x² B=(x)²/N C (lignes)=[(x i )²/n i ]= (x )²/n +(x )²/n +... +(x l )²/n l

l représentant le nombre de lignes D (colonnes)=[(x j )²/n j ]= (x )²/n +(x )²/n +... +(x c )²/n c c représentant le nombre de lignes E (lignes x colonnes)=[(x ij )²/n ij ]= (x )²/n +(x )²/n +... +(x lc )²/n lc Le tableau d'anova est constitué de la manière suivante: Source Somme des ddl Carrés moyens F carrés (variance) Ligne C-B l- SCL/ddlL CML/CMerr Colonne D-B c- SCC/ddlC CMC/CMerr LxC (E-B)-(C-B)-(D-B) (l-)(c-) SCLC/ddlLC CMLC/CMerr Erreur (A-B)-(E-B) (N-)-(l-)- SCerr/ddlerr (c-)-(l-)(c-) Total A-B N-... Analyse de variance à un facteur avec mesures répétées. Le problème est de comparer les moyennes obtenues par un même groupe de sujets lors de la répétition d'une mesure. La méthode ABC est organisée selon le tableau suivant: A= x² B=(x)²/N C (sujets)=[(x i )²]/e= [(x )²+(x )²+... +(x l )²]/e s représentant le nombre de sujets et e représentant le nombre d'essais D (essais)=[(x j )²]/s= [(x )²+(x )²+... +(x e )²]/s Le tableau d'anova est constitué de la manière suivante:

Source Somme des ddl Carrés moyens F carrés (variance) Sujets C-B s- SCS/ddlS CMS/CMres Essais D-B e- SCE/ddlE CME/CMres Résidus (A-B)-(C-B)+(D-B) (s-)(e-) SCR/ddlres Total A-B N-... Test de l'homogénéité des variances. Même si les tests de normalité sont valides, on ne peut appliquer l'analyse de variance que si les deux échantillons sont issus de populations parentes ayant les mêmes variances. Le test porte sur les variances d'échantillon v et v. On calcule le rapport v/v (l'estimation la plus élevée est au numérateur). L'hypothèse nulle est que les variances des populations parentes sont égales. Ce rapport devrait donc être égal à. Plus ce rapport s'écarte de, plus H0 a de chance de devoir être rejetée. ddl. Le rapport v/v peut être testé sur la table du F de Snedecor, avec n- et n-.. Tests non paramétriques Les tests paramétriques précédemment décrits, supposent qu'un certain nombre de conditions soient vérifiées, et notamment la normalité de la distribution, et l'homogénéité des variances. Ces deux propriétés doivent être testées avant de réaliser les tests statistiques. Si ces propriétés ne sont pas vérifiées, il faut remplacer les tests paramétriques par leurs équivalents non-paramétriques. Lorsque les tests de normalité ne sont pas significatifs, l'usage de l'analyse de variance n'est pas permise. On dispose alors d'une batterie de tests alternatifs, analogues à ceux qui viennent d'être décrits. D'une manière générale, ces tests sont réalisés après une transformation des données brutes en données de score (échelle ordinale). On peut établir les correspondances suivantes... Comparaison d'échantillons indépendants. On utilise le test du U de Mann-Whitney. Ce test travaille sur les rangs. On mélange les données des deux échantillons, on les ordonne et on leur attribue des rangs. Soit TA la somme des rangs de l'échantillon A et TB la somme des rangs de l'échantillon B

On peut calculer la moyenne générale des rangs, la moyenne des rangs pour A et la moyenne des rangs pour B. On peut de même calculer les variances des échantillons de rangs. L'hypothèse nulle est que la distribution des rangs est la même dans les deux groupes(même moyenne et même écart-type). Le test de Mann-Whitney ne fonctionne que pour la comparaison de deux groupes. Si l'on veut comparer plus de deux groupes, on utilise le test de Kruskal- Wallis. Ce test débute par une démarche similaire (agrégation et classement des données, calcul des données de rang). On calcule pour chaque groupe Ti (somme des rangs), mi (moyenne des rangs) et ni (effectif). On calcule ensuite la statistique H H=[((/N(N+))*Σn i T i ] - (N+) H suit une loi de Chi- à k- ddl. Exemple: Groupe Score Rang Score Rang Score Rang Score Rang 8 0 7 7. 0 8. 7 9 0. 8. 9... 8 9. 7 0 8 9... 7. Ti 7.. 9 Mi 8..7. 7 ni 7 H=.9 pour ddl=-=et p=.0, Chi-=.. L'hypothèse nulle peut être rejetée. Si l'hypothèse nulle est rejetée (différences significatives entre les groupes), on peut utiliser le test de Mann-Whitney en post-hoc pour localiser les différences.... Comparaison d'échantillons appareillés. Pour deux échantillons appareillés, on utilise le test de Wilcoxon.

- On calcule les différences entre test et test, pour chaque sujet. - On classe les sujets dans l'ordre croissant des différences non nulles (les différences nulles ne sont pas prises en compte). - On calcule le rang de chaque sujet dans ce classement - On calcule la somme des rangs des différences positives (T+) et la somme des rangs de différences négatives (T-). remarque: T+ + T-=n(n+)/ (somme des rangs) Sous l'hypothèse nulle, T+ = T- = n(n+)/ Wilcoxon a proposé une table pour lire la significativité des T+ calculés. Lorsque la comparaison porte sur plus de deux échantillons appareillés, on dispose du test de Friedman... Comparaison d'échantillons en données de numération. Le test de χ Un échelle nominale permet la constitution de tableau d'effectifs. Ces tableaux représentent souvent une distribution bivariée, c'est-à-dire selon deux variables. La figure suivante présente la distribution de 00 sujets, selon les variables sexe et choix d'études. Garçons Filles Totaux Littéraires 0 0 0 Scientifiques 8 0 Techniques 8 0 Totaux 0 80 00 Le problème est de savoir s'il existe une relation entre sexe et le choix des études. On fait l'hypothèse qu'il n'y a pas de lien, que les deux variables sont indépendantes. On peut reconstituer le tableau des effectifs correspondant théoriquement à cette hypothèse: Les effectifs de chaque case sont calculée de manière à ce que la répartition sur un des niveau du premier facteur (littéraires par exemple) soit proportionnel à la répartition totale sur le second facteur (sexe par exemple) Effectif théorique = Total ligne x Total colonne Total général

7

Littéraires 7 Garçons Filles Totaux () Scientifiques () Techniques () 8 () (.) 8 (.) 0 Totaux 0 80 00 Si i représente les études et j le sexe, on calcule la statistique suivante: χ = ( O T ) ij ij T i j O ij représentant les effectifs observés pour chaque cellule et T ij les effectifs théoriques. Cette quantité χ² est d'autant plus grande qu'il y a des différences entre la distribution observée et la distribution théorique. Des tables statistiques permettent d'apprécier le degré de signification de la valeur de χ² calculée, en fonction du nombre de degrés de liberté associé au tableau d'effectif (ν=(l-)(c-)). Enfin, il est nécessaire, si l'effectif d'une cellule est inférieur à 0, de faire la correction de Yates, en retirant 0. à (O-T). Exemple: CSP et orientation Sciences Lettres Technologie Ouvriers 0 0 Cadres moyens 0 Cadres sup. 9 0 8 9 Effectifs théoriques Sciences Lettres Technologie Ouvriers. (.) 7. (.).0 (.7) Cadres moyens. (.). (.8). (.09) ij 0 0 8

Cadres sup. 9.9 (.). (.9) 8.9 (.) H 0 : équirépartition des orientations dans les CSP. χ² =(.--.0)²/. +...+ (.-9)²/. + (8.9--.)²/8.9 = 8.0 avec ddl=(-)(-)=x= au seuil p=.0 χ² =9.9 χ²<χ²lu, H 0 est acceptée: il n'y a pas de différence de répartition entre CSP.. Relations entre séries d'observation... Le coefficient de corrélation de Bravais-Pearson Le coefficient de corrélation est une mesure de la relation entre deux variables x et y. Afin d'étudier cette relation, on peut transformer les scores x et y en scores z: z x =(x-m x )/σ x et z y =(y-m y )/σ y On calcule alors pour chaque point le produit croisé z x z y. Ce produit croisé a des caractéristiques importantes: Si les scores bruts sont simultanément élevés, le produit croisé sera important et positif. Ce sera également le cas si les scores bruts sont simultanément faibles. Si les scores bruts sont élevé d'un côté, et faible de l'autre, le produit croisé sera élevé, mais négatif. Le coefficient de corrélation de Bravais-Pearson est la somme algébrique des produits croisés, pondéré par la taille de l'échantillon moins. r = z z x n y ou encore: r = ( x m )( y m ) x ( x m )² ( y m )² x y y = ( x m )( y m ) x Nσ σ x y y Ce coefficient rend compte de la tendance des couples (x,y) à entretenir une relation forte et prévisible. 9

Exemple: Sujets x y z x z y z x z y x² y² xy 7 8 9 0 7 8 8 8 9 0 8 8 9 0 9 0 -.9 -.9 -.9-0.0-0.0-0.0 0.00 0.00 0.0 0.80 0.80 0.80.9.9 -.89 -.0 -.0-0. -0. 0. -0. 0. -0. 0. 0..0.7.7.0.7. 0. 0.08-0.80 0.00 0.00-0.08 0.7 0.0 0.8.7. 9 9 8 00 8 00 8 00 9 9 9 0 7 70 88 9 0 0 m x = m y =0. z x z y =.7 x²=8 y²=7 xy=9 σ x =. σ y=.8 x=8 y=7 r=.70/=.90 On utilise couramment une formule plus pratique, dérivée de la précédente: r = N xy x y ( N x ² ( x )²)( N y ² ( y )²) Calcul: (x)²=70 et (y)²=09 r = ( 9) ( 8)( 7) ( ( 8) 70)( ( 7 ) ( 09 )) =980/08.87=0.90 0

Exemple: x y n nx ny nx² ny² nxy 0 0 0 0 0 0 0 9 8 0 0 8 9 8 8 9 8 0 0 0 7 8 9 8 0 0 0 8 8 0 N=0 x=77 y=80 x²= y²=7 xy= r=0(-(77*80))/ (-77²)(7-80²)=.7 L'hypothèse nulle est qu'il n'y a pas de relation entre les deux variables. La valeur calculée est comparée à la valeur lue sur la table de Bravais-Pearson, à ddl=n- à ddl=8 p=.0 r=.0 p=.0 r=. p=.0 r=. L'hypothèse nulle peut donc être rejetée. La corrélation peut également être approchée au travers de l'analyse de régression: une fois calculée la droite de régression de x vers y, on peut calculer l'équation de régression de y vers x. On a : y=a'x + b'

avec et a' = ( y m )( x m ) b'=m x - am y y ( y m )² y x Si l'on reprend l'équation brute du coefficient de corrélation de Pearson: ( x mx )( y my ) ( x mx )( y my ) r = = ( x m )² ( y m )² Nσ xσ y On remarque que r x = a. a' Si a=a'=0, la corrélation est nulle: les deux droites des moindres carrés sont parallèles aux axes de coordonnées. Dans ce cas il n'y a aucune relation entre les deux variables. Si a.a'=, la corrélation est parfaite et positive. Si a.a'=-, la corrélation est parfaite et positive: les deux droites sont alors confondues. y.. Corrélation et causalité Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il existe une relation de cause à effet entre les deux variables. La corrélation peut en effet être liée à une troisième variable, qui agit de manière indépendante sur les deux première Par exemple il existe une corrélation élevée entre le taux de délinquance et le nombre d'églises (influence de la taille de la cité). Il existe une corrélation positive entre la réussite à des tests d'intelligence et la taille du pied (influence de l'âge). La corrélation est à ce niveau essentiellement descriptive... Corrélation partielle La corrélation partielle permet parfois d'éviter de se laisser abuser par certaines corrélations artefactuelles. Par exemple, si l'on calcule les corrélations entre () l'intelligence, () le poids, et () l'âge. On trouve une corrélation r =.0 entre intelligence et poids. Cette corrélation doit être rapportée aux deux autres, soit r =.9, et r =.88. La corrélation partielle exprime la liaison entre deux variables, en contrôlant l'influence d'une troisième variable: dans ce cas on calcule la liaison entre intelligence et poids, à âge constant: La procédure de corrélation partielle consiste à calculer l'équation de régression de () vers (). Puis on calcule la corrélation entre les résidus de cette régression et ().

On dispose d'un moyen plus rapide, à condition de pouvoir calculer les corrélations entre les trois variables: r ( r r) r = ( r ²)( r ²) Dans ce cas la corrélation partielle est de -.0. La procédure de corrélation partielle consiste à calculer l'équation de régression de () vers (). Puis on calcule la corrélation entre les résidus de cette régression et ()... Comparaison des corrélations Il est impossible de comparer directement des coefficients de corrélation, dans la mesure ou ces coefficients ne sont pas normalement distribués, et ce d'autant plus que le coefficient est élevé (r>.0 ou r<-.0). Il est nécessaire dans un premier temps de transformer r par la transformation de Fischer. On applique la formule suivante: exemple:.99 -..9 -.8.90 -.7.80 -.09.70-0.87.0-0..0 -.0.00.00 Zr= (log(+r/-r))/ On calcule ensuite, pour chaque couple (r a,r b ), une statistique t, selon la formule: t ra,rb = (Z ra -Z rb ) / S zra-zrb avec S zra-zrb = [(/(n a -)+(/(n b -)] n a et n b représentant les effectifs des échantillons impliqués dans le calcul des coefficients r a et r b. t ra,rb suivant une distribution de Student, on peut en apprécier la signification, pour un nombre de degrés de liberté égal à (n a - ) + (n b - ). Exemple: n=0 r=.80 Zr=.09 n=0 r=.8 Zr=.

t=.7/ (/7)+(/7)=-.7 ddl= tlu=... Relations entre deux séries d'observations. La corrélation est une mesure de la manière dont deux variables varient de manière simultanée. Par exemple, pour deux variables ordinales, elle permet de répondre des questions du type: le classement réalisé sur des élèves en français est-il similaire à celui réalisé en histoire? Deux statistiques permettent de calculer l'importance de cette liaison. La première est le τ (tau) de Kendall, et la seconde le ρ (rô) de Spearman. Ce dernier est en fait un coefficient de corrélation linéaire, calculé sur les rangs. Ces deux coefficients relevant d'une logique de calcul différente, il n'y a pas de relation directe entre les valeurs qu'ils prennent. Concernant le coefficient de Spearman, on montre que: d ρ = n( n ) Σd² étant la somme des carrés des différences des rangs. Exemple Sujet x y rang x rang y d d² 7 8 8 9 8 8 7 0 0 7 8.. 7 8 0 -. - 0. - 0. 0. Σd²=7. ρ=-((*7.)/(8(8²-)))=0.9. Régression et covariance.. Régression linéaire Soit la représentaton graphique, en deux dimensions, de la relation entre deux variables x et y. Chaque point M est associé à un couple (x,y). On cherche à déterminer

une droite qui représenterait au mieux la relation, qui s'ajusterait au nuage de points. La droite retenue est celle pour laquelle la somme des carrés des distances verticales de chaque point M à la droite est minimale. On démontre que cette droite passe par un point de coordonnées (mx,my), et que son équation est de la forme avec et a = y=ax + b ( x m )( y m ) b=m y - am x x ( x m )² x y On peut développer ces équation pour obtenir des formules de calcul plus pratiques: N ( xy) x y a = N x² ( x)² b = x² y x xy N x² ( x)² a et b sont les paramètres de la droite des moindres carrés. r = N xy x y ( N x ² ( x )²)( N y ² ( y )²) La formule y=ax + b permet de calculer pour chaque x une valeur théorique de y. L'échantillon des yth-y constitue les résidus de la régression. La droite des moindres carrés est donc la droite qui minimise la somme des carrés des résidus. x y x² y² xy 9 9 Σx= Σy= Σx²= Σy²= Σxy= a =((*)-(*))/((*)-(²) =(70-)/(7-) =/0 =0.9

b =((*)-(*))/((*)-(²) = (8-80)/(7-) = (/0) = 0. r =((*)-²)/ ((*)-(²))*((*)-(²)) =/ (7-)(7-) =/ (7-)(7-) = / 0² = /0 =0.9 y=(.9)x +. x y réel y théorique résidus. -0.. -0..0 +.0.9-0.9.8 +0... Régression curvilinéaire Par une transformation logarithmique de X, de Y ou des deux simultanément, on peut reconstituer les ajustements logarithmiques, exponentiel et puissance. log(x) et Y ajustement logarithmique y=alogx + B A et B sont ici donnés directement. X et log(y) ajustement exponentiel y=b*e Ax log(y)= ax + b donc y= e ax + b y=e b *e ax y=b*e ax A=a et B=eb log(x) et log(y) ajustement puissance y=bx A log(y)=a(log(x)) + b donc y=e a(log(x)) + b y=e a(log(x) )*e b y=e b *x a

A=a et B=eb D'autres fonctions plus complexes peuvent être obtenues par la même méthode. Le choix du meilleur ajustement se fait ensuite par comparaison des coefficients de corrélation de chaque équation... Analyse de la covariance L'analyse de la covariance est une combinaison de l'analyse de variance et de la régression linéaire. L'analyse de la covariance permet d'étudier l'effet d'une variable A en contrôlant l'effet d'une seconde variable B. La variable B est mesurée pour chaque sujet. Une équation de régression est calculée entre la variable dépendante et la variable B. On calcule alors pour chaque sujet les résidus, c'est-à-dire la différence entre le B réel et le B prédit par l'équation de régression. Une ANOVA est ensuite réalisée en utilisant les résidus comme variable dépendante. 7. Analyses multivariées Les procédures décrites jusqu'à présent ne prenaient en compte qu'une seule variable dépendante. On parle de statistiques univariées. Un certains nombre de procédures permettent la prise en compte simultanée de plusieurs variables dépendante. Ces procédures sont dites multivariées (multivariate techniques). On retrouve à leur niveaux des procédures expérimentales (analyse discriminante, analyses de la variance et de la covariance multivariées) et des procédures corrélationnelles (corrélation canonique, analyse factorielle, analyse des pistes causales). 7.. Régression multiple La régression permet de résumer la relation entre deux variables, et donc de prédire une variables Y en fonction d'une variable X. Mais la prédiction d'une variable donnée peut être plus fine si l'on prend en compte plus de variables prédictives. La régression multiple permet de calculer une équation additive de forme: z=ax + by + c prédisant une variable z à partir de deux (ou plus) variables mesurées. L'équation de régression multiple est caractérisée par un coefficient de régression multiple, exprimant la précision de la prédiction. 7.. Analyse discriminante Cette analyse est réalisée pour une VI et deux ou plus VD. Il s'agit d'utiliser une combinaison des VD pour prédire la VI (dans la logique de la régression multiple). Cette 7