Introduction et concepts de base

Transcription

1 Introduction et concepts de base Les statistiques sont un ensemble de procédures destinées à traiter des données quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de décrire les données recueillies: on parle de statistiques descriptives. Un autre type de procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces deux étapes dans un premier temps à une enquête policière, destinée à recueillir le maximum d'informations, puis au procès visant à établir les responsabilités. Toute étude statistique s'appuie sur des données. Dans le cas ou ces données sont numériques (95% des cas), on distingue les données discrètes (qui prennent un nombre fini de valeurs : par ex, le nombre de voitures par famille en France) des données continues (qui prennent des valeurs quelconques : par ex, la taille des basketteurs). Dans le cas d'une série discrète, le nombre de fois ou l'on retrouve la même valeur s'appelle l'effectif de cette valeur. Si cet effectif est exprimé en pourcentage, on parle alors de fréquence de cette valeur. Dans le cas d'une série continue, on répartit souvent les données par classes. Le but des statistiques est d'analyser les données dont on dispose. Pour cela, on peut par exemple chercher déterminer la moyenne ou la médiane de la série. De tels nombres permettent notamment de comparer plusieurs séries entre elles. On les appelle indicateurs statistiques ou paramètres statistiques. On distingue les indicateurs de position (qui proposent une valeur "centrale" de la série) et les indicateurs de dispersion (qui indiquent si la série est très regroupée autour de son "centre" ou non).ainsi, le mode d'une série (valeur qui a le plus grand effectif de la série) est un indicateur de position. L étendue de cette série (différence entre la plus grande et la plus petite valeur) est un indicateur de dispersion. La moyenne et la médiane sont des indicateurs de position. De plus, lorsque la série est trop importante (population d'un pays ), on est obligé de faire un sondage, c'est à dire de restreindre l'étude à un échantillon de cette série. Tout le problème est alors de choisir un échantillon vraiment représentatif (de taille suffisante et non biaisé) et d'évaluer l'erreur commise par rapport à une étude qui porterait sur l'ensemble de la série.

2 DESCRIPTION DE LA MÉTHODE STATISTIQUE Identifier le problème (fondamental!) Rassembler les données pertinentes Recueillir de nouvelles données Classer et synthétiser les données Présenter les données (de façon réfléchie) Analyser les données et... Interpréter correctement les résultats obtenus L'APPROCHE CRITIQUE EN STATISTIQUES L'obstacle du biais 95% des dentistes recommandent le dentifrice Tresse... mais si 94% recommandaient un dentifrice quelconque?!? Les «moyennes» trompeuses Dans une classe de secondaire I de l'école de La Conception (nord de Montréal) les filles ont, en moyenne, plus d'un enfant (1,2, i.e ) La dispersion (variance), cette grande oubliée Sur la route de ville Vide, il passe, en moyenne, un seul véhicule par heure. Un véhicule a passé il y a 5 minutes, alors traversons... Les artistes de la persuasion (pages suivantes) Post hoc ergo proper hoc (à la suite de cela, donc à cause de cela) L'espérance de vie a augmenté depuis la découverte du plant de tabac... Les corrélations fallacieuses Au Québec, il existe une corrélation entre la vente de crème glacée et le nombre de morts par noyade, donc..! Jouer sur les mots Cette nouvelle marque de beignes contient 20% moins de sucres et de matières grasses... que si on n'y avait pas fait de trou! La tendance doit se maintenir La moyenne d'âge lors de la première relation sexuelle diminue de x mois à toutes les décennies... dans 200 ans, l'humain naîtra après sa première relation! La précision excessive Parmi les 44 étudiants/es d'un cours de statistiques, 2,727% sont nés le 29 février 1967 à 11h38... en fait, il ne s'agit que d'une seule personne Décrire sans inférer (pour un échantillon) Exemple: les nombreux sondages d'opinions Inférer sans décrire (sic!) Voir les quelques (!) exemples dans la littérature «scientifique» ÉVITER LES PIÈGES! Question à se poser Quelle est la source de l'information? Sur quelle preuve se base la source pour appuyer l'information? Quelle preuve ou quelle information manque-t-il? La conclusion est-elle vraisemblable?

3 CHAPITRE 1 : Statistiques descriptives 1. La mesure. Puisque les statistiques servent à traiter des données numériques, se pose dans un premier temps le problème du recueil de ces données, c'est-à-dire le problème de la mesure Mesure, échantillon, population. Un échantillon est un ensemble de données (et non un ensemble d'individus). Un échantillon est supposé représentatif d'une population parente de données. Il faut noter que la population parente n'est pas une population démographique: c'est l'ensemble des mesures possibles, compte-tenu de l'ensemble des variables incontrôlables. La population parente est donc toujours infinie. Une donnée est une information de nature numérique. La mesure va consister à relever des données numériques constituant l'échantillon. Stevens (1969) a proposé une théorie désormais classique de la mesure. S'insurgeant contre l'idée ancienne que mesurer, c'est compter, il estime que le système numérique est un modèle comprenant plusieurs sortes, ou plutôt plusieurs niveaux de règles. La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en suivant une règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes sortes de mesure. La mesure sera possible quand il y aura isomorphisme entre les relations empiriques des objets et les relations formelles des nombres. A cette condition, les secondes servent de modèle pour les premières Les niveaux de mesure Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles les nombres peuvent servir de modèles. Chacune de ces échelles se caractérise, au niveau mathématique, par le type de transformation que l'on peut opérer sur l'ensemble de l'échelle sans en modifier la nature Echelles nominales L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules opérations empiriques possibles sont les relations d'égalité et d'inégalité entre les objets. La Classification Périodique des Eléments est une échelle de mesure de ce niveau (échelle nominale).

4 Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se passe par exemple lorsque l'on modifie un codage (passer de homme=m et femme =F à homme =1 et femme=2). L'analyse statistique va principalement porter sur les données de numération: à chaque classe déterminée par l'échelle nominale est affecté un effectif. Les données de numération sont toujours des entiers. Les données de numération peuvent être présentées sous forme de tableaux de contingence. A B C Total Effectifs x y z x+y+z Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise alors l'effectif d'une classe par le nombre total d'observations. La somme des fréquences est alors égale à 1. En multipliant une fréquence par 100, on obtient un pourcentage. L'intérêt des fréquences est de pouvoir faire des comparaisons entre distributions portant sur des effectifs totaux différents Echelles ordinales L'ordre: les nombres représentent les objets selon leur rang. Les opérations de détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des minéraux est un exemple de ce type de mesure (échelle ordinale). Les échelles ordinales supportent toute transformation monotone croissante. Ce type de fonction respecte l'ordre de données et les propriétés de l'échelle sont conservées. Les données relevées sont appelées données de rang. On peut noter que les rangs statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même en cas d'ex-aecquo. Par exemple: rang attribué rang statistique A 1 1 B C D 4 4

5 Echelles d'intervalles Les intervalles: les nombres peuvent servir à représenter les différences ou les distances entre les éléments. On obtient des échelles de classement à intervalles égaux. Les opérations de détermination de l'égalité des intervalles et des différences sont possibles. Les échelles de température Celsius et Fahrenheit sont de ce niveau. Les échelles d'intervalles supportent toute transformation affine de type y=ax + b. Ces transformations conservent la proportionnalité des intervalles et des différences. C'est une opération de ce type qui est réalisée lorsque l'on convertit des degrés Fahrenheit et degrés Celsius. C =(F -32) x (5/9) Echelles de rapport Les rapports: les nombres peuvent servir à représenter les rapports entre éléments. La détermination de l'égalité des rapports est possible. Ces échelles se distinguent des précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle Kelvin de température est une échelle de rapport. Les échelles de rapport ne supportent qu'une multiplication par une constante (y=ax). Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de l'échelle demeure donc invariante, et la proportionnalité des rapports est maintenue. C'est ce type de transformation qui est utilisé par exemple pour convertir une mesure des miles aux kilomètres: mile=1.61 x km On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les transformations permises sont précises. Et la transformation permise à un niveau donnée est toujours un cas particulier de la fonction permise au niveau inférieur. Les échelles d'intervalles et de rapport procurent des données dites de scores. Les données de scores peuvent être représentées de diverses manières: -le tableau des effectifs (quels effectifs pour chaque niveau de mesure). -le tableau des groupements en classes d'intervalles égaux -le tableau des proportions -le tableau des fréquences.

6 Classe Valeur centrale Effectif Fréquence Pourcentage xn-xn' X=(xn-xn')/2 n n/n (n*100)/n -histogramme (effectif) -courbe de fréquence Exercice: Score Effectif Fréquence Pourcentage *) le recueil des données et leurs présentations Le plus souvent le recueil des données se fait de façon quelconque, le résultat de ces données est le plus souvent, représenté par des nombres, ainsi il va falloir donner un certain ordre à ces nombres. On ordonne le plus souvent du plus petit au plus grand, cette classification donne une série stat, celle-ci peut être faite sous forme de tableau. Mesure N Effectif Note Effectif cumulé Quand une valeur apparaît deux fois pour la même mesure, cela s appelle l effectif, c'est caractéristique des variables. Autre type de tableau pour des scores d un questionnaire pour 7 sujets des deux sexes.

7 Sujets SEXE AGE Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 S1 F S2 F S3 F S4 G S5 G S6 G Pour rendre compte de ces séries il faut les décrire : - Forme de la série : symétrie, cloche, Gauss - Valeur centrale : mode, moyenne, médiane - Indice de dispersion : variance, écart type, étendu. *) les représentations graphiques 2.1. Le diagramme en bâton Dans le diagramme en dessous réalisé sous Microsoft Excel, on représente les pourcentages de correction en sport collectif et individuelle pour 3 sujets.

8 D'autres représentations sont également possibles Par exemple: le camembert 2.2 L histogramme L'histogramme est une représentation graphique (en tuyaux d'orgue) de la distribution de fréquences d'une variable quantitative. Souvent, les «tuyaux» sont accolés pour montrer la continuité de la variable. La hauteur du tuyau est proportionnelle à la fréquence de la classe correspondante. 2.3 Polygone de fréquences Le polygone de fréquences est une autre représentation graphique (en ligne brisée) de la distribution de fréquences d'une variable quantitative. Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents par un segment de droite. Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal.

9 Effectifs cumulés L effectif cumulé sert lors du calcul de la médiane ou du quantilage (quand on découpe les variables en tranches). Poids effectif effectif cumulé Après on précède à un regroupement par variable : tailles inf. ou égales à eff cumulé On procède ainsi par regroupements pour ne pas avoir de trop grands tableaux. L effectif correspond au nombre de chaque tranche de la variable ; on peut prendre la valeur en % alors c est de la fréquence. On peut réunir les deux courbes sur le même graphique. Dans certaines situations, il est plus intéressant de savoir le nombre d'observations se situant au-dessous ou au-dessus de certaines valeurs, plutôt qu'à l'intérieur d'un intervalle donné. Une simple transformation du tableau de fréquences précédent permet de construire le tableau de fréquences cumulées suivant :

10 Résultat Nombre d élèves (fréquence cumulée) Moins de 50 4 Moins de Moins de Moins de Moins de Moins de À cette distribution correspond également une représentation graphique appelée parfois ogive. Une telle figure fournit des données descriptives intéressantes telles que la valeur médiane, i.e. le point séparant le groupe en deux parties égales.

11 SURVOL DES MESURES DE SYNTHÈSE MESURES DE TENDANCE CENTRALE Objectif: résumer en un seul nombre la valeur typique Moyenne (arithmétique): somme des valeurs divisée par le nombre d'observations Médiane: valeur pour laquelle 50% des mesures sont au-dessous (ou au-dessus) Mode: valeur observée la plus fréquente (pas nécessairement unique) Graphiquement: supposons que la moyenne de la distribution A est supérieure à la moyenne de la distribution B Note importante Deux distributions peuvent avoir exactement la même moyenne, sans pour autant être identiques. Elles peuvent différer, par exemple, au plan de l'éparpillement (dispersion) des valeurs autour de la moyenne. Exemple: l'âge dans la population ou l'âge des universitaires (?) MESURES DE DISPERSION Objectif: quantifier le taux de dispersion des données autour de la valeur centrale Étendue: différence entre la valeur la plus grande et la valeur la plus petite Écart interquartile: différence entre le premier et le troisième quartile Écart type: mesure de dispersion la plus fréquente (distances au carré) Graphiquement: Supposons que la distribution A et la distribution B ont la même moyenne, mais que la distribution B possède un taux de dispersion plus grand que la distribution A

12 LA MOYENNE ARITHMÉTIQUE Définition: la moyenne arithmétique d'un ensemble de données est la somme des valeurs obtenues divisée par le nombre d'observations La formule générale est où μ (mu) = moyenne (d'une population) N = nombre d'unités d'observation Exemple LA MÉDIANE Définition: La médiane, notée Md, est la valeur qui sépare une série d'observations ordonnées en ordre croissant ou décroissant, en deux parties comportant le même nombre d'observations La formule générale est différente selon que le nombre d'observations (N) est pair ou impair Si N est impair, dans le rangement ascendant (ou descendant) Exemple: Si on a les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors Si N est pair la médiane correspond au point milieu (ou la moyenne) des deux observations centrales dans le rangement ascendant (ou descendant) En formule, soit N = 2K, donc K = N/2; alors Exemple: Pour les notes du professeur Le compte, il y a N = 30 observations. Par conséquent, K = 30/2 = 15 et, dans le classement ascendant, la 15 e valeur était 65 et la 16 e valeur était aussi 65, d'où LE MODE Définition: Le mode, noté Mo, est la valeur la plus fréquente dans une série d'observations Note: le mode n'est pas nécessairement unique Exemples l d é i

13 ECHELLE D INTERVALLE ECHELLE ORDINALE ECHELLE NOMINALE Définition : Les intervalles entre 2 nombres qui se suivent sont toujours égaux. Ex : taille, âge, notes (justifier : profs font des moyennes), moyennes (observées/théoriques) résultats test de connaissances, test de lecture, consommation de cigarettes avant/après stage, température, ancienneté,. Définition : Ordre hiérarchique entre les variables, attribué en fonction de notre propre subjectivité. RANGS. Ex : score, notes (si pas justifié intervalles inégaux) opinion subjective (hiérarchie), diplôme (si hiérarchie), rangs, un peu, beaucoup, comportement (violence, autonomie ) nombre de livres lus Classer dans différentes catégories (co. échelle nominale) mais hiérarchie entre classe de sujets (ex. ranger par ordre croissant ou décroissant des résultats à un exercice, ordre d arrivée des étudiants ; ). Relation d ordre. Définition : Pas de hiérarchie quantitative entre les modalités de la variable pas de quantité. Ex : variable nom, sexe, oui/non, réussite/échec, pile/face, nationalité, favorable/peu favorable, jeune/vieux, pour/contre/s.o., formation initiale, diplôme (si pas de hiérarchie), + de 50 ans/- de 50 ans, connaissance bonne ou mauvaise, niveau de formation, Elle permet le simple dénombrement des sujets selon un critère qualitatif. Outils : Les moyennes La médiane La loi normale (normalité des distributions) Les intervalles de confiance : sur moyenne, sur %, sur écart type. On peut faire des stats (descriptives) inférentielles. Outils : Médiane qui permet de transformer une donnée d échelle d intervalle (ex. 28 ans, 30, 39, 40, ) en une échelle nominale (les 50 ans et les + 50 ans ou jeune/vieux). C est une valeur qui occupe la place du milieu lorsqu on énumère la totalité des valeurs du groupe, soit dans ordre croissant, soit décroissant.! pas de moyenne car écrase les intervalles qui ne sont pas égaux. Outils : Pourcentages Histogrammes Secteurs angulaires Effectifs. Test : Le t de Student Permet de comparer des moyennes (2 observées /1observée +1 théorique) Le r de Bravais Pearson (correlation) Test : Le U de Mann-Withney (non-paramétrique). Le U de Mann-Withney ne pouvant porter sur des moyennes, nécessite la transformation des données de scores (= notes) en données de rang. Le p de Spearman (correlation) rangs Test : quant Le CHI 2 : permet de prendre une décision au lien qui existerait entre les variables.

14 Chapitre 2 : Les tests statistiques Introduction : le test statistique donne une règle permettant de décider si l on peut rejeter une hypothèse, en fonction des observations relevées sur des échantillons. Les tests peuvent être classés selon leur finalité, le type et le nombre des variables d intérêt, l existence d hypothèses a priori sur les distributions des données, le mode de constitution des échantillons. Les tests selon leur finalité La finalité définit l objectif du test, les hypothèses que l on veut opposer, l information que l on souhaite extraire des données. Le test de conformité consiste à confronter un paramètre calculé sur l échantillon à une valeur pré-établie. On parle alors de test de conformité à un standard. Les plus connus sont certainement les tests portant sur la moyenne ou sur les proportions. Par exemple, dans un jeu de dés à 6 faces, on sait que la face 3 a une probabilité de 1/6 d apparaître. On demande à un joueur de lancer (sans précautions particulières) 100 fois le dé, on teste alors si la fréquence d apparition de la face 3 est compatible avec la probabilité 1/6. Si ce n est pas le cas, on peut se poser des questions sur l intégrité du dé. Le test d adéquation consiste à vérifier la comptabilité des données avec une distribution choisie a priori. Le test le plus utilisé dans cette optique est le test d adéquation à la loi normale. Le test d homogénéité (ou de comparaison) consiste à vérifier que K (K >= 2) échantillons (groupes) proviennent de la même population ou, cela revient à la même chose, que la distribution de la variable d intérêt est la même dans les K échantillons. Le test d association (ou d indépendance) consiste à éprouver l existence d une liaison entre 2 variables. Les techniques utilisées diffèrent selon que les variables sont qualitatives nominales, ordinales ou quantitatives. Les tests selon le type et le nombre de variables On distingue généralement 3 principaux types de variables. Une variable qualitative nominale prend un nombre restreint de valeurs (modalités), il n y a pas d ordre entre ces valeurs, l exemple le plus connu est le sexe, il y a 2 valeurs possibles Homme et Femme. Une variable qualitative ordinale prend un nombre restreint de valeurs, il y a un ordre entre les valeurs. Un exemple naturel est la préférence ou la satisfaction : peu satisfait, satisfait, très satisfait. Il y a un ordre naturel entre les valeurs, mais nous ne pouvons pas quantifier les

15 écarts. Enfin, une variable quantitative prend théoriquement un nombre infini de valeurs, l écart entre 2 valeurs a un sens. Un exemple simple serait le poids, la différence de poids entre 2 personnes est quantifiable, on sait l interpréter. Le type de données joue un rôle très important. Il circonscrit le cadre d application des techniques. Pour un même objectif, selon le type de données, nous serons emmenés à mettre en œuvre des tests différents. Par exemple, pour mesurer l association entre 2 variables : si elles sont quantitatives, nous utiliserons plutôt le coefficient de corrélation de Pearson ; si elles sont qualitatives nominales, le coefficient de corrélation n a pas de sens, on utilisera plutôt des mesures telles que le V de Cramer ou le t de Tschuprow. Principalement concernant les tests de conformité et d homogénéité, on dit que le test est univarié s il ne porte que sur une variable d intérêt (ex. comparer la consommation de véhicules selon le type de carburant utilisé), il est multivarié s il met en jeu simultanément plusieurs variables (ex. la comparaison porte sur la consommation, la quantité de CO2 émise, la quantité de particules émises, etc.). Tests paramétriques et tests non paramétriques On parle de tests paramétriques lorsque l on stipule que les données sont issues d une distribution paramétrée. Dans ce cas, les caractéristiques des données peuvent être résumées à l aide de paramètres estimés sur l échantillon, la procédure de test subséquente ne porte alors que sur ces paramètres. L hypothèse de normalité sous jacente des données est le plus souvent utilisée, la moyenne et la variance suffisent pour caractériser complètement la distribution. Concernant les tests d homogénéité par exemple, pour éprouver l égalité des distributions, il suffira de comparer les moyennes et/ou les variances. Les tests non paramétriques ne font aucune hypothèse sur la distribution sous-jacente des données. On les qualifie souvent de tests distribution free. L étape préalable consistant à estimer les paramètres des distributions avant de procéder au test d hypothèse proprement dit n est plus nécessaire. Lorsque les données sont quantitatives, les tests non paramétriques transforment les valeurs en rangs. L appellation tests de rangs est souvent rencontrée. Lorsque les données sont qualitatives, seuls les tests non paramétriques sont utilisables. La distinction paramétrique non paramétrique est essentielle. Elle est systématiquement mise en avant dans la littérature. Les tests non paramétriques, en ne faisant aucune hypothèse sur les distributions des données, élargissent le champ d application des procédures statistiques. En contrepartie, ils sont moins puissants lorsque ces hypothèses sont compatibles avec les données.

16 Démarche scientifique Poser une hypothèse Conduire une expérience Analyser la compatibilité de cette hypothèse avec les observations issues de l expérience Lors de cette démarche il faut distinguer : Hypothèse nulle : l hypothèse dont cherche à savoir si elle peut être rejetée, notée H 0 souvent définie comme une absence de différence. Hypothèse alternative : hypothèse concurrente, notée H 1. Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu des résultats d'un échantillon. Soient H 0 et H 1, ces deux hypothèses (H 0 est appelée hypothèse nulle, H 1 hypothèse alternative), dont une et une seule est vraie. La décision aboutira à choisir H 0 ou H 1. Il y a donc 4 cas possibles schématisés dans le tableau suivant avec les probabilités correspondantes : Décision \ Vérité H 0 H 1 H α β H 1 α 1 - β α Et β sont les probabilités d'erreur de première et deuxième espèce : α probabilité de choisir H 1, alors que H 0 est vraie. Autrement dit, si l'on rejette l'hypothèse vraie, on commet une erreur de première espèce (ou erreur de type I). α symbolise le seuil de signification. Traditionnellement, on favorise deux seuils : le premier α = 0.05 correspond à un événement de cinq chances sur cent de se produire, le second α = 0.01 correspond à une chance sur cent. β probabilité de conserver H 0 alors que H 1 est vraie. Si l'on accepte une hypothèse fausse alors on commet une erreur de deuxième espèce (ou erreur de type II). (1-α) est la probabilité de rejeter H 1 en ayant raison. (1 - β) est la probabilité d'opter pour H 1 en ayant raison. (1 - β) s'appelle "puissance du test". Généralement l'hypothèse alternative H 1 correspond à l'hypothèse que l'on désire

17 mettre en évidence. De ce fait, (1 - β) est la probabilité d'obtenir le résultat que l'on souhaite démontrer. La puissance d un test statistique, est la probabilité de rejeter l hypothèse nulle si elle est fausse. La puissance (1 β) dépend à la fois : o de l hypothèse alternative : plus la différence à mettre en évidence est importante, meilleure est la puissance du test o de la taille de l échantillon : la puissance croît avec le carré de la taille de l échantillon Elle dépend aussi de la variabilité du critère (quantitatif). 2.1 Les tests paramétriques Un test est dit paramétrique si son objet est de tester certaine hypothèse relative à un ou plusieurs paramètres d'une variable aléatoire de loi spécifiée ou non. Dans la plupart des cas, ces tests sont basés sur la considération de la loi normale et supposent donc explicitement l'existence d'une variable aléatoire de référence X suivant une loi de Laplace-Gauss ou un effectif important (>30, >40, >50?...). La question se pose alors de savoir si les résultats restent encore valables lorsque X n'est pas normale : si les résultats sont valables, on dit que le test est robuste. La robustesse d'un test par rapport à un certain modèle est donc la qualité de rester relativement insensible à certaines modifications du modèle : on constatera que les tests sur les moyennes sont robustes. a. Le test de Student Ce test permet de comparer une moyenne d'un échantillon à une valeur donnée, de comparer les moyennes de deux échantillons indépendants ou de deux échantillons appariés. L'emploi de ce test reste subordonné en général à deux conditions d'application importantes : la normalité et le caractère aléatoire et simple des échantillons. La première condition n'est toutefois pas essentielle lorsque les échantillons ont des effectifs suffisants (en pratique, la valeur de 30 est souvent retenue) pour assurer la quasi-normalité des distributions d'échantillonnage des moyennes. En plus, de ces deux conditions, nous devrons supposer, dans certains tests relatifs aux moyennes, l'égalité des variances des échantillons considérées. i. Cas d'un seul échantillon Egalement appelé par certains auteurs test de conformité, ce test a pour but de vérifier si l'échantillon à notre disposition provient bien d'une population avec la moyenne spécifiée, µ 0,

18 ou s'il y a une différence significative entre la moyenne de l'échantillon et la moyenne présumée de la population. Les hypothèses que l'on souhaite tester sont : hypothèse nulle : H 0 : µ = µ 0 hypothèse alternative : Elle prend trois formes : o H 1 : µ > µ 0 (test unilatéral à droite) o H 1 : µ < µ 0 (test unilatéral à gauche) o H 1 : µ µ 0 (test bilatéral symétrique) ii. Conditions d'application du test de Student Le caractère de l'échantillon étant supposé aléatoire, seule l'hypothèse de normalité de la variable X doit être vérifiée par exemple avec le test de Kolmogorov-Smirnov ou plus simplement graphiquement avec un histogramme ou un diagramme de normalité tel la droite de Henry (que nous verrons ultérieurement). Cependant, on admet que ceci est vrai pour un effectif suffisamment important (n > 30). Calcul : Soit X une variable aléatoire distribuée selon un loi normale, la variable aléatoire définie cidessus suit une loi de Student avec n - 1 degrés de liberté. t obs = Où µ 0 est la moyenne de la population spécifiée par H 0, est la moyenne de l'échantillon, S² est la variance de l'échantillon et n la taille de l'échantillon On compare la valeur calculée de t (t obs ) avec la valeur critique appropriée de t avec n - 1 degrés de liberté. On rejette H 0 si la valeur absolue de t obs est supérieure à cette valeur critique. Les valeurs critiques pour différents degrés de liberté et différents seuils de signification sont données par la table de Student. Pour un test unilatéral, nous prendrons la valeur t n-1,1-α de la table et pour un test bilatéral, nous prendrons t n-1,1-α /2. (La notation de t varie selon les auteurs). Nous pouvons, par exemple, la trouver sous la forme t α (2), n et t α (1), n avec (2) et (1) correspondant respectivement à un test bilatéral et à un test unilatéral, et n étant le degré de liberté) Cas de deux échantillons indépendants Etant donné deux échantillons de taille n 1 et n 2, peut-on admettre qu'ils ont été prélevés dans

19 une même population relativement à la variable étudiée, ces deux échantillons ayant été prélevés indépendamment l'un de l'autre? Les hypothèses à tester sont : hypothèse nulle : H 0 : µ 1 = µ 2 hypothèse alternative qui prend trois formes : o H 1 : µ 1 > µ 2 (test unilatéral à droite) o H 1 : µ 1 < µ 2 (test unilatéral à gauche) o H 1 : µ 1 µ 2 (test bilatéral) Conditions d'application : Les deux échantillons sont indépendants entre eux, sont aléatoires et ont n 1 et n 2 unités indépendantes. Cette condition est d'ordinaire satisfaite en utilisant une procédure d'aléatorisation (ou de randomisation). Procédure pour laquelle on affecte au hasard chaque individu à un groupe expérimental). La variable aléatoire suit une loi normale. Ce qui est vrai pour des effectifs supérieurs à 30. Il est aussi nécessaire de vérifier l'égalité des variances des échantillons (grâce au test de Fisher). Cette condition est indispensable pour des effectifs inégaux. Calcul : On calcule la valeur t observé (t obs ) qui suit une variable aléatoire de Student à (ν = n 1 + n 2-2) degrés de liberté. t obs = où et sont les moyennes des deux échantillons, S p ² la variance commune. Cette dernière statistique correspond à la variance σ ² de la population parentale. Elle est égale à : S p ² = = Si les effectifs des échantillons sont égaux, la valeur de t devient :

20 t obs = La valeur de t est comparée à la valeur critique appropriée de t (dans la table de Student) avec (n 1 + n 2-2) degrés de liberté. On rejette H 0 si la valeur absolue de t obs est supérieure à cette valeur critique. Si le test est unilatéral, nous prendrons la valeur t n1 + n2-2,1-α (ou tα (2), ν) de la table de Student. S'il est bilatéral, nous prendrons la valeur t n1+n2-2,1-α /2 (ou tα (1), ν) Cas de deux échantillons appariés Le test de Student pour observations pariées sert à comparer les moyennes de deux populations, dont chaque élément de l'une des populations est mis en relation avec un élément de l'autre. Par exemple, il peut s'agir de comparer deux traitements, les données étant considérées comme des paires d'observations (première observation de la paire recevant le traitement 1 et deuxième observation recevant le traitement 2). Aspects mathématiques : Soit x ij l'observation j pour la paire i (j = 1,2 et i = 1,2,...,n). Pour chaque paire d'observations on calcule la différence d i = x i2- x i1 Le test statistique est défini par : t = où n est le nombre de paires d'observations, est la moyenne des différences entre les observations et S d ² la variance. Le test de Student pour observations pariées est un test bilatéral. Les hypothèses sont : H 0 : µ 1 - µ 2 = 0 (il n'y a pas de différence entre les traitements) H 1 : µ 1 - µ 2 0 (il y a une différence entre les traitements) On rejette l'hypothèse nulle au seuil de signification α si : t obs > t n-1,1-α /2 où t n-1,1-α /2 est la valeur de la table de Student avec n - 1 degrés de liberté. Conditions d'application : les échantillons ont été tirés aléatoirement

21 la population des différences doit suivre une loi de Gauss. Cette condition est moins restrictive que celle de normalité des deux populations. Puissance du test : Pour calculer la puissance du test, on utilise la même procédure que pour le cas d'un seul échantillon en remplaçant par et S² par S d ². ce qui donne l'équation : tβ (1), ν = - tα (2), ν Le test de Fisher : Utilisé pour tester l'égalité de deux variances, il est très sensible à la non-normalité des échantillons (on suppose aussi que les échantillons sont aléatoires et ont été prélevés indépendamment les uns des autres dans deux populations). Le principe de ce test est de calculer le rapport des variances ci-dessous (avec la variance la plus grande au dénominateur) et de la comparer à la variable donnée par la table de Fisher-Snedecor avec n 1-1 et n 2-1 pour paramètres, correspondant aux degrés de liberté. F obs = où n 1 et n 2 sont les effectifs des deux échantillons et S 1 ² et S 2 ² les variances. Avec F obs > 1 si F obs F (n1-1,n2-1;1-α ) on accepte l'hypothèse nulle H 0 : σ 1 ² = σ 2 ² (σ 1 ² et σ 2 ² sont les variances des populations "parentales") sinon on rejette H 0. Remarques : Pour des effectifs égaux la valeur de F calculée se simplifie : F obs = Si on examine la table de Fisher, on remarque qu'il est difficile de rejeter l'hypothèse d'égalité des variances. Par exemple, afin de rejeter l'égalité des variances de deux échantillons de 20 sujets chacun, le rapport des variances, avec un α de 0.05, doit être supérieur à 2.12, ce qui correspond à une marge très importante. Autre exemple, pour 2 échantillons de 100 sujets chacun, le rapport doit être supérieur à 1.39, ce qui est encore très important.

22 Dans le cas d'échantillons non gaussiens, ce test n'est plus valable, mais on a le résultat capital suivant qui permet de tester µ 1 = µ 2 : pour n 1 et n 2 assez grand (> 30), on peut quand même appliquer le test de Student que σ 1 soit différent ou non de σ 2. Le test de Student est dit robuste Les coefficients de corrélation 1) Le coefficient de corrélation de Bravais Pearson Il permet de mesurer l'intensité de la liaison entre deux caractères quantitatifs. C'est donc un paramètre important dans l'analyse des régressions linéaires (simples ou multiples). Il se calcule à partir de la covariance et des écart-types : r = Ce coefficient varie entre -1 et +1 : une valeur proche de +1 montre une forte liaison entre les deux caractères. La relation linéaire est ici croissante (c'est-à-dire que les variables varient dans le même sens); une valeur proche de -1 montre également une forte liaison mais la relation linéaire entre les deux caractères est décroissante (les variables varient dans le sens contraire); une valeur proche de 0 montre une absence de relation linéaire entre les deux caractères. Lorsque r est calculé sur un échantillon, on est amené à tester sa significativité. Pour un risque d'erreur α fixé, celle-ci varie en fonction du nombre d'individus de la distribution. Quand ce nombre d'individus augmente, le seuil inférieur de significativité s'abaisse. La table fournit les valeurs r critiques au-delà desquelles les coefficients de corrélation de Pearson obtenus sont significatifs. Pour des échantillons de taille n, on prendra (n-2) comme degré de liberté. Remarques Il est fondamental de noter qu'une corrélation significative ne signifie aucunement qu'il existe une relation de cause à effet entre les deux variables. La corrélation peut en effet être liée à une troisième variable, qui agit de manière indépendante sur les deux premières. Pour contrôler l'influence d'autres variables, il est nécessaire de procéder à des corrélations partielles (voir ci après). De même, un faible coefficient de corrélation ne signifie pas forcément l'indépendance des deux caractères. Il se peut que la relation entre ces deux caractères soit non linéaire

23 (elle peut être parabolique, logarithmique ou exponentiel ). La corrélation est à ce niveau essentiellement descriptive (et non explicative). 2) Le coefficient de détermination r² : Ce coefficient est le carré du coefficient de corrélation. Il traduit la qualité d'une régression en résumant la part de l'information totale prise en compte par le modèle de régression. r² = Par exemple, r² = 0.87 : le modèle de régression prend en compte 87% de l'information contenue dans la distribution. 100% = 87% + 13% Information totale de la distribution Y Information prise en compte par la régression Information résiduelle 3) Le corrélation multiple : Le coefficient de corrélation multiple R exprime l'intensité de la liaison entre la variable à expliquer et l'ensemble des variables explicatives (nommées encore régresseurs). 4) Les corrélations partielles : Comme énoncé précédemment, cette corrélation exprime la liaison entre deux paramètres, en contrôlant l'influence d un troisième paramètre. Par exemple, on peut rechercher la corrélation entre la taille et le poids pour des sujets d'âge donné. Pour trois variables, le coefficient de corrélation partielle peut être calculé à partir des coefficients de corrélation simple : r 12-3 = Bien sûr, il est possible de calculer les deux autres coefficients de corrélation partielle r 13-2 r Les calculs pour un nombre supérieur à trois variables sont très lourds : l'emploi des ordinateurs est ici la bienvenue. Un coefficient de corrélation partielle se teste comme un coefficient de corrélation simple avec n p1 degrés de liberté.

24 Ce coefficient est très utile lors des analyses de régressions multiples. Au coefficient de corrélation multiple, il convient de lui associer les coefficients de corrélation partielle. En effet, quand les variables explicatives sont corrélées entre elles, il est indispensable de connaître les coefficients de corrélation partielle entre la variable à expliquer (Y) et chacune des variables explicatives (X 1, X 2, X 3 X j ). Un coefficient de corrélation partielle entre Y et un des régresseurs indique l'intensité de la relation spécifique, compte tenu des autres variables explicatives présentes. Par exemple, si l'on recherche pour un ensemble de stations (individus), la liaison entre la production de la biomasse (Y), la pluviosité (X 1 ) et l'ensoleillement (X 2 ), pluviométrie et ensoleillement étant partiellement liée, il est difficile de connaître le rôle de chacun des deux facteurs retenus. Le coefficient de corrélation partielle entre Y et X 1 indique l'intensité de la relation entre biomasse et pluviosité, en maintenant l'ensoleillement constant (la variable X 2 est prise en compte). Un coefficient de corrélation partielle est donc défini en fonction des autres régresseurs. 5) Comparaison de coefficients de corrélation de Bravais - Pearson : La comparaison de coefficients de corrélation n'est possible que si ces coefficients suivent une distribution normale. Il est donc nécessaire, dans un premier temps, de normaliser les coefficients de corrélation en utilisant la transformation de Fisher. On applique la formule : z = Alors que r varie de -1 à +1, z varie entre 0 et. Cette transformation normalise les coefficients de corrélation mais présente un autre avantage: elle permet de stabiliser la variance de la distribution initiale. Pour comparer deux coefficients de corrélation, on calcule : Z = où = n 1 et n 2 étant les effectifs de chacun des échantillons impliqués dans le calcul des coefficients de corrélation. Si n 1 = n 2 alors = La valeur de Z suit une distribution de Student. Comme pour une comparaison de deux moyennes, si on choisit un test bilatéral, l'hypothèse nulle correspond à r 1 = r 2 et l'hypothèse

25 alternative à r 1 r 2. On apprécie la signification de la valeur de Z avec celle lue dans la table de Student (Zα (2) = tα (2), ). Ici, le degré de liberté est égal à l'infini Le test d'indépendance du chi carré : Le test d'indépendance du chi-carré vise à déterminer si deux variables observées sur un échantillon sont indépendantes ou non. Les variables étudiées sont des variables qualitatives catégorielles. Le test d'indépendance s'effectue sur la base d'une table de contingence. 2.2 Les tests non paramétriques : Un test non paramétrique est un test d'hypothèse pour lequel il n'est pas nécessaire de spécifier la forme de la distribution de la population étudiée. Il faut cependant en général que les observations soient indépendantes, c'est-à-dire que la sélection d'un quelconque individu dans la population en vue de former l'échantillon ne doit pas influencer le choix des autres individus. Les méthodes non paramétriques requièrent peu d'hypothèses concernant la population étudiée. Elles ignorent notamment l'hypothèse classique de la normalité de la population. Ces tests non paramétriques peuvent être appliqués à de petits échantillons. Ils peuvent s'appliquer à des caractères qualitatifs, à des grandeurs de mesure, à des rangs de classement... Ils peuvent s'appliquer à des données incomplètes ou imprécises. Des recherches théoriques ont montré que l'efficacité des tests non paramétriques n'est que légèrement inférieure à celle de leurs équivalents paramétriques quand la distribution de la population étudiée est spécifiée, par exemple la loi normale. Elle est en revanche supérieure à celle des tests paramétriques quand la distribution de la population dévie sensiblement de la distribution spécifiée (normale) Méthodes graphiques et tests statistiques permettant de vérifier la normalité d'un échantillon Rappels : La loi normale, ou Loi de Gauss ou encore de Laplace-Gauss est la loi d'une variable X continue, variant de - à +, dont la densité de probabilité f(x) est : f(x) = La loi normale dépend de deux paramètres : la moyenne m et l'écart-type σ. La courbe représentative de f(x) est "la courbe en cloche", symétrique par rapport à x = m. Cette loi normale est notée N (m, σ ). La fonction de répartition est :

26 F(x) = Toute loi normale N (m, σ ) se ramène par le changement de variable à une loi normale de moyenne nulle et u = D écart-type unité, dite loi normale réduite N (0, 1) dont les fonctions de densité de probabilité f(u) et de répartition F(u) sont : f(u) = et F(u) = Grâce aux tables de la loi normale réduite, il est possible de répondre à toutes les questions que l'on peut se poser à propos d'une loi normale N (m, σ) quelconque. On peut ainsi déterminer la probabilité P pour que la variable X soit comprise dans un certain intervalle, en tirant partie de la formule résultant du changement de variable u = avec u 1 = et u 2 = P(x 1 < X x 2 ) = F(x 2 ) - F(x 1 ) = F(u 2 ) - F(u 1 ) La symétrie de la fonction f(x) permet de simplifier la table donnant les valeurs F(u) en retenant seulement les valeurs pour u 0 de sorte que pour une valeur négative "-u 1 ", on a : F (-u 1 ) = 1 - F(u 1 ) La droite de Henry : C'est une procédure pratique et rapide, permettant de vérifier la présomption de normalité pour une population dont on observe un échantillon. Cette procédure graphique ne constitue pas, à proprement parler, un test statistique. Néanmoins, le tracé d'un graphique de Henry peut suffire dans de nombreux cas où l'on doit

27 s'assurer de la normalité d'une distribution d'échantillonnage. Le principe de la méthode repose sur la liaison linéaire entre une variable normale x (moyenne m, écart-type σ ) et la variable réduite u (on rappelle que u = ) Les tests de normalité La plupart des méthodes de test paramétriques requièrent la normalité des données. Il est donc important de disposer d'une méthode permettant de vérifier cette normalité. Une approche élégante est le test de conformité de Kolmogorov-Smirnov. Ce test non paramétrique consiste à comparer la distribution de fréquences relatives cumulées d'une variable observée avec la distribution théorique que cette variable aurait si elle était distribuée normalement. On superpose les deux distributions, on cherche la classe où l'écart entre la distribution théorique et la distribution observée est le plus grand, et on vérifie (dans une table conçue à cet effet ou en calculant directement la valeur critique Dα, voir plus bas) si cet écart est significativement grand, c'est-à-dire si l'hypothèse de normalité peut être rejetée au seuil considéré. L'idée est que, dans une distribution relative cumulée observée, chaque classe peut diverger un peu (en plus ou en moins) par rapport au niveau qui serait le sien sous une distribution normale, mais si une classe est particulièrement éloignée de sa position théorique, ça signifie qu'une ou plusieurs autres le sont aussi (dans l'autre sens), ce qui veut dire que c'est l'ensemble de la distribution qui n'est pas conforme à la loi normale. Remarque: les premières tables de Kolmogorov-Smirnov se basaient sur le fait qu'on connaissait les vrais paramètres de la distribution théorique (moyenne et écart-type). Ce n'est pratiquement jamais le cas, et en cas de calcul fondé sur des paramètres estimés à partir des données, les tables originales sont trop conservatrices (on accepte trop souvent l'hypothèse nulle de normalité). Liliefors (1967), puis Stephens (1974) ont proposé des tables corrigées. Cependant, il est facile de calculer soi-même les valeurs critiques, de sorte qu'on peut aisément se passer de tables de référence. Calcul : Les étapes de calcul (détaillées par Scherrer) sont les suivantes: 1 Calculer les fréquences relatives cumulées de la distribution observée. 2 Calculer la distribution de fréquences relatives cumulées qu'aurait une variable possédant la même moyenne et le même écart-type que la distribution réelle, mais qui serait, elle, distribuée normalement.

28 3 Pour chaque classe, soustraire la fréquence cumulée observée de la fréquence cumulée théorique, et chercher la plus grande valeur absolue de la série. 4 Trouver la valeur critique Dα au seuil choisi (table ou calcul). 5 Comparer la valeur obtenue en 3 (D observé) avec celle obtenue en 4 (Dα). Si le D observé est plus grand ou égal à Dα, on rejette l'hypothèse nulle de normalité au seuil choisi. Calcul de la valeur critique (Dα): on trouve une table de valeurs corrigées selon Liliefors (1967) et Stephens (1974) chez Legendre et Legendre (1998), p. 834 (attention, avant-dernière colonne fausse). Mais si n>50 il est facile de calculer soi-même les valeurs critiques par les formules suivantes: pour α = 0.05: D 0.05 = 0.895/S pour α = 0.01: D 0.01 = 1.035/S Où S = n n étant le nombre d'individus (et non n de classes). On trouvera dans un document annexe des indications résumées pour le calcul manuel du test de Kolmogorov-Smirnov pour données groupées en classes, basées sur le tableau de Scherrer 2007 p Test de Kolmogorov-Smirnov pour données non groupées en classes Le test de Kolmogorov-Smirnov peut aussi s'appliquer à de petits échantillons, sans avoir à regrouper les données en classes. Le développement est donné par Sokal & Rohlf (1981, p. 716). Dans ce cas, chaque observation représente une "classe" à elle seule (une marche dans l'histogramme de fréquences cumulées). L'échelle de la variable est reportée en abscisse, de sorte que c'est la largeur des marches qui varie en fonction de la valeur prise par la variable dans chaque observation (les marches ont toutes la même hauteur). L'exemple de Sokal et Rohlf montre les masses en grammes de 12 crabes. Les observations sont placées par ordre croissant de masse. La figure et le tableau de données, avec des commentaires en surimpression, sont fournis dans deux documents séparés. Les "marches d'escalier" représentent les données observées, la courbe continue représente la fonction attendue en cas de normalité. Les calculs visent à trouver l'écart le plus grand entre les données observées et attendues. On + doit pour ce faire calculer les écarts audessus (d ) et en-dessous (d ) de la courbe. Les étapes de calcul sont les suivantes:

29 Classement des données brutes par ordre croissant. Centrage-réduction des données brutes (on obtient les z i ). Recherche, dans la table IV de Scherrer de l'aire de la courbe normale centrée-réduite correspondant aux valeurs z i ci-dessus. Calcul des fréquences observées cumulées (voir col. 4 du tableau). Calcul des différences absolues. Comparaison de la plus grande valeur trouvée avec le D critique Dα. Remarque: il existe d'autres tests de normalité que celui de Kolmogorov-Smirnov, notamment celui de Shapiro-Wilk. Plusieurs études, rapportées par Legendre et Legendre (1998, p.183), ont tenté de déterminer lequel était le meilleur. Selon Dutilleul & Legendre (1992), les tests de Kolmogorov-Smirnov et Shapiro-Wilk se comportent bien dans la majorité des situations. Le test de Kolmogorov-Smirnov est, en particulier, robuste en présence d'autocorrélation spatiale. Test de Shapiro-Wilk Ce test est une très bonne alternative au test de Kolmogorov-Smirnov. La théorie de ce test est présentée par Legendre & Legendre (1998) p Elle ne fait pas partie de la matière du cours. En quelques phrases, le test consiste à mesurer la conformité de la distribution observée avec une distribution normale théorique, sur une représentation permettant de visualiser la distribution de fréquence cumulée normale comme une droite (graphique à échelle fonctionnelle normale ou probit) Le test de Mann Whitney C'est un test non-paramétrique qui permet de tester les moyennes de deux échantillons indépendants. La réalisation du test est basée sur le classement dans un ordre croissant de l'ensemble des observations. Ici, ce n'est donc pas indispensable que les échantillons suivent une distribution normale : des distributions symétriques suffisent à valider le test. Ce test est un cas particulier du test de Kruskall-Wallis Le test de Wilcoxon C'est aussi un test sur les rangs mais il permet de tester les moyennes de deux échantillons associés par paires. Là aussi, des distributions symétriques suffisent. Ce test est un cas particulier du test de Friedman Le test de Kruskall Wallis Ce test est préféré à l'analyse de variance à un facteur lorsque les hypothèses de normalité des différents échantillons ne sont pas respectées. Il vise à tester l'égalité de plusieurs populations

Montrer encore