République Algérienne Démocratique et Populaire Ministère de l enseignement supérieur et de la recherche scientifique Cours de statistique Chapitre 1 Statistiques descriptives École Normale Supérieure de Kouba Alger Post-Graduation Spécialisée Par Asma Benchiheb Karima Hammache Année Universitaire : 2013-2014
Sommaire I. Introduction... 3 II. Définitions... 4 1. Population - Échantillon... 4 2. Variable... 5 3. Modalité... 5 4. Nature... 6 III. Fonctions de distribution... 7 1. Données bruts et suites ordonnées... 8 2. Distributions d effectifs... 9 3. Distributions d effectifs relatifs ou distribution de fréquence... 10 4. Dimension ou amplitude d une classe... 11 5. Centre d une classe... 11 6. Le nombre des classes... 11 7. Règles générales de formation des distributions d effectifs... 12 IV. Présentations graphiques... 13 1. Présentation d une variable... 13 1.1. Le diagramme circulaire... 13 1.2. Le diagramme à bandes horizontales ou verticales... 14 1.3. Le diagramme à bâtons... 14 1.4. Histogramme, polygone de fréquences et courbe de fréquences cumulés (ou ogives)... 15 2. Présentation de deux variable... 19 2.1. Tableau de contingence... 20 2.2. Nuages de points... 22 3. Fonction de densité et lissage des ogives... 23 V. Mesures échantillonnales... 24 1. Mesure de tendance centrale... 24 1.1. La moyenne... 25 1.2. La médiane... 25 1.3. Le mode... 26 1.4. Choix de la mesure de tendance... 26 2. Mesure de dispersion... 27 3. Mesure de position... 28 Bibliographie... 29 2
Chapitre 1 Statistiques descriptives I. Introduction La statistique descriptive est l instrument statistique qui permet de donner un sens, une expression à l information recueillie. Elle rend plus compréhensible une série d observations en permettant de dégager les caractéristiques essentielles qui se dissimulent (ou se cachent) dans une masse de données. Ainsi, grâce à la statistique descriptive nous obtenons une image concise et simplifiée de la réalité : un résumé statistique qui caractérise l essentiel. Lorsqu on dispose d une base de données, la première étape consiste à dresser un portrait général de nos données : identifier les variables, ce qu on mesure, dans quelle unités, quelle allure ont nos données, sont-elles dispersées. Il faut donc : 1) Caractériser nos données en les représentants sous forme de tableaux et de graphiques appropriés, 2) Mesurer et résumer les principaux aspects de la distribution de nos données en calculant des statistiques descriptives ou mesures échantionnales, 3) Valider nos données en analysant la possible présence de données extravagantes, d erreurs de Exemple 1 saisie, s assurer que les données ont été recueillies correctement etc.. Les notes finales de biomathématique obtenues par 80 étudiants de 1 ère représentées dans le tableau suivant : année pharmacie sont 10 08 13.5 17 01.0 11 02 17 17 14 11 16 09 05 16 11 12.75 11 16 03 14 18 15 11 08 02 11 17 18 06 08 01 11 02 16 11.5 16 14 11 17 01 03 12 11 11 03.5 12 07 15 04 11 11 03 17 19 09 11 12 11 16 07 11.75 07 12 17 11 09 14 11 04 11 04 09 07 18 11 09 10.50 09 08 Si on se limite à regarder les données présentées de cette façon, il est difficile de se faire une idée de la qualité des résultats obtenus par les étudiants. L enseignant ne peut pas savoir à première vue si son cours a été bien assimilé par ses étudiants. 3
II. Définitions 1. Population - Échantillon Un des objectifs de la statistique est d étudier les propriétés numériques d ensembles comportant de nombreux individus ou unités statistiques. L objet de toute statistique est de formuler des lois valables pour un ensemble d êtres ou d éléments, auquel on donne le nom de population. La réunion de toutes les unités statistiques possibles constitue l ensemble statistique ou la population statistique. Une population peut être de nature très variées : humains, animaux, bactéries, fleurs, etc. Une population peut être finie ou infinie. Exemple 2 1) La population d écrous produits dans une usine est finie. 2) La population possible (pile, face) lors des parties successives de piles ou faces avec une même pièce de monnaie est infinie. Généralement, l étude ne porte que sur un groupe restreint (ou limité en nombre) de membres ou d individus d une population, un tel groupe constitue un échantillon de la population. Pour recueillir des informations sur une population statistique, l on dispose de deux méthodes : - la méthode exhaustive ou recensement où chaque individu de la population est étudié selon le ou les caractères étudiés. - la méthode des sondages ou échantillonnage qui conduit à n examiner qu une fraction de la population, un échantillon POPULATION Echantillonnage Echantillon Deductions Caractéristiques de l échantillon Le nombre d unités statistiques formant l échantillon défini la taille de l échantillon. Exemple 3 Si on s intéresse à la longueur des tiges d une certaine qualité de blé. Nous constituerons notre échantillon d un lot de plusieurs centaines de tiges prélevées au hasard (ou aléatoire) pour obtenir un 4
échantillon suffisamment représentatif de la qualité de blé considéré, c est à dire qu il reflète fidèlement sa composition et sa complexité L échantillonnage représente l ensemble des opérations qui ont pour objet de prélever un certain nombre d individus dans une population donnée. L échantillonnage aléatoire simple est une méthode qui consiste à prélever au hasard et de façon indépendante, n individus ou unités d échantillonnage d une population à N individus. Dans ce cas, chaque individu possède ainsi la même probabilité de faire partie d un échantillon de n individus et chacun des échantillons possibles de taille n possède la même probabilité d être constitué. L échantillonnage aléatoire simple assure l indépendance des erreurs, c est-à-dire l absence d autocorrélations (dépendance) parmi les données relatives à un même caractère. Cette indépendance est indispensable à la validité de plusieurs tests statistiques Remarque : Le prélèvement aléatoire des unités formant l échantillon permet d obtenir des résultats qui peuvent être étendus (ou inférés) à la population. Même si cette méthode demeure la plus utilisée, il existe d autres méthodes pour construire un échantillon telles que la table des nombres aléatoires (ou un programme d ordinateur conçu à cet effet) ou encore par tirage systématique. 2. Variable Une variable est une caractéristique d une unité statistique qui peut prendre différentes valeurs pour différentes unités statistiques. Une variable est notée par un symbole tel que X, Y, x, B, etc. qui peuvent prendre toutes les valeurs d un ensemble donné que l on appelle domaine de la variable. Lorsque la variable ne peut prendre qu une seule valeur, on dit qu elle est constante. 3. Modalité Les modalités sont les différentes valeurs qu une variable peut prendre. Exemple 4 On s intéresse à la note de l examen final du cours de biomathématique pour un groupe d étudiants ayant était préalablement soumis à une séance d hypnose destinée à augmenter leur confiance en soi. Dans cet exemple : Les unités statistiques sont les étudiants qui ont été soumis à la séance d hypnose. 5
La variable d intérêt est X= «la note à l examen final du cours de biomathématique». Les modalités de la note sont [0, 20]. 4. Nature La nature d une variable dépend de la façon dont-elle est observée. Les différentes possibilités sont : 1) Variable qualitative : Lorsqu elle classe les unités statistiques dans un groupe ou une catégorie. Elle peut être de type : Nominale : les groupes ne sont pas ordonnées. Exemple : couleurs des yeux. Ordinale : les groupes sont ordonnés. Exemple : intensité de la douleur (nulle, légère, forte). 2) Variable quantitative : lorsque les modalités de la variable sont numériques et qu elles correspondent à des quantités (pas uniquement un code numérique arbitraire). Elle peut être : Discrète : les modalités sont dénombrables. Exemple : nombre d enfants par famille Continue : les modalités sont définies sur un intervalle continu. Exemples : taille, Remarque : On transforme souvent une valeur continue en une variable discrète. Cette opération s appelle la discrétisation ou groupement par classe. Résumé : Nature d une variable Variable Qualitative Quantitative Nominale Ordinale Discrète Continue 6
Exemple 5 Pour chacune des questions suivantes, donner la nature et les modalités de la variable correspondante : Q1 : Avez-vous échoué dans au moins un contrôle de la première série d examen de la 1ère année pharmacie. 1. Oui 2. Non Q2 : Combien de contrôles (des modules) avez-vous échoués à votre première série d examen de la 1ère année pharmacie. 1. 0 2. 1 3. 2 ou 3 4. 4 ou plus. Q3 : Combien de contrôles (des modules) avez-vous échoués à votre première série d examen de la 1ère année pharmacie. Q4 : Quelle est votre moyenne obtenue à la fin de la première série d examen de la 1ère année pharmacie. Réponse : Question Nature Modalité Q1 Qualitative nominale {oui, non} Q2 Qualitative ordinale {1,2,3,4} Q3 Quantitative discrète {0, 1, 2,.. } Q4 Quantitative continue [0,20] Exemple 6 1 Quelle est la nature des caractères ci-dessous? Nombre d actions vendues chaque jour à la bourse Rémunérations des enseignants d un lycée Écart de rémunération entre hommes et femmes Les pays de l Union européenne Les niveaux de formation des salariés Les formes de contrat de travail 1 Pierre Bailly, Christine Carrère, Statistiques descriptives Exercices. Collection «Libres Cours Économie». Presses universitaires de Grenoble pug@pug.fr / www.pug.fr 7
Prix à la consommation Solde commercial Nombre de personnes par ménages Réponse : Nombre d actions vendues chaque jour à la bourse variable discrète Rémunérations des enseignants d un lycée variable quantitative continue Écart de rémunération entre hommes et femmes variable continue Les pays de l Union européenne caractère qualitatif Les niveaux de formation des salariés variable ordonnée Les formes de contrat de travail caractère qualitatif Prix à la consommation variable quantitative Solde commercial variable quantitative Nombre de personnes par ménage variable statistique discrète. III. Fonctions de distribution 1. Données bruts et suites ordonnées On appelle données brutes, des données que l on rassemble sans se soucier de la notion d ordre. Exemple 7 La suite des notes de 100 étudiants pris par ordre alphabétique. 13 14.5 08 11.50. 06.50 Une suite ordonnée est l arrangement de données numériques par valeurs non croissante. La façon dont les observations de la série numérique sont rangées par valeur non décroissante (ou ordre croissant) s appelle rangement des observations. Exemple 8 Série numérique 78 83 90 88 89 60 75 88 92 73 73 76 60 67 84 70 94 97 92 80 77 77 74 84 93 78 65 56 71 84 Observations rangées par valeur non décroissantes 56 60 60 65 67 70 71 73 73 74 75 76 77 77 78 78 80 83 84 84 84 88 88 89 90 92 92 93 94 97 On utilise les termes de «valeurs non décroissantes» au lieu de «ordre croissant» puisque la série peut posséder plusieurs valeurs identiques. 8
La différence (ou l écart) entre la plus grande et la plus petite valeur dans une série détermine l étendue des données : Dans l exemple 7, on retrouve que l étendu est égal : E = 97 56 = 41 2. Distributions d effectifs La fréquence (appelée aussi fréquence absolue ou effectif) associée à une valeur d une variable statistique est le nombre de fois que cette valeur se rencontre dans l échantillon observé ou dans la population. Lorsqu on veut résumer une grande quantité de données bruts, il est plus facile de les distribuer en classe ou catégories puis de déterminer le nombre d individus ou objets appartenant à chaque classe que l on appelle fréquence de la classe ou effectif de la classe. Le tableau des effectifs (ou fonction de fréquence ou distribution des effectifs) est l arrangement de données sous forme de tableau où pour chaque classe on a l effectif correspondant. Exemple 9 : Poids des 100 étudiants est : Classe 1 Classe 3 Classe 3 Poids (kilogrammes) 60-62 63-65 66-68 69-71 72-74 Effectif ou fréquence de la classe 5 18 42 27 8 Total 100 La 1 ère classe ou catégorie comprend les étudiants dont le poids est compris entre 60kg et 62kg. 60 et 62 sont les bornes de la classe avec 60 comme borne inférieure et 62 la borne supérieure. Un intervalle de classe qui n a pas de borne supérieure ou inférieure est un intervalle de classe ouvert. Si les bornes sont enregistrées à 1kg près, la classe 60-62 comprend théoriquement toutes les mesures variant de 59.50kg à 62.50kg. Les valeurs de 59.50kg à 62.50kg sont appelés bornes de la classe ou vraies limites de la classe où 59.50kg est la borne inférieure de la classe et 62.50 la borne supérieure de la classe. En pratique, les bornes s obtiennent en ajoutant la limite supérieure d une classe à la limite inférieure de l intervalle de classe suivant et le tout est divisé par 2. 9
Exemple 10 : Les bornes du tableau (de l exemple 8) des poids des 100 étudiants sont alors : Classe 1 Classe 3 Poids (kilogrammes) 59.5-62.5 62.5-65.5 65.5-68.5 68.5-71.5 71.5-74.5 effectif ou fréquence de la classe 5 18 42 27 8 Total = 100 3. Distributions d effectifs relatifs ou distribution de fréquence La fréquence relative ou l effectif relatif associé à une valeur d une variable statistique est le rapport entre la fréquence correspondant à cette valeur et le nombre total de valeurs qui ont été observées sur les unités statistiques. Exemple 11 : Répartition de 200 capsules de pavots suivant le nombre de rayons stigmatiques Nombre de rayons Fréquence absolue Fréquence relatives 8 9 10 11 12 13 14 15 16 17 5 11 16 26 34 36 30 22 12 8 0.025 0.055 0.080 0.130 0.170 0.180 0.150 0.110 0.060 0.040 Total 200 1.000 Dans le cas d une distribution par classe, la fréquence relative ou l effectif relatif de la classe sera entre la fréquence d une classe et la somme des fréquences de toutes les classes (le nombre total des observations). Elle est généralement exprimée en pourcentage. Exemple 12 : Poids de nouveau-nés Classes Limites de la classe (Kg) Centre de la classe Effectif Fréquence relative Pourcentage 1 2.2 2.5 2.350 5 0.031 3.1 2 2.5 2.8 2.650 11 0.068 6.8 3 2.8 3.1 2.950 24 0.148 14.8 4 3.1 3.4 3.250 40 0.248 24.8 5 3.4 3.7 3.550 42 0.259 25.9 6 3.7 4.0 3.850 20 1.124 12.4 7 4.0 4.3 4.150 13 0.080 8.0 8 4.3 4.6 4.450 6 0.037 3.7 161 1 100 10
4. Dimension ou amplitude d une classe La dimension ou l amplitude d une classe est la différence entre les bornes supérieure et inférieure de la classe. On l appelle indifféremment l étendue, la longueur ou l amplitude de la classe. Exemple 13 Le tableau de l exemple 9 permet alors de déduire que les classes ont la même amplitude : c = 62.5-59.5 = 65.5-62.5 =...= 74.5-71.5 = 3. 5. Centre d une classe Le centre d une classe est le point correspondant au milieu de cette classe et s obtient en ajoutant la limite supérieure et inférieure de la classe et en divisant par deux. Dans une analyse plus détaillée, on suppose que toutes les observations d une même classe correspondent avec le centre de cette classe. Exemple 14 Dans l exemple 8, le centre de l intervalle de la classe 60-62 est (60+62)/2=61 : Ainsi, tous les poids de cette classe sont assimilés à 61kg. 6. Le nombre des classes En pratique, on utilise généralement une des règles suivantes : Règle de Sturges : Rège de Yule : Dans les deux cas, on arrondit à l entier le plus proche, car un nombre de classes doit être un entier Le choix définitif du nombre de classes est dicté par un souci de clarté dans la présentation. En utilisant les formules de Sturges ou de Yule, on peut aboutir au tableau : Nombre d observations : n Le nombre de classes : k 10 4 10 < n 22 5 22 < n 44 6 44 < n 90 7 90 < n 180 8 180 < n 360 9 360 < n 720 10 720 < n 1 000 11 11
Exemple 15 Longueur totale du crâne (mm) pour un sous-échantillon de 60 souris sylvestres adultes (I, II et III), tiré d un échantillon de 122 souris de Landry (2000) 2. Combien de classes sont-elles nécessaires dans ce cas? Réponse Effectif de l échantillon est n = 60 Selon la règle de Sturge: le nombre de classe K = 1 + (3,3 log(60)) = 6,92 7 classes Selon la règle de Yule: le nombre de classes K= 2.5 = 2.5 2.78 = 6.95 7 classes 7. Règles générales de formation des distributions d effectifs On suit les étapes suivantes : 1) On détermine la plus grande et la plus petite des données brutes qui donnent immédiatement l étendue (différence entre ces deux valeurs). 2) On partage l étendue en classe suffisamment nombreuses de même amplitude. Lorsque cela est impossible, on considère des classes de dimensions différentes ou des classes ouvertes. Le nombre de classe est généralement compris entre 5 et 20 et calculé selon la règle de Sturges ou de Yule. Les classes sont choisit de manière que leurs centres coïncident avec des données réellement observées et cela, afin de diminuer l erreur de groupement. Mais les bornes de classes ne doivent pas coïncider avec des données réellement observées. 3) Dans chaque classe on détermine le nombre d observations donc la fréquence ou l effectif de chaque classe 2 http://www.cours-univ.fr/documents/cours020212.pdf 12
IV. Présentations graphiques 1. Présentation d une variable Les principaux types de graphiques utilisés pour représenter une variable qualitative sont : Le diagramme circulaire Le diagramme à bandes horizontales ou verticales Les principaux types de graphiques utilisés pour représenter une variable quantitative sont : Le diagramme à bâtons L histogramme Polygone de fréquences La courbe de fréquences cumulées 1.1. Le diagramme circulaire Le diagramme circulaire est un disque divisé en secteurs circulaires qui représentent les différentes modalités d une variable qualitative. La surface de chaque secteur est proportionnelle à la fréquence observée dans la catégorie correspondante. L angle au centre de chaque secteur se calcul de la façon suivante : Exemple 16 Soit un groupe de 200 d étudiants composé de 81 filles et 119 garçons. Le tableau de fréquences pour la distribution du sexe dans l échantillon : Sexe Effectifs Fréquence relative Pourcentage Féminin Masculin 81 119 0.405 0.595 40.5% 59.5% Total 200 1 100% Solution Diagramme circulaire 13
Effectifs 1.2. Le diagramme à bandes horizontales ou verticales Le diagramme à bandes horizontales ou verticales est composé de rectangles non adjacents qui représentent les différentes modalités d une variable qualitative. La hauteur de chaque rectangle est proportionnelle à la fréquence observée dans sa catégorie correspondante. Exemple 17 En considérant les mêmes données de l exemple 15, tracer le diagramme à bandes verticales. Solution 120 100 80 60 40 20 0 Diagramme à bandes verticales Féminin Sexe Masculain 1.3. Le diagramme à bâtons On a recours au diagramme à bâtons lorsque la variable est quantitative discrète, avec peu de valeurs distinctes observées. Le diagramme à bâtons est un graphique qui associe à chaque valeur observée d une variable quantitative discrète, un segment (bâton) dont la hauteur est proportionnelle à la fréquence de cette valeur. Exemple 18 : Répartition de 200 capsules de pavots suivant le nombre de rayons stigmatiques Nombre de rayons Fréquence absolue Fréquence relatives 8 9 10 11 12 13 14 15 16 17 5 11 16 26 34 36 30 22 12 8 0.025 0.055 0.080 0.130 0.170 0.180 0.150 0.110 0.060 0.040 Total 200 1.000 14
Effectifs Solution Diagramme à bâton 40 30 20 10 0 8 9 10 11 12 13 14 15 16 17 Nombre de rayons 1.4. Histogramme, polygone de fréquences et courbe de fréquences cumulés (ou ogives) Lorsque la variable quantitative discrète présente un nombre important de valeurs différentes observées (plus de 15) ou s il s agit d une variable continue, on optera pour une présentation graphique des données avec un histogramme, un polygone de fréquence ou la courbe des fréquences cumulées. Il est évident qu avec ces graphiques, il est obligatoire de regrouper les données en classe. Un histogramme est composé de rectangles adjacents. Chaque rectangle représente une classe du tableau de fréquences d une variable quantitative continue ou quantitative discrète avec plusieurs valeurs différentes observées. La largeur de la base de chaque rectangle correspond à l amplitude de la classe qu il représente et sa hauteur est telle que sa surface est proportionnelle à la fréquence de la classe correspondante. On construit le polygone de fréquence à partir de l histogramme. Il suffit de joindre par un segment de droite les points milieux des sommets de tous les rectangles et de fermer la figure ainsi construite en ajoutant, au début et à la fin de l histogramme, une classe de fréquence nulle. Ce diagramme est particulièrement utile pour comparer 2 distributions ou plus dans un même graphique. La courbe de fréquences cumulées ou ogives est obtenue en reliant par des segments de droite les points dont les abscisses correspondent aux limites supérieures des classes et les ordonnées sont égales aux fréquences cumulées correspondantes. On obtient ainsi une courbe croissante. Le premier point du graphique est le point dont la limite inférieure de la première classe et l ordonnée est 0. 15
Exemple 19 : On reprend les données de l exemple 14. Longueur totale du crâne (mm) pour un sous-échantillon de 60 souris sylvestres adultes (I, II et III), tiré d un échantillon de 122 souris de Landry (2000) 3. Tracer histogramme, le polygone de fréquences et la courbe de fréquences cumulées Solution i) Présentation des observations par valeur non décroissante. C est probablement la tâche la plus laborieuse dans la préparation d une distribution de fréquence. Ce travail peut être rendu plus facile si vous avez accès à ordinateur avec un programme conçu à cette fin. Excel peut aussi le faire par simple commande. Si vous procédez manuellement, il n y a pas de méthode particulière si ce n est de repérer d abord la plus petite valeur dans la série et d ordonner les autres en conséquence en barrant du tableau de la série chaque valeur repérée. On obtient alors le tableau suivant : 28.28 22.56 22.57 22.60 22.69 22.73 22.78 22.91 23.05 23.14 23.18 23.23 23.29 23.30 23.34 23.35 23.35 23.37 23.39 23.47 23.47 23.48 23.48 23.48 23.48 23.49 23.49 23.51 23.51 23.56 23.56 23.57 23.57 23.60 23.60 23.61 23.61 23.71 23.71 23.72 24.09 24.13 24.32 24.35 24.36 24.37 24.41 24.43 24.43 24.52 24.56 24.63 24.83 24.94 24.95 25.00 25.07 25.16 25.48 25.74 ii) Nous avons 60 observations (n=60), le nombre de classe suggéré selon la règle Sturges est k=7 D après le tableau, la plus grande valeur dans la série est Xmax= 25.74 et la plus petite est Xmin=22.28. Ce qui donne E= Xmax Xmin = 25,74-22,28 = 3,46 3 http://www.cours-univ.fr/documents/cours020212.pdf 16
iii) iv) L amplitude de chaque classe : E / k = : 3,46/7 = 0,49 0,5 mm Chaque classe aura donc une classe de 0.5mm Fixation des limites des classes, dépouillement des observations ordonnées et compilation. Il s agit d abord de préciser la limite inférieure de la première classe. Vu que les bornes de classes ne doivent pas coïncider avec des données réellement observées, on va choisir comme borne inférieure, une valeur plus petite mais voisine de la valeur minimale. Xmin = 22.28, on peut fixer la limite inférieur de la 1 ère classe à 22.25 et sa limite supérieure sera donc : 22.25 + 0.5 = 22.75. En notant pas X, la longueur du crâne, on obtient la répartition (ordonnée) suivante : 22.28 22.56 22.57 22.60 22.69 22.73 22.78 22.91 23.05 23.14 23.18 23.23 23.29 23.30 23.34 23.35 23.35 23.37 23.39 23.47 23.47 23.48 23.48 23.48 23.48 23.49 23.49 23.51 23.51 23.56 23.56 23.57 23.57 23.60 23.60 23.61 23.61 23.71 23.71 23.72 24.09 24.13 24.32 24.35 24.36 24.37 24.41 24.43 24.43 24.52 24.56 24.63 24.83 24.94 24.95 25.00 25.07 25.16 25.48 25.74 Classes Fréquences absolues Effectif cumulé Fréquences relatives Fréquence cumulées 22.25 X < 22.75 6 6 0.1000 0.1000 22.75 X< 23.25 6 12 0.1000 0.2000 23.25 X< 23.75 28 40 0.4667 0.6667 23.75 X< 24.25 2 42 0.0333 0.7000 24.25 X< 24.75 10 52 0.1667 0.8667 24.75 X< 25.25 6 58 0.1000 0.9667 25.25 X< 25.75 2 60 0.0333 1 17
Fréquence cumulée Effectifs Effectifs Histogramme 30,00 25,00 20,00 15,00 10,00 5,00 0,00 22,25 22,75 23,25 23,75 24,25 24,75 25,25 25,75 Longueur totale du crâne (mm) polygone des fréquences absolues 30,00 25,00 20,00 15,00 10,00 5,00 0,00 22,25 22,75 23,25 23,75 24,25 24,75 25,25 25,75 Longueur totale du crâne (mm) Courbe des fréquences cumulées ou ogives 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 22 22,25 22,75 23,25 23,75 24,25 24,75 25,25 Longueur totale du crâne (mm) 18
2. Présentation de deux variable Il est parfois utile de présenter les résultats observés pour deux variables simultanément, notamment lorsqu on soupçonne un lien possible entre deux variables. Exemple 20 Suite à une étude sur un échantillon de jeunes personnes, on a établi un tableau qui réparti ses personnes en fonction de leur gamme d âge : Classes Effectifs [5-10[ 10 [10-15[ 24 [15-20[ 36 [20-25[ 20 [25-30[ 30 1. Construisez l histogramme. 2. Construisez le polygone des fréquences. Solution Pour construire l histogramme on commence par construire le tableau statistique Age entre Effectifs Amplitude Centre Fréquence Pourcentage / 100 5-10 10 5 7.5=(5+10)/2 0.083=10/120 8.3% 1.66 10-15 24 5 12.5 0.200=24/120 20% 4 15-20 36 5 17.5 0.300 30% 6 20-25 20 5 22.5 0.165 16.5% 3.3 25-30 27.5 5 30 0.250 25% 5 L histogramme du tableau 2 est un rectangles juxtaposés de base égale à et de hauteur proportionnelle à la fréquence (ou effectif). Généralement, on prend comme hauteur / 100 19
7 6 5 4 3 2 1 0 Série 1 Série 2 Série 3 série 4 série 5 2.1. Tableau de contingence Le tableau de contingence appelé aussi tableau à double entrée présente les résultats observés pour deux variables simultanément. Si les variables sont qualitatives avec plusieurs valeurs distinctes, on les groupes en classes. Lorsqu on veut présenter les résultats conjoints de deux variables graphiquement, on peut utiliser différents types de graphiques tels que : le diagramme à rectangles conjoints si au moins une des variables est qualitative, le nuage de points lorsque les deux variables sont quantitatives. Exemple 21 : On veut savoir si le temps nécessaire pour se rendre à l université puisse avoir une quelconque influence sur le niveau de stress des étudiants. On décide donc d évaluer le niveau de stress pour un échantillon de 1000 étudiants, ainsi que le temps (en minute) pour se rendre à l université. Les résultats observés sont résumés dans le tableau de contingence suivant. Durée du trajet Mois de 30mn De 30 à 1heure Plus de 1heure Total Stress Faible 154 242 80 476 Modérée 58 68 72 198 Élevé 64 146 116 326 Total 276 456 268 1000 20
Nombre d'étudiants Solution 300 250 200 Diagramme à rectangle conjoint Moins de 30mn De 30mn à 1 heure Plus de 1 heure 150 100 50 0 Faible Modéré Élevé Niveau de stress À partir de ce graphique, on peut remarquer que chez les étudiants souffrant de stress élevé, il y a pratiquement deux fois plus d étudiants qui prennent plus de 1 heure à se rendre à l université que des étudiants qui prennent moins de 30mn. Durée du trajet Moins de 30mn De 30 à 1heure Plus de 1heure Total Stress t < 30mn 30mn t < 1h t >1h Faible 154 242 80 476 Modérée 58 68 72 198 Élevé 64 146 116 326 Total 276 456 268 1000 D après les résultats, on a la certitude que la distance influe beaucoup sur le stress puisque : Pour ceux qui prennent t<30mn, 55,80% ont un faible stress, 21% ont un stress modérée et 23,19% avec un stress élevé. Pour 30 30mn<1h, 53,07% ont un faible stress, 14,91% ont un stress modérée et 32,01% avec un stress élevé. Pour t> 1h, 29,85% ont un faible stress, 26,86% ont un stress modérée et 43,28% avec un stress élevé. 21
Remarque On peut vérifier ces hypothèses et observations à l aide de différentes techniques statistiques dont nous discuterons plus loin dans un autre chapitre. 2.2. Nuages de points Un nuage de point est un graphique qui permet d illustrer le lien entre deux variables quantitatives. Une des variables est utilisée sur l axe des abscisses (x) alors que l autre va figurer sur l axe des ordonnées (y). Chaque point du nuage de points représente ainsi un couple d observation. Exemple 22 : Pour vérifier si le pourcentage d impuretés dans le gaz d oxygène produit par un procédé de distillation est lié au pourcentage d hydrocarbures dans le condensateur principal du distillateur. On observe les valeurs suivantes : % de gaz toxique (x) % d impuretés (y) 0,99 90,01 1,02 89,05 1,15 91,43 1,29 93,74 1,46 96,73 1,36 94,45 0,87 87,59 1,23 91,77 1,55 99,42 1,40 93,65 1,19 93,54 1,15 92,52 0,98 90,56 1,01 89,54 1,11 89,85 1,20 90,39 1,26 93,25 1,32 93,41 1,43 94,98 0,92 87,33 22
Pourcentage d'impuretés Solution Nuage de points 102 100 98 96 94 92 90 88 86 0 0,5 1 1,5 2 Pourcentage d'hydrocarbures L examen du nuage de point permet de démontrer que plus le niveau d hydrocarbures est élevé et plus le pourcentage d impuretés est augmente. Ce lien semble être linéaire mais seule une analyse (appelé régression linéaire simple) plus approfondie permet de le démontrer. 3. Fonction de densité et lissage des ogives Les échantillons étudiés appartiennent généralement à une grande population. Les échantillons vont eux aussi contenir un grand nombre d observations. Ainsi on serait amené à choisir (pour des données continues) des classes très petites avec chacune un nombre assez élevé d observations. Dans ces conditions, le polygone des effectifs ou le polygone des fréquences auront tellement de segments brisés qu ils tendent vers des courbes que l on appelle respectivement fonction de densité et fonction de densité relative. Ainsi, de telle courbe théorique peut être approchée en lissant le polygone des effectifs ou le polygone des fréquences de l échantillon, l approximation est d autant meilleure que la taille de la taille de l échantillon augmente. C est pour cette raison qu on dit quelque fois que la courbe de densité est un polygone de fréquence lissé. De la même manière, on obtient des ogives lissées en lissant des polygones cumulés de fréquences ou des ogives. 23
V. Mesures échantillonnales De manière générale, les données dont on dispose peuvent se présenter selon une des formes suivantes : Des données en série : on note dans ce cas, x x, x 2,..,x n les n observations de l échantillon : Exemple 23 L âge de 15 étudiants : 18 17 21 17 19 19 20 17 19 25 27 16 18 27 18 Des données sont regroupées en valeurs (dans un tableau de fréquence : on note v 1, v 2,..,v n, les k différentes valeurs observées et f 1, f 2,.., f k, leurs effectifs ou fréquences absolues Exemple 24 Age des étudiants Effectif 16 1 17 3 18 3 19 3 20 1 21 1 25 1 27 2 total 15 Des données regroupées en classe (tableau de fréquence) Age des étudiants Centre de la classe effectifs [16, 20[ 18 10 [20, 24[ 22 2 [24,28[ 26 3 total 15 1. Mesure de tendance centrale Les trois principales mesures de tendance centrale sont : la moyenne la médiane le mode 24
1.1. La moyenne Il s'agit du paramètre le plus connu et du plus utilisé. C'est le point d'équilibre des observations. Selon le type de données, la moyenne d un échantillon se calcul de la manière suivante : Échantillon Données bruts Données groupées en valeurs Données groupées en classe Avec k = nombre de classes Remarque La moyenne n est pas une bonne mesure puisqu elle est influencée par les valeurs extrêmes. Il existe une différence entre la moyenne calculée dans un échantillon ( ) et la moyenne dans la population (le paramètre µ). Le calcul de µ se calcul de façon équivalente à la moyenne échantillonnale : Population Données bruts Données groupées en valeurs Données groupées en classe Avec k = nombre de classes 1.2. La médiane À la différence, de la moyenne n'est pas issue d'un calcul. Il s'agit de la valeur qui sépare les observations en deux parties égales telles qu'il y ait autant d'observation au-dessus qu'au-dessous. La médiane sera avantageusement utilisée lorsque le nombre de valeurs est important. 25
Me = Lorsque les données sont regroupées en classe, on a recours à une approximation par une méthode graphique ou par une approche analytique. Méthode graphique : où on utilise le graphique des fréquences cumulées. On repère la valeur qui correspond à 50% des obervations cumulées. Méthode analytique : On utilise la formule suivante : Avec [A,B] : la classe qui contient la médiane N M : l effectif de la classe [A,B] F * : la somme des effectifs des classes précédant la classe [A,B] n : le nombre total d observation La médiane est aussi une mesure de position ; c est le 2 ème quartile. Elle est une mesure robuste puisqu elle n est pas influencée par les valeurs extrêmes. 1.3. Le mode Le mode de l échantillon noté Mo, est la valeur la plus fréquente constatée dans les observations. Si les données sont regroupées en classes, on parle de classe modale : la classe correspondant au plus grand effectif. Il faut noter que le mode n est pas toujours unique. C est également une mesure robuste puisqu il n est pas influencé par les valeurs extrêmes. 1.4. Choix de la mesure de tendance En pratique, il est toujours conseillé de commencer par faire une représentation graphique des données et ce n est qu après qu on choisi la mesure de tendance centrale à privilégier 26
La mesure de tendance La moyenne La médiane Le mode Conditions d utilisation Distribution relativement symétrique et unimodale Distribution avec forte asymétrie (positive ou négative) et unimodale Distribution multimode Variable qualitative nominale 2. Mesure de dispersion La dispersion est la manière avec laquelle sont réparties les observations autour de la tendance centrale. Les mesures de dispersion que nous étudions dans ce cours sont : centrale sont : l'étendue la variance l`écart-type La première, la plus simple, est l'étendue. Elle se calcule par la différence entre la plus grande et la plus petite valeur : E = x (n) x (1) Si les données sont regroupées en classe, on calcul une approximation de l étendue qui consiste à calculer la différence entre la limite supérieure de la dernière classe et la limite inférieure de la première classe. La variance est calculée en se basant sur les écarts autour de la moyenne. Selon le type de données, il se calcule de la manière suivante Échantillon Données bruts Var = Données groupées en valeurs Var = Données groupées en classe Var Avec k = nombre de classes 27
Population Données bruts Var = Données groupées en valeurs Var = Données groupées en classe Var Avec k = nombre de classes L'écart type est déduit de la variance puisque : σ = La variance n est pas une mesure robuste puisqu elle est influencée par les valeurs extravagantes 3. Mesure de position Les quantiles sont des valeurs qui séparent les données en un certains nombre de parties égales. Les quantiles les plus utilisées sont : Les quantiles qui séparent les données en 4 parties égales : Q 1, Q 2 et Q 3 Les quantiles qui séparent les données en 5 parties égales : V 1, V 2, V 3 et V 4 Les déciles qui séparent les données en 10 parties égales : D 1, D 2, D 9 Les centiles qui séparent les données en 100 parties égales : C 1, C 2,, C 99 28
Bibliographie S. Bénazeth, M. Chiadmi, E. Curis, P. Deschamps, S. Gérart, C. Guihenneuc, J-P. Jais, P. Landais, V. Lasserre, I. Nicolis. «Biomathématiques, Probabilités, Statistiques, UE4», 1ère Année des études de santé. Ed. Elsevier Masson, 2013 S. Gervais «Probabilités et statistiques - MAT 350- Notes de cours et résumés» École de technologie supérieure (ETS), Montréal - Canada, Rédigé en août 2011 - Révisé en août 2013. C. Blais, E-M. Frih, D. Laferrière «Exercices et exemples - MAT 350», École de technologie supérieure (ETS), Montréal - Canada, Décembre 2011. É. Azoulay et D. Cohen «Statistique - Cours et exercices résolus», 1ère année pharmacie DEUG B, IUT, BTS biologiques et agricoles EdiSicence, 2004 Alain- Jacque Valleron «Probabilité et Statistique pour Médecine et Pharmacie», Ed. Masson, 2001 B. Legras «Élément de statistique à l'usage des étudiants en médecine et en biologie.», Cours et exercices corrigés. Éd. Ellipses, 1998 Murray R. Spiegel «Statistique», Série Schaum, 2ème édition, 1993 G. Baillargeon «Probabilités, statistique et techniques de régression» Éd. SMG, 1989 Jean Fleury «Introduction à l'usage des méthodes statistiques en pharmacie», Éd. Médecine et Hygiènne- Genève-1987 Murray R. Spiegel «Probabilités et Statistique - Cours et problèmes», Série Schaum, 5ème édition, 1985 G. Baillargeon «Introduction au calcul des probabilités», 2ème Éd. SMG, 1981 29