Première partie Organiser, traiter et représenter 1
Une étude statistique, du fait notamment de la masse importante de données traitées, est une suite ininterrompue d embrouilles. Il est donc inutile d en ajouter. En organisant correctement vos tableau, vous faciliterez les calculs à suivre. Au départ, une étude statistique se compose d un tableau de données brutes dans lequel chaque ligne correspond à un individu et chaque colonne à une variable. Exemples : Tableau 1 tableau de données brutes. Individus Sexe Amour des stats Nb d absence Notes ω 1 féminin beaucoup 1 15 ω 2 féminin pas du tout 2 10 ω 2 masculin pas du tout 3 5 ω 3 masculin un peu 3 10 ω 4 féminin pas du tout 2 15 ω 5 féminin beaucoup 3 10 Dans ce tableau on a 6 individus et 4 variables : 1. La variable «sexe» : variable qualitative nominale ; 2. La variable «Amour des stats» : variable qualitative ordinale ; 3. La variable «Nb d absence» : variable quantitative discrète ; 4. La variable «Notes» : variable quantitative continue. C est donc un tableau simple mais nous allons voir que le traitement de chacune de ces variables dans des tableaux rendra leur lecture plus facile. Nous commencerons par les tableaux, les opérations de bases et les représentations graphiques que nous pouvons utiliser dans le cas de variables qualitatives. 3
4
Chapitre 1 Les variables qualitatives 1.1 Un tableau pour organiser et traiter les données Reprenons le tableau de données brutes ci-dessus et intéressons-nous aux deux variables qualitatives : le sexe et l Amour des stats. Tableau 1.1 tableau de données brutes. Individus Sexe Amour des stats ω 1 féminin beaucoup ω 2 féminin pas du tout ω 2 masculin pas du tout ω 3 masculin un peu ω 4 féminin pas du tout ω 5 féminin beaucoup Le première chose à faire est de construire un tableau pour la première variable avec une colonne (ou une ligne) pour chaque modalité et de compter le nombre de «masculin» et de «féminin», puis de faire la même chose pour la deuxième variable. Ce qui nous donne la chose suivante : Tableau 1.2 tableau de traitement de la variable Sexe. modalités x i Effectif absolu n i Fréquence relative f i masculin x 1 2 33,3 féminin x 2 4 66,7 Effectif total 6 100 5
1. Les variables qualitatives Tableau 1.3 tableau de traitement de la variable «Amour des stats». modalités x i Effectif absolu n i Fréquence relative f i beaucoup x 1 2 33,3 un peu x 2 1 16,7 pas du tout x 3 3 50 Effectif total 6 100 A travers ces opérations de comptage, nous venons d effectuer le tri à plat des variables qualitatives. Nous avons déterminé l effectif absolu n i (le nombre d individus) de chaque modalité. La somme des effectifs absolus donne l effectif total, noté n. On donne aussi la fréquence relative (notée f i ) de chaque modalité, exprimé généralement en pourcentage (dernière colonne) que l on symbolise par f i (%). 6
1.2. Représentation graphique d une variable qualitative Comment calculer la fréquence relative? La fréquence relative d une modalité est le rapport de l effectif absolu de cette modalité sur l effectif total. Pour exprimer la fréquence relative en pourcentage, on multiplie par 100. Illustration avec la modalité x 1, où n 1 correspond à l effectif absolu de x 1, f 1 est la fréquence relative de x 1 et n est l effectif total (le résultat est arrondi au millième) : f 1 = n 1 n = 2 = 0,333 (1.1) 6 Pour exprimer le résultat en pourcentage, on fait la même chose en multiplié par 100 : f 1 (%) = n 1 n 100 = 2 100 = 33,3 (1.2) 6 1.2 Deux modes de représentation graphique Dans le cas de variable qualitative, il n y a que deux modes de représentation graphique à retenir : le diagramme à bandes et le diagramme circulaire (appelé aussi camembert). Nous allons nous intéresser ici à leur construction. Les diagrammes à bandes Un diagramme à bandes se présente sous la forme de rectangles, dont la hauteur est proportionnelle aux effectifs absolus (ou fréquences relatives) des modalités. Ainsi l axe des abscisses (axe horizontal) correspond aux modalités, tandis que l axe des ordonnées (axe vertical) correspond aux effectifs absolus (ou fréquences relatives). Le diagramme à bande lié à notre variable «sexe» de l exemple précédent (cf. tableau 1.5) donne la chose suivante : Attention, la largeur des bandes n a aucun sens. Vous pouvez donc choisir la largeur que vous voulez!!!! Les diagrammes circulaires Un diagramme circulaire, appelé aussi diagramme à secteur, est un graphique en forme de cercle divisé en parts proportionnellement aux effectifs absolus (ou fréquence relatives) de chaque modalités. Le tracé d un diagramme circulaire nécessite le calcul de l angle α de chaque part, en utilisant l une des trois formules suivantes : α = n i n 360 (1.3) 7
1. Les variables qualitatives Effectifs absolus 4 3 2 1 masculin féminin Modalités Figure 1.1 diagramme de la variable «sexe». Comme on sait que n i n = f i, alors on a : α = f i 360 (1.4) En utilisant les fréquences relatives en pourcentage (f i (%)), cela donne : α = f i (%) 3,6 (1.5) En effet, l angle d un disque est de 360 degré. Comme l effectif total d une variable occupe 100% du disque, l angle de 360 degré. Les formules ci-dessus sont alors simplement l écriture du produit en croix suivant : Fréquence relative degré de l angle Effectif total 1 360 Effectif absolu de la modalité x i f i? Pour illustrer la construction d un diagramme circulaire, prenons le cas de la variable «Amour des stats». Une fois que nous avions traité les données, nous avons obtenu le tableau suivant (rappel, les fréquences relatives sont exprimés en %) : Pour en faire une représentation graphique sous forme de diagramme circulaire, nous devons calculer les angles correspondant à chaque modalité. Exemple 8
1.3. Ce qu il faut retenir modalités x i Effectif absolu n i Fréquence relative f i beaucoup x 1 2 33,3 un peu x 2 1 16,7 pas du tout x 3 3 50 Effectif total 6 100 avec x 1 : α = f 1 (%) 3,6 (1.6) = 33,3 3,6 119,88 (1.7) On fait la même chose pour les autres modalités et nous obtenons les valeurs suivantes (ici regroupé dans un tableau) : Modalités x i Effectif absolu n i Fréquence relative f i degré de l angle beaucoup x 1 2 33,3 119,88 un peu x 2 1 16,7 60,12 pas du tout x 3 3 50 180 Effectif total 6 100 360 Grâce à ce tableau ainsi qu avec l aide d un rapporteur et d un compas, on trace un cercle de largeur quelconque, on trace un rayon puis on reporte chacun des angles. On obtient alors le diagramme circulaire suivant : 1.3 Ce qu il faut retenir : traitement des variables qualitatives 1. Il faut commencer par tracer un tableau de traitement avec trois colonnes et autant de lignes que de modalités plus la ligne «total». On inscrit les modalités dans la première colonne du tableau. 9
1. Les variables qualitatives Beaucoup un peu 16,7% 33,3% 50% pas du tout Figure 1.2 Amours des stats (diagramme circulaire). 2. On compte ensuite le nombre d individus pour chaque modalité, on obtient ainsi les effectifs absolus de chaque modalité. En faisant la somme de tous les effectifs absolus, on détermine l effectif total de la variable. On reporte les effectifs absolus dans la deuxième colonne. 3. Une fois les effectifs absolus et l effectif total définis, on calcule les fréquences relatives de chaque modalité. Pour cela on divise l effectif absolu de chaque modalité par l effectif total, et on multiplie par 100 si on veut exprimer le résultat en pourcentage. On reporte les fréquences relatives dans la troisième colonne du tableau 4. La hauteur des bandes d un diagramme est proportionnelle aux effectifs absolus des modalités (ou fréquences relatives). 5. Un diagramme circulaire s obtient en calculant l angle proportionnel aux fréquences relatives des modalités. Pour cela, on multiplie chaque fréquence relative par 360 (ou 3,6 si les fréquences sont exprimées en pourcentage). Ensuite à l aide d un compas et d un rapporteur, on reporte les angles sur le diagramme. 10
1.3. Ce qu il faut retenir Tableau 1.4 Synthèse des notations utilisées pour le traitement des variables. Effectif absolu Effectif total Fréquence relative n i Fréquence relative (en %) f i (%) n f i 11