Cours 2 1.6 Représentations graphiques On cherche ici à répresenter les informations contenues dans les tableaux de données, par des graphiques, des images permettant de mettre en évidence des tendances, des caractéristiques particulières des variables étudiées. Diagramme circulaire (Camenbert) : Il s agit de représenter par un portion sur un disque, la part d une modalité d une variable. Cette part correspond à la fréquence et associe à chacune des fréquences une mesure d angle, la somme de ces mesures vaudra 360, la mesure du disque complet. Ces mesures s obtiennent tout simplement par une règle de trois. A 1 (ou 100%) correspond 360, à f i correspond α i, un nombre compris entre 0 et 360. On a donc : α i = f i 360. Exemple : Le tableau suivant donne la composition en acides gras insaturés en grammes pour 100 grammes d huile d olive vierge : Acide Oléique 18,6 Acide Linoléique 58,6 Acide Liolénique 12,7 La figure 1.1 donne la représentation en diagramme circulaire de ces données. 10
CHAPITRE 1. STATISTIQUE DESCRIPTIVE FIGURE 1.1 Diagramme Circulaire de la Composition en Acides Gras Insaturés dans l Huile d Olive Acide Oléique Acide Linoléique Acide Linolénique Faire un diagramme circulaire avec R : # saisie des données AGI<-c(18.6,58.6,12.7) # Ajout de la légende names(agi)<-c("acide Oléique","Acide Linoléique","Acide Linolénique") # Tracé du diagramme pie(agi,col=rainbow(3)) 11
Tuyau d orgue ou diagramme en bâtons : Il s agit de représenter chaque modalité par un rectangle vertical dont la hauteur est proportionnelle à l effectif (ou fréquence). FIGURE 1.2 Diagramme en Bâtons : Acides Gras Insaturés dans l Huile d Olive Vierge Fréquence 0 20 40 60 80 100 Acide Oléique Acide Linoléique Acide Linolénique Exemple : La figure 1.2 donne le diagramme en bâtons pour les données de l exemple précédent. Faire un diagramme en bâtons avecr: AGI<-AGI/sum(AGI)*100 barplot(t(agi),beside=t, ylim=c(0,100),ylab="fréquence", col=rainbow(3)) # Trace l axe des abcisses abline(h=0) 12
CHAPITRE 1. STATISTIQUE DESCRIPTIVE Courbe des fréquences cumulées : Les fréquences cumulées, notées F i, sont obtenues en sommant successivement les fréquences relatives f i. i F i = f 1 + f 2 + + f i = f j. F i est la proportion de valeurs de la variable inférieures à la ième observation de celle-ci. On peut représenter F i par une fonction en escalier. La courbe obtenue en reliant les points milieux des palliers de la fonction en escalier, s appelle la courbe des fréquences cumulées ; on la note F(x). On peut à partir de cette courbe déterminer les quantiles. Le quantile d ordre q est la quantité x q telle que F(x q )= q. La médiane est le quantile d ordre 1/2 ou second quartile ; Q 1 est le quantile d ordre 1/4 ou premier quartile. Q 3 est le quantile d ordre 3/4 ou troisième quartile. Ces quantiles peuvent être déterminés par la méthode d interpolation linéaire. Pour illustrer la méthode, considérons le cas de la médiane. La médiane est solution de l équation F(x)=1/2. On procède de la manière suivante : 1. on représente la courbe des fréquences cumulées, 2. on trace y=1/2, la droite parallèle à l axe des x, 3. on repère les bornes de l intervalle points milieux [u,v] dans lequel la courbe coupe cette droite et on en déduit les points : (u,f(u)) et (v,f(v)), 4. on détermine l équation de la droite qui joint ces points en résolvant le j=1 système : F(u)= au+b F(v)= av+ b 5. on calcule alors x tel que 1/2= ax+ b, soit x=(1/2 b)/a. 13
Exemple : Les deux premières colonnes du tableau ci-dessous renseignent sur les résultats au test du QI de 60 élèves de CM2 : TABLE 1.1 Résultats au test du QI de 60 élèves de CM2 : nombre d élèves par classe de score Classes Effectifs n i Fréquence f i Fréquence cumulée F i Milieu [75, 85[ 2 2/60 0.033 0.033 80 [85, 95[ 3 3/60 0.05 0.083 90 [95, 105[ 10 10/60 0.166 0.25 100 [105, 115[ 16 16/60 0.266 0.516 110 [115, 125[ 13 13/60 0.216 0.733 120 [125, 135[ 10 10/60 0.166 0.9 130 [135, 145[ 5 5/60 0.083 0.983 140 [145, 155[ 1 1/60 0.016 1 150 Total 60 1 On a complété le tableau avec les colonnes des fréquences relatives, des fréquences cumulées et du milieu des classes pour obtenir figure 1.3, une représentation de la fonction en escalier correspondant aux fréquences cumulées ainsi qu une représentation de la courbe des fréquences cumulées, courbe qui joint les milieux des intervalles. Cette figure est obtenue avec la routinersuivante : N<-60 x<-seq(75,145,10) n<-c(2,3,10,16,13,10,5,1) freq<-n/n y<-c(0,cumsum(freq)) F<-stepfun(x,y,f=75) plot(f, axes=false, xlab="qi", ylab="fréquences cumulées", pch="", main="") axis(1,pos=0,at=c(x,155)) axis(2,pos=75, las=1) nx<-(x[-8]+x[-1])/2 lines(c(75,nx,150), y, type="l", col="red") abline(h=1,lty=3, col="blue") 14
CHAPITRE 1. STATISTIQUE DESCRIPTIVE FIGURE 1.3 Courbe des Fréquences Cumulées 1.0 0.8 Fréquences cumulées 0.6 0.4 0.2 0.0 75 85 95 105 115 125 135 145 155 QI En fait, les données brutes correspondant aux données présentées dans le tableau 1.2 sont disponibles. Elles apparaissent dans le tableau 1.2. TABLE 1.2 Scores au test du QI de 60 élèves de CM2 Scores de QI 145 139 126 122 125 130 96 110 118 118 101 142 134 124 112 109 134 113 81 113 123 94 100 136 109 131 117 110 127 124 106 124 115 133 116 102 127 117 109 137 117 90 103 114 139 101 122 105 97 89 102 108 110 128 114 112 114 102 82 101 On peut faire une répresentation des fréquences cumulées en considérant chacune de ces observations et leur ordre de multiplicité 1. Après avoir 1. L ordre de multiplicité est le nombre de fois où une même observation est présente dans l échantillon 15
ordonnées les observations, on calcule les ratios pour chaque x (i) : nombre d observations inférieures à x (i) divisé par le nombre d observations totales. On obtient alors la représentation figure 1.4. FIGURE 1.4 Répartition empirique Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 80 100 120 140 QI Cette représentation est obtenue avec la routinerci-dessous : QI<-c(145, 139, 126, 122, 125, 130, 96, 110, 118, 118, 101, 142, 134, 124, 112, 109, 134, 113, 81, 113, 123, 94, 100, 136, 109, 131, 117, 110, 127, 124, 106, 124, 115, 133, 116, 102, 127, 117, 109, 137, 117, 90, 103, 114, 139, 101, 122, 105, 97, 89, 102, 108, 110, 128, 114, 112, 114, 102, 82, 101 ) plot(ecdf (QI), main="", xlab="qi") Box-plot Le box-plot encore appelé boîte à moustaches est une représentation qui utilise les quartiles, en particulier, l intervalle interquartile Q 3 Q 1. On trace un rectangle de largeur quelconque et de longueur égale à la longueur de l intervalle interquartile. On positionne à l intérieur de ce rectangle la médiane et on complète cette boîte par des moustaches correspondant aux valeurs adjacentes définies de la manière suivante : 16
CHAPITRE 1. STATISTIQUE DESCRIPTIVE valeur adjacente supérieure : plus grande valeur inférieure à Q 3 +1,5(Q 3 Q1), valeur adjacente inférieure : plus petite valeur supérieure à Q 1 1,5(Q 3 Q1). Certaines valeurs de la série apparaîtront en dehors des moustaches ; on parle de valeurs abérantes (outliers). Cette représentation peut être très utile pour comparer plusieurs séries de données. Remarquons qu il existe d autres façons de calculer la longueur des moustaches. On peut les prolonger à gauche jusqu à la plus petite valeur et à droite jusqu à la plus grande valeur. On peut également aller jusqu au 1 er, décile à droite et jusqu au 9ème décile à gauche ou encore de la même façon jusqu au 5ème centile et jusqu au 95ème centile. Exemple : Les données suivantes concernent la mesure de la tension de surface d un mortier (unité : kgf /cm 2 ). Dix mesures sont effectuées suivant deux formulations A et B. A 16,85 16,40 17,21 16,35 16,52 17,04 16,96 17,15 16,59 16,57 B 17,5 17,63 18,25 18 17,86 17,75 18,22 17,90 17,96 18,15 Pour la formulation A, on calcule Q 1 =16,4 ; Q 2 =16,72 ; Q 3 =17,04 et l intervalle interquartile Q 3 Q 1 =0,64. Pour la formulation B, on calcule Q 1 =16,63 ; Q 2 =17,73 ; Q 3 =17,75 et l intervalle interquartile Q 3 Q 1 =1,12. Les valeurs adjacentes inférieures et supérieures sont respectivement : 16,4 1,5 0,64=15,44 et 17,04+1,5 0,64=18 pour A, et 16,63 1,5 1,12=14,95 et 17,75+ 1,5 1,12=19,43 pour B. 17
Faire un boxplot avecr: A<-c(16.85,16.40,17.21,16.35,16.52,17.04,16.96,17.15, 16.59,16.57) B<-c(17.5,17.63,18.25,18,17.86,17.75,18.22,17.90,17.96,18.15) boxplot(a,b,xlab="formulation",ylab="tension de surface") La figure 1.5 donne les représentations obtenues avec ces données. Ce gra- FIGURE 1.5 Exemples de Box-Plot Tension de surface 16.5 17.0 17.5 18.0 Formulation phique met en évidence qu il existe une nette différence entre les formulations pour la moyenne. Cependant, on remarque que les distributions sont symétriques et ont des variabilités voisines. Histogramme : On peut s intéresser à la concentration de l observation en formant le rapport entre le nombre de valeurs observées dans une classe et la largeur de cette classe. Ceci revient donc avec les notations adoptées précédemment à former les ratios n i /(a i a i 1 ) ou de manière équivalente f i /(a i a i 1 ). Si, à tout x [a i 1 ;a i [, on associe f i /(a i a i 1 ) et que l on représente cette fonction en étage, on obtient une représentation qu on appelle 18
CHAPITRE 1. STATISTIQUE DESCRIPTIVE histogramme. L histogramme donne en quelque sorte une information sur la densité de l observation. Exemple : Le tableau suivant représente la taille de coquille d escargots des bois de l espèce capea nemoralis. Taille (en mm.) Nbre de spécimen [16, 18[ 100 [18, 19[ 200 [19, 20[ 950 [20, 21[ 210 [21, 22[ 200 [22, 23[ 45 [23, 24[ 8 [24, 27[ 1 [27, 29[ 1 Les calculs nécessaires pour construire l histogramme sont consignés dans le tableau suivant : Taille (en mm.) Nbre de spécimen Fréquence Amplitude f i /(a i a i 1 ) [16, 18[ 100 0,058309 2 0,029155 [18, 19[ 200 0,116618 1 0,116618 [19, 20[ 950 0,553936 1 0,553936 [20, 21[ 210 0,122449 1 0,122449 [21, 22[ 200 0,116618 1 0,116618 [22, 23[ 45 0,026239 1 0,026239 [23, 24[ 8 0,004665 1 0,004665 [24, 27[ 1 0,000583 3 0,000194 [27, 29[ 1 0,000583 2 0,000292 La figure (1.6) donne alors une représentation de l histogramme. Un autre exemple est donné par la figure 1.7 pour les données du QI de la table 1.2. Cette représentation est obtenue avec la routinersuivante : # Faire un histogramme avecr hist(qi) 19
FIGURE 1.6 Histogramme de la Taille de Coquille d Escargots des Bois FIGURE 1.7 Histogramme du QI des élèves de CM2 Histogram of QI Frequency 0 5 10 15 80 90 100 110 120 130 140 150 QI 20