STATISTIQUE POUR LA LOGISTIQUE Chaptre 2 : Statstque Descrptve A. AIT EL CADI 2017 Abdessamad.atelcad@unv-valencennes.fr
Plan de la séance Introducton à la statstque descrptve Le dagramme tge-feulle L hstogramme Les mesures de poston Les mesures de dsperson Autres méthodes d analyse Statstque descrptve Cas des données groupées
Introducton Lors d une analyse statstque on dspose d un grand nombre de données brutes neplotable. Le but de la statstque descrptve est de résumer ces données et de les présenter sous forme synthétque à pouvor en dégager des rensegnement utle. 3
Introducton Pour ce, la statstque descrptve dspose d outls, tels que : Représentatons graphques : le dagramme «tgefeulle», l hstogramme, etc Les mesures (ndces) de poston : la moyenne, la médane, le mode, les quantles. Les mesures (ndces) de dsperson : l étendue, l écart nterquartle, la varance, l écart-type. Autre méthodes d analyse : le dagramme «Bo- Plot», le dagramme quantle-quantle, le dagramme de dsperson, la drote des mondres carrés, le coeffcent de corrélaton. 4
Introducton Durant tout ce chaptre, on consdère une varable X et un échantllon de populaton assocée : 1, 2,, n. On suppose que les valeurs de cet échantllon sont classés selon un ordre crossant. 5
Le dagramme tge-feulle On l appelle auss le dagramme arborescent. C est le dagramme le plus smple parm toutes les représentaton graphque. 6
Le dagramme tge-feulle Constructon Ce derner peut être vu comme une sorte d hstogramme, retenant d un côté d'avantage d nformaton que ce derner, tout en étant plus rudmentare d un pont de vue strctement graphque. C'est une sorte d hstogramme horzontal construt en prenant comme base une colonne d enters ordonnés (une tge) représentant les premers chffres des observatons, pus en nscrvant à drote de chaque chffre de la colonne le deuème chffre arrond (une feulle) de chacune des observatons commençant par ce chffre. 7
Le dagramme tge-feulle Eercce On consdère l échantllon, résumé dans le tableau cdessous, des durées de 34 opératons de pckng en mnutes. Représenter ces données sous forme d un dagramme tge-feulle. 8
Le dagramme tge-feulle Eercce Le dagramme tge-feulle assocé est le suvant : 9
L hstogramme Le graphque le plus utlsé pour représenter des varables contnues est l hstogramme. Celu-c un outl très fleble permettant de se fare une bonne dée de la densté, de même que de la varablté, de l asymétre et de l aplatssement de la dstrbuton des observatons. 10
L hstogramme Tableau de dstrbuton des fréquences La longueur et le nombre des ntervalles K sont arbtrares. Mas leur cho nfluence de manère mportante la représentaton graphque. Après avor chos les ntervalles et calculé pour chacun la fréquence, on ramène les données brutes à un tableau de fréquence de la forme suvante : 11
L hstogramme Constructon de l hstogramme des fréquences S on pose b j = a j - a j-1 (damètre de l ntervalle), l hstogramme est construt en élevant au-dessus du j eme ntervalle un rectangle de hauteur h j telle que l are b j h j est proportonnelle à la fréquence nj. On peut prendre par eemple h j = n j /b j. S tous les ntervalles sont de même longueur, cela revent à prendre h j proportonnelle (vor égale) à n j. Pour certanes données, l est souhatable de défnr des ntervalles de longueurs négales, mas nous ne consdérerons pas ce cas c. 16 14 12 10 8 6 4 2 0 Polygone des fréquences 0,6 0,8 1,0 1,2 1,4 1,6 12
L hstogramme Eercce : On consdère le même eemple des opératons de pckng : Détermner la table de fréquence assocée Dessner l hstogramme. Quelle est la probablté que la durée d une opératon de commande sot nféreur à 1,5 mn. 13
L hstogramme Eercce : La table de fréquence assocée est : Intervalle Effectfs Effectfs Cumulés Fréquences Fréquence cumulées 1 1 0,03 0,03 9 10 0,26 0,29 14 24 0,41 0,71 2 26 0,06 0,76 4 30 0,12 0,88 4 34 0,12 1,00 Total 34-1 14
Eercce : L hstogramme assocée est : L hstogramme 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% 0.6 0.8 1.0 1.2 1.4 1.6 15
L hstogramme Eercce : Ogve L hstogramme cumulé (Graphe en escaler) assocée est : 100% 100% 90% 90% 0.84 80% 80% 70% 70% 60% 60% 50% 50% 40% 40% 30% 30% 20% 20% 10% 10% 0% 0% 0,6 0,6 0,8 0,8 1,0 1,0 1,2 1,2 1,4 1,4 1,6 1,6 Remarque : Comment détermner le nombre d ntervalles (classes) K? 1.5 16
Moyenne : Médane : ~ Les mesures de poston n1 ( ) 2 n ( ) 2 n 1 n n ( 1) 2 est par Mode : C est la valeur la plus fréquente. Il n est pas unque 2 s s n n est mpar
Les mesures de poston Les quantles : p (0<p<1) Prop( des Prop( des p ) p ) 100 p% 100(1 p)% Les percentles : quand p = /100 avec = 1,2 99 Les quartles : Q ; Q ; Q 1 0.25 2 0.50 3 0.75 25 % 25 % 25 % 25 % Q 1 Q 2 =Médane Q 3 18
Les mesures de poston Eercce : Calculer, pour chacun de ces jeu de données, la moyenne, la médane et les quartles
Eercce : La réponse Les mesures de poston
Les mesures de dsperson Étendue : R n ma( 1 ) n mn( 1 ) Écart nterquartle : IQR Q 3 Q 1 Varance : Avec s 2 SSX SSX n 1 n 1 ( ) 2
Les mesures de dsperson Écart-type : s s 2 Coeffcent de varaton échantllonnal (C.V.): C. V. s
Les mesures de dsperson Eercce : Calculer, pour chacun de ces jeu de données, l étendue, l écart nterquartle, la varance, l écart-type et le coeffcent de varaton.
Eercce : La réponse Les mesures de dsperson 24
Autres Méthodes d analyse Le dagramme de Tukey (ou Bo-Plot) E2 Bo Plot (PodsTalle_Pucerons.sta 4v*410c) 2,0 I2 1,8 1,6 3*IQR 1,4 1.5*IQR Q3 Q2 Q1 1,2 1,0 IQR I1 E1 0,8 0,6 0,4 0,2 0,0 1.5*IQR NewVar 3*IQR Medan = 1,056 25%-75% = (0,984, 1,244) Non-Outler Range = (0,781, 1,619) Outlers Etremes
Observed Value A. AIT EL CADI Dagramme Quantle-Quantle Autres Méthodes d analyse 2,0 Quantle-Quantle Plot of Pods (PodsTalle_Pucerons.sta 4v*410c) Dstrbuton: Normal Pods = 1,1861+0,259* 0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99 1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4-2,5-2,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5 2,0 2,5 Theoretcal Quantle
Talle age A. AIT EL CADI Autres Méthodes d analyse Dagramme de dsperson (ou scatter plot) 1,10 Scatterplot (PodsTalle_Pucerons.sta 3v*34c) 1,05 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Pods 14,5 Scatterplot (PodsTalle_Pucerons.sta 3v*34c) 14,0 13,5 13,0 12,5 12,0 11,5 11,0 10,5 10,0 9,5 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Pods
Autres Méthodes d analyse Drote des mondres carrées Lorsque le dagramme de dsperson ndque une tendance lnéare entre les deu varables étudées sot X et Y, on peut alors détermner l équaton de cette drote qu tradut le len lnéare entre X et Y. Cette drote est unque et passe le plus près de tous les ponts. D où la nomnaton Drote des mondres carrées (drote de régresson).
Talle A. AIT EL CADI Drote des mondres carrées Autres Méthodes d analyse 1,10 Scatterplot (PodsTalle_Pucerons.sta 3v*34c) Talle = 0,5676+0,2499* 1,05 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Pods:Talle: r 2 = 0,8216; r = 0,9064; p = 0,0000; Pods y = 0,567573127 + 0,24988182*
Autres Méthodes d analyse Comment détermner cette drote des mondres carrées Sot : y = b 0 + b 1. l équaton de cette drote. On sat que cette drote est la plus proche de tous les ponts (, y ). Calculons la somme des dstance entre la drote et tous les ponts (, y ) qu représentent nos deu échantllon: G( b 0, b 1 ) n 1 y b 1 1 b 2 1 b 0 2
Comment détermner cette drote des mondres carrées Donc pour trouver cette drote, l sufft de trouver b 0 et b 1 qu mnmse l epresson c-dessus, donc qu vérfent : On trouve : Autres Méthodes d analyse 0 ), ( 0 ), ( 1 1 0 0 1 0 b b b G b b b G b y b SSX SPXY y y b n n 1 0 1 2 1 1 ) ( ) )( (
La covarance échantllonnale : Autres Méthodes d analyse S XY SPXY n 1 Coeffcent de corrélaton : SPXY r SSX SSY S S X. XY S Y Coeffcent de détermnaton : 2 R r 2
Autres Méthodes d analyse Drote des mondres carrées Eercce On consdère le tableau suvant qu résume les mesures de pods de talle et d'âge des pucerons. Et on s ntéresse à l étude des lens entre ces dfférentes mesures deu à deu. Pods Talle age 0,781 0,788 11 0,917 0,795 10 0,945 0,847 12 0,953 0,823 10 0,954 0,799 14 0,956 0,838 14 0,984 0,748 11 0,994 0,853 12 0,996 0,802 14 0,996 0,826 13 1,016 0,805 14 1,021 0,792 10 1,030 0,867 12 1,049 0,817 13 1,049 0,841 14 1,056 0,799 11 1,081 0,858 10 1,086 0,837 14 1,105 0,792 10 1,131 0,877 13 1,149 0,808 11 1,162 0,817 14 1,171 0,888 12 1,199 0,855 12 1,244 0,904 10 1,388 0,953 11 1,428 0,924 13 1,493 0,874 14 1,519 0,951 14 1,595 1,000 13 1,619 0,945 12 1,700 1,006 13 1,768 0,999 10 1,794 1,050 10 33
Talle A. AIT EL CADI Autres Méthodes d analyse Drote des mondres carrées (Talle/ Pods) Soluton Scatterplot (PodsTalle_Pucerons.sta 3v*34c) Talle = 0,5676+0,2499* 1,10 1,05 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Pods:Talle: r 2 = 0,8216; r = 0,9064; p = 0,0000; Pods y = 0,567573127 + 0,24988182*
Autres Méthodes d analyse Drote des mondres carrées (Talle/ Pods) Soluton La drote des mondre carrés : Talle = 0,5676+0,2499*pods Le coeffcent de corrélaton : r = 0,9064 Le coeffcent de détermnaton : R 2 = 0,8216 (82,16 %)
age A. AIT EL CADI Drote des mondres carrées (Age/Pods) Soluton Le coeffcent de corrélaton : r = -0,0233 Le coeffcent de détermnaton : R 2 = 0,005 (0.5 %) Autres Méthodes d analyse Scatterplot (PodsTalle_Pucerons.sta 3v*34c) age = 12,2465-0,1335* 14,5 14,0 13,5 13,0 12,5 12,0 11,5 11,0 10,5 10,0 9,5 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 Pods:age: r 2 = 0,0005; r = -0,0233; p = 0,8957; Pods y = 12,2465451-0,133465567*
Statstque descrptve - Cas des données groupées Cas de regroupement par valeur : Dans ce cas la moyenne devent : Et la varance : Et dem pour les autres statstques. Valeurs () Effectfs (n) Fréquences (f) 0,7 1 0,03 0,9 9 0,26 1,1 14 0,41 1,3 2 0,06 1,5 4 0,12 1,7 4 0,12 Total 34 1 p p p f ou n n 1 1 1 p p p f ou n n s 1 2 1 1 2 2 ) ( ) (
Statstque descrptve - Cas des données groupées Cas de regroupement par classe : Dans ce cas on remplace chaque classe par son mleu et on applque les formules c-dessus. Classes Effectfs (n) Fréquences (f) 0,7 1 0,03 0,9 9 0,26 1,1 14 0,41 1,3 2 0,06 1,5 4 0,12 1,7 4 0,12 Total 34 1