Statistiques en Scilab Table des matières 1 Vocabulaire des statistiques 2 2 Statistique descriptive univariée 2 2.1 Modalités............................................... 2 2.2 Dénombrement............................................ 3 2.2.1 Effectifs............................................ 3 2.2.2 Fréquences.......................................... 4 2.3 Classes................................................. 6 2.4 Paramètres.............................................. 7 2.4.1 Mode............................................. 7 2.4.2 Moyenne........................................... 7 2.4.3 Médiane............................................ 8 2.4.4 Quartile, décile........................................ 9 2.4.5 Etendue............................................ 9 2.4.6 Variance............................................ 10 2.4.7 Ecart type........................................... 11 3 Statistique descriptive bivariée 11 3.1 Définition............................................... 11 3.2 Covariance et corrélation....................................... 12 3.3 Ajustement linéaire.......................................... 13 3.3.1 Définition........................................... 13 3.3.2 Problème des moindres carrés................................ 13 1
1 Vocabulaire des statistiques Définition 1.1 : Population, individu, effectif L ensemble des éléments Ω = {ω 1, ω 2,..., ω N } dont on étudie les données s appelle population, ses éléments sont appelés individus. Le cardinal N de Ω est l effectif de la population. Définition 1.2 : Echantillon Un échantillon est la portion de population servant à l étude. Exemple 1. Une étude sur la population française en âge de travailler peut s effectuer sur un échantillon de 100 000 français (exemple : enquête emploi INSEE. Définition 1.3 : Variable Une variable (ou caractère est une application X définie sur Ω. Si X est à valeurs réelles, X est une variable quantitative. Sinon X est une variable qualitative. Exemple 2. On a : La taille des habitants d un pays donné ou les notes obtenues à une épreuve de concours par des candidats sont des variables quantitatives. La couleur des yeux des habitants d un pays donné est une variable qualitative. 2 Statistique descriptive univariée 2.1 Modalités Définition 2.1 : Modalités Les valeurs prises par une variable X s appellent les modalités de X. Définition 2.2 : Série statistique La liste des valeurs prises (des modalités par X est une série statistique : [x 1, x 2,..., x N ] avec x i = X(ω i. Remarque 2.3 : Série ordonnée Une série ordonnée est une série statistique telle que [x 1, x 2,..., x N ] avec x 1 x 2 x N. 2
Remarque 2.4 : Série dépouillée Si certaines valeurs d une série ordonnée sont égales, on peut grouper les valeurs égales, notons-les y 1,..., y p avec p N, en indiquant le nombre n i de fois où la valeur y i apparait. On parle alors de série dépouillée. Exemple 3. Une série statistique "brute" La même série ordonnée La même série dépouillée 2.2 Dénombrement 2.2.1 Effectifs Définition 2.5 : Effectif modalités x i 7 2 8 5 2 5 10 5 5 7 4 7 2 8 7 modalités x i 2 2 2 4 5 5 5 5 7 7 7 7 8 8 10 modalités y i 2 4 5 7 8 10 effectifs n i 3 1 4 4 2 1 L effectif de la modalité x i est le nombre n i d individus de cette modalité. Calculer l effectif d une modalité : la fonction tabul Méthode 2.6 : Comment calculer l effectif d une modalité? On utilise la fonction tabul(x qui ordonne la série x dans l ordre décroissant et donne l effectif de chaque modalité de la série. Exemple 4. En reprenant le même exemple : --> m=tabul(x m = 10. 1. 8. 2. 7. 4. 5. 4. 4. 1. 2. 3. --> bar(m(:,1,m(:,2 // on trace le diagramme en bâtons correspondant à la série dépouillée. 3
m(:,1 (la première colonne du vecteur m donne les abscisses, ce sont les valeurs des modalités. m(:,2 (la deuxième colonne du vecteur m donne les ordonnées, ce sont les effectifs. Remarque 2.7 : Classer dans l ordre croissant Par défaut le classement se fait dans l ordre décroissant. On écrit tabul(x, i pour classer la série dans l ordre croissant ( i comme increasing. --> m=tabul(x, i m = 2. 3. 4. 1. 5. 4. 7. 4. 8. 2. 10. 1. Définition 2.8 : Effectif cumulé L effectif cumulé d une modalité est la somme des effectifs des modalités qui lui sont inférieures ou égales. 2.2.2 Fréquences Définition 2.9 : Fréquence La fréquence de x i est le réel p Si X prend p valeurs distinctes, alors f i = 1. f i = n i N 4
Définition 2.10 : Fréquence cumulée La fréquence cumulée d une modalité est la somme des fréquences des modalités qui lui sont inférieures ou égales. Pour une série ordonnée, on peut écrire p i = j i f j. Remarque 2.11 : Important : lien avec les probabilités Les notions suivantes se correspondent en probabilités et en statistiques : X variable aléatoire probabilité P(X = x i fonction de répartition F X X variable statistique fréquence f i fréquence cumulée p i Méthode 2.12 : Comment calculer l effectif cumulé ou la fréquence cumulée? On utilise la fonction sum et cumsum. Exemple 5. On reprend la série précédente. --> m=tabul(x, i // on utilise la fonction tabul pour ordonner la série m = 2. 3. 4. 1. 5. 4. 7. 4. 8. 2. 10. 1. --> effc=cumsum(m(:,2 // on effectue la somme cumulée de la 2e colonne de m pour obtenir l effectif cumulé effc = 3. 4. 8. 12. 14. 15. --> frec=effc/sum(m(:,2 // on divise l effectif cumulée par l effectif de la population totale frec = 0.2 0.2666667 0.5333333 0.8 0.9333333 1. 5
Remarque 2.13 : Rappel! m(:,2 renvoie la deuxième colonne de m. m(:,1 renvoie la première colonne de m. m(1,: renvoie la première ligne de m. m(5,: renvoie la cinquième ligne de m. 2.3 Classes Définition 2.14 : Classes Lorsque le nombre de valeurs prises par X est trop grand, on regroupe les modalités par intervalles, appelés classes de la série. On dit alors que la série est groupée par classes. Remarque 2.15 Scilab permet de choisir les extrémités de chaque classe, ainsi que le nombre de classes. Par exemple, en prenant c 1, c 2,..., c q, c q+1, on considère q classes [c 1, c 2 ], ]c 2, c 3 ],... ]c q, c q+1 ] La première est un intervalle fermé, les autres sont des intervalles ouverts à gauche et fermés à droite. Définition 2.16 : Amplitude d une classe Le réel c i+1 c i est l amplitude de la classe ]c i, c i+1 ]. Exemple 6. On reprend l exemple précédent. On groupe cette série statistique par classes. Grouper une série brute : la fonction dsearch classes [2,4] ]4,6] ]6,8] ]8,10] effectifs 4 4 6 1 Méthode 2.17 : Comment grouper par classes une série brute? On utilise les fonctions linspace et dsearch pour grouper par classes une série brute. La fonction linspace permet de déterminer l amplitude commune de chaque classe et dsearch renvoie le nombre de modalités présentes dans chacune de ces classes. Exemple 7. Reprenons le même exemple. --> c=linspace(2,10,5 // on découpe l intervalle [2,10] en 4 intervalles c = 2. 4. 6. 8. 10. --> histplot(c,x // on trace l histogramme correspondant. 6
--> [ind,occ]=dsearch(x,c occ = 4. 4. 6. 1. ind = 3. 1. 3. 2. 1. 2. 4. 2. 2. 3. 1. 3. 1. 3. 3. occ retourne le nombres d éléments dans chaque classe. ind retourne le numéro de la classe dans laquelle se trouve chaque élément de x. Dans cet exemple, on affecte la valeur 1 aux éléments dans l intervalle [2, 4], la valeur 2 aux éléments dans l intervalle ]4, 6], la valeur 3 aux éléments dans l intervalle ]6, 8]... 2.4 Paramètres 2.4.1 Mode Définition 2.18 : Mode On appelle mode d une série statistique toute valeur de la variable correspondant au plus grand effectif (il peut donc y en avoir plusieurs. Exemple 8. Pour la série, [7 2 8 5 2 5 10 5 5 7 4 7 2 8 7] 5 et 7 sont les modalités aux plus grands effectifs (4 fois chacun. 5 et 7 sont les modes de cette série statistique. 2.4.2 Moyenne Définition 2.19 : Moyenne On appelle X la moyenne de la série statistique (x i 1 i N X = 1 N N x i. 7
Remarque 2.20 : Moyenne d une série dépouillée Si la série est groupée par modalités (y i, n i 1 i p, on a : X = 1 N p n i y i. Méthode 2.21 : Comment calculer la moyenne d une série statistique? On utilise la fonction mean. Exemple 9. La série de notre exemple a pour moyenne : --> m=mean(x m = 5.6 2.4.3 Médiane Définition 2.22 : Médiane On appelle médiane de la série statistique (x i 1 i N la valeur, souvent notée M e, en laquelle la fréquence cumulée est égale à 1 2. Remarque 2.23 La médiane partage la série en deux séries d effectifs égaux. Méthode 2.24 : Comment calculer la médiane d une série statistique? On utilise la fonction median. Exemple 10. La série de notre exemple a pour médiane : --> M=median(x M = 5 8
2.4.4 Quartile, décile Définition 2.25 : Quartile Un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l échantillon de population. Le premier quartile, noté q 1, est la plus petite valeur telle qu au moins 25% des termes de la série soient inférieurs ou égaux à q 1. Le deuxième quartile est la médiane de la série. Le troisième quartile, noté q 3, est la plus petite valeur telle qu au moins 75% des termes de la série soient inférieurs ou égaux à q 3. Méthode 2.26 : Comment calculer les quartiles d une série statistique? On peut utiliser la fonction quart, mais il faut faire attention car celui-ci peut donner un calcul erroné. Exemple 11. La série de notre exemple a pour quartiles : --> quart(x ans = 4.25 // Scilab devrait renvoyer 4 mais donne ici un calcul suivant la //définition internationale qui diffère de la définition francaise. 5. 7. Définition 2.27 : Ecart interquartile Le nombre q 3 q 1 est appelé écart interquartile (l idée est de mettre en valeur l écart entre les 2 quarts de la population correspondant aux valeurs extrêmes de la série. Exemple 12. Pour notre série, l écart interquartile est 7-4=3. Définition 2.28 : Décile On appelle k ème décile d une série statistique, le réel correspondant à 10k% des fréquences cumulées (le 5 ème décile est donc la médiane de la série. Exemple 13. Pour notre série, le neuvième décile est 8. 2.4.5 Etendue Définition 2.29 : Etendue On appelle étendue d une série statistique la différence entre la plus grande modalité et la plus petite modalité. 9
Méthode 2.30 : Comment calculer l étendue d une série statistique? On utilise les fonctions max et min. Exemple 14. La série de notre exemple a pour étendue : --> max(x-min(x ans = 8. 2.4.6 Variance Définition 2.31 : Variance On appelle V (X la variance de la série statistique (x i 1 i N le réel V (X = 1 N N ( x i X 2. Remarque 2.32 Si la série est groupée par modalités (y i, n i 1 i p, on a : V (X = 1 N p n i (y i X 2 Méthode 2.33 : Comment calculer la variance d une série statistique? On utilise la fonction variance. Exemple 15. La série de notre exemple a pour variance : --> V=variance(x V = 5.8285714 Attention, la variance calculée avec 1 N ( X 2 x i donne 5.44. Avec la fonction variance, Scilab calcule N 1 N ( X 2 x i qui est la variance empirique, on verra plus tard que c est un estimateur sans biais de N 1 la variance de la population entière. 10
2.4.7 Ecart type Définition 2.34 : Ecart type On appelle σ X l écart type d une série statistique σ X = V (X. Méthode 2.35 : Comment calculer l écart type d une série statistique? On utilise la fonction stdev. Exemple 16. La série de notre exemple a pour écart type : --> ec=stdev(x ec = 2.4142434 Attention, de même que pour la variance, l écart type calculée par Scilab est la racine carrée de variance(x, ce qui diffère de l écart type de l échantillon observé. 3 Statistique descriptive bivariée 3.1 Définition Définition 3.1 : Série statistique double Soient un échantillon Ω = {ω 1, ω 2,..., ω n } et deux séries statistiques X = [x 1, x 2,..., x n ] et Y = [y 1, y 2,..., y n ]. On appelle série statistique double la donnée de la liste [(x 1, y 1, (x 2, y 2,..., (x n, y n ], chaque couple (x i, y i étant associé à un seul individu ω i de la population. Remarque 3.2 : Objectif C est le recueil simultané des modalités de deux variables X et Y chez les mêmes sujets. L intérêt se porte le plus souvent sur la relation entre les deux variables : la recherche de corrélation. Exemple 17. On mesure le poids X et la taille Y de 10 individus. modalités x i 60 64 68 70 72 75 78 85 96 98 modalités y i 155 157 164 170 178 180 173 179 180 189 11
3.2 Covariance et corrélation Définition 3.3 : Covariance empirique On appelle covariance empirique de la série statistique double (x i, y i i [[1,n]] le réel : Cov(X, Y = 1 n ( x i X ( y i Ȳ. Définition 3.4 : Coefficient de corrélation empirique Le coefficient de corrélation empirique de la série (x i, y i i [[1,n]] est le réel : On a ρ X,Y 1. ρ X,Y = Cov(X, Y σ X σ Y. Remarque 3.5 Le coefficient de corrélation empirique mesure la dépendance linéaire entre deux variables. S il est proche de 1 ou 1, alors X et Y sont fortement corrélés. S il est proche de 0, alors X et Y sont faiblement corrélés (voire ne le sont pas. Méthode 3.6 : Comment calculer la covariance empirique et le coefficient de corrélation empirique? On utilise la fonction corr(x,y,1 pour calculer la covariance empirique de X et Y. Afin de calculer le coefficient de corrélation empirique, il suffit de diviser la covariance empirique de X et Y par l écart-type de X et celui de Y. Exemple 18. On reprend la série précédente. modalités x i 60 64 68 70 72 75 78 85 96 98 modalités y i 155 157 164 170 178 180 173 179 180 189 --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> corr(x,y,1 ans = 109.2 --> corr(x,y,1/stdev(x/stdev(y ans = 0.7758334 12
3.3 Ajustement linéaire 3.3.1 Définition Définition 3.7 : Nuage de points On appelle nuage de points d une série statistique double, l ensemble des points M i de coordonnées (x i, y i. Définition 3.8 : Point moyen On appelle point moyen du nuage, le point de coordonnées ( X, Ȳ. Méthode 3.9 : Comment tracer un nuage de points? On construit les vecteurs x et y de même taille, puis on utilise la commande plot2d(x,y,style=z où Z est une des valeurs suivantes : -6-5 -4-3 -2-1 0 1 2 3 4 5 + noir bleu foncé vert bleu clair rouge Exemple 19. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> plot2d(x,y,style=-3 --> plot2d(mean(x,mean(y,style=-4 // point moyen du nuage 3.3.2 Problème des moindres carrés Si le nuage de points associé à une série statistique double possède une forme étirée, on peut avoir l idée de chercher quelle droite approcherait au mieux les points de ce nuage. Le problème consiste donc à identifier une droite y = ax + b qui ajuste bien le nuage de points. L erreur que l on commet en utilisant la droite de régression pour prédire y i à partir de x i est y i (ax i + b. 13
erreur commise au point (72,178 Pour déterminer la valeur des coefficients a et b, on utilise le principe des moindres carrés qui consiste à chercher la droite qui minimise la somme des carrés de ces erreurs : (y i ax i b 2. Proposition 3.10 : Droite de régression linéaire L unique droite rendant minimale (y i ax i b 2 est la droite d équation y = a x + b avec a = Cov(X, Y V (X et b = Ȳ a X. Cette droite est appelée droite de régression linéaire de Y en X. On dit que X est la variable explicative et Y la variable expliquée. Démonstration. Le minimum de la fonction F (a, b = (y i ax i b 2 correspond au point où les dérivées partielles s annulent. D après les formules de Huygens, comme Cov(X, Y = 1 x i y i n XȲ et V (X = 1 x 2 i n X 2, alors F n a (a, b = 2 x i (y i ax i b = 2 x i y i 2a x 2 i 2b x i (( = 2n Cov(X, Y + XȲ ( a V (X + X 2 b X F n b (a, b = 2 (y i ax i b = 2n (Ȳ a X b 14
Ainsi le point (a, b où F atteint son minimum vérifie le système suivant 0 = ( Cov(X, Y + XȲ ( a V (X + X 2 b X, 0 = Ȳ a X b. 0 = ( Cov(X, Y + XȲ a ( V (X + X 2 (Ȳ a X X, b = Ȳ a X. { 0 = Cov(X, Y a V (X, a = Cov(X, Y, b = Ȳ V (X a X. b = Ȳ a X. Ainsi y = Cov(X, Y ( x + Ȳ Cov(X, Y X = Cov(X, Y ( x V (X V (X V (X X + Ȳ. Propriété 3.11 : Point moyen et droite de régression linéaire Les droites de régression linéaire passent par le point moyen. Proposition 3.12 : Lien avec le coefficient de corrélation empirique Plus ρ X,Y est proche de 1, plus les points sont proches de l alignement et plus les prévisions données par les droites de régression sont pertinentes. ρ X,Y ne valant 1 que lorsque les points du nuage sont alignés. Démonstration. En effet, on rappelle que F (a, b = (y i ax i b 2 permet de calculer la distance du nuage de points à la droite de régression pour une droite y = ax + b donné, F (a, b = (yi 2 + (ax i 2 + b 2 2ax i y i 2y i b + 2abx i On utilise le fait que Cov(X, Y = 1 x i y i n x 2 i n. F (a, b = ( n V (Y + Ȳ 2 + a 2 (V (X + X 2 + b 2 ( + 2n a Cov(X, Y + XȲ = n ( ( V (Y + Ȳ 2 + a 2 (V (X + X 2 2 + (Ȳ a X + ( 2 a Cov(X, Y + XȲ b Ȳ + a b X (Ȳ a X Ȳ + a ( Ȳ a X X car b = Ȳ a X = n ( V (Y + Ȳ 2 + a 2 (V (X + X 2 + Ȳ 2 + a 2 X2 2Ȳ a X 2a Cov(X, Y 2a XȲ 2Ȳ 2 + 2a XȲ + 2a Ȳ X 2a 2 X2 = n ( a 2 V (X 2a Cov(X, Y + V (Y ( Cov(X, Y 2 = n V (Y V (X ( = nv (Y 1 ρ 2 X,Y car a = Cov(X, Y V (X Plus ρ X,Y est proche de 1, plus F (a, b est petit et donc le nuage de points est proche de la droite de régression. 15
Remarque 3.13 : Sens de variation suivant le coefficient de corrélation empirique Si ρ X,Y > 0 (respectivement ρ X,Y < 0, alors les droites sont de pente positive (resp. négative : X et Y varient dans le même sens (resp. en sens opposé. Méthode 3.14 : Comment tracer la droite de régression linéaire? On trace une droite à l aide de la fonction plot2d. Exemple 20. Avec la série des exemples précédents, --> x=[60 64 68 70 72 75 78 85 96 98]; --> y=[155 157 164 170 178 180 173 179 180 189]; --> plot2d(x,y,style=-3; // on trace le nuage de points --> plot2d(mean(x,mean(y,style=-4 // point moyen du nuage (pas nécessaire --> a=corr(x,y,1/variance(x; b=mean(y-a*mean(x; // coefficients de la droite --> xx=60:0.01:98; // abscisses de la droite --> yy=a*xx+b; // ordonnées de la droite --> plot2d(xx,yy // on trace la droite de régression linéaire 16