Master 1 - Economie & Management Séminaire de Statistique Support (1) Statistique descriptive «Uni & Bi-variée» R. Abdesselam - 2013/2014 Faculté de Sciences Economiques et de Gestion Université Lumière Lyon 2, Campus Berges du Rhône Rafik.abdesselam@univ-lyon2.fr http://eric.univ-lyon2.fr/~rabdesselam/documents/
Qu'est ce que la Statistique? Introduction La Statistique est l'ensemble des concepts et des méthodes développés pour l'étude des phénomènes non déterministes aussi appelés aléatoires ou stochastiques. L'étude de tels phénomènes comporte le plus souvent une phase de description des observations faites pendant leur déroulement et une phase de modélisation nécessaire à la prévision de leur comportement ultérieur. Toujours garder en mémoire que décrire un grand ensemble d'observations par quelques nombres et quelques graphiques ou modéliser un phénomène complexe par une fonction mathématique est une démarche réductrice. Les descripteurs et les modèles sont des résumés nécessaires à la communication synthétique mais simplificateurs.
Introduction La Statistique descriptive rassemble les outils de descriptions uni et bidimensionnelle. La description des phénomènes multidimensionnels est présentée sous le titre d'analyse des Données (statistique multidimensionnelle). La théorie des probabilités apporte les mots et les concepts nécessaires à la construction des modèles et étudie leurs relations et leurs propriétés. La statistique inférentielle développe les méthodes qui permettent d'apprécier l'adéquation entre les observations et un modèle. Elle repose sur deux démarches fondamentales : L'estimation permet d'identifier le modèle adapté aux données observées en estimant à partir de ces données les valeurs de certains paramètres (inconnus) du modèle. Les tests statistiques consistent à décider si un modèle est compatible ou non avec les données observées. Noter que c'est la compatibilité du modèle qui est en cause ; pas celle des données. Les données sont une réalité observée ; le modèle est une construction de l'esprit ; il est ou non adéquat.
Quelques références bibliographiques [1] B. Grais Méthodes statistiques Modules Économiques, Dunod. [2] Brigitte Tribout : Statistique pour économistes et gestionnaires. Edition Pearson Education. [3] J.R. Reau & G. Chauvat Probabilités et statistiques Flash pour les sciences économiques et sociales. Armand Colin. [4] P. Roger Probabilités, statistique et processus stochastiques Cours et exercices. Collection synthex, Pearson Education. [5] J. Dussart, N. Joukoff, A.Loulit, A. Szafarz : Mathématiques appliquées à la gestion. Synthèse de cours et exercices corrigés. Collection synthex, Pearson Education.
Types de caractères Caractère (variable statistique) Quantitatif mesurable Qualitatif Non mesurable
Exemples Caractère qualitatif (nominal) Exemple 1 : Composition d un portefeuille d un investisseur institutionnel - Actions - Obligations 3 modalités - Titres de créances négociables Exemple 2 : Selon vous, quel est le matériau de construction de l avenir? - Bois - Béton - Acier 5 modalités - Verre - Autres
Types de caractères Nombre fini ou infini de valeurs entières Discret Caractère (variable statistique) Quantitatif mesurable Qualitatif Non mesurable
Exemples Caractère quantitatif discret Nombre fini ou infini de valeurs, généralement entières Exemple 1 : Nombre d entreprises défaillantes n ayant pas remboursé leurs émissions obligataires ces 15 dernières années (1998-2012). 0 2 1 3 1 0 2 2 2 0 2 3 0 1 2 Valeurs possibles : 0, 1, 2, 3 Exemple 2 : Nombre de pièces prélevées jusqu à l obtention d une pièce défectueuse Valeurs possibles : 1, 2, 3, 4,.
Types de caractères Caractère (variable statistique) Quantitatif mesurable Qualitatif Non mesurable Nombre fini ou infini de valeurs entières Discret Continu Nombre infini de valeurs réelles
Exemples Caractère quantitatif continu Nombre infini de valeurs réelles Exemple 1 : Rendements de l indice CAC40 Valeurs possibles : IR = ]-, + [ ou un intervalle de IR Exemple 2 : Cours du titre France Telecom Valeurs possibles : IR + = [ 0, + [
Types de caractères Caractère (variable statistique) Quantitatif mesurable Qualitatif Non mesurable Nombre fini ou infini de valeurs entières Discret Continu Nombre infini de valeurs réelles Données groupées ou non groupées en classes
Représentations graphiques selon les types de caractères Quantitatif Discret - Diagramme en bâtons - Courbe en escalier Caractère Quantitatif Continu - Histogramme - Courbe cumulative croissante Qualitatif (nominal) - Diagramme circulaire ou à bandes
Représentations graphiques Quantitatif Discret
Fréquences relatives (%) Fréquences cumulées (%) Représentations graphiques Quantitatif discontinu Rendements des titres de l'indice CAC 40 Histogramme - Polygone de fréquences 30% 25% 20% 15% 15,0% 20,0% 25,0% 20,0% 12,5% 10% 7,5% 5% 0% <= -10% ]-10, - 5] ]-5, 0] ]0, 5] ]5, 10] > 10% classes de rendements (%) Rendements des titres de l'indice CAC 40 Courbe cumulative croissante 100% 100,00% 90% 92,50% 80% 70% 60% 60,00% 50% 40% 35,00% 30% 20% 15,00% 10% 0% 0,00% -15% -10% -5% 0% 5% 10% 15% Bornes supérieures des classes de rendements
Représentations graphiques Qualitatif Diagramme circulaire Répartition du montant investi Titres de Créances Négociables 20% Obligations 30% Actions 50% Composition d un portefeuille Répartition du montant investi Diagramme à bandes Titres 20% Obligations 30% Actions 50% 0% 20% 40% 60% 80% 100% Fréquences relatives
Principales mesures descriptives Tendance centrale - Position - Mode - Médiane - Quantiles - Moyenne arithmétique Indices Dispersion Forme
Age 20 19,8 19,6 19,4 19,2 19 18,8 18,6 18,4 18,2 18 17,8 17,6 17,4 17,2 17 16,8 16,6 16,4 16,2 16 Q 3 Q 2 Q 1 Max Min Homme Quantiles Diagramme en boîte Box Plot 75% 25% Quartiles Age des nouveaux bacheliers Médiane 50% Femme Intervalle Interquartile Etendue Homme Femme
Tendance centrale - Moyenne Données Non groupées - Individuelles Moyenne arithmétique simple : Fonction Excel : MOYENNE n x = x i / n i=1 Données groupées ( en k valeurs ou en k classes de centres c i = x i ) k Moyenne arithmétique pondérée : x = f i x i i=1 n i / n
Autres moyennes Il existe d autres moyennes ( géométrique, harmonique et quadratique ) qui ne sont employés qu occasionnellement, dans des conditions particulières. n Moyenne géométrique : x g = x 1 x 2. x n = [ x i ] 1/n (x i 0) i=1 Fonction Excel : MOYENNE.GEOMETRIQUE La moyenne géométrique est utilisée principalement dans le calcul de taux de croissance moyens et de certains indices économiques. Elle tend à réduire dans le calcul de la moyenne l influence des grandes valeurs et à accroître relativement celle des petites. Le taux de croissance d'une grandeur (PIB, C.A., Salaire, etc.) mesure son évolution d'une période à l'autre (mois, trimestre, année). Le taux de croissance d une grandeur entre la période t et t-1 : [(V t V t-1 )/ V t-1 ]*100 Le taux de croissance moyen est la moyenne géométrique des taux de croissance ( % de variation) Le logarithme de la moyenne géométrique est égal à la moyenne arithmétique des logarithmes des valeurs de la variable. La moyenne géométrique est toujours moyenne arithmétique.
Valeur du PIB (Milliards d'euros) Exemple d application Taux de croissance (%) PIB de la France en valeur (Milliards d'euros) Année 2 005 2 006 2 007 2 008 2 009 2 010 2 011 PIB 422,70 440,90 464,70 484,00 471,90 477,50 494,90 Taux de croissance 0,0431 0,0540 0,0415-0,0250 0,0119 0,0364 Taux de croissance (%) 4,31 5,40 4,15-2,50 1,19 3,64 Coeff. Multiplicateurs : x i (i=1,6) 1,0431 1,0540 1,0415 0,9750 1,0119 1,0364 n Moyenne géométrique : x g = x 1 x 2. x n = [ x i ] 1/n = 1,0266 i=1 Taux de croissance annuel moyen : en moyenne, le PIB de la France a augmenté de 2,66% durant les six dernières années (2006-2011). PIB - France 500,00 490,00 480,00 470,00 460,00 450,00 440,00 430,00 420,00 410,00 2 004 2 006 2 008 2 010 2 012 Année PIB 6,00 5,00 4,00 3,00 2,00 1,00-2,00-3,00 Taux de croissance - PIB - France 4,31 5,40 4,15-2,50 1,19 3,64 0,00-1,002 005 2 006 2 007 2 008 2 009 2 010 2 011 2 012 Année Taux de croissance
Principales mesures descriptives Tendance centrale - Position - Mode - Médiane - Quantiles - Moyenne arithmétique Indices Dispersion - Etendue - Variance Ecart-type Forme
Dispersion : Variance Ecart-type Données Non groupées - Individuelles Variance : s² = ( x i x )² / n i=1 Fonction Excel : VAR.P Données groupées Ecart-type : s = s² Fonction Excel : ECARTYPEP ( en k valeurs entières ou en k classes de centres c i = x i ) Variance : s² = f i ( x i x )² i=1 k n k = = f i x i ² x 2 i=1 2 = x² x
Principales mesures descriptives Tendance centrale - Position Indices - Mode - Médiane - Quantiles - Moyenne arithmétique Dispersion - Etendue - Variance Ecart-type Forme Coefficient de variation
Indice de dispersion relative Coefficient de variation 0% 100% Très homogène s CV (%) = x 100 x Comparaison de distributions Très hétérogène Si CV x < CV y Alors la distribution X est plus homogène que la distribution Y
Indice de dispersion relative Exemple d application On s intéresse à la distribution des salaires de deux entreprises d un même secteur d activité, l une est française l autre est américaine. Entreprise France U.S.A. $ Salaire moyen 2 360 2 830 Ecart-type des salaires 120,70 144,74 Coefficient de variation 0,0511 0,0511 Calculons le coefficient de variation, pour comparer les distributions : CV F = CV USA = 5,11% Les distributions des salaires des deux entreprises sont très homogènes. La dispersion relative des salaires est identique.
Principales mesures descriptives Tendance centrale - Position - Mode - Médiane - Quantiles - Moyenne arithmétique Indices Dispersion - Etendue - Variance Ecart-type Forme - Coefficient d asymétrie - Coefficient d aplatissement
Principales mesures descriptives de forme Coefficient d asymétrie Fonction Excel : COEFFICIENT.ASYMETRIE n 3 = ( x i x ) 3 / n s 3 i=1 < 0 Asymétrique à gauche = 0 Parfaitement symétrique > 0 Asymétrique à droite ( Moyenne < M e < M o ) ( Moyenne = M e = M o ) ( Moyenne > M e > M o ) Coefficient d aplatissement n 4 = ( x i x ) 4 / n s 4 i=1 Fonction Excel : KURTOSIS < 3 Aplatie = 3 Normalement distribuée > 3 Aiguë ( platykurtique ) ( mésokurtique ) ( leptokurtique )
Macros-commandes Données non-groupées (individuelles) Comment obtenir les principales mesures descriptives d un caractère? Menu : Outils Utilitaire d analyse Statistiques descriptives On obtient ainsi les principaux indices statistiques de description d un caractère.
Exemple d application Interprétation des résultats - Description globale d une série statistique On a relevé deux échantillons de 30 observations journalières de l indice CAC40 et de l indice Dow Jones. Le tableau ci-dessous, renvoyé par l utilitaire d analyse-statistiques descriptives, résume les principaux indices de description de chaque série statistique. Rapport détaillé CAC40 _ Dow Jones Moyenne 5609,692 x 11296,269 Erreur-type 27,888 s*/ n 31,607 Médiane 5544,390 M é 11249,075 Mode 5521,110 M o 11253,260 Écart-type corrigé 152,747 s* 173,120 Variance de l'échantillon corrigée 23331,783 s*² = ns² /(n-1) 29970,604 Kurstosis (Coefficient d'aplatissement) -0,098 4-1,194 Coefficient d'asymétrie 0,887 3 0,196 Plage 604,130 Etendue 584,500 Minimum 5354,190 min 10997,930 Maximum 5958,320 max 11582,430 Somme 168290,760 x i 338888,060 Nombre d'échantillons 30 n 30 Niveau de confiance(95,0%) 57,037 Marge d erreur 64,644 Quartiles CAC40 Dow Jones Valeur minimale 5354,190 min 10997,930 Premier quartile 5512,755 Q1 11168,275 Deuxième quartile 5544,390 Q2 = médiane 11249,075 Troisième quartile 5665,545 Q3 11470,748 Valeur maximale 5958,320 max 11582,430
Macros-commandes Données individuelles Comment grouper les données en classes? Menu : Outils Utilitaire d analyse Histogramme On obtient ainsi la distribution du caractère en k classes choisies ainsi que ses différentes représentations graphiques. Remarque : Règle de Sturges : k 1 + 3,322 log 10 n, où k désigne le nombre de classes pour un échantillon donné de taille n. ( Rappels : log 10 : logarithme en base 10, ln : logarithme népérien, log 10 n = ln(n) / ln(10) ). Amplitude des classes a = E / k où E désigne l étendue de la série.
Série statistique double Indice statistique de covariance Données Non groupées - Individuelles - < n Cov(X, Y) = (1/n) ( x i x ) ( y i y ) i=1 Fonction Excel : COVARIANCE < + Permet d évaluer l intensité de la dépendance statistique entre les deux caractères X et Y. n Cov(X, Y) = (1/n) ( x i x ) ( y i y ) i=1 n = = (1/n) x i y i x y i=1 = xy x y Moyenne du produit moins le produit des moyennes
Série statistique double Principale mesure de la liaison linéaire Coefficient de corrélation linéaire Fonction Excel : COEFFICIENT.CORRELATION -1 +1 R(X,Y) = Cov(X, Y) / s X s Y -1 0 +1 Forte liaison linéaire en opposition Absence de liaison linéaire Forte liaison linéaire en attraction
Macros-commandes Données non-groupées (individuelles) Variances Covariances - Corrélations Menu : Outils Utilitaire d analyse Analyse de la covariance On obtient ainsi la matrice des variances et covariances. Analyse de la corrélation On obtient la matrice des corrélations.
Série statistique double Représentation graphique Diagramme de dispersion Fonction Excel type de graphique : Nuage de points Droite d ajustement linéaire Option du graphique : Ajouter une courbe de tendance Equation de la droite d ajustement - Possibilité de faire des prévisions
Série statistique double Coefficient de détermination ou d explication : R² Fonction Excel COEFFICIENT.DETERMINATION R² = r²(x, Y) Indice de mesure de la qualité d ajustement du modèle Exprimé en pourcentage, il indique la part de variation (dispersion) expliquée par la liaison linéaire c est-à-dire par la droite de régression. La proportion de la variation totale de Y inexpliquée par la droite de régression c est-à-dire par la connaissance de la variable explicative X est : 1 R²
Régression linéaire simple Principe du modèle Population : la relation vraie du modèle linéaire supposé est : Y = 0 + 1 X + : erreur aléatoire. La courbe de régression est une droite d équation : ( ) : Y = 0 + 1 X Echantillon : La relation estimée du modèle linéaire correspondant est : Ŷ = b 0 + b 1 X + e e : résidus La droite ajustée ou estimée correspondante est la droite de régression empirique : (D) Ŷ = b 0 + b 1 X
Série statistique double Exemple - Modèle de marché Comportement d un titre relativement aux mouvements du marché. On a relevé 21 couples d observations des mouvements du cours de l action ACCOR et du marché SBF-250 correspondant aux variations journalières pendant un mois. X : marché SBF-250 Y : cours de l action ACCOR Variable explicative Variable à expliquer Une relation linéaire entre X et Y est-elle plausible?
Exemple - Modèle de marché Oui, car les points ont tendance à s aligner selon une droite (pente positive), une liaison linéaire entre les variations du titre et celles du marché semble très plausible.
Régression simple Modèle de marché Population : la droite supposée ( ) : Y = 0 + 1 X Echantillon : la droite ajustée ou estimée (D) : Ŷ = b 0 + b 1 X Comment choisir la droite (D) meilleure droite d ajustement de ( )? par la méthode des Moindres Carrés Ordinaires (MCO). Minimiser (Y i Ŷ i )² = e i ² la somme des carrés des résidus.
Régression simple Modèle de marché Estimation ponctuelle des paramètres du modèle : Population ( ) : Y = 0 + 1 X Echantillon (D) : Ŷ = b 0 + b 1 X b 1 : estimation ponctuelle de 1 ( pente de la droite (D) ) 1 b 1 = Cov(X,Y) / s² x Fonction Excel : PENTE(y ; x) b 0 : estimation ponctuelle de 0 ( ordonnée à l origine de la droite (D) ) 0 b 0 = Y b 1 X Fonction Excel : ORDONNEE.ORIGINE(y ; x)
Exemple - Modèle de marché DROITE D AJUSTEMENT (D) : Ŷ = - 0,0041 + 0,7959 X
Régression simple Modèle de marché Exemple : Titre ACCOR Marché SBF-250 Paramètres (D) : Ŷ = - 0,0041 + 0,7959 X b 0 = - 0,41% estimation de la rentabilité fixe du titre. b 1 = 79,59% estimation de la volatilité du titre / marché. Mesure de la qualité du modèle d ajustement : R² = 61,14% Coefficient de détermination ou d explication Part de la variabilité du titre ACCOR qui est expliquée linéairement par le modèle de régression : modèle de marché. R² : Risque systématique du titre 1 - R² : Risque spécifique du titre
Régression simple Modèle de marché Remarque : Corrélation - Causalité Il convient d interpréter avec prudence la corrélation qui existe entre deux phénomènes ; l existence d une corrélation n implique pas en effet de lien de causalité. Par exemple, il y a une forte corrélation entre les ventes de glaces et celles de lunettes de soleil. Il n y a pas cependant de relation de cause à effet entre ces deux phénomènes. La forte corrélation s explique ici par l existence d une cause commune : le soleil qui donne chaleur et lumière.
Conditions d application du modèle Exemple : Comportement du titre ACCOR relativement aux mouvements du marché SBF250. Hypothèse 1 : moyenne des résidus est nulle. Symétrie par rapport à l axe des résidus.
Conditions d application du modèle Exemple : Comportement du titre ACCOR relativement aux mouvements du marché SBF250. Hypothèse 2 : normalité des résidus normalité de Y. Les points observations sont répartis selon une droite : (Test graphique de la normalité : quantiles (centiles) normalisés)