STATISTIQUES HEC Ms Risques internationaux Octobre 2010 Professeur : Xavier BOUTE 1
Married, 2 daughters : Laurane (9 ans) Maëlle (7 ans) Military Officer in the Army Academic director
STATISTICS Descriptive statistics 3
Problème : Etude des PIB de 30 pays en 200 FMI 200 4
5
Median M The median M shares the values in two equal parts. x 1 x 2 L x n x 1 x 20 x 21 x 40 M = x 20 + x 21 2 7
Quartiles Q 1, Q 2, Q 3 The quartiles Q 1, Q 2, Q 3 share the values in four equal parts. x 1 x 10 x 11 x 20 x 21 x 30 x 31 x 40 Q 1 Q 2 = M Q 3 25% 25% 25% 25% 8
Some data Annual salary on average (mean) in 2004 : 22 193, in other words 1849 monthly. For example, the monthly salary s median in jan 200 : 1250 9
Prix forfait jour (PFJ) en francs STATION PFJ Région STATION PFJ Région STATION PFJ Région Max 110 Pyrénées Vars 152 Alpes du sud La Norma 115 Savoie Eaux Bonnes Courette 100 Pyrénées Avoriaz 18 Haute Savoie Notre Dame de Bellecombe 110 Savoie Font Romeu 0 Pyrénées Les Carroz Haute Savoie La Plagne 223 Savoie Luz 113 Pyrénées Chamonix 241 Haute Savoie Pralognan 112 Savoie La Mongie 138 Pyrénées Chatel 153 Haute Savoie La Rosière 5 Savoie Piau Engaly 119 Pyrénées La Clusaz 153 Haute Savoie Les Saisies 119 Savoie Saint Lary 135 Pyrénées Combloux 110 Haute Savoie St François Longchamp 124 Savoie La Bonhomme 85 Vosges Les Contamines 159 Haute Savoie St Martin de Belleville 189 Savoie La Bresse 12 Vosges Flaine 13 Haute Savoie St Sorlin d'arves 109 Savoie Gérardmer 80 Vosges Les Gets 150 Haute Savoie La Tania 192 Savoie St Maurice Moselle 80 Vosges Le Grand Bornand 2 Haute Savoie Tignes 224 Savoie Ventron 110 Vosges Les Houches 8 Haute Savoie La Toussuire 122 Savoie Métabief 104 Jura Megève 17 Haute Savoie Val Cenis 92 Savoie Monts Jura 109 Jura Morillon Haute Savoie Valfréjus 95 Savoie Les Rousses 108 Jura Morzine 150 Haute Savoie Val d'isère 224 Savoie Super Besse 110 Auvergne Praz sur Arly 10 Haute Savoie Valloire 8 Savoie Mont Dore 110 Auvergne Praz de Lys 85 Haute Savoie Val Meinier 8 Savoie Le Lioran 101 Auvergne St Gervais 188 Haute Savoie Valmorel la Belle 152 Savoie Auron 120 Alpes du sud Samoens Haute Savoie Val Thorens 8 Savoie Beuil 130 Alpes du sud Thollon 8 Haute Savoie Alpe d'huez 197 Dauphiné Isère Isola 2000 122 Alpes du sud Les Aillons 99 Savoie Alpe du Grand Serre 107 Dauphiné Isère Montgenèvre 5 Alpes du sud Les Arcs 215 Savoie Auris 104 Dauphiné Isère Orcières Merlette 5 Alpes du sud Areches Beaufort 110 Savoie Autrans 78 Dauphiné Isère Les Orres 135 Alpes du sud Aussois 90 Savoie Chamrousse 13 Dauphiné Isère Pra Loup 154 Alpes du sud Bessans 70 Savoie Le Collet d'allevard 99 Dauphiné Isère Puy Saint Vincent 125 Alpes du sud Bonneval sur arc 110 Savoie Les 2 Alpes 188 Dauphiné Isère Risoul 152 Alpes du sud Le Corbier 122 Savoie Lans en Vercors 78 Dauphiné Isère Sauze Super Sauze 12 Alpes du sud Courchevel 192 Savoie Meaudre 78 Dauphiné Isère Serre Chevalier 185 Alpes du sud Crest Voland Corennoz 102 Savoie St Pierre de Chartreuse 95 Dauphiné Isère Super Dévoluy La Joue du Loup 132 Alpes du sud Flumet 50 Savoie Les 7 Laux 135 Dauphiné Isère Valberg 130 Alpes du sud Les Karellis 98 Savoie Vaujany 118 Dauphiné Isère La Foux Val d'allos 154 Alpes du sud Les Menuires 189 Savoie Villard de Lans 135 Dauphiné Isère Le Seignus Val d'allos 122 Alpes du sud Meribel 192 Savoie
Description d une variable qualitative : région On peut calculer la fréquence de chaque Région modalité : Valid Alpes du sud Auvergne Dauphiné Isère Haute Savoie Jura Pyrénées Savoie Vosges Total Cumulative Frequency Percent Valid Percent Percent 1 1,3 1,3 1,3 3 3,1 3,1 19,4 13 13,3 13,3 32,7 19 19,4 19,4 52,0 3 3,1 3,1 55,1 7 7,1 7,1 2,2 32 32,7 32,7 94,9 5 5,1 5,1 100,0 98 100,0 100,0 Comment visualiser ces résultats?
Diagrammes à barres
Diagrammes circulaire à secteurs
3. Visualisation de la dispersion Il existe de nombreuses façon de représenter un jeu de données quantitatives :
3. Visualisation de la dispersion Les représentations les plus courantes sont : Les histogrammes La boîte à moustaches
Etude de la variable PFJ : histogrammes
Boîte à moustaches (boxplot) Valeurs extrêmes Q3 Médiane 50% des valeurs Q1
Dispersions statistics 19
Problem : Which is the most homogeneous class? Classe rouge 4 5 10 15 1 Classe bleue 7 8 9 10 11 12 13 20
Same mean : 10 Classe rouge 4 5 10 15 1 Classe bleue 7 8 9 10 11 12 13 21
Nous faisons la somme des écarts à la moyenne : Classe rouge 4 5 10 15 1 On trouve 0 pour les deux classes. Classe bleue 7 8 9 10 11 12 13 22
Pour éviter le problème des signes, on met les écarts à la moyenne au carré. Classe bleue Classe rouge 4 5 10 15 1 On trouve 122 pour la classe rouge, et 15 pour la classe bleue. 7 8 9 10 11 12 13 La classe rouge semble plus homogène! L indicateur n est donc pas le bon. 23
Le problème vient d un nombre de notes très différent. Il suffit donc de diviser par le nombre de notes : Classe rouge 4 5 10 15 1 On trouve 24,5 pour la classe rouge et 10,4 pour la classe bleue. Classe bleue 7 8 9 10 11 12 13 C est donc un bon indicateur pour mesurer l homogénéité. Cet indicateur est appelé VARIANCE. 24
Variance V = 2 σ Standard-deviation (écart-type) : 2 σ = σ = 25
Mean and standard deviation Total number Mean Variance Standard Deviation Population σ 2 µ = = N N 1 x i N i= 1 N 1 2 ( x i µ ) N i= 1 σ = 2 σ 2
Variable FMI 200 Summary 27
Normal distribution (or Laplace-Gauss) 28
Norm al dist ribut ion (or Laplac e-gauss) 29
Norm al dist ribut ion N(µ,σ) A variable X is following a normal distribution N(µ, σ) if, for all b, 3000 2000 Simulation d'une loi normale N(,3) Prob( X b) = b 1 e σ 2π ( t µ ) 2 2σ 2 dt 1000 Results : - Mean of X = µ - Variance of X = σ 2-95% of the values of X are between µ - 1.9σ and µ + 1.9σ 0 X 17.0 15.0 13.0 11.0 9.0 7.0 5.0 3.0 1.0-1.0-3.0-5.0 Std. Dev = 3.00 Mean =.0 N = 2073.00 30
5. Data reduction To neutralize tje problem of units, one replace the original datas by the standardized datas : X X * 1 * p = = X M X 1 x s p 1 s p 1 x p de mean 0 and standard-deviation 1.