Haute Ecole de Gestion Automne 2010 Geneva School of Business Administration Mercredi 8h15-10h00 A. Caboussat, STAT I Statistiques I: Séance informatique - Corrections Part I Exercices sur Excel Problème 1. Synthèses numériques Les ventes en 2003 donnent une population de 181 observations. Les synthèses numériques de distribution sont données dans le tableau suivant: Grandeur Valeur Fonction Excel moyenne 7.97 =MOYENNE(B1:B181) médiane 8 =MEDIANE(B1:B181) mode 8 =MODE(B1:B181) variance 4.0158 =VAR.P.N(B1:B181) variance 4.0381 =VAR(B1:B181) variance 4.0381 =VAR.S(B1:B181) écart-type 2.009 =ecartype.standard(b1:b181) quartile q 1 7 =QUARTILE(B1:B181,1) quartile q 3 9 =QUARTILE(B1:B181,3) skew -0.069 =coefficient.asymmetrie(b1:b181) kurtosis 0.201 =kurtosis(b1:b181) Veuillez noter les différences, en particulier lorsque l on utilise les fonctions de variance et d écart-type, entre les calculs pour une population et un échantillon. Problème 2. Diagrammes de Dispersion et Covariance Le diagramme de dispersion s obtient en allant dans l onglet Insertion. Il correspond à la série temporelle du prix de l aluminium et du cuivre en fonction du temps. Il est illustré dans la Figure 1: Les valeurs de la covariance et le coefficient de corrélation linéaire de Pearson sont illustrés dans le tableau suivant: Grandeur Valeur Fonction Excel Covariance 33222.32 = covariance.standard(b2:b33,c2:c33) Corrélation 0.661196 =coefficient.correlation(b2:b33,c2:c33) Le nuage de points obtenu lorsque le prix de l aluminium est sur l axe horizontal et le prix du cuivre est sur l axe vertical s obtient en allant dans l onglet Insertion. Il est illustré dans la Figure 2. Problème 3. Fréquences et Diagrammes Les commandes sont au nombre de 521. Nous les classons dans les intervalles proposés pour obtenir le tableau des fréquences suivant. Le minimum de données est 1039 et le maximum est 356384, pour un nombre total de 521 observations dans l échantillon: 1
3000 Evolution des prix 2500 2000 Prix 1500 1000 P_aluminium P_cuivre 500 0 1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132 Temps Figure 1: Diagramme de dispersion pour le prix de l aluminium et le prix du cuivre. Classes Fréquences Fréquences relatives [0, 100 000[ 353 67.75% [100 000, 150 000[ 80 15.35 % [150 000, 200 000[ 50 9.59 % [200 000, 250 000[ 22 4.22 % [250 000, 400 000[ 16 3.07 % Ce tableau s obtient grâce à la fonction frequence dans Excel; cette fonction s utilise de la manière suivante: 1. Entrer les bornes supérieures des intervalles (cases A3-A6). Nous spécifions les intervalles dans les cellules B3-B7 uniquement pour la lisibilité du tableau. 2. Dans la cellule C3, taper la formule de calcul des fréquences =FREQUENCE(plages des données;a3:a6). Ceci vous donne dans cette cellule, le nombre d observations qui sont plus petites que la première limite des intervalles (ici, 100 000). 2
3000 2500 2000 Prix du cuivre 1500 1000 500 0 0 100 200 300 400 500 600 700 800 Prix de l'aluminium Figure 2: Nuage de points pour le prix du cuivre en fonction du prix de l aluminium. 3. Sélectionner les cellules C3-C7. Appuyer sur F2 (édition d une cellule), puis simultanément sur Ctrl-Shift- Enter (Saisir une formule sous forme matricielle). Les graphiques s obtiennent en allant dans l onglet Insertion et sélectionnant le diagramme en barres et un diagramme circulaire. Ceux-ci sont illustrés ci-dessous dans les Figures 3 et 4: 3
400 Valeur moyenne 350 300 250 200 150 100 50 0 [0,100'000[ [100'000,150'000[ [150'000,200'000[ [200'000,250'000[ [250'000,400'000[ Figure 3: Diagramme en barres pour les commandes de l entreprise Sun4All. [0,100'000[ [100'000,150'000[ [150'000,200'000[ [200'000,250'000[ [250'000,400'000[ Figure 4: Diagramme circulaire pour les commandes de l entreprise Sun4All. 4
Part II Exercices sur R Problème 4. Histogrammes et Boxplots Après avoir isolé les données de l onglet Clients dans un nouvelle feuille Excel, et sauver cette feuille sour format.csv, nous pouvons importer ces données dans R grâce à l instruction suivante: Dachat = read.csv(file="ex4.csv",sep=";") Ceci stocke les données dans une variable Dachat. Pour construire l histogramme de ces données, nous utilisons la fonction hist de R. Celle-ci admet de nombreuses options. Nous illustrons les commandes suivantes dans les trois figures ci-dessous: hist(dachat[[1]],main=paste("histogramme sans breaks")) break_a <- c(1990,1993,1996,1997,2002,2006) hist(dachat[[1]],main=paste("histogramme avec breaks"),breaks=break_a) hist(dachat[[1]],main=paste("histogramme avec breaks"),breaks=break_a,freq=true) Notez que la notation Dachat[[1]] permet de convertir une variable liste (list), importée depuis le fichier csv d Excel, en une variable numérique (numeric) adaptée pour la construction d histogramme. Trois histogrammes sont illustrés sur les Figures 5, 6 et 7. Le premier histogramme utilise (contre les indications de l exercice) des classes de longueur égales et définies par défaut. La hauteur des colonnes correspond à la fréquence (comme vu durant le cours, ceci est possible lorsque les classes sont d amplitudes égales). Le second histogramme sépare les donnés en classes d amplitudes non égales. La hauteur de chaque rectangle correspond à la fréquence, ce qui est contradictoire avec ce que l on a vu durant le cours!! Le troisième histogramme est similaire au second, sauf que les hauteurs ont été modifíees: elles sont normalisées de sorte à ce que les fréquences soient proportionnelles aux surfaces des rectangles (Attention: Ceci n est toujours pas l histogramme que nous avons défini au cours!) Le boxplot de cet échantillon est illustré dans la Figure 8; il s obtient avec la commande suivante. On peut observer que la distribution n est vraiment pas symmétrique (une des moustaches n existe même pas!) boxplot(dachat[[1]]) Les synthèses numériques et le résumé en 5 nombres (et les résultats correspondants) sont obtenus avec les commandes suivantes. Les cinq nombres correspondent, dans l ordre, au minimum de l échantillon, q 1, q 2 (médiane), q 3, et le maximum. mean(dachat) 1999.567 var(dachat) 9.567715 sd(dachat) 3.093172 fivenum(dachat) 1991 1997 2000 2003 2003 Problème 5. Régression Linéaire De la même manière que pour l exercice précédent, nous exportons depuis Excel les données (sur deux colonnes cette fois-ci). Le nuage de points est illustré sur la Figure 9: temp = read.csv(file="ex5.csv",sep=";") geneve = temp[[1]] boston = temp[[2]] plot(geneve,boston) 5
Histogramme sans breaks Frequency 0 20 40 60 80 100 120 140 1992 1994 1996 1998 2000 2002 Dachat[[1]] Figure 5: Histogramme hist(dachat[[1]],main=paste("histogramme sans breaks")) Nous calculons la droite de régression linéaire passant au travers de ce nuage de points. Pour ceci, nous utilisons la commande suivante: fit <-lm(boston~geneve) Call: lm(formula = boston ~ geneve) Coefficients: (Intercept) geneve -1.985 1.193 Cette comande permet de calculer les coefficients a et b directement; lm signifie linear model et la notation boston geneve indique que l on essaie d utiliser Genève pour expliquer Boston. Le droite est donc: Boston = 1.119 Genève 1.985. Il suffit alors de représenter la droite de régression linéaire sur la figure précédente (cf. Figure 10): Problème 6. Courbe de Lorenz On effectue les instructions suivantes, et obtenons la Figure 11: eff <- c(0, 6/13, 10/13, 1) 6
Histogramme avec breaks Density 0.00 0.02 0.04 0.06 0.08 1990 1995 2000 2005 Dachat[[1]] Figure 6: Histogramme hist(dachat[[1]],main=paste("histogramme avec breaks"),breaks=break a) commande <- c(0,299/1314,813/1314,1) plot(eff,commande,"b", xlab="effectif relatif cumule", ylab="commandes totales relatives cumulees") par(new=true) plot(eff,eff,"l", xlab="effectif relatif cumule", ylab="commandes totales relatives cumulees") title(main="courbe de Lorenz") 7
Histogramme avec breaks Frequency 0 50 100 150 200 1990 1995 2000 2005 Dachat[[1]] Figure 7: Histogramme hist(dachat[[1]],main=paste("histogramme avec breaks"),breaks=break a,freq=true) 8
1992 1994 1996 1998 2000 2002 Figure 8: Boxplot. 9
0 5 10 15 20 5 0 5 10 15 20 25 Temperature Geneve vs Boston geneve boston Figure 9: Nuage de points: température moyenne du mois à Genève versus la température moyenne du mois à Boston 10
0 5 10 15 20 5 0 5 10 15 20 25 Temperature Geneve vs Boston geneve boston Figure 10: Nuage de points avec droite de régression: température moyenne du mois à Genève versus la température moyenne du mois à Boston 11
Courbe de Lorenz Commandes totales reltives cumulees 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Effectif relatif cumule Figure 11: Courbe de Lorenz pour l exercice 9.1 12