TD1: Statistiques descriptives Probabilités et Statistiques pour l Ingénieur M1 Info Etienne Birmelé, Vittorio Perduca 2016-2017 1 Description statistique d un jeu de données Question 1. Charger le jeu de données CO2 à l aide de la commande data(co2). Montrer les premières observations à l aide de head(co2). Lire la description des données présente dans help(co2). Question 2. Décrire la variable uptake pour les plantes du Québec, indépendamment du traitement subi : moyenne, variance ; médiane, quartiles, valeurs extrêmes. Indication : utiliser les fonctions mean,var,median,quantile. Quelle conclusion tirer concernant la symétrie de cette variable? Question 3. Reprendre la question précédente à l aide de summary et tracer la boîte à moustache à l aide de boxplot. Question 4. Tracer sur un même graphique les boîtes à moustaches : du Québec et du Mississipi ; des plantes ayant subi le gel ou non ; des quatre possibilités issues du croisements des informations précedentes. Quelle conclusion en tirer sur la résistance au gel des plantes? Question 5. On se pose la question de la corrélation entre concentration en CO2 de l air ambiant et absorption par la plante. Calculer le coefficient de corrélation de ces deux variables sur l ensemble du jeu de données à l aide de la fonction cor. Commenter. Tracer le nuage de points de l absorption en fonction de la concentration ambiante à l aide de plot. Qu observe-t-on? Séparer l échantillon en deux parties suivant l observation précédente et calculer les nouveaux coefficients de corrélation associés. Interpréter. 2 Corrélation n est pas causalité Il existe de nombreuses situations où, malgré un coefficient de corrélation élevé entre 2 variables quantitatives, on ne peut pas établir de relation de cause à effet entre elles. L exemple suivant 1
Années Nombre de licenses en France Production de bière en Belgique (en milliers) (en million d hectolitres) 1960 1640 3.3 1965 2220 4.1 1970 3240 5.6 1975 4620 8.0 1980 6300 9.6 1985 8340 10.2 1990 8980 11.3 1995 9210 11.2 illustre ces propos 1. On a relevé la production de bière alsacienne et le nombre de licences sportives des fédérations françaises entre 1960 et 1995. Question 6. Calculer la corrélation entre les variables Licences et Bières. Peut-on en déduire que la pratique du sport conduit à boire de la bière? Et que boire de la bière conduit à faire du sport? 3 Que peut-on conclure des statistiques descriptives? On cherche à comparer les survies de rats en fonction de leur alimentation. Pour cela, on considére quatre modes d alimentation M0 (normal), M1, M2 et M3, et on suppose qu on connaît les taux de mortalité à deux ans suivant le mode d alimentation : les rats en mode M0 ou M1 meurent avec une probabilité de 30%, les rats en mode M2 avec probabilité 35% et ceux en mode M3 avec probabilité 45%. Question 7. Générer des échantillons de taille 10 suivant chacun des modes. Pour cela, pour chaque mode, on tirera 10 observations suivant une loi de Bernoulli de paramètre égale au taux de mortalité à l aide de la fonction rbinom avec paramètre size=1. Question 8. Comparer les résultats, en incluant la variance des échantillons dans les critères de comparaison. Que peut-on conclure? Recommencez l opération plusieurs fois. Question 9. Reprendre l expérience avec des échantillons de taille 50. Question 10. Reprendre l expérience avec des échantillons de taille 200. 1. Cet exercice est tiré du livre Statistique Vraiment appliquée au sport. Cours et Exercices., S. Champely (2003). 2
Correction Correction (Q1). Chargement et exploration initiale des données : > data(co2) > head(co2) Plant Type Treatment conc uptake 1 Qn1 Quebec nonchilled 95 16.0 2 Qn1 Quebec nonchilled 175 30.4 3 Qn1 Quebec nonchilled 250 34.8 4 Qn1 Quebec nonchilled 350 37.2 5 Qn1 Quebec nonchilled 500 35.3 6 Qn1 Quebec nonchilled 675 39.2 Description des variables : > help(co2) Correction (Q2). Deux façon d accèder à uptake : CO2$Uptake ou > attach(co2) > uptake Statistiques de tendance et dispersion de la variable uptake pour les plantes du Québec : > mean(uptake[type == 'Quebec']) [1] 33.54286 > var(uptake[type == 'Quebec']) [1] 93.583 > median(uptake[type == 'Quebec']) [1] 37.15 > uptake_queb <- uptake[type == 'Quebec'] > q <- quantile(uptake_queb); q 0% 25% 50% 75% 100% 9.300 30.325 37.150 40.150 45.500 Premier et troisième quartiles, écart interquartile : > q1 <-q[2]; q1 25% 30.325 > q3 <- q[4]; q3 3
75% 40.15 > as.numeric(q3-q1) [1] 9.825 Pas de points extrêmes supérieurs, quatre points extrêmes inférieurs : > uptake_queb[uptake_queb > q3 + 1.5*(q3-q1)] numeric(0) > uptake_queb[uptake_queb < q1-1.5*(q3-q1)] [1] 13.6 14.2 9.3 15.1 > min(uptake_queb) [1] 9.3 > max(uptake_queb) [1] 45.5 On peut conclure que la distribution de uptake pour les plantes du Québec n est pas très symétrique, avec quatre valeurs etrêmes inférieurs. Correction (Q3). summary() donne les quartiles, le min et le max : > summary(uptake_queb) Min. 1st Qu. Median Mean 3rd Qu. Max. 9.30 30.33 37.15 33.54 40.15 45.50 Boxplot : > boxplot(uptake_queb,main='upatke distribution, Quebec plants') 4
upatke distribution, Quebec plants 10 20 30 40 Correction (Q4). Distributions au Québec et Mississippi : > boxplot(uptake~type, main='uptake distributions by type') 5
uptake distributions by type 10 20 30 40 Quebec Mississippi Distributions selon traitement : > boxplot(uptake~treatment, main='uptake distributions by treatment') 6
uptake distributions by treatment 10 20 30 40 nonchilled chilled Distributions pour les quatre combinaisons : > boxplot(uptake~treatment+type, main='uptake distributions by treatment') 7
uptake distributions by treatment 10 20 30 40 nonchilled.quebec nonchilled.mississippi Il semble que les plantes du Québec absorbent plus CO2 que les plantes du Mississippi. Dans chaque catégorie, les plantes qui n ont pas été gelées ont une meilleur absorption de CO2. Cependant on ne peut pas tirer de véritables conclusions sans faire de tests. Correction (Q5). Faible corrélation linéaire, nuage de points n est pas homogènes (présence de sous-groupes?) : > cor(conc,uptake) [1] 0.4851774 > plot(conc,uptake) > plot(conc,uptake,col=type) Forte corrélation linéaire pour les plantes du Québec : > cor(conc[type=='quebec'],uptake[type=='quebec']) [1] 0.7103145 8
> cor(conc[type=='mississippi'],uptake[type=='mississippi']) [1] 0.4716294 Correction (Q6). On remarque une très forte corrélation. Bien evidemment, il ne paraît pas raisonnable de croire que ces deux variables soient en lien de causalité. > l<-c(1640,2220,3240,4620,6300,8340,8980,9210) > b<-c(3.3,4.1,5.6,8.0,9.6,10.2,11.3,11.2) > plot(l,b,xlab='nb licenses',ylab='production bière') > cor(l,b) [1] 0.9787426 Correction (Q7 et suivantes). Simulations des données : > m0 <- rbinom(n=10,size=1,prob=0.3); m0 #size=1 si on veut simuler des Bernoulli [1] 0 1 1 0 1 0 1 0 0 1 > m1 <- rbinom(10,1,0.3); m1 [1] 1 0 0 1 0 0 0 0 0 1 > m2 <- rbinom(10,1,0.35); m2 [1] 0 0 0 1 1 0 0 1 1 1 > m3 <- rbinom(10,1,0.45); m3 [1] 1 1 0 1 1 0 0 0 1 0 Moyennes et variances : > mean(m0); var(m0) [1] 0.5 [1] 0.2777778 > mean(m1); var(m1) [1] 0.3 [1] 0.2333333 > mean(m2); var(m2) [1] 0.5 9
[1] 0.2777778 > mean(m3); var(m3) [1] 0.5 [1] 0.2777778 Les moyennes empiriques calculées à partir des échantillons ne sont pas les moyennes théoriques utilisées pour générer les données! Si on répète l expérience, on obtient chaque fois des résultats différents. Par exemple pour M2, on répète 5 fois l expérience et on stocke les résultats : > res=data.frame(moyenne = rep(na,5), variance = rep(na,5)) > for(i in 1:5){ + m2 <- rbinom(10,1,0.35) + res$moyenne[i] <- mean(m2) + res$variance[i] <- var(m2) + } Les échantillons considérés (taille = 10) sont trop petits. Si on prends taille=200, les moyennes et variances observées sont proches des valeurs théoriques : > m0 <- rbinom(200,1,0.3); mean(m0); var(m0) #size=1 si on veut simuler des Bernoulli [1] 0.3 [1] 0.2110553 > m1 <- rbinom(200,1,0.3); mean(m1); var(m1) [1] 0.295 [1] 0.2090201 > m2 <- rbinom(200,1,0.35); mean(m2); var(m2) [1] 0.37 [1] 0.2342714 > m3 <- rbinom(200,1,0.45); mean(m3); var(m3) [1] 0.455 [1] 0.2492211 Leçon à retenir : il ne faut pas tirer des conclusions définitives à partir des statistiques descriptives car celles-ci sont sont très sensibles à la taille de l échantillon (plus la taille est petite, plus les statistiques descriptives sont variables). 10