TD1: Statistiques descriptives

Documents pareils
Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistique : Résumé de cours et méthodes

Lire ; Compter ; Tester... avec R

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Logiciel XLSTAT version rue Damrémont PARIS

Introduction aux Statistiques et à l utilisation du logiciel R

Statistiques à une variable

Représentation d une distribution

BACCALAURÉAT PROFESSIONNEL SUJET

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Séries Statistiques Simples

Leçon N 4 : Statistiques à deux variables

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

1 Importer et modifier des données avec R Commander

Statistiques avec la graph 35+

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Estimation et tests statistiques, TD 5. Solutions

3. Caractéristiques et fonctions d une v.a.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Utilisation du Logiciel de statistique SPSS 8.0

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Statistiques 0,14 0,11

Chapitre 3. Les distributions à deux variables

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Aide-mémoire de statistique appliquée à la biologie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

La médiatrice d un segment

Statistique Descriptive Élémentaire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Étude comparative sur les salaires et les échelles salariales des professeurs d université. Version finale. Présentée au

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

ESIEA PARIS

Statistiques Descriptives à une dimension

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Statistiques descriptives

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

TD 11. Les trois montages fondamentaux E.C, B.C, C.C ; comparaisons et propriétés. Association d étages. *** :exercice traité en classe.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Microsoft Excel : tables de données

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Evaluation de la variabilité d'un système de mesure

IBM SPSS Statistics Base 20

Classe de première L

Comparer l intérêt simple et l intérêt composé

Analyse et interprétation des données

Test de terrain ou test de laboratoire pour la performance en endurance?

Licence Sciences, Technologie et Santé Présentation de l interface IPWEB (Inscriptions pédagogiques en ligne)

Théorie des sondages : cours 5

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Définitions. Numéro à préciser. (Durée : )

Biostatistiques : Petits effectifs

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Fluctuation d une fréquence selon les échantillons - Probabilités

Introduction au datamining

Oscillations libres des systèmes à deux degrés de liberté

Cours 9 : Plans à plusieurs facteurs

FORMULAIRE DE STATISTIQUES

Un exemple de régression logistique sous

Modélisation et étude d un système de trading directionnel diversifié sur 28 marchés à terme

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

ACP Voitures 1- Méthode

Examen de Logiciels Statistiques

N L a R e v u e F r a n c o p h o n e d u M a n a g e m e n t d e P r o j e t 2 è m e t r i m e s t r e

Température corporelle d un castor (une petite introduction aux séries temporelles)

données en connaissance et en actions?

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Armand HATCHUEL Mines ParisTech Chaire de théorie et méthodes de la Conception innovante. Les défis contemporains

Rappels sur les suites - Algorithme

Chapitre 6. Fonction réelle d une variable réelle

Cycle de formation certifiante Sphinx

Logistique, Transports

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

TD1 Signaux, énergie et puissance, signaux aléatoires

TD d économétrie appliquée : Introduction à STATA

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

La classification automatique de données quantitatives

Résumé du Cours de Statistique Descriptive. Yves Tillé

Intégration et probabilités TD1 Espaces mesurés Corrigé

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

glossaire Appellation commerciale Voir nom de marque.

Programmation Objet - Cours II

Qui fait quoi sur internet?

Note:... Q1 :... Q2 :... Q3 :... Q4 :... Bonus :... Total :...

Les devoirs en Première STMG

Fonctions homographiques

Gouvernance des mesures de sécurité avec DCM-Manager. Présentation du 22 mai 2014

Attirez les meilleurs employés et consolidez votre entreprise

Relation entre deux variables : estimation de la corrélation linéaire

TSTI 2D CH X : Exemples de lois à densité 1

Introduction à l approche bootstrap

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Transcription:

TD1: Statistiques descriptives Probabilités et Statistiques pour l Ingénieur M1 Info Etienne Birmelé, Vittorio Perduca 2016-2017 1 Description statistique d un jeu de données Question 1. Charger le jeu de données CO2 à l aide de la commande data(co2). Montrer les premières observations à l aide de head(co2). Lire la description des données présente dans help(co2). Question 2. Décrire la variable uptake pour les plantes du Québec, indépendamment du traitement subi : moyenne, variance ; médiane, quartiles, valeurs extrêmes. Indication : utiliser les fonctions mean,var,median,quantile. Quelle conclusion tirer concernant la symétrie de cette variable? Question 3. Reprendre la question précédente à l aide de summary et tracer la boîte à moustache à l aide de boxplot. Question 4. Tracer sur un même graphique les boîtes à moustaches : du Québec et du Mississipi ; des plantes ayant subi le gel ou non ; des quatre possibilités issues du croisements des informations précedentes. Quelle conclusion en tirer sur la résistance au gel des plantes? Question 5. On se pose la question de la corrélation entre concentration en CO2 de l air ambiant et absorption par la plante. Calculer le coefficient de corrélation de ces deux variables sur l ensemble du jeu de données à l aide de la fonction cor. Commenter. Tracer le nuage de points de l absorption en fonction de la concentration ambiante à l aide de plot. Qu observe-t-on? Séparer l échantillon en deux parties suivant l observation précédente et calculer les nouveaux coefficients de corrélation associés. Interpréter. 2 Corrélation n est pas causalité Il existe de nombreuses situations où, malgré un coefficient de corrélation élevé entre 2 variables quantitatives, on ne peut pas établir de relation de cause à effet entre elles. L exemple suivant 1

Années Nombre de licenses en France Production de bière en Belgique (en milliers) (en million d hectolitres) 1960 1640 3.3 1965 2220 4.1 1970 3240 5.6 1975 4620 8.0 1980 6300 9.6 1985 8340 10.2 1990 8980 11.3 1995 9210 11.2 illustre ces propos 1. On a relevé la production de bière alsacienne et le nombre de licences sportives des fédérations françaises entre 1960 et 1995. Question 6. Calculer la corrélation entre les variables Licences et Bières. Peut-on en déduire que la pratique du sport conduit à boire de la bière? Et que boire de la bière conduit à faire du sport? 3 Que peut-on conclure des statistiques descriptives? On cherche à comparer les survies de rats en fonction de leur alimentation. Pour cela, on considére quatre modes d alimentation M0 (normal), M1, M2 et M3, et on suppose qu on connaît les taux de mortalité à deux ans suivant le mode d alimentation : les rats en mode M0 ou M1 meurent avec une probabilité de 30%, les rats en mode M2 avec probabilité 35% et ceux en mode M3 avec probabilité 45%. Question 7. Générer des échantillons de taille 10 suivant chacun des modes. Pour cela, pour chaque mode, on tirera 10 observations suivant une loi de Bernoulli de paramètre égale au taux de mortalité à l aide de la fonction rbinom avec paramètre size=1. Question 8. Comparer les résultats, en incluant la variance des échantillons dans les critères de comparaison. Que peut-on conclure? Recommencez l opération plusieurs fois. Question 9. Reprendre l expérience avec des échantillons de taille 50. Question 10. Reprendre l expérience avec des échantillons de taille 200. 1. Cet exercice est tiré du livre Statistique Vraiment appliquée au sport. Cours et Exercices., S. Champely (2003). 2

Correction Correction (Q1). Chargement et exploration initiale des données : > data(co2) > head(co2) Plant Type Treatment conc uptake 1 Qn1 Quebec nonchilled 95 16.0 2 Qn1 Quebec nonchilled 175 30.4 3 Qn1 Quebec nonchilled 250 34.8 4 Qn1 Quebec nonchilled 350 37.2 5 Qn1 Quebec nonchilled 500 35.3 6 Qn1 Quebec nonchilled 675 39.2 Description des variables : > help(co2) Correction (Q2). Deux façon d accèder à uptake : CO2$Uptake ou > attach(co2) > uptake Statistiques de tendance et dispersion de la variable uptake pour les plantes du Québec : > mean(uptake[type == 'Quebec']) [1] 33.54286 > var(uptake[type == 'Quebec']) [1] 93.583 > median(uptake[type == 'Quebec']) [1] 37.15 > uptake_queb <- uptake[type == 'Quebec'] > q <- quantile(uptake_queb); q 0% 25% 50% 75% 100% 9.300 30.325 37.150 40.150 45.500 Premier et troisième quartiles, écart interquartile : > q1 <-q[2]; q1 25% 30.325 > q3 <- q[4]; q3 3

75% 40.15 > as.numeric(q3-q1) [1] 9.825 Pas de points extrêmes supérieurs, quatre points extrêmes inférieurs : > uptake_queb[uptake_queb > q3 + 1.5*(q3-q1)] numeric(0) > uptake_queb[uptake_queb < q1-1.5*(q3-q1)] [1] 13.6 14.2 9.3 15.1 > min(uptake_queb) [1] 9.3 > max(uptake_queb) [1] 45.5 On peut conclure que la distribution de uptake pour les plantes du Québec n est pas très symétrique, avec quatre valeurs etrêmes inférieurs. Correction (Q3). summary() donne les quartiles, le min et le max : > summary(uptake_queb) Min. 1st Qu. Median Mean 3rd Qu. Max. 9.30 30.33 37.15 33.54 40.15 45.50 Boxplot : > boxplot(uptake_queb,main='upatke distribution, Quebec plants') 4

upatke distribution, Quebec plants 10 20 30 40 Correction (Q4). Distributions au Québec et Mississippi : > boxplot(uptake~type, main='uptake distributions by type') 5

uptake distributions by type 10 20 30 40 Quebec Mississippi Distributions selon traitement : > boxplot(uptake~treatment, main='uptake distributions by treatment') 6

uptake distributions by treatment 10 20 30 40 nonchilled chilled Distributions pour les quatre combinaisons : > boxplot(uptake~treatment+type, main='uptake distributions by treatment') 7

uptake distributions by treatment 10 20 30 40 nonchilled.quebec nonchilled.mississippi Il semble que les plantes du Québec absorbent plus CO2 que les plantes du Mississippi. Dans chaque catégorie, les plantes qui n ont pas été gelées ont une meilleur absorption de CO2. Cependant on ne peut pas tirer de véritables conclusions sans faire de tests. Correction (Q5). Faible corrélation linéaire, nuage de points n est pas homogènes (présence de sous-groupes?) : > cor(conc,uptake) [1] 0.4851774 > plot(conc,uptake) > plot(conc,uptake,col=type) Forte corrélation linéaire pour les plantes du Québec : > cor(conc[type=='quebec'],uptake[type=='quebec']) [1] 0.7103145 8

> cor(conc[type=='mississippi'],uptake[type=='mississippi']) [1] 0.4716294 Correction (Q6). On remarque une très forte corrélation. Bien evidemment, il ne paraît pas raisonnable de croire que ces deux variables soient en lien de causalité. > l<-c(1640,2220,3240,4620,6300,8340,8980,9210) > b<-c(3.3,4.1,5.6,8.0,9.6,10.2,11.3,11.2) > plot(l,b,xlab='nb licenses',ylab='production bière') > cor(l,b) [1] 0.9787426 Correction (Q7 et suivantes). Simulations des données : > m0 <- rbinom(n=10,size=1,prob=0.3); m0 #size=1 si on veut simuler des Bernoulli [1] 0 1 1 0 1 0 1 0 0 1 > m1 <- rbinom(10,1,0.3); m1 [1] 1 0 0 1 0 0 0 0 0 1 > m2 <- rbinom(10,1,0.35); m2 [1] 0 0 0 1 1 0 0 1 1 1 > m3 <- rbinom(10,1,0.45); m3 [1] 1 1 0 1 1 0 0 0 1 0 Moyennes et variances : > mean(m0); var(m0) [1] 0.5 [1] 0.2777778 > mean(m1); var(m1) [1] 0.3 [1] 0.2333333 > mean(m2); var(m2) [1] 0.5 9

[1] 0.2777778 > mean(m3); var(m3) [1] 0.5 [1] 0.2777778 Les moyennes empiriques calculées à partir des échantillons ne sont pas les moyennes théoriques utilisées pour générer les données! Si on répète l expérience, on obtient chaque fois des résultats différents. Par exemple pour M2, on répète 5 fois l expérience et on stocke les résultats : > res=data.frame(moyenne = rep(na,5), variance = rep(na,5)) > for(i in 1:5){ + m2 <- rbinom(10,1,0.35) + res$moyenne[i] <- mean(m2) + res$variance[i] <- var(m2) + } Les échantillons considérés (taille = 10) sont trop petits. Si on prends taille=200, les moyennes et variances observées sont proches des valeurs théoriques : > m0 <- rbinom(200,1,0.3); mean(m0); var(m0) #size=1 si on veut simuler des Bernoulli [1] 0.3 [1] 0.2110553 > m1 <- rbinom(200,1,0.3); mean(m1); var(m1) [1] 0.295 [1] 0.2090201 > m2 <- rbinom(200,1,0.35); mean(m2); var(m2) [1] 0.37 [1] 0.2342714 > m3 <- rbinom(200,1,0.45); mean(m3); var(m3) [1] 0.455 [1] 0.2492211 Leçon à retenir : il ne faut pas tirer des conclusions définitives à partir des statistiques descriptives car celles-ci sont sont très sensibles à la taille de l échantillon (plus la taille est petite, plus les statistiques descriptives sont variables). 10