Solutions des exercices de la fiche tdr203

Documents pareils
Lire ; Compter ; Tester... avec R

Initiation à l analyse en composantes principales

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Optimiser ses graphiques avec R

Extraction d information des bases de séquences biologiques avec R

Analyse exploratoire des données

Statistiques Descriptives à une dimension

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Logiciel XLSTAT version rue Damrémont PARIS

Module 16 : Les fonctions de recherche et de référence

T de Student Khi-deux Corrélation

STATISTIQUES DESCRIPTIVES

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

: seul le dossier dossier sera cherché, tous les sousdomaines

Tableau récapitulatif de l analyse fréquentielle

Poll-O Guide de l utilisateur. Pierre Cros

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Série limitée Classe C 250 CDI BlueEFFICIENCY Prime Edition

Chapitre 3. Les distributions à deux variables

Microsoft Excel : tables de données

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Cours Informatique Master STEP

Objectifs du TP : Initiation à Access

Mesurer les performances (CPU) sous Linux

Fluctuation d une fréquence selon les échantillons - Probabilités

L endettement chez les jeunes Rapport final

Cartographie avec R. Baptiste Coulmont. 16 septembre 2010

EXAMEN D ADMISSION EN MP2 (MP POST CFC)

Mesurer et analyser le trafic d un site internet Comment analyser l audience de son site et connaître les centres d intérêts des visiteurs?

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Leçon N 4 : Statistiques à deux variables

LES AMORTISSEMENTS : CALCULS ENREGISTREMENTS

Fonctions homographiques

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Optimiser les performances du mouvement de monte de l Axe Z.

Statistiques à une variable

BeSpoon et l homme Connecté

SERIE 1 Statistique descriptive - Graphiques

LES DIFFERENTS TYPES DE MESURE

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Initiation à Excel. Frédéric Gava (MCF)

Statistiques 0,14 0,11

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Rédiger et administrer un questionnaire

AP1.1 : Montages électroniques élémentaires. Électricité et électronique

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistique : Résumé de cours et méthodes

Première session de travail

Introduction à la statistique descriptive

compaction ventriculaire gauche sur la fonction ventriculaire chez l adulte

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Licence professionnelle Commerce en banque-assurance

Le Parlement jeunesse du Québec PARLEMENT JEUNESSE DU QUÉBEC 64 E LÉGISLATURE. Projet de loi n 1

Cosmétique, perfection de couleur et délicatesse sont les principes fondamentaux de DousColor.

Guide d utilisation en lien avec le canevas de base du plan d intervention

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Fiche TD avec le logiciel. Courbes de niveau. D. Chessel

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

SIMULATIONS, ALGORITHMES EN PROBABILITÉS ET STATISTIQUE(S) AU LYCÉE ET AVEC R

.Les cheveux 100 % naturels Remy Hair. .Clips, pose à anneaux, kératine, tissages et perruques

Anciens plug-ins d effets VST

Cours d algorithmique pour la classe de 2nde

Les probabilités. Chapitre 18. Tester ses connaissances

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Evaluation de la variabilité d'un système de mesure

Projet Robot Centaure

ACP Voitures 1- Méthode

Collecter des informations statistiques

Comment utiliser la feuille de style «CMLF2010.dot»

Comment optimiser les encodages financiers?

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

TD d économétrie appliquée : Introduction à STATA

Table des matières Mise en contexte...3 Historique Lettre d entente no Diagnostic du plan Imbeault, le plan qui est

SHAMPOOINGS ET SOINS REPIGMENTANTS GUIDE TECHNIQUE

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Héritage. Naissance d un nouveau porte flambeau pour les créations de Ludovic Lacroix

TP Protocoles SMTP et POP3 avec Pratiquer l algorithmique

Pas-à-pas. Créer une newsletter avec Outlook

Auto-Entreprise : Activités : Eric SOTY - Siret n Formation Bureautique, continue d'adultes. Tél : Fax :

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Calculs Computional fluide dynamiques (CFD) des serres à membrane de Van der Heide

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Document d information sur les offres de La Poste et leurs accès aux personnes handicapées intellectuelles

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

1 [ 100% ] Rollators

COMPTABILITE SAGE LIGNE 30

Statistiques avec la graph 35+

Programmation Linéaire - Cours 1

La confiance des chefs d entreprise continue de se renforcer en mai

Description des pratiques à adopter pour la mise à jour du layout en utilisant le gestionnaire de conception de Sharepoint 2013

DOSSIER : TOURISME ET HANDICAP

Relation entre deux variables : estimation de la corrélation linéaire

Statistique Descriptive Élémentaire

ARDUINO DOSSIER RESSOURCE POUR LA CLASSE

ir value.com Le Fundamental Value Indicator

Transcription:

Fiche TD avec le logiciel : tdr204 Solutions des exercices de la fiche tdr203 A.B. Dufour & M. Royer Cette fiche comprend les solutions des exercices de la fiche tdr203. Il ne s agit pas de résultats exhaustifs mais de la manière de présenter quelques résultats afin d alimenter la réflexion. Exercice 1 Prenons le tableau de données concernant l ensemble des étudiants de la filière IGAPA depuis 2006 : enql3apa.txt ayant répondu à une enquête au premier cours de statistique. enql3apa <- read.table("http://pbil.univ-lyon1.fr/r/donnees/enql3apa.txt", h = T) names(enql3apa) [1] "annee" "groupe" "identifiant" "sexe" "poids" [6] "taille" "rythmcard" "age" "baccalaureat" "mention" [11] "hmental" "hmoteur" "hsensoriel" "pblesocial" "pratique" [16] "sport" "niveau" "mecriture" "mfourchette" "pballon" [21] "oeil" "rotation" "pappui" 1) Donner les proportions d hommes et de femmes en filière APA depuis 2006 ; faire une représentation graphique adéquate. Commenter. summary(enql3apa$sexe)/length(enql3apa$sexe) feminin masculin 0.53 0.47 La proportion des hommes en filière L3 APA est 0.47 et la proportion des femmes est 0.53. En ce qui concerne la représentation graphique liée à la répartition des sexes,le camembert et la représentation en bâtons sont toutes les deux acceptables. En effet, nous avons un seul échantillon à représenter, une variable avec peu de modalités qui sont de nature nominale. par(mfrow = c(1, 2)) pie(summary(enql3apa$sexe), col = c("pink", "lightblue"), main = "Répartition des sexes en L3 APA") barplot(summary(enql3apa$sexe)/length(enql3apa$sexe), main = "Répartition des sexes en L3 APA") 1

Répartition des sexes en L3 APA Répartition des sexes en L3 APA feminin masculin 0.0 0.1 0.2 0.3 0.4 0.5 feminin masculin La proportion de femmes dans cette filière est légèrement supérieure à celle des hommes. 2) Donner les pourcentages d étudiants intéressés par les handicaps moteur, sensoriel, mental et par les problèmes sociaux. Commenter. class(enql3apa$hmoteur) [1] "integer" Pour répondre à cette question, nous avons deux solutions. Une solution est celle du cours où la variable integer est transformée en variable qualitative à deux modalités : 1 pour oui et 0 pour non. hmental <- factor(enql3apa$hmental) 100 * summary(hmental)/length(hmental) 0 1 55 45 hmoteur <- factor(enql3apa$hmoteur) 100 * summary(hmoteur)/length(hmoteur) 0 1 39 61 hsensoriel <- factor(enql3apa$hsensoriel) 100 * summary(hsensoriel)/length(hsensoriel) 0 1 66 34 pblesocial <- factor(enql3apa$pblesocial) 100 * summary(pblesocial)/length(pblesocial) 0 1 68 32 Nous pouvons noter également qu une réponse favorable est donnée par 1 et défavorable par 0. Pour calculer les pourcentages d étudiants interrsés, il suffit donc de compter le nombre de 1 c est-à-dire faire la somme des éléments de la colonne. 100 * sum(enql3apa$hmental)/length(enql3apa$hmental) [1] 45 100 * sum(enql3apa$hmoteur)/length(enql3apa$hmoteur) [1] 61 100 * sum(enql3apa$hsensoriel)/length(enql3apa$hsensoriel) Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 2/14 Compilé le 2010-02-22

[1] 34 100 * sum(enql3apa$pblesocial)/length(enql3apa$pblesocial) [1] 32 Parmi tous les thèmes proposés, le handicap moteur est celui qui intéresse le plus les étudiants. Notons toutefois, que la filière propose une spécialisation en direction des personnes âgées et que ce thème n a pas été proposé dans le questionnaire. 3) Faire une représentation graphique liée à la variable main d écriture. par(mfrow = c(1, 3)) pie(summary(enql3apa$mecriture), col = c("blue", "red")) barplot(summary(enql3apa$mecriture)/length(enql3apa$mecriture), col = c("blue", "red"), main = "Latéralité ") dotchart(summary(enql3apa$mecriture), col = c("blue", "red"), pch = 15) Latéralité droite gauche 0.0 0.2 0.4 0.6 0.8 gauche droite droite gauche 20 40 60 80 4) Etudier la variable mention au baccalauréat. Qu observe-t-on? La variable mention au baccalauréat est une variable qualitative. class(enql3apa$mention) [1] "factor" summary(enql3apa$mention) AB B P NA's 20 2 65 13 Nous constatons que certains étudiants n ont pas répondu à la question. summary(enql3apa$mention)[4]/length(enql3apa$mention) NA's 0.13 Cela correspond à 13% des étudiants. Deux explications sont possibles : (i) certains ignorent qu avoir son baccalauréat avec une moyenne générale comprise entre 10 et 12 exclue signifie avoir une mention passable ; (ii) certains étudiants ont eu une mention mais veulent rester anonymes. Devant ces deux possiblités, nous ne pouvons prendre de décision. L étude sera donc réalisée sur l ensemble des étudiants ayant effectivement répondu à la question. table(enql3apa$mention) Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 3/14 Compilé le 2010-02-22

AB B P 20 2 65 table(enql3apa$mention)/sum(table(enql3apa$mention)) AB B P 0.22988506 0.02298851 0.74712644 round(table(enql3apa$mention)/sum(table(enql3apa$mention)), 4) AB B P 0.2299 0.0230 0.7471 Sous, il y a souvent plusieurs chemins pour répondre à une question. Voici une autre possibilité. mention <- na.omit(enql3apa$mention) summary(mention) AB B P 20 2 65 summary(mention)/length(mention) AB B P 0.22988506 0.02298851 0.74712644 levels(mention) [1] "AB" "B" "P" La variable qualitative mention a ses modalités ordonnées. La représentation en secteurs - ou camembert - est interdite. barplot(summary(mention)/length(mention), main = "Mentions au baccalauréat", col = "lightblue") Mentions au baccalauréat 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 AB B P La représentation réalisée ne convient pas car les modalités sont ordonnées par ordre alphabétique et non par ordre croissant du mérite. Il faut donc modifier l ordre des modalités. mention.fac <- factor(mention, levels = c("p", "AB", "B")) barplot(summary(mention.fac)/length(mention.fac), main = "Mentions au baccalauréat", col = "lightblue") Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 4/14 Compilé le 2010-02-22

Mentions au baccalauréat 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 P AB B La répartition des mentions obtenues au baccalauréat par les étudiants de L3 APA reflète les résultats que l on trouve au niveau national. 5) Calculer le rythme cardiaque moyen d un étudiant en L3 APA. Utiliser la fonction summary(x) et la fonction mean(x). Qu observe-t-on? summary(enql3apa$rythmcard)[4] Mean 65.62 mean(na.omit(enql3apa$rythmcard)) [1] 65.62245 6) Construire l histogramme et la boite à moustaches du rythme cardiaque. Commenter. par(mfrow = c(1, 2)) hist(enql3apa$rythmcard, col = "lightblue", main = "Fréquence cardiaque", xlab = "") boxplot(enql3apa$rythmcard, col = "lightblue") Fréquence cardiaque Frequency 0 5 10 15 20 50 60 70 80 40 50 60 70 80 90 La fréquence cardiaque des étudiants varie entre 40 et 90 pulsations par minute. 50% des étudiants varient entre 60 et 72 pulsations. Les moustaches Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 5/14 Compilé le 2010-02-22

sont symétriques ce qui signifie que les valeurs extrêmes sont réparties de la même façon. Aucun étudiant ne se détache des autres par une fréquence cardiaque très élevée ou très basse. 7) Toujours pour le rythme cardiaque, construire le graphe de Cleveland sur les données brutes et sur les données ordonnées. Conclure. par(mfrow = c(1, 2)) dotchart(enql3apa$rythmcard, col = "blue", main = "Fréquence cardiaque", pch = 20) dotchart(sort(enql3apa$rythmcard), col = "blue", pch = 20) Fréquence cardiaque 50 60 70 80 50 60 70 80 Exercice 2 On considère le jeu de données portant sur 592 étudiants (extrait de Snee, R. D. (1974) Graphical display of two-way contingency tables. The American Statistician, 28 :9-12). Pour chaque étudiant, on a observé 3 variables qualitatives : la couleur des cheveux, la couleur des yeux et le sexe. Les données se trouvent dans le fichier "qualitatif.txt", que vous pouvez télécharger à partir du site http ://pbil.univ-lyon1.fr/r/donnees/ 1) Donner l instruction permettant d importer le fichier dans. Appeler le fichier qualnom. qualnom <- read.table("http://pbil.univ-lyon1.fr/r/donnees/qualitatif.txt", h = T) 2) Représenter les données sur la couleur des cheveux sous la forme d un diagramme en secteurs en tapant la commande suivante : pie(table(qualnom$cheveux), col = c("yellow", "chocolate4", "black", "orangered"), main = "Couleur des cheveux de 592 etudiants") Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 6/14 Compilé le 2010-02-22

Couleur des cheveux de 592 etudiants Blond Marron Roux Noir a) Quelle est la couleur de cheveux dominante? Dans quel ordre peut-on classer les couleurs? b) Y a-t-il plus d écart entre les proportions de cheveux correspondant aux couleurs Noir et Roux ou entre les proportions correspondant aux cheveux de couleur Blond et Noir? 3) La représentation en secteurs n est pas la représentation optimale ; il faut s en méfier! Consulter en effet la documentation de la fonction pie() à l aide de la commande help(pie). La commande dotchart permet d obtenir un graphique plus lisible : dotchart(sort(table(qualnom$cheveux)), xlim = c(0, max(table(qualnom$cheveux))), pch = 20, cex = 1.5, color = c("orangered", "black", "yellow", "chocolate4"), main = "Couleur des cheveux de 592 etudiants") Couleur des cheveux de 592 etudiants Marron Blond Noir Roux 0 50 100 200 Peut-on maintenant répondre à la question : Y a-t-il plus d écart entre les proportions de cheveux correspondant aux couleurs Noir et Roux ou entre les proportions correspondant aux cheveux de couleur Blond et Noir? Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 7/14 Compilé le 2010-02-22

Le graphe de Cleveland donne une représentation agréable pour les variables qualitatives avec de nombreuses modalités, et aussi pour les variables qualitatives ordonnées. Exercice 3 Soit la série statistique ordonnée des poids (en kg) de 10 marathoniens : 61 62 67 67 68 69 76 77 78 79. poidsmar <- c(61, 62, 67, 67, 68, 69, 76, 77, 78, 79) poidsmar [1] 61 62 67 67 68 69 76 77 78 79 1) Construire l histogramme de base associé à cette série statistique. hist(poidsmar, col = "lightblue", main = "") Frequency 0 1 2 3 4 60 65 70 75 80 poidsmar 2) Réaliser les histogrammes en choisissant respectivement les séries d intervalles suivants : a) les intervalles [50, 60] ]60, 70] et ]70, 80] ; hist(poidsmar, col = "lightblue", main = "", breaks = c(50, 60, 70, 80)) Frequency 0 1 2 3 4 5 6 50 55 60 65 70 75 80 poidsmar Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 8/14 Compilé le 2010-02-22

b) les intervalles [55, 65] ]65, 75] et ]75, 85]. hist(poidsmar, col = "lightblue", main = "", breaks = c(55, 65, 75, 85)) Frequency 0 1 2 3 4 55 60 65 70 75 80 85 poidsmar c) Que peut-on dire de l allure de ces 2 figures? Exercice 4 Revenons à l enquête réalisée au près des étudiants de la filière L3 APA ou IGAPA. Les variables poids et taille ne peuvent être étudiées qu hommes et femmes séparemment. L information qualitative est contenue dans la variable sexe. Nous rappelons que la variable poids de l ensemble des étudiants (uniquement les hommes) s obtient avec la commande : poidshom <- enql3apa$poids[enql3apa$sexe=="masculin"] 1) Construire les deux vecteurs poidshom et poidsfem. poidshom <- enql3apa$poids[enql3apa$sexe == "masculin"] poidsfem <- enql3apa$poids[enql3apa$sexe == "feminin"] Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 9/14 Compilé le 2010-02-22

2) Construire les histogrammes du poids des étudiants et des étudiantes. par(mar = c(2, 4, 2, 2)) par(mfrow = c(2, 1)) hist(poidshom, col = "lightblue", main = "Poids (kg) des hommes", xlab = "") hist(poidsfem, col = "pink", main = "Poids (kg) des femmes", xlab = "") Poids (kg) des hommes Frequency 0 5 10 15 20 50 60 70 80 90 100 110 Poids (kg) des femmes Frequency 0 5 10 15 20 45 50 55 60 65 70 75 80 Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 10/14 Compilé le 2010-02-22

3) Afin de pouvoir comparer les 2 groupes, construire à nouveau les histogrammes en imposant les mêmes classes grâce à la commande breaks, et en travaillant avec les fréquences relatives grâce à la commande freq = FALSE. Commenter. par(mar = c(2, 4, 2, 2)) par(mfrow = c(2, 1)) hist(poidshom, col = "lightblue", main = "Poids (kg) des hommes", breaks = seq(40, 110, by = 10), freq = FALSE, ylim = c(0, 0.07)) hist(poidsfem, col = "pink", main = "Poids (kg) des femmes", breaks = seq(40, 110, by = 10), freq = FALSE, ylim = c(0, 0.07)) Poids (kg) des hommes Density 0.00 0.02 0.04 0.06 40 50 60 70 80 90 100 110 Poids (kg) des femmes Density 0.00 0.02 0.04 0.06 40 50 60 70 80 90 100 110 Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 11/14 Compilé le 2010-02-22

4) Faire la même étude avec la variable taille. taillehom <- enql3apa$taille[enql3apa$sexe == "masculin"] taillefem <- enql3apa$taille[enql3apa$sexe == "feminin"] par(mar = c(2, 4, 2, 2)) par(mfrow = c(2, 1)) hist(taillehom, col = "lightblue", main = "Taille (cm) des hommes", breaks = seq(150, 200, by = 5), freq = FALSE, ylim = c(0, 0.09)) hist(taillefem, col = "pink", main = "Taille (cm) des femmes", breaks = seq(150, 200, by = 5), freq = FALSE, ylim = c(0, 0.09)) Taille (cm) des hommes Density 0.00 0.04 0.08 150 160 170 180 190 200 Taille (cm) des femmes Density 0.00 0.04 0.08 150 160 170 180 190 200 Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 12/14 Compilé le 2010-02-22

Pour représenter par exemple sur une boite à moustaches, une variable quantitative liée à une variable qualitative, utiliser la commande : boxplot(x~factor). 1) Représenter la boite à moustaches du poids en fonction du sexe. Commenter. boxplot(enql3apa$poids ~ enql3apa$sexe, col = c("pink", "lightblue"), main = "Répartition du poids des étudiants") Répartition du poids des étudiants 50 60 70 80 90 100 110 feminin masculin 2) Représenter la boite à moustaches de la taille en fonction du sexe. Commenter. boxplot(enql3apa$taille ~ enql3apa$sexe, col = c("pink", "lightblue"), main = "Répartition de la taille des étudiants") Répartition de la taille des étudiants 160 170 180 190 feminin masculin 3) Représenter la boite à moustaches du rythme cardiaque en fonction du sexe. Commenter. Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 13/14 Compilé le 2010-02-22

boxplot(enql3apa$rythmcard ~ enql3apa$sexe, col = c("pink", "lightblue"), main = "Répartition de la fréquence cardiaque des étudiants") Répartition de la fréquence cardiaque des étudiants 50 60 70 80 feminin masculin Logiciel R version 2.10.0 (2009-10-26) tdr204.rnw Page 14/14 Compilé le 2010-02-22