Les Iris de Fisher ou Comment se familiariser avec le logiciel



Documents pareils
Lire ; Compter ; Tester... avec R

Initiation à l analyse en composantes principales

Gestion des documents avec ALFRESCO

R - un exemple du succès des modèles libres

GESTION DU LOGO. 1. Comment gérer votre logo? Format de l image Dimensions de l image Taille de l image 9

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Note de cours. Introduction à Excel 2007

Netstorage et Netdrive pour accéder à ses données par Internet

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

La Clé informatique. Formation Excel XP Aide-mémoire

USTL - Licence ST-A 1ère année Codage de l information TP 1 :

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

GUIDE D UTILISATION DE I-PHOTO

Manuel de formation Spaceman 1 ère journée

Logiciel XLSTAT version rue Damrémont PARIS

Office 365/WIFI/Courrier. Guide pour les étudiants

Manuel d utilisation du logiciel Signexpert Paraph

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Je participe à la société branchée

Tutoriel Création d une source Cydia et compilation des packages sous Linux

Setting Up PC MACLAN File Server

Comment réaliser une capture d écran dans Word. Alors comment ouvrir une page Word?

Débuter avec Excel. Excel

Manuel d utilisation du logiciel

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

HTTP Commander. Table des matières. 1-Présentation de HTTP Commander

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Créer un tableau avec LibreOffice / Calc

Début de la procédure

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

Document d accompagnement pour l utilisation du Cartable en ligne Lycée des Métiers Fernand LÉGER 2013/2014

A C T I V I T É S CE QUE JE CONNAIS CONTEXTE PROFESSIONNEL. Quel est l élément essentiel du poste informatique? ...

1 - Se connecter au Cartable en ligne

Introduction à la présentation graphique avec xmgrace

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

GUIDE D UTILISATION DU LOGICIEL DE TELE-MAINTENANCE. TEAM VIEWER Version 7.

Créer son blog pas à pas

GUIDE Excel (version débutante) Version 2013

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

Cours Excel : les bases (bases, texte)

The Grid 2: Manuel d utilisation

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

SPHINX Logiciel de dépouillement d enquêtes

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

[WINDOWS 7 - LES FICHIERS] 28 avril Logiciel / Windows

TABLEAU CROISE DYNAMIQUE

Guide de démarrage Janvier 2012

Infolettre #18 : Les graphiques avec Excel 2010

Manuel d utilisation pour la plateforme BeExcellent MANUEL D UTILISATION POUR LA PLATEFORME BEEXCELLENT

1.1 L EXPLORATEUR WINDOWS

Utilisation de l éditeur.

Utiliser Dev-C++ .1Installation de Dev-C++ Table des matières

Le poste de travail, les dossiers et les fichiers

COMPTA. Description des Commandes

TABLEAU CROISE DYNAMIQUE

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

TP1 - Prise en main de l environnement Unix.

Utilisation du Logiciel de statistique SPSS 8.0

Manipuler fichiers et dossiers

Utilisation de la Plateforme Office365 et d Oultlook Web App

GUIDE DES PROFESSEURS(ES) POUR LÉA Version du 27 janvier 2009

PRISE EN MAIN D ILLUSTRATOR

PowerPoint offre trois modes d affichage principaux : le mode Normal, le mode Trieuse de diapositives et le mode Diaporama

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Construire. Statique. Styled by Smou. SEMA France SARL: 50, avenue d Alsace F Colmar Tél Fax

Guide d utilisation 2012

Édu-groupe - Version 4.3

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE LA FORMATION PROFESSIONNELLE. Microsoft. Excel XP

MAILING KOMPOZER... 2 CREEZ UNE PAGE... 2 FORMAT DE LA PAGE... 2 AJOUTER DU TEXTE SUR UNE PAGE... 4

TD de supervision. J.P. Chemla. Polytech Tours Département productique 2ème année

Niveau 1. Atelier d'initiation à l'ordinateur ... Fondation de la Bibliothèque Memphrémagog inc. Magog (Québec) J1X 2E7 Tél.

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Les bases de données. Se familiariser avec Base. Figure 1.1A Ouvre le fichier dont tu as besoin. Lance OpenOffice Base.

Chaque ordinateur est constitué de différentes unités de stockage de données (Disque dur, Graveur ) que l on peut imaginer comme de grandes armoires.

3 : créer de nouveaux onglets dans Netvibes Cliquer sur le bouton «+» et renommer le nouvel onglet (par exemple Encyclopédies en ligne)

Présentation du langage et premières fonctions

USTL - Licence ST-A 1ère année Initiation à la programmation TP 1

Statistiques avec la graph 35+

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Silhouette Studio Leçon N 2

Extraction d information des bases de séquences biologiques avec R

Le service de création de site Internet : Mode d emploi. La Création de Site Internet

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

EXCEL TUTORIEL 2012/2013

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

iil est désormais courant de trouver sur Internet un document

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

Tutorial NL220. Objectifs : Fournir un guide utilisateur pour NL220. Présenter une méthodologie efficace pour la création de projet

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement

INTRODUCTION À L INFORMATIQUE. Etsup 2012 Florian JACQUES

Tutorial Terminal Server sous

sommaire Archives... Archiver votre messagerie... Les notes... Les règles de messagerie... Les calendriers partagés Les listes de diffusions...

< Atelier 1 /> Démarrer une application web

Correction des Travaux Pratiques Organiser son espace de travail

Manuel d utilisation du site web de l ONRN

Guide de l utilisateur Mikogo Version Windows

Assistant d e tablissement de Tableaux

AIDE à l utilisation du cédérom «L athlétisme à l école» Niveau Primaire SOMMAIRE

Présentation du logiciel

Transcription:

Cours de biostatistique Illustrations dans Les Iris de Fisher ou Comment se familiariser avec le logiciel A.B. Dufour, J.R. Lobry, D.Chessel 3 mars 2008 Installation d un raccourci dans son espace de travail Le fichier de données iris. Représentation des espèces d Iris. Table des matières 1 Introduction 2 2 Installation d un raccourci dans son espace de travail 3 3 Consignes 4 4 Fichier de données : iris 4 5 Représentation des espèces d Iris 5 6 Représentation de la longueur du pétale 9 7 Représentation de la longueur et de la largeur du pétale 11 8 Représentation de la longueur du pétale selon les différentes espèces 13 9 Pour aller plus loin... 14 Références 17 1

1 Introduction est un logiciel de calcul statistique distribué selon la licence GNU General Public License. La version actuellement disponible sur le campus est la version 2.1.0. La dernière version 2.2.0 est disponible dans les archives du réseau CRAN (Comprehensive R Archive Network) dont un des miroirs est disponible sur le site de l Université (http://cran.univ-lyon1.fr/) 1. La version utilisée pour exécuter les exemples de ce document est donnée en pied de page. Fig. 1 Sir R.A. Fisher (1890-1962) Les données utilisées ici sont célèbres. Elles ont été collectées par Edgar Anderson [1]. Ce sont les mesures en centimètres des variables suivantes : longueur du sépale (Sepal.Length), largeur du sépale (Sepal.Width), longueur du pétale (Petal.Length) et largeur du pétale (Petal.Width) pour trois espèces d iris : Iris setosa, I. versicolor et I. virginica. Sir R.A. Fisher a utilisé ces données pour construire des combinaisons linéaires des variables permettant de séparer au mieux les trois espèces d iris [2]. Fig. 2 I.setosa, I.versicolor, I.Virginica 1 La liste de tous les miroirs est ici : http://cran.r-project.org/mirrors.html Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 2/17 Compilé le 2008-03-03

Fig. 3 Description d une fleur 2 Installation d un raccourci dans son espace de travail Si vous êtes dans une salle de TP de l Université, normalement vous trouvez sur le bureau un raccourci qui lance le programme à partir d un serveur. Copiez ce raccourci dans votre espace de travail. Si vous ne voyez pas de raccourci de sur le bureau, déroulez le menu Démarrer, cherchez et avec un clic droit sélectionnez Créer un raccourci. Recopiez ce raccourci dans votre espace de travail. Puis avec le clic droit de la souris, aller dans Propriétés et remplacer dans la partie Démarrer dans l information existante par le chemin d accès à votre dossier de travail. Les objets créés lors de la session sont enregistrés dans un fichier intitulé.rdata situé dans le dossier de travail. L historique de la session est conservée dans un fichier.rhistory. Les fichiers.rdata s ouvrent directement dans par un double-clic ou par glisser-déposer sur le raccourci. Les fichiers.rhistory Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 3/17 Compilé le 2008-03-03

s ouvrent directement avec l éditeur de texte de votre choix. Lancez le programme et vérifiez le dossier de travail : getwd() [1] "D:\\Nicolas\Exo1" L exemple montre que le dossier de travail s appelle Exo1. Il se trouve dans le dossier Nicolas qui lui même se trouve dans le répertoire des étudiants. Les commandes sont écrites en rouge, les réponses apparaissent en bleue. 3 Consignes La manière la plus simple pour se familiariser avec est de l utiliser afin de comprendre un jeu de données particulier. Considérons donc les données provenant des iris de Fisher, données sur lesquelles vous pouvez avoir envie de faire une analyse...de données. Suivez pas à pas les étapes de la session cidessous et voyez ce qui se passe. Faites les exercices proposés et n hésitez pas à utiliser l aide en ligne de. Si vous voulez par exemple connaître le contenu de la fonction hist, il vous suffit de taper la commande?hist. Vous ne comprendrez peut-être pas tous les détails mais la meilleure chose à faire est de taper le code et de voir le résultat produit. Soyez curieux. Le symbole > se trouve à chaque début de ligne de commandes (appelé prompt, ou invite de commande). Le symbole <- est le symbole d affectation. Le symbole # signifie le début d un commentaire. Lorsque vous travaillez sous, il peut être intéressant de conserver les résultats et les graphiques de vos analyses. Le plus simple, dans un premier temps, est de les enregistrer dans un document word à l aide du copier / coller. Pour ce faire, allez dans le menu File, sélectionnez Copy to the clipboard as a Bitmap. Notez que les graphes peuvent être réduits ou agrandis sans déformation. 4 Fichier de données : iris est un ensemble de bibliothèques de fonctions appelées packages. Chaque bibliothèque contient des jeux de données. Pour connaître par exemple les jeux de données de la distribution de base, entrez l instruction suivante : data() En voici un extrait : airmiles Passenger Miles on Commercial US Airlines (1937-1960) airquality New York Air Quality Measurements anscombe Anscombe s Quartet of "Identical" Simple Linear Regressions attenu The Joyner-Boore Attenuation Data...... iris Edgar Anderson s Iris Data...... USArrests Violent Crime Rates by US State USJudgeRatings Lawyers Ratings of State Judges in the US Superior Court USPersonalExpenditure Personal Expenditure Data uspop Populations Recorded by the US Census VADeaths Death Rates in Virginia (1940) volcano Topographic Information on Auckland s Maunga Whau Volcano warpbreaks The Number of Breaks in Yarn during Weaving women Average Heights and Weights for American Women Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 4/17 Compilé le 2008-03-03

Notez la présence de iris. Pour analyser ces données, il faut les charger en mémoire à l aide de l instruction : data(iris) Il existe d autres procédés pour charger un jeu de données dans le logiciel mais ce n est pas l objet de ce travail. Exercice. Tapez une à une chacune des instructions ci-dessous et notez le résultat obtenu. Attention, le logiciel n est pas indifférent aux majuscules et aux minuscules. iris dim(iris) names(iris) iris$species iris$petal.length 5 Représentation des espèces d Iris La dernière colonne des données iris contient le nom des espèces réparties en trois catégories : setosa, versicolor et virginica. Pour accéder à celle-ci, il faut utiliser l instruction iris$species. On dit que la dernière colonne contient une variable qualitative à trois modalités appelées levels dans. La fonction levels() appliquée à la colonne iris$species donne les modalités de la variable : levels(iris$species) [1] "setosa" "versicolor" "virginica" Pour résumer l information contenue dans cette variable, on utilise l instruction summary() : summary(iris$species) setosa versicolor virginica 50 50 50 Cette information peut être obtenue en construisant un tableau (table()) comptabilisant le nombre d individus par modalité. Pour ce faire, tapez : table(iris$species) setosa versicolor virginica 50 50 50 et comparez avec le résultat précédent. Le logiciel permet de réaliser d excellents graphiques. Lorsqu une instruction graphique est lancée, une nouvelle fenêtre device est ouverte. Les représentations graphiques classique liées aux variables qualitatives sont la représentation en secteurs ou camembert (pie()), la représentation en bâtons (barplot()), et la représentation de Cleveland (dotchart()). Entrez les instructions suivantes : pie(table(iris$species)) Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 5/17 Compilé le 2008-03-03

setosa versicolor virginica barplot(table(iris$species)) 0 10 20 30 40 50 setosa versicolor virginica dotchart(table(iris$species)) Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 6/17 Compilé le 2008-03-03

virginica versicolor setosa 30 40 50 60 70 Il existe un paramètre permettant de découper la fenêtre graphique : par(mfrow = c(nl, nc)) ou par(mfcol = c(nl, nc)). nl définit le nombre de graphiques en lignes et nc définit le nombre de graphiques en colonnes. mfrow signifie que l ordre d entrée des graphiques s effectue selon les lignes et mfcol signifie que l ordre d entrée des graphiques s effectue selon les colonnes. Supposons que nous voulions représenter six graphiques dans une fenêtre en deux lignes et trois colonnes. 1 2 3 La première instruction conduit à entrer les graphiques selon l ordre : 4 5 6 La seconde instruction conduit à entrer les graphiques selon l ordre : 1 3 5 2 4 6 Exercice. Deux botanistes se sont également intéressés aux iris et ont collecté les espèces suivantes. collection1 <- rep(c("setosa", "versicolor", "virginica"), c(15, 19, 12)) collection2 <- rep(c("setosa", "versicolor", "virginica"), c(22, 27, 17)) En utilisant la commande par(mfrow = c(1, 2)), 1. construire les camemberts liés à ces deux nouvelles distributions et commenter ; Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 7/17 Compilé le 2008-03-03

setosa setosa versicolor versicolor virginica virginica 2. construire les représentations en bâtons de ces deux nouvelles distributions et commenter ; 0 5 10 15 0 5 10 15 20 25 setosa versicolor virginica setosa versicolor virginica 3. construire les représentations de Cleveland de ces deux nouvelles distributions et commenter ; Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 8/17 Compilé le 2008-03-03

virginica virginica versicolor versicolor setosa setosa 12 14 16 18 18 20 22 24 26 4. discuter des avantages et des inconvénients de ces trois types de représentations. 6 Représentation de la longueur du pétale La troisième colonne (Petal.Length) du jeu de données iris contient la longueur du pétale. Il s agit d une variable mesurée qualifiée alors de variable quantitative. Pour résumer l information contenue dans cette variable, on utilise la fonction summary() et on obtient le résultat : summary(iris$petal.length) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 1.600 4.350 3.758 5.100 6.900 La plus petite (Min) longueur de pétale est 1 cm tandis que la plus grande (Max) est 6.9 cm. La moyenne (Mean) représente la somme des valeurs de la distribution divisée par le nombre total d iris. Elle vaut 3.758 cm. Si l ensemble des 150 longueurs de pétale sont classées par ordre croissant, 1sr Qu., Median et 3rd Qu. sont les trois valeurs qui permettent de couper la distribution en quatre parties égales. On les appelle respectivement premier quartile, médiane (ou deuxième quartile) et troisième quartile. Exercice. Essayons de retrouver ces six valeurs de paramètres. min(iris$petal.length) [1] 1 max(iris$petal.length) [1] 6.9 sum(iris$petal.length) [1] 563.7 length(iris$petal.length) Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 9/17 Compilé le 2008-03-03

[1] 150 sum(iris$petal.length)/length(iris$petal.length) [1] 3.758 sort(iris$petal.length) [1] 1.0 1.1 1.2 1.2 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.4 1.4 1.4 1.4 1.4 1.4 1.4 1.4 1.4 [21] 1.4 1.4 1.4 1.4 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.6 1.6 1.6 [41] 1.6 1.6 1.6 1.6 1.7 1.7 1.7 1.7 1.9 1.9 3.0 3.3 3.3 3.5 3.5 3.6 3.7 3.8 3.9 3.9 [61] 3.9 4.0 4.0 4.0 4.0 4.0 4.1 4.1 4.1 4.2 4.2 4.2 4.2 4.3 4.3 4.4 4.4 4.4 4.4 4.5 [81] 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.6 4.6 4.6 4.7 4.7 4.7 4.7 4.7 4.8 4.8 4.8 4.8 4.9 [101] 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.0 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.2 5.2 5.3 5.3 [121] 5.4 5.4 5.5 5.5 5.5 5.6 5.6 5.6 5.6 5.6 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 6.0 [141] 6.0 6.1 6.1 6.1 6.3 6.4 6.6 6.7 6.7 6.9 ordlpetal <- sort(iris$petal.length) ordlpetal [1] 1.0 1.1 1.2 1.2 1.3 1.3 1.3 1.3 1.3 1.3 1.3 1.4 1.4 1.4 1.4 1.4 1.4 1.4 1.4 1.4 [21] 1.4 1.4 1.4 1.4 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.6 1.6 1.6 [41] 1.6 1.6 1.6 1.6 1.7 1.7 1.7 1.7 1.9 1.9 3.0 3.3 3.3 3.5 3.5 3.6 3.7 3.8 3.9 3.9 [61] 3.9 4.0 4.0 4.0 4.0 4.0 4.1 4.1 4.1 4.2 4.2 4.2 4.2 4.3 4.3 4.4 4.4 4.4 4.4 4.5 [81] 4.5 4.5 4.5 4.5 4.5 4.5 4.5 4.6 4.6 4.6 4.7 4.7 4.7 4.7 4.7 4.8 4.8 4.8 4.8 4.9 [101] 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.0 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.1 5.2 5.2 5.3 5.3 [121] 5.4 5.4 5.5 5.5 5.5 5.6 5.6 5.6 5.6 5.6 5.6 5.7 5.7 5.7 5.8 5.8 5.8 5.9 5.9 6.0 [141] 6.0 6.1 6.1 6.1 6.3 6.4 6.6 6.7 6.7 6.9 sum(ordlpetal)/length(ordlpetal) [1] 3.758 ordlpetal[38] [1] 1.6 (ordlpetal[75] + ordlpetal[76])/2 [1] 4.35 ordlpetal[113] [1] 5.1 Une des représentations adéquates est l histogramme (hist()) : hist(iris$petal.length, col = grey(0.6), main = "Histogramme") Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 10/17 Compilé le 2008-03-03

Histogramme Frequency 0 10 20 30 iris$petal.length Exercice. Réaliser le même type d analyse sur chacune des autres variables quantitatives : largeur du pétale, longueur du sépale et largeur du sépale. Notez que vous n avez pas toutes les instructions à réécrire en utilisant le système de flèches du clavier. et vous permettent de retrouver les fonctions que vous avez utilisées. et vous permettent de vous déplacer dans la fonction et donc, d en changer certains paramètres. 7 Représentation de la longueur et de la largeur du pétale Une fois réalisés les graphiques pour chaque variable prise séparément, l étude peut porter sur la relation entre deux variables. On parle de croisement de deux variables ou d étude bivariée. La représentation graphique liant deux variables quantitatives est le nuage de points. Représentons par exemple la longueur et la largeur du pétale pour les 150 iris contenus dans le fichier de données. Commentaire. plot(iris$petal.length, iris$petal.width, xlab = "Longueur du\npetale", ylab = "Largeur du petale", main = "Nuage de points", pch = 20) Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 11/17 Compilé le 2008-03-03

0.5 1.0 1.5 2.0 2.5 Nuage de points Longueur du petale Largeur du petale Dans cette représentation graphique, plusieurs individus peuvent être situés sur un même point. La fonction sunflowerplot() permet de visualiser ces superpositions. sunflowerplot(iris$petal.length, iris$petal.width, xlab = "Longueur du petale", ylab = "Largeur du petale", main = "Nuage\nde points", pch = 20) 0.5 1.0 1.5 2.0 2.5 Nuage de points Longueur du petale Largeur du petale Quand le nombre de points devient trop important, on peut alors représenter la densité des points au lieu des points eux-même, par exemple : library(mass) densite <- kde2d(iris$petal.length, iris$petal.width) filled.contour(densite, color = topo.colors, xlab = "Longueur du petale", ylab = "Largeur du petale") Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 12/17 Compilé le 2008-03-03

2.5 2.0 0.20 Largeur du petale 1.5 1.0 0.15 0.10 0.5 0.05 1 2 3 4 5 6 0.00 Longueur du petale Exercice. Réaliser l étude du croisement de deux variables quantitatives de votre choix. Il est clair que le sens biologique de l étude ne doit pas être négligé. 8 Représentation de la longueur du pétale selon les différentes espèces La représentation graphique permettant de lier une variable qualitative et une variable quantitative est la boîte à moustaches (boxplot()). Représentons par exemple la longueur des pétales en fonction de l espèce. Commentaire. boxplot(iris$petal.length ~ iris$species, col = grey(0.6)) setosa versicolor virginica Exercice. Choisissez une autre variable quantitative, croisez-la avec la variable espèce d iris et commentez. Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 13/17 Compilé le 2008-03-03

9 Pour aller plus loin... Le nuage de points comme les boîtes à moustaches montrent que les données morphologiques des iris semblent liées à l espèce. Il pourrait donc être intéressant de réaliser des graphiques différents pour chacune des modalités I. setosa, I. versicolor et I. virginica ou de superposer l information espèce dans le graphique des nuages de points. Nous vous proposons ici quelques développements. Libre à vous, de les refaire ou d en trouver d autres... summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100 setosa :50 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300 versicolor:50 Median :5.800 Median :3.000 Median :4.350 Median :1.300 virginica :50 Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 par(mfrow = c(2, 2)) brk = seq(from = 0, to = 8, length = 20) hist(iris$petal.length, main = "Ensemble des 150 iris", xlab = "Longueur du petale", breaks = brk) hist(iris$petal.length[iris$species == "setosa"], main = "Setosa", xlab = "Longueur du petale", breaks = brk) hist(iris$petal.length[iris$species == "versicolor"], main = "Versicolor", xlab = "Longueur du petale", breaks = brk) hist(iris$petal.length[iris$species == "virginica"], main = "Virginica", xlab = "Longueur du petale", breaks = brk) Ensemble des 150 iris Setosa Frequency 0 10 20 30 40 Frequency 0 10 20 30 40 0 2 4 6 8 Longueur du petale 0 2 4 6 8 Longueur du petale Versicolor Virginica Frequency 0 5 10 15 Frequency 0 5 10 15 0 2 4 6 8 Longueur du petale 0 2 4 6 8 Longueur du petale Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 14/17 Compilé le 2008-03-03

par(mfrow = c(2, 2)) plot(iris$petal.length, iris$petal.width, xlab = "Longueur du petale", ylab = "Largeur du petale", main = "Nuage de points", pch = 20) plot(iris$petal.length[iris$species == "setosa"], iris$petal.width[iris$species == "setosa"], xlim = c(1, 6.9), ylim = c(0.1, 2.5), xlab = "", ylab = "", main = "iris setosa", pch = 20) plot(iris$petal.length[iris$species == "versicolor"], iris$petal.width[iris$species == "versicolor"], xlim = c(1, 6.9), ylim = c(0.1, 2.5), xlab = "", ylab = "", main = "iris\nversicolor", pch = 20) plot(iris$petal.length[iris$species == "virginica"], iris$petal.width[iris$species == "virginica"], xlim = c(1, 6.9), ylim = c(0.1, 2.5), xlab = "", ylab = "", main = "iris virginica", pch = 20) 0.5 1.0 1.5 2.0 2.5 Nuage de points Longueur du petale Largeur du petale 0.5 1.0 1.5 2.0 2.5 iris setosa 0.5 1.0 1.5 2.0 2.5 iris versicolor 0.5 1.0 1.5 2.0 2.5 iris virginica spiris <- unclass(iris$species) pairs(iris[1:4], main = "Les iris de Fisher -- 3 especes", pch = c(21, 25, 24)[spiris], bg = c("red", "green3", "blue")[spiris], las = 1, gap = 0, labels = c("longueur\nsepale", "Largeur\nSepale", "Longueur\nPetale", "Largeur\nPetale")) Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 15/17 Compilé le 2008-03-03

Les iris de Fisher 3 especes 2.0 3.0 4.0 0.5 1.5 2.5 4.0 3.5 3.0 2.5 2.0 2.5 Longueur Sepale Largeur Sepale Longueur Petale 8.0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 7 6 5 4 3 2 1 2.0 1.5 1.0 0.5 Largeur Petale 4.5 5.5 6.5 7.5 En guise de conclusion, soulignons le fait que les représentations graphiques sont une étape fondamentale dans la connaissance des données et que le logiciel est un excellent outil. Les représentations graphiques sont là pour éclairer la nature des données et non pour souligner votre côté artistique. Chaque information ajoutée à un graphe, comme par exemple une couleur, doit contribuer à cet éclairage. Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 16/17 Compilé le 2008-03-03

Références [1] Anderson E. The irises of the Gaspe Peninsula. Bulletin of the American Iris Society, 59 :2 5, 1935. [2] R.A. Fisher. The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2) :179 188, 1936. Logiciel R version 2.6.1 (2007-11-26) bs01.rnw Page 17/17 Compilé le 2008-03-03