Statistiques descriptives avec le logiciel R



Documents pareils
TP1 : Initiation à l algorithmique (1 séance)

pas à pas prise en main du logiciel Le Cloud d Orange - Transfert de fichiers sur PC et MAC Le Cloud

TP1 - Prise en main de l environnement Unix.

TP 1 Prise en main de l environnement Unix

HTTP Commander. Table des matières. 1-Présentation de HTTP Commander

CAPTURE DES PROFESSIONNELS

1) Installation de Dev-C++ Téléchargez le fichier devcpp4990setup.exe dans un répertoire de votre PC, puis double-cliquez dessus :

Economies d énergie par GPO

Utiliser Dev-C++ .1Installation de Dev-C++ Table des matières

Procédure d installation de mexi backup

Guide de correction et d optimisation des images en vue de leur publication sous Marcomedia Contribute. Logiciel utilisé : Adobe PhotoShop 7

Utilisation de l outil lié à MBKSTR 9

Installation du logiciel Windows Suivant Démarrer Tous les programmes Démarrer Tous les programmes Marketing Manager Marketing Manager Linux ici Mac

1 Introduction - Qu est-ce que le logiciel R?

Création, analyse de questionnaires et d'entretiens pour Windows 2008, 7, 8 et MacOs 10

Installation et utilisation de Cobian Backup 8

Guide d installation CLX.PayMaker Office (3PC)

Édu-groupe - Version 4.3

USTL - Licence ST-A 1ère année Initiation à la programmation TP 1

Netstorage et Netdrive pour accéder à ses données par Internet

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Witbox. Manuel de Repetier-Host. Witbox

Installation du transfert de fichier sécurisé sur le serveur orphanet

Utilisation d une tablette numérique

AVEC LIVE TRADER, VISEZ PLUS HAUT POUR VOS INVESTISSEMENTS

Prise en main. août 2014

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Atelier Le gestionnaire de fichier

Affectation standard Affectation modifiée (exemple)

Internet Marketing Manager

Procédure d installation détaillée

Gestion des documents avec ALFRESCO

Guide d utilisation 2012

Authentification unique Eurécia

Déclarer un serveur MySQL dans l annuaire LDAP. Associer un utilisateur DiaClientSQL à son compte Windows (SSO)

PRONOTE 2010 hébergement

Document d accompagnement pour l utilisation du Cartable en ligne Lycée des Métiers Fernand LÉGER 2013/2014

Guide de l utilisateur Mikogo Version Windows

1 - Se connecter au Cartable en ligne

Groupe Eyrolles, 2003, ISBN : X

Présentation du logiciel Cobian Backup

SOMMAIRE GUIDE D UTILISATION DU WEBMAIL. vous guide

0.1 Mail & News : Thunderbird

Réglages du portail de P&WC

TP01: Installation de Windows Server 2012

ESPACE COLLABORATIF. L Espace Collaboratif : votre espace de partage entre acteurs régionaux

Direction générale statistique et information économique. Manuel d usage : l application web pour l enquête sur la structure des entreprises

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

HAYLEM Technologies Inc.

Pré-requis de création de bureaux AppliDis VDI

Utilisation du site de retours Lexibook

Modification d une feuille de style

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Chapitre 1 Windows Server

FileMaker Server 14. Guide de démarrage

INSTALLATION DE L AGENT CT EASY BACKUP LAN REV 1.0/

Guide de l utilisateur Communauté virtuelle de pratique en gestion intégrée des risques

Le Registre sous Windows 8 architecture, administration, script, réparation...

WinTask x64 Le Planificateur de tâches sous Windows 7 64 bits, Windows 8/ bits, Windows 2008 R2 et Windows bits

Ecran principal à l ouverture du logiciel

Groupes et utilisateurs locaux avec Windows XP

Connecteur Zimbra pour Outlook 2007 et 2010 (ZCO) w

Securitoo Mobile guide d installation

Mode d emploi Télésauvegarde de données SecureSafe

La Clé informatique. Formation Excel XP Aide-mémoire

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Comment réaliser une capture d écran dans Word. Alors comment ouvrir une page Word?

Le Logiciel de Facturation ultra simplifié spécial Auto-Entrepreneur

Réglages du module de sauvegarde de Biblionet (Monoposte)

Espace Client Aide au démarrage

Introduction au protocole FTP. Guy Labasse

GUIDE D UTILISATION 1

Sauvegarder automatiquement sa clé USB

< Atelier 1 /> Démarrer une application web

Universal Robots. Fiche Méthode : Installation du simulateur Polyscope

guide d utilisation de showtime

Guide d installation du logiciel Proteus V.8 Sous Windows Vista, 7, 8

TP 1 : prise en main de Windows. TP 1 : prise en main de Windows

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Organiser le disque dur Dossiers Fichiers

ANNEXE 8 : Le Mailing

MANUEL UTILISATEUR SOPISAFE V 3.5

Manuel KBC-Online Local

I) INTRODUCTION... 3 II) ENREGISTREMENT DE SON TYROS

UserLock Guide de Démarrage rapide. Version 8.5

Logiciel DELF-DALF - Mise à jour vers la version (septembre 2014)

Guide de l utilisateur Usagers d œuvres

Enregistrement de votre Géorando Maxi Liberté

Facebook. Pour une organisation ou une entreprise!

1. Utilisation du logiciel Keepass

Sauvegardes par Internet avec Rsync

MO-Call pour les Ordinateurs. Guide de l utilisateur

L informatique en BCPST

Installation et prise en main

ENVOI EN NOMBRE DE MESSAGES AUDIO

USTL - Licence ST-A 1ère année Codage de l information TP 1 :

Configuration du nouveau Bureau Virtuel (BV) collaboratif de Lyon I

Créer et partager des fichiers

Transcription:

Statistiques descriptives avec le logiciel R Ce que vous devez savoir faire à la fin de la séance À l issue de ce TP, vous devrez être capable de : importer des données sous R utiliser R pour calculer des statistiques descriptives et faire des représentations graphiques uni- et bi-variées pour des variables quantitatives et qualitatives interpréter les résultats d une étude descriptive 1 Données et objectifs statistiques Dans ce TP, nous travaillerons sur les données issues d une étude sur la taille des cerveaux de chauve-souris, présentée dans [Hutcheon et al., 2002]. Dans cette étude, les variables descriptives des chauve-souris sont : Species : l espèce, Diet : le régime alimentaire (1 : phytophage, 2 : glaneur, 3 : insectivore, 4 : vampire), BOW : la masse corporelle (g), BRW : la masse du cerveau (mg), AUD, MOB, HIP : les volumes de différentes régions du cerveau (mm 3 ). L objectif de ce TP est de faire une étude descriptive détaillée de cet échantillon. Nous nous concentrerons plus particulièrement sur les variables Diet, BOW, BRW, dans l idée de décrire les liaisons entre régime alimentaire, masse corporelle et masse du cerveau. 2 Présentation du logiciel R 2.1 Généralités R est un logiciel de calcul statistique qui peut être téléchargé gratuitement à l adresse suivante http://www.r-project.org/ et installé sous windows, unix ou MacOS. Il est constitué d un noyau de base et de multiples packages développés et mis à disposition de tous par des utilisateurs. Le logiciel RStudio, qui peut lui aussi être téléchargé gratuitement à l adresse suivante http: //rstudio.org/, fournit une interface graphique très conviviale. En TP, nous travaillerons exclusivement sous RStudio. L interface de RStudio est divisée en plusieurs fenêtres : 1. l éditeur, en haut à gauche, qui permet d écrire du code et de le sauvegarder, 2. la console, en bas à gauche, qui sert à exécuter le code. C est aussi dans cette fenêtre qu apparaîtront les résultats des analyses statistiques exécutées, 1

3. une fenêtre en haut à droite qui contient l espace de travail et l historique des commandes, 4. une fenêtre en bas à droite qui regroupe les onglets Files-Plots-Packages-View. 2.2 L éditeur L éditeur disponible dans RStudio permet d écrire le code et de le sauvegarder dans un fichier texte. Cela est particulièrement utile pour y apporter des corrections, pour conserver une trace de vos travaux et relancer des programmes en cas d interruption de RStudio. Si l éditeur n apparaît pas à l ouverture de RStudio, on peut le créer à partir du menu File - New File - R Script. Pour sauvegarder le contenu de l éditeur, on suivra le chemin suivant dans le menu : File - Save as. Nous vous conseillons vivement de toujours écrire vos instructions dans l éditeur avant de les exécuter dans la console et d enregistrer le contenu de l éditeur régulièrement pendant le TP. 3 Travail sur les données 3.1 Importation des données 3.1.1 Données 1. Les données sont disponibles sous la forme d un fichier texte bats.txt. Pour le récupérer, il faut se rendre sur le site Web https://tice.agroparistech.fr/coursenligne/index.php, sélectionner le cours Statistiques MSTVE puis le fichier bats.txt en cliquant sur la petite flèche verte correspondante et Enregistrer le fichier. 2

Il est fortement déconseillé d enregistrer le fichier après l avoir ouvert dans le navigateur Web car cela modifie l encodage du fichier et perturbe le bon fonctionnement de la procédure d import des données. 2. Une fois le fichier bats.txt enregistré dans un répertoire de votre choix, ouvrez-le avec WordPad ou le Bloc-notes. Vous remarquerez que le fichier est organisé en lignes et colonnes, où chaque ligne représente un individu et chaque colonne une variable. Fermez le fichier. 3.1.2 Répertoire de travail Il est pratique de se placer dans un répertoire de travail où se trouvent les données et où seront sauvegardés les résultats et les fichiers de programme. Le choix du répertoire peut se faire à partir du menu Session - Set working directory - choose directory. 3 Spécifiez dans R votre répertoire de travail. 3.2 Importation R ne sait pas travailler sur le fichier texte initial. Il est nécessaire d importer les données du fichier texte dans un tableau de données au format R avant de démarrer l analyse. 4 Chargez les données dans la variable tab à l aide de la commande tab <- read.table("bats.txt",header=t) Pour cela, placez vous dans l éditeur et écrivez-y l instruction. Pour l exécuter, sélectionnez la commande, puis presser simultanément les touches Ctrl et Entree du clavier. R n est pas indifférent aux majuscules et minuscules! 3.3 Vérification du bon déroulement de l importation Vérifions maintenant le bon déroulement de l importation du jeu de données. 5 Exécutez successivement les commandes tab, head(tab) et str(tab). Qu obtenez-vous dans chacun des trois cas? 6 En examinant la structure du fichier bats.txt et de l objet tab dans R, quel est à votre avis le rôle de l option header=t dans l instruction d import des données read.table? Vous pourrez également trouver cette information dans l aide de R en exécutant la commande help(read.table) 3

7 Combien y a-t-il d observations (lignes) et combien y a-t-il de variables (colonnes) dans tab? 8 Quels sont le nom et la nature des variables dans tab (qualitative ou quantitative)? Dans le cas de variables qualitatives, précisez le nombre de modalités. 9 Vous paraît-il normal que la variable Diet soit quantitative? 10 Exécutez la commande tab$diet = as.factor(tab$diet) Quelle est la différence avec les données d origine? Pour répondre à cette question, vous pourrez vous servir de l instruction str(). 11 Que se passe-t-il si vous exécutez l instruction Diet? l instruction tab$diet? Notez que le signe $ dans tab$diet permet d accéder à la variable Diet de l objet tab. Vous procéderez de même pour travailler sur l ensemble des autres variables de tab. 3.4 Statistique descriptive univariée 12 Rappelez la nature de la variable BOW. À votre avis, quels outils statistiques sont pertinents pour décrire cette variable? 13 Pour obtenir un résumé de l information contenue dans la variable BOW, exécutez les instructions : 4

(a) summary(tab$bow) (b) sd(tab$bow) (c) min(tab$bow) (d) max(tab$bow) (e) mean(tab$bow) À quel type d information ces différentes fonctions permettent-elles d accéder? 14 Commentez les résultats obtenus. 15 On donne ensuite une représentation graphique de la variable BOW à l aide de l instruction : boxplot(tab$bow) (a) Quel est le nom d un tel graphique? (b) Que représentent les différentes composantes de ce graphique? (c) Commentez l allure du graphique obtenu. 16 Une autre représentation graphique pertinente de la variable BOW est donnée par l instruction hist(tab$bow) (a) Quel est le nom d un tel graphique et que représente-t-il? 5

(b) Commentez son allure. 17 Rappelez la nature de la variable Diet. Quel(s) outil(s) de statistique descriptive vous paraît(paraissent) adapté(s) pour décrire la variable Diet? 18 Exécutez l instruction summary(tab$diet) Quel résultat cela donne-t-il et pourquoi est-il différent du résultat obtenu avec la même fonction sur la variable BOW? Un résultat équivalent peut être obtenu avec l instruction table(tab$diet) 19 Quelques descriptions graphiques de la variable Diet peuvent être obtenues avec les instructions : (a) barplot(table(tab$diet)) (b) pie(table(tab$diet)) Commentez les graphiques obtenus. 3.5 Statistique descriptive bivariée 20 On souhaite décrire la relation entre la masse corporelle et la masse du cerveau (les variables BOW et BRW). (a) Rappelez la nature de ces deux variables. 6

(b) Quel type de graphique vous paraît le plus adapté à cette étude? (c) Exécutez l instruction plot(tab$bow~tab$brw) et commentez. 21 On cherche maintenant à étudier le lien entre la masse corporelle et l alimentation des chauvesouris. (a) Rappelez la nature de ces deux variables. (b) Que renvoie l instruction suivante? by(tab$bow,tab$diet,mean) Complétez cette étude descriptive bivariée en utilisant d autres caractéristiques de position et de dispersion. (c) Une représentation graphique adéquate est donnée par l instruction : boxplot(tab$bow~tab$diet) Expliquez ce que représente ce graphique et commentez-le. 4 Travail personnel Faire une étude descriptive complète, uni- et bi-variée, de l ensemble des variables du jeu de données étudié dans ce TP. 7

Références Hutcheon, J. M., Kirsch, J. A. W., and Garland, T. (2002). A Comparative Analysis of Brain Size in Relation to Foraging Ecology and Phylogeny in the Chiroptera. Brain, Behavior and Evolution, 60(3) :165-180. 8