1 Installation. 2 Aide. 3 Scripts. 4 Lecture de données. Introduction à R



Documents pareils
Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

1 Introduction - Qu est-ce que le logiciel R?

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Les concepts de base, l organisation des données

SEMIN. Données sous R : stockage et échange. Julio PEDRAZA ACOSTA

Initiation au logiciel R

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

INTRODUCTION AU LOGICIEL R

Initiation à LabView : Les exemples d applications :

Lire ; Compter ; Tester... avec R

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Gestion des données avec R

R00 Installation du logiciel R sous Windows

Fiche n 14 : Import / Export avec PlanningPME

Séance 0 : Linux + Octave : le compromis idéal

TD d économétrie appliquée : Introduction à STATA

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Introduction à MATLAB R

Package TestsFaciles

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Aide - mémoire gnuplot 4.0

1. Structure d'un programme FORTRAN 95

Introduction aux Statistiques et à l utilisation du logiciel R

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Initiation à l analyse en composantes principales

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

Guide informatique AUDIT EVALUATION DE LA PRATIQUE DE L ANTIBIOPROPHYLAXIE EN MATERNITE

1 Modélisation d être mauvais payeur

R01 Import de données

3.2. Matlab/Simulink Généralités


Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

GUIDE D UTILISATION DU BROWSER DE BEYOND 20/20

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Création d un formulaire de contact Procédure

26 Centre de Sécurité et de

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

Plan du cours Cours théoriques. 29 septembre 2014

Annexe commune aux séries ES, L et S : boîtes et quantiles

Introduction : L accès à Estra et à votre propre espace Connexion Votre espace personnel... 5

EndNote Web. Quick Reference Card THOMSON SCIENTIFIC

Affectation standard Affectation modifiée (exemple)

SAUVEGARDER SES DONNEES PERSONNELLES

Guide d installation du logiciel Proteus V.8 Sous Windows Vista, 7, 8

Utilisation avancée de SugarCRM Version Professional 6.5

Securexam Consignes pour l EFU Les 2, 3 et 4 juin 2015

Exemples d Analyses de Variance avec R

Introduction à la présentation graphique avec xmgrace

Bienvenue à l historien virtuel 2.0

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

Exporter des écritures. Importer des écritures. Depuis EBP Comptabilité.

Calcul Formel et Numérique, Partie I

AWS avancé. Surveiller votre utilisation d EC2

DE MODIFICATION PROCEDURE ELYXBADGE APPLICATION. PI Électronique Restobadge

MISE AU POINT FINANCIÈRE GUIDE DE L UTILISATEUR. Le logiciel MISE AU POINT FINANCIÈRE est offert sous licence par EquiSoft.

TP1 : Initiation à l algorithmique (1 séance)

Guide pour le bon fonctionnement des applications académiques avec Internet Explorer 7.x

MO-Call pour les Ordinateurs. Guide de l utilisateur

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

Installation d un ordinateur avec reprise des données

Commencer avec Allplan Exchange. Nemetschek Allplan Systems GmbH, Munich. All rights reserved. Enregistrement

ZOTERO Un outil gratuit de gestion de bibliographies

FICHIERS ET DOSSIERS

Organiser le disque dur Dossiers Fichiers

Créer et partager des fichiers

Utilisez Toucan portable pour vos sauvegardes

Logiciel ArpentGIS-PC Guide de l utilisateur

Gestion des documents avec ALFRESCO

Cartographie Informatique Eclairage Public

La Clé informatique. Formation Excel XP Aide-mémoire

Utilisation du Logiciel de statistique SPSS 8.0

Créer un fichier PDF/A DÉPÔT ÉLECTRONIQUE

Gestion des Factures

Utiliser un tableau de données

Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0

PRISE EN MAIN D UN TABLEUR. Version OPEN OFFICE

iil est désormais courant de trouver sur Internet un document

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

FACTURATION. Menu. Fonctionnement. Allez dans le menu «Gestion» puis «Facturation» 1 Descriptif du dossier (onglet Facturation)

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

Windows Internet Name Service (WINS)

TD de supervision. J.P. Chemla. Polytech Tours Département productique 2ème année

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Préparez la rentrée!

Édu-groupe - Version 4.3

Tutorial Terminal Server sous

GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e

FileMaker Pro 12. Didacticiel

Access 2010 Entraînement 1 Garage Renault Dossier 24 MCD

Groupe Eyrolles, 2003, ISBN : X

Thème : Gestion commerciale

Utiliser Dev-C++ .1Installation de Dev-C++ Table des matières

Transcription:

Introduction à R R est un logiciel libre de calcul statistique basé sur un environnement orienté objet et sur le langage de programmation S. Il est constitué d un noyau de base et de multiples packages développés et mis à disposition de tous par des utilisateurs. Dans sa version de base il est utilisable en mode commande, mais plusieurs packages fournissent un mode interfacé. De nombreuses introductions, documentations et tutoriaux sont disponibles en français et en anglais sur internet. 1 Installation Télécharger R sur le site http://www.r-project.org/ (Download, CRAN, mirror, Windows, base, R-nnn-win.exe) et procéder à l installation. Télécharger et installer Rstudio (RStudio.org). Ouvrir Rstudio. En version de base, seuls quelques packages les plus courants sont disponibles. Pour des analyses plus spécialisées on peut avoir accès aux fonctions d autres packages. Pour cela il faut les charger s ils ont déjà été installés, ou les installer sinon (onglet Packages dans la fenêtre en bas à gauche). 2 Aide R possède une aide très sophistiquée, accessible par l onglet Help dans la fenêtre en bas à gauche. Les exemples proposés à la fin de la description des fonctions aident beaucoup en général à comprendre leur fonctionnement. 3 Scripts R marche en mode commande mais la plupart du temps pour des programmes un peu longs on utilise un fichier script. Pour créer un nouveau script ou en ouvrir un nouveau on utilise l éditeur disponible dans la fenêtre en haut à droite. On peut exécuter une commande de cette fenêtre en plaçant le curseur sur la ligne et en cliquant sur le bouton Run, ou un groupe de commandes en les surlignant et en cliquant sur le bouton Run. 4 Lecture de données Copier le fichier Promo-Agro93.xls dans votre répertoire de travail. Le convertir en fichier txt (séparateur tab) et csv (séparateur ; ). Sous R il faut d abord se placer dans le répertoire de trvail setwd( N:/Monrepertoire/TDStat/ ) Lecture des fichiers : AGRO = read.csv( Promo-Agro93.csv,header=TRUE,sep= ; ) names(agro) AGRO = read.table( Promo-Agro93.txt,skip=1) names(agro) = c( Date, Promo, Taille, Poids, Pointure, Age, Sexe ) 1

Affichage des données AGRO AGRO$Age attach(agro);age Attention : éviter d attacher plusieurs fois de suite un tableau de données. Pour détacher les données detach(agro) 5 Objets R travaille avec des objets. Les données, les graphiques, les fonctions, les résultats d analyse sont des objets. Les objets les plus courants sont : vector vecteur composé d une seule variable data.frame tableau de données. Il contient le nom des variables. list liste d objet, généralement le résultat d une analyse. Chaque élément de la liste est accessible en tapant le nom de la liste suivi du symbole $ et du nom de l élément. La plupart des objets ont un attribut de classe. Les plus courants sont numeric, logical, integer, factor, character, data.frame,... objects() class(agro) class(sexe) class(pointure) class(pointure/10) 6 Langage de commandes 6.1 Opérateurs Opérateurs mathématiques : +,, /,,ˆ Poids/(Taille/100)^2 Opérateurs logiques : & (et), (ou),! (négation), == (identité) (Poids < 50) & (Sexe == M ) Fonctions mathématiques : sqrt(), log(), exp(),... sqrt(poids) Fonctions statistiques : min(), max(), sum(), mean(), var(), median(), range(), order(),... mean(poids) var(poids) min(age) range(age) summary(agro) sort(taille) 2

Opérations vectorielles : concaténation éléments : c(), colonnes : cbind(), lignes : rbind() c(3,5,-1) cbind(poids,taille,poids/(taille/100)^2) extraction vec[i], mat[i, j], mat[, j] Poids[9] Poids[Sexe== F ] AGRO[5,2] AGRO[,5] AGRO[Promo==1994,5] suppression vec[ i] AGRO[,-5] multiplication matricielle % % (i : ligne, j : colonne) fonctions sur des colonnes d un tableau : apply(tab,2,fun), sur les lignes : apply(tab,1,fun) apply(agro[,3:6],2,max) tapply(taille,sexe,mean) 6.2 Création de variables Au départ R utilisait les symboles < pour l affectation. Mais les versions récentes admettent également le symbole = pour l affectation. IMC <- Poids/(Taille/100)^2 IMC = Poids/(Taille/100)^2 Le résultat n est plus affiché. Pour le visualiser il suffit de taper son nom, ou d utiliser la fonction print. IMC print(imc) 6.3 Fonctions Une fonction associe un objet (la sortie) à un ensemble d objets (les arguments d entrée). Les arguments d entrée peuvent être définis par défaut. Ils sont associés à un nom générique qui peut être omis si l ordre des arguments est celui de la définition. L objet en sortie est le plus souvent une liste. La description des fonctions de R est accessible par l aide en ligne en tapant?nomdelafonction.?seq seq(1,10) seq(to=10,from=1,by=1) seq(to=10,from=1,l=10) seq(1,10,2) seq(1,10,l=5) tri = sort(taille, index.return=true) tri$x;tri$ix 3

6.4 programmation Boucles et tests boucles tests for (indices in vecindices){ instructions } while (condition) { instructions } if (condition){ instructions } else { instructions } fonction sortie = function(arg1=defaut1,arg2=defaut2,...){ instructions return(sortie) } fimc = function(pds,taille){ vmessage=c( Denutrition, Maigreur, Normal, Surpoids, Obesite moderee, Obesite severe, Obesite massive ) seuils = c(16.5,18.5,25,30,35,40) imc = pds/(taille/100)^2 indmes = findinterval(imc,seuils) IMCres = list(imc=imc,message=vmessage[indmes+1]) return(imcres) } fimc(poids,taille);fimc(58,165) 7 Graphiques Le graphique de base est obtenu par la fonction plot(x,y) qui admet de multiples options. plot(taille, Poids) couleur = rep( blue,length(taille)) couleur[sexe == F ]= deeppink plot(taille, Poids, pch=20, cex=0.8, col=couleur, xlab= Taille (cm), ylab= Poids (Kg), main= Promos 94, 95 et 96 ) legend( topleft,legend=c( Garcons, Filles ),pch=20,col=c( blue, deeppink ), cex=1.2) x=seq(150,205);y=x-110 lines(x,y,lwd=2) points(mean(taille),mean(poids),cex=1.5,pch=20) text(175,90,"garçons") text(155,60,"filles") 8 Sauvegarde R propose à la fin de chaque session de sauvegarder tout l espace de travail. Celui-ci est en général énorme et contient beaucoup d objets intermédiaires inutiles. Pour sauvegarder uniquement quelques objets, utiliser la fonction save(). Pour charger les données sauvegardées utiliser la fonction load(). 4

save(taille,poids,imc,file= sauve.res ) rm(imc); IMC; load( sauve.res ); IMC Pour sauvegarder un tableau de donnéees au format ASCII utiliser la fonction write.table() tab = cbind(sexe,round(imc,2)) write.table(tab,file= IMC.txt,quote=FALSE,row.names=FALSE,col.names=c( Sexe, IMC )) Pour sauvegarder un graphique on peut utiliser le menu de la fenêtre graphique (fichier,sauver sous). 9 Distributions et simulations R donne les lois de probabilités, les quantiles et permet la simulation de nombreuses distributions. Si nomloi est le nom de la loi (par exemple norm pour normale, binom pour binomiale...) les fonctions qnomloi(), pnomloi(), dnomloi(), rnomloi() donnent les quantiles, la fonction de réparition, la densité, et des simulations de la loi nomloi. qnorm(0.95) pnorm(1.96) # simulation d une loi exponentielle #----------------------------------- n = 100 u = rexp(n) hist(u,probability=true) x=seq(0,5,0.1) y = dexp(x) lines(x,y,col= red ) 10 Régression et ANOVA La fonction de base pour le modèle linéaire est lm(formula,...) (pour Linear Model). Mais il en existe d autres telles que aov() pour Analysis Of Variance, glm() pour Generalized Linear Model. formula décrit le modèle sous la forme avec les conventions suivantes : V 1 + V 2 : pas d interaction, V 1 : V 2 interaction de V1 et V2, V 1 V 2 = V 1 + V 2 + V 1 : V 2. variable expliquée variables explicatives boxplot(taille ~ Sexe) cor(taille,poids) cor(taille[sexe== F ],Poids[Sexe== F ]) cor(agro[,3:6]) pairs(agro) # test d egalite #--------------- 5

var.test(taille~sexe) t.test(taille~sexe) t.test(taille~sexe,var.equal=true) # Regression Poids sur Taille #---------------------------- regressionf = lm(poids ~Taille,subset = Sexe== F ) summary(regressionf) opar = par(mfrow = c(2,2), oma = c(0, 0, 1.1, 0)) plot(regressionf) par(opar) newtaille = data.frame(taille=seq(140,185,5)) predicf = predict(regressionf,newtaille,interval= prediction ) plot(taille[sexe== F ],Poids[Sexe== F ],pch=19, main= Intervalles de prediction,xlab= Taille (cm),ylab= Poids (Kg) ) matplot(newtaille$taille,predicf,add=true,lty=c(1,2,2),type= l ) # Regression multiple #-------------------- cor(agro[sexe== F,3:6]) regmultf = lm(poids ~ Taille + Pointure + Age, subset=sexe== F ) summary(regmultf) plot(regmultf) # Analyse de la variance #----------------------- ClAge = Age ClAge[Age>=25]=25 ClAge = as.factor(clage) table(sexe,clage) AnovaF = lm(poids ~ Sexe*ClAge) summary(anovaf) anova(anovaf) # Analyse de la covariance #------------------------- Anaco = lm(poids ~ Sexe*Taille) summary(anaco) anova(anaco) 6