INTRODUCTION AU LOGICIEL R

Transcription

1 INTRODUCTION AU LOGICIEL R 2., lois de probabilité. Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 E. Comets (UMR738) Introduction à R - Novembre / 46

2 Plan Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Moyenne et variance Corrélation et covariance Quantiles Exercice Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques E. Comets (UMR738) Introduction à R - Novembre / 46

3 Remise en jambe (1) Dataframe 1 À l aide des fonctions rep, seq et c seulement, générer les séquences suivantes : a) b) c) d) e) f) g) Générer les suites de nombres suivantes à l aide des fonctions : et rep seulement, donc sans utiliser la fonction seq : a) b) c) d) e) E. Comets (UMR738) Introduction à R - Novembre / 46

4 Remise en jambe (2) Dataframe 3 Reprendre la séquence (d) précédente remplacer toutes les valeurs négatives par NA compter le nombre de valeurs NA remplacer les valeurs négatives par -10 E. Comets (UMR738) Introduction à R - Novembre / 46

5 Remise en jambe (3) Dataframe 4 Soit la matrice : x<-matrix(1:120,ncol=12) Affichez toutes les lignes de la matrice commençant par un nombre pair Affichez toutes les lignes de la matrice dont la moyenne est inférieure à 60 Affichez toutes les colonnes de la matrice dont la somme est inférieure à 500 Sélectionnez la sous-matrice formée des lignes de la matrice dont la moyenne est inférieure à 60 et des colonnes dont la somme est inférieure à 500 Sélectionnez la même sous-matrice, sauf la troisième ligne Bien sûr, une seule ligne est nécessaire à chaque fois pour effectuer ces opérations... E. Comets (UMR738) Introduction à R - Novembre / 46

6 Plan Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Moyenne et variance Corrélation et covariance Quantiles Exercice Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques E. Comets (UMR738) Introduction à R - Novembre / 46

7 Les dataframes Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri format de jeu de données structuré un jeu de données réelles a naturellement le format d un dataframe nombreux jeux de données structurés disponibles sous R Exemple : jeu de données pressure sur la relation entre la température en degrés et la pression en millimètres de mercure : > pressure temperature pressure E. Comets (UMR738) Introduction à R - Novembre / 46

8 Manipulation d un dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Pour récupérer une variable on utilise le caractère $ : > pressure$temperature [1] On peut aussi référencer la colonne comme pour une matrice: > pressure[,1] Ou encore les appeler par le nom de la colonne : > pressure[,"temperature"] Les 2 premiers éléments de temperature s écriront indifféremment : > pressure$temperature[1:2] > pressure[1:2,1] > pressure[1:2,"temperature"] E. Comets (UMR738) Introduction à R - Novembre / 46

9 Attacher un jeu de données Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri On peut aussi "attacher" le jeu de données pour avoir un accès direct aux variables : > attach(pressure) > temperature [1] Attention : on peut modifier le vecteur temperature mais ça ne change rien au dataframe test. C est comme si on avait une copie des variables. Par contre si on travaille sur test$temperature on modifie bien test. Pour "détacher" le dataframe, on utilise : detach(test) E. Comets (UMR738) Introduction à R - Novembre / 46

10 Ecriture de fichiers Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri pressure est disponible sous R dans la librairie datasets. Pour sauver le jeu de données dans un fichier essai.dat : > write.table(pressure,"essai.dat",row.names=f) L option row.names=f est nécessaire pour éviter d écrire un numéro au début de chaque ligne. La fonction sink permet de rediriger la sortie (normalement à l écran) vers un fichier : > sink("essai.dat") > print(pressure) > sink() Elle donne ici un résultat similaire à : > write.table(pressure,"essai.dat") E. Comets (UMR738) Introduction à R - Novembre / 46

11 Lecture de fichiers (1) Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Pour lire le dataframe test à partir du fichier essai.dat : > test <- read.table("essai.dat",header=t) La table contient un en-tête (header) avec le nom des variables (les colonnes). Ces fonctions lisent des formats bien tabulés sans trous. Des options existent pour spécifier le séparateur de champs, le nombre de lignes lues, le nombre de lignes à sauter avant de commencer la lecture,... E. Comets (UMR738) Introduction à R - Novembre / 46

12 Lecture de fichiers (2) Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Fonction la plus générale pour la lecture de fichiers : scan > namcol<-scan("essai.dat",nlines=1,what="char") > test <- scan("essai.dat",skip=1) > test<-matrix(test,ncol=4,byrow=t,dimnames=list(c(),namcol)) > test temperature pressure Nécessite de spécifier le type (si différent de "numeric"). Permet de lire certaines lignes seulement d un fichier. Permet de gérer des fichiers de structure particulière (ex : "parser" un fichier texte). E. Comets (UMR738) Introduction à R - Novembre / 46

13 Lecture au clavier Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri scan peut aussi être utilisé pour la lecture au clavier (input). Au lieu d un nom de fichier, on utilise "" : > x<-scan("",nlines=2) 1: 2 2: 3.2 Read 2 items > x [1] Par défaut, la fonction attend un nombre, mais le type de données attendu peut être modifié : > noms<-scan("",nlines=2,what=character()) 1: Paul 2: Pierre Read 2 items > noms [1] "Paul" "Pierre" E. Comets (UMR738) Introduction à R - Novembre / 46

14 Extraction d une sous-base Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri On utilise la base airquality, disponible dans R. Si l on veut extraire la sous-base pour laquelle la température est > 92 F : > air1 <- subset(airquality, Temp > 92) > air1 Ozone Solar.R Wind Temp Month Day 42 NA On peut également utiliser : > air1<-airquality[airquality$temp>92,] E. Comets (UMR738) Introduction à R - Novembre / 46

15 Transformation de données (1) Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Pour ajouter dans air1 la variable logtemp, log de la température, on a également plusieurs choix : >air1<-transform(air1,logtemp=log(temp)) > air1 Ozone Solar.R Wind Temp Month Day logtemp 42 NA ou : >air1$logtemp<-log(air1$temp) ou encore: >air1<-cbind(air1,logtemp=log(air1$temp)) E. Comets (UMR738) Introduction à R - Novembre / 46

16 Transformation de données (2) Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri On peut créer une variable indicatrice à l aide de la fonction ifelse. On souhaite par exemple créer la variable ftemp qui vaut 1 si Temp > 94 F, 0 sinon : > air1<-transform(air1,ftemp=ifelse(temp>94,1,0)) > air1 Ozone Solar.R Wind Temp Month Day ftemp 42 NA ou encore : > air1$ftemp<-ifelse(air1$temp>94,1,0) E. Comets (UMR738) Introduction à R - Novembre / 46

17 Extraction de données : exercice Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Créer à partir de air1 le dataframe air2, où : 1) la variable Ozone n est pas manquante 2) la température est 94 F Créer à partir de airquality le dataframe air3, où la variable Ozone n est pas manquante. Ajouter une colonne à air3 représentant une variable valant 1 si : 1) on est dans les 6 premiers mois de l année 2) la température est supérieure à 80 F et 0 sinon. E. Comets (UMR738) Introduction à R - Novembre / 46

18 Ordonner selon une variable Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Pour effectuer l équivalent de la Proc sort de SAS, on utilise la fonction order. Pour ordonner air1 selon la valeur de Temp : > air1[order(air1$temp),] Ozone Solar.R Wind Temp Month Day ftemp 42 NA On peut trier sur plusieurs variables : > air1[order(air1$month,air1$day),] Ozone Solar.R Wind Temp Month Day 42 NA E. Comets (UMR738) Introduction à R - Novembre / 46

19 La fonction match Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri match teste si un élément est présent dans un vecteur. > month.name [1] "January" "February" "March" "April" "May"... > match(c("mai","may"),month.name,nomatch=0) [1] 0 5 Application : rajouter une colonne avec le nom du mois à air1 > NamMon<-month.name[match(air1$Month,1:12)] > transform(air1,nammon=nammon) Ozone Solar.R Wind Temp Month Day NamMon 42 NA June August September Outil très puissant pour manipuler plusieurs bases de données avec un identifiant commun (ex : le numéro d identification du patient). E. Comets (UMR738) Introduction à R - Novembre / 46

20 Exercice Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri On vous donne un relevé des profondeurs de glace relevées dans une station météo avec les dates correspondantes : dates<-c(" "," "," ", " "," "," "," ", " "," "," "," ", " "," "," "," ", " "," ") mesure<-c(64,69,71,71,71,32,42,28,32,18,25,29,34,36,42, 50,61) Extraire de ce vecteur la première incidence de chaque profondeur mesurée, en utilisant la fonction match. Trier les mesures de glace dans l ordre croissant et créer une matrice avec comme première colonne les mesures triées et comme deuxième colonne les dates correspondantes (nécessite un tri simultané!) E. Comets (UMR738) Introduction à R - Novembre / 46

21 Plan Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Moyenne et variance Corrélation et covariance Quantiles Exercice Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques E. Comets (UMR738) Introduction à R - Novembre / 46

22 Moyenne et médiane Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Moyenne : fonction mean Médiane : fonction median > x<-c(4,6,2,9,0,1,2) > x [1] > mean(x) [1] > median(x) [1] 2 E. Comets (UMR738) Introduction à R - Novembre / 46

23 Moyenne et variance Corrélation et covariance Quantiles Exercice Moyenne et médiane en présence de valeurs manquantes Option na.rm=t pour ignorer les valeurs manquantes > x[3]<-na > x [1] 4 6 NA > mean(x) [1] NA > mean(x,na.rm=t) [1] > median(x) [1] NA > median(x,na.rm=t) [1] 3 E. Comets (UMR738) Introduction à R - Novembre / 46

24 Moyenne et variance Corrélation et covariance Quantiles Exercice Moyenne en enlevant les valeurs extrêmes Autre option utile trim=f : où f [0,0.5] enlève un pourcentage d observations égal à f de part et d autre avant de calculer la moyenne peut être utilisé pour calculer une moyenne robuste > x<-c(4,6,2,9,0,1,2) > mean(x,trim=0.2) [1] 3 E. Comets (UMR738) Introduction à R - Novembre / 46

25 Variance et écart-type Moyenne et variance Corrélation et covariance Quantiles Exercice Variance : fonction var Ecart-type : fonction sd On a la même option pour ignorer les valeurs manquantes : > x<-c(4,6,2,9,0,1,2) > var(x) [1] > sd(x) [1] > sqrt(var(x)) [1] > x[3]<-na > var(x) Erreur dans var(x) : observations manquantes dans cov / cor > var(x,na.rm=t) [1] E. Comets (UMR738) Introduction à R - Novembre / 46

26 Corrélation (1) Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Fonction cor(x,y) : coefficient de corrélation entre x et y Par défaut, calcul du coefficient de corrélation de Pearson : ΣX ΣY ΣXY r = N (ΣX 2 (ΣX)2 )( ΣY 2 (ΣY)2 ) N N (1) > x<-c(4,6,2,9,0,1,2) > y<-c(9,2,5,1,6,0,3) > cor(x,y) [1] E. Comets (UMR738) Introduction à R - Novembre / 46

27 Corrélation (2) Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Options method : deux autres coefficients de corrélation (association basée sur les rangs) method="kendall" : τ de Kendall (coefficient de corrélation des rangs de Kendall) method="spearman" : ρ de Spearman use="c" : pour ignorer les valeurs manquantes Calcul des coefficients de corrélation non-paramétriques > x<-c(4,6,2,9,0,1,2) > y<-c(9,2,5,1,6,0,3) > cor(x,y,method="spearman") [1] > cor(x,y,method="k") [1] Note : on peut juste écrire la première lettre de la méthode E. Comets (UMR738) Introduction à R - Novembre / 46

28 Covariance Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Fonction cov(x,y) : covariance entre x et y. > x<-c(4,6,2,9,0,1,2) > y<-c(9,2,5,1,6,0,3) > cov(x,y) [1] Notes : mêmes options que pour cor method, na.rm=t x et y peuvent être des matrices cov renvoie alors la matrice de variance-covariance entre les colonnes de x et de y E. Comets (UMR738) Introduction à R - Novembre / 46

29 Quantiles Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice On peut obtenir les quantiles empiriques d un vecteur > quantile(x) 0% 25% 50% 75% 100% Par défaut, on a le min, le max, et les 3 quartiles (0.25, 0.5 et 0.75 quantiles). Pour obtenir les autres quantiles, par exemple les déciles: > dec<-seq(0,1,0.1) > dec [1] > quantile(x,dec) 0% 10% 20% 30% 40% 50% % 70% 80% 90% 100% E. Comets (UMR738) Introduction à R - Novembre / 46

30 Moyenne et variance Corrélation et covariance Quantiles Exercice Attention aux fonctions appliquées à un tableau Comme la plupart des fonctions, quantile ne calcule pas les statistiques d un tableau ou d un data.frame colonne par colonne mais le considère comme un grand vecteur : > x=matrix(seq(1:100),ncol=4) > quantile(x) 0% 25% 50% 75% 100% La fonction summary est utilisée pour préserver cette structure. > summary(x) X1 X2 X3 X4 Min. : 1 Min. :26 Min. :51 Min. : 76 1st Qu.: 7 1st Qu.:32 1st Qu.:57 1st Qu.: 82 Median :13 Median :38 Median :63 Median : 88 Mean :13 Mean :38 Mean :63 Mean : 88 3rd Qu.:19 3rd Qu.:44 3rd Qu.:69 3rd Qu.: 94 Max. :25 Max. :50 Max. :75 Max. :100 E. Comets (UMR738) Introduction à R - Novembre / 46

31 Plus généralement Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice La fonction apply sert à appliquer une autre fonction de façon répétée sur les lignes ou les colonnes d un tableau. Par exemple : > apply(x,2,quantile) [,1] [,2] [,3] [,4] 0% % % % % calcule les quantiles par défaut pour les 4 colonnes de la matrice x (avec 1 à la place de 2, ce serait pour les lignes). Il est possible de spécifier des options pour la fonction appelée par apply : > apply(x,2,quantile,c(0.05,0.95)) [,1] [,2] [,3] [,4] 5% % E. Comets (UMR738) Introduction à R - Novembre / 46

32 Moyenne et variance Corrélation et covariance Quantiles Exercice Vue d ensemble d un jeu de données La fonction summary donne un résumé quantitatif. Une vue d ensemble de la structure d un jeu de données est fournie par str : > str(airquality) data.frame : 153 obs. of 6 variables: $ Ozone : int NA NA... $ Solar.R: int NA NA $ Wind : num $ Temp : int $ Month : int $ Day : int E. Comets (UMR738) Introduction à R - Novembre / 46

33 Exercice Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Créez une matrice x portant les chiffres de 1 à 100, en 4 colonnes Calculer les quantiles 0.1 et 0.9 de chaque colonne Calculer les quantiles 0.1 et 0.9 de chaque ligne E. Comets (UMR738) Introduction à R - Novembre / 46

34 Moyenne et variance Corrélation et covariance Quantiles Exercice comme en SAS (1) Il existe une version de summary produisant des tableaux de statistiques descriptives ressemblant à ceux de SAS. Elle est définie dans la librairie Hmisc : > library(hmisc) > options(digits=3) > sex <- factor(sample(c("m","f"), 500, rep=true)) > age <- rnorm(500, 50, 5) > treatment <- factor(sample(c("drug","placebo"), 500, rep=true)) > db<-data.frame(npat=factor(1:500),sex,age,treatment) > summary(age~factor(sex)) age N= N age factor(sex) f m Overall E. Comets (UMR738) Introduction à R - Novembre / 46

35 Moyenne et variance Corrélation et covariance Quantiles Exercice comme en SAS (2) On peut demander des statistiques plus élaborées en définissant des fonctions adaptées : > g<-function(x){ > c(smean.sd(x),median(x),quantile(x,prob=c(0.25,0.75))) > } > f<-summary(age~factor(sex),fun=g) > f age N= N Mean SD 25% 75% factor(sex) f m Overall E. Comets (UMR738) Introduction à R - Novembre / 46

36 Exercice Dataframe Moyenne et variance Corrélation et covariance Quantiles Exercice Créez une matrice x portant les chiffres de 1 à 100, en 4 colonnes Calculez la moyenne et la variance de x des colonnes de x des 3 premières lignes de x Prendre le jeu de données interne à R appelé ToothGrowth le visualiser pour se faire une idée de son contenu (utilisez l aide) la première colonne représente la longueur des dents de cochons d inde soumis à différents régimes ranger la première colonne par colonnes dans une matrice à 6 colonnes mat calculer la matrice de corrélations entre les colonnes de mat E. Comets (UMR738) Introduction à R - Novembre / 46

37 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Plan Dataframe Format d un dataframe Ecriture et lecture de fichiers Manipulation d un dataframe Tri Moyenne et variance Corrélation et covariance Quantiles Exercice Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques E. Comets (UMR738) Introduction à R - Novembre / 46

38 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Loi normale Pour chaque distribution qu il connait, R va en général définir 4 fonctions associées. Pour la loi normale, le suffixe général est norm et il va être précédé de 4 lettres, d, p, q ou r pour définir 4 fonctions : dnorm(x,µ,σ) : densité pnorm(x,µ,σ) : probabilité (x µ)2 f(x) = 1 e 2σ 2 2πσ F(x) = Z x f(u) du qnorm(α q,µ,σ) : quantile correspondant de la distribution, c est-à-dire pour α q donné la valeur de x pour laquelle F(x) =P(X x) = α q rnorm(n,µ,σ) : échantillon aléatoire de taille n E. Comets (UMR738) Introduction à R - Novembre / 46

39 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Quantiles d une loi normale On utilise la fonction qnorm() pour connaître les valeurs seuils pour la distribution considérée. Par exemple, pour la loi normale, les bornes de l intervalle de confiance à 95% sont données par les valeurs correspondant aux quantiles à 2.5 et 97.5% : > qnorm(0.025) [1] > qnorm(0.975) [1] soit si on arrondit [-1.96; 1.96]. E. Comets (UMR738) Introduction à R - Novembre / 46

40 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Exemple Probabilité d observer une réalisation de la variable inférieure à une valeur donnée si X est tirée dans une loi normale ℵ(0,1) : pnorm() > 1-pnorm(1) [1] > 1-pnorm(1.96) [1] Probabilité d observer les mêmes valeurs si X est tirée dans une loi du χ 2 à 1 degré de liberté : pchisq() > 1-pchisq(1,1) [1] > 1-pchisq(1.96,1) [1] E. Comets (UMR738) Introduction à R - Novembre / 46

41 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Tirage dans une loi normale Utilisation de la fonction rnorm() : > rnorm(10,5,1) [1] [9] Par défaut, tirage dans une loi normale ℵ(0,1) > rnorm(10) [1] [7] E. Comets (UMR738) Introduction à R - Novembre / 46

42 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Tirage d échantillons avec ou sans remise La fonction sample() est utilisée. Sa syntaxe est la suivante : sample(x, size, replace = FALSE, prob = NULL) Par exemple : > x<-1:10 > sample(x,3) [1] Par défaut, il est effectué un tirage sans remise. Pour demander un tirage avec remise, utiliser replace=t : > sample(x,7,replace=t) [1] Cette fonction sera très utile pour faire du rééchantillonnage (bootstrap). E. Comets (UMR738) Introduction à R - Novembre / 46

43 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Exercice Créer un vecteur de 10 valeurs en tirant : les 6 premières dans ℵ(2, 5) les 4 suivantes dans ℵ( 1,4) Tirer un vecteur v1 de 10 valeurs dans une mixture de 2 lois normales : ℵ(2, 5) ℵ( 1, 4) avec une probabilité Calculez la moyenne de v1 répétez l opération 10 fois en conservant les moyennes des 10 échantillons v1 successifs dans un vecteur Recommencez la même opération en tirant un échantillon v2 dans une mixture avec une probabilité comparez les moyennes obtenues pour v1 et v2 E. Comets (UMR738) Introduction à R - Novembre / 46

44 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Exercice Dans un essai clinique, on suppose que la clairance à la créatinine des patients recrutés suit une loi normale de moyenne 120 ml/min, avec un écart-type de 40 ml/min. Si on prend 10 patients au hasard, quelle est la probabilité p1 que la clairance moyenne soit inférieure à 130? Quelle est la probabilité qu elle soit comprise entre 120 et 130? Combien de sujets faudrait-il prendre pour que la probabilité p1 soit d au moins 95%? E. Comets (UMR738) Introduction à R - Novembre / 46

45 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Principales distributions statistiques (1) Nom Distribution Paramètres par défaut dnorm() normale N (µ= 0,σ = 1) dlnorm() log-normale LN (µ= 0,σ = 1) dunif() uniforme U(a = 0,b = 1) dpois() Poisson P(λ) dexp() exponentielle E(λ = 1) dbinom() binômiale B(n, p) dnbinom() binômiale négative BN (n, p) dchisq() chi-deux χ 2 (n) ( ) df() F F (n 1,n 2 ) E. Comets (UMR738) Introduction à R - Novembre / 46

46 Lois de probabilité Tirage d échantillons aléatoires Principales distributions statistiques Principales distributions statistiques (2) Nom Distribution Paramètres par défaut dt() Student T (df,δ ) dlogis() logistique L(α = 0, β = 1) dgeom() géométrique G(p) dweibull() Weibull W (γ,β = 1) dhyper() hypergéométrique H (m, n, k) dbeta() Beta β(α, β) dgamma() Gamma Γ(γ, β = 1) dcauchy() Cauchy C(α = 0,β = 1) δ : paramètre de non-centralité, optionnel E. Comets (UMR738) Introduction à R - Novembre / 46