INTRODUCTION AU LOGICIEL R

Dimension: px
Commencer à balayer dès la page:

Download "INTRODUCTION AU LOGICIEL R"

Transcription

1 avancés INTRODUCTION AU LOGICIEL R 3. et graphes Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 E. Comets (UMR738) Introduction à R - Novembre / 65

2 avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution simples Eléments des graphes Sauvegarde avancés Librairies graphiques avancées ggplot2 E. Comets (UMR738) Introduction à R - Novembre / 65

3 avancés Remise en jambe : un exercice 1 Simulez deux vecteurs vec1 et vec2 contenant 20 réalisations d une loi normale de moyennes respectivement 70 et 25, et de variances 10 et 4 2 Simulez un deuxième vecteur vec3 contenant 20 réalisations d une loi uniforme sur l intervalle [0; 5] transformez vec3 pour qu il contienne des valeurs entières 3 Créez un dataframe contenant les 3 vecteurs dans 3 colonnes, et nommez-les "poids", "age" et "douleur" respectivement 4 Calculez les moyennes et les variances des deux variables continues E. Comets (UMR738) Introduction à R - Novembre / 65

4 avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Moyenne et variance Analyse de variance Variables discrètes Tests de distribution simples Eléments des graphes Sauvegarde avancés Librairies graphiques avancées ggplot2 E. Comets (UMR738) Introduction à R - Novembre / 65

5 Test de la moyenne avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Les tests usuels pour une moyenne ou une comparaison de moyenne sont : le test t pour des variables normales : t.test(x) ou t.test(x,y) le test de Wilcoxon, non-paramétrique, pour des petits échantillons ou des variables non normales : wilcox.test(x) ou wilcox.test(x,y) Pour un test apparié on utilise l option "paired=t" > x <- rnorm(50,0,1) > y <- rnorm(50,-0.27,0.4) > w <- x + rnorm(50,0,0.1) > t.test(x,y) Pour ces deux tests on peut spécifier l hypothèse alternative en utilisant l argument mu=. E. Comets (UMR738) Introduction à R - Novembre / 65

6 Application du test t avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Comparaison de moyennes entre 2 groupes : > t.test(x,y) Welch Two Sample t-test t = , df = , p-value = alternative hypothesis: true difference in means!= 0 95 percent confidence interval: Comparaison de moyennes sur données appariées : > t.test(x,w,paired=t) Paired t-test t = 0.246, df = 49, p-value = percent confidence interval: Il est possible d obtenir un intervalle de confiance sur l estimation de la moyenne en spécifiant conf.int=t, et l option alternative ("two.sided", "less", "greater") permet de spécifier l hypothèse alternative. E. Comets (UMR738) Introduction à R - Novembre / 65

7 Test de Wilcoxon avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Pour une seule variable ou deux variables appariées, wilcox.test produit un test des signes de Wilcoxon (sur x ou sur (x-y)). Pour deux variables non appariées, le test correspond au test de Mann-Whitney aussi appelé test des rangs de Wilcoxon. L option exact=t est utilisée pour demander un calcul exact de la p-value. E. Comets (UMR738) Introduction à R - Novembre / 65

8 avancés Utilisation avec un dataframe Moyenne et variance Analyse de variance Variables discrètes Tests de distribution On utilise la base energy contenue dans la librairie ISwR : > library(iswr) > attach(energy) On teste une différence de dépense énergétique entre obèses et non-obèses : > t.test(expend~stature) qui revient à tester : > t.test(expend[stature=="lean"],expend[stature=="obese"]) Cela correspond en SAS à : proc ttest data=energy; class stature; var expend; run; E. Comets (UMR738) Introduction à R - Novembre / 65

9 Exercice avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution 1 En reprenant la base que vous avez créée en début de cours, testez l égalité des moyennes entre les sujets ayant un grade de douleur inférieur ou supérieur à 2. 2 En utilisant le test de Wilcoxon, comparez les moyennes dans les 2 échantillons pour les cas suivants A=c(0,1,2), B=c(100,150,5000) A=c(0,1,2), B=c(100,150,5000,6000) A=c(0,1,2,3,4), B=c(100,150,5000,6000) Qu en concluez-vous? 3 Faites la même chose qu en 2 en utilisant un test t. E. Comets (UMR738) Introduction à R - Novembre / 65

10 avancés Comparaison des variances (1) Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Par défaut, on suppose que la variance entre les 2 groupes est différente (ce qui n est pas le cas en SAS). Il est préférable d effectuer un test d homogénéité des variances : > var.test(expend~stature) F test to compare two variances F = , num df = 12, denom df = 8, p-value = alt. hypothesis: true ratio of variances is not equal to 1 On ne rejette pas l hypothèse d égalité des variances : > t.test(expend~stature,var.equal=t) E. Comets (UMR738) Introduction à R - Novembre / 65

11 avancés Comparaison des variances (2) Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Le test de Fisher porte stricto sensu sur des variables normales. D autres tests d homogénéité des variances sont disponibles sous R. En particulier le test de Bartlett est plus robuste en cas d écarts à la normalité > bartlett.test(expend~stature) Bartlett test of homogeneity of variances data: expend by stature Bartlett s K-squared = , df = 1, p-value = Il existe également des tests non-paramétriques (Fligner-Killeen, Ansari-Bradley et Mood) d homogénéité de la variance. E. Comets (UMR738) Introduction à R - Novembre / 65

12 avancés Récupération des résultats Moyenne et variance Analyse de variance Variables discrètes Tests de distribution On peut stocker le résultat du test dans un objet : test <- t.test(x,y) > names(test) [1] "statistic" "parameter" "p.value" "conf.int" "estimate" [6] "null.value" "alternative" "method" "data.name" On peut aussi utiliser attributes(test). Si on souhaite conserver la statistique de test, l IC 95% et la p-value : > res <- c(test$statistic,test$conf.int,test$p.value) > names(res) <- c("stat","lim0.025","lim0.975","p.value") > res stat Lim0.025 Lim0.975 p.value E. Comets (UMR738) Introduction à R - Novembre / 65

13 Corrélations avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution La syntaxe pour calculer la corrélation et la tester est : > cor.test(x,y,method="methode") où methode peut être : Pearson (par défaut) Spearman (non paramétrique) Kendall (non paramétrique) > cor.test(x,y,method="spearman") Spearman s rank correlation rho... S = 15460, p-value = alternative hypothesis: true rho is not equal to 0 sample estimates: rho Par défaut retire les valeurs manquantes. E. Comets (UMR738) Introduction à R - Novembre / 65

14 Analyse de variance (1) avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Pour comparer simultanément les moyennes de plusieurs variables, on pratique une ANOVA. On utilise le jeu de données red.cell.folate. On souhaite tester une différente en folates selon le type de ventilation (N 2 O+O 2 pendant 24h, N 2 O+O 2 pendant l opération, seulement O 2 pendant 24h) : > attach(red.cell.folate) > anova(lm(folate~ventilation)) Analysis of Variance Table Response: folate Df Sum Sq Mean Sq F value Pr(>F) ventilation * Residuals Signif. codes: 0 *** ** 0.01 *... E. Comets (UMR738) Introduction à R - Novembre / 65

15 Analyse de variance (2) avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Comme une différence significative entre les 3 types de ventilation a été mise en évidence, on peut faire un test 2 à 2 entre les types de ventilation : > pairwise.t.test(folate,ventilation,p.adj="fdr") data: folate and ventilation N2O+O2,24h N2O+O2,op N2O+O2,op O2,24h Note: ce test inclut une correction pour tests multiples. Autre possibilité : TukeyHSD (sur un objet de type aov) E. Comets (UMR738) Introduction à R - Novembre / 65

16 avancés ANOVA non paramétrique Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Le test de Kruskal Wallis (kruskal.test) est la forme non paramétrique de l ANOVA : > kruskal.test(folate~ventilation) Kruskal-Wallis rank sum test data: folate by ventilation Kruskal-Wallis chi-squared = , df = 2, p-value = E. Comets (UMR738) Introduction à R - Novembre / 65

17 Exercice avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution 1 La base airquality est un jeu de données de R contenant des mesures de qualité de l air réalisées sur plusieurs mois. visualiser la base 2 Comparer la concentration d ozone entre les mois de mai et d août. en utilisant un test t en utilisant un test non paramétrique 3 La concentration d ozone est-elle comparable pour les différents mois (utiliser un test global)? avec une anova (utiliser as.factor() et lm) en utilisant un test non paramétrique E. Comets (UMR738) Introduction à R - Novembre / 65

18 avancés Variables discrètes : test du χ 2 (1) Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Cas classique : on cherche à savoir si le fait de présenter une caractéristique particulière (exemple : le fait de fumer) a une influence sur la réponse à un traitement. On a donc deux vecteurs avec pour chaque sujet, 1 s il fume et 0 sinon, et sa réponse au traitement considéré. Le tableau de contingence se construit avec la commande table(x,y) : > fumeur <- rbinom(50,1,0.4) > reponse <- rbinom(50,1,0.4) > table(fumeur,reponse) reponse fumeur E. Comets (UMR738) Introduction à R - Novembre / 65

19 Test du χ 2 (2) avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Pour effectuer le test d une relation entre le fait de fumer et la réponse au traitement, on utilise la fonction chisq.test. Deux syntaxes sont possibles : forme vectorielle chisq.test(x,y) > chisq.test(fumeur,reponse) Pearson s Chi-squared test with Yates continuity correction data: fumeur and reponse X-squared = , df = 1, p-value = forme matricielle chisq.test(tab), en utilisant le tableau de contingence tab > chisq.test(table(fumeur,reponse))... E. Comets (UMR738) Introduction à R - Novembre / 65

20 avancés Généralisation à plusieurs classes Moyenne et variance Analyse de variance Variables discrètes Tests de distribution On utilise les mêmes commandes si les variables ont plusieurs classes : > malade <- rbinom(15,2,0.3) > trait <- rbinom(15,2,0.3) > table(malade,trait) trait malade > chisq.test(malade,trait) Pearson s Chi-squared test data: malade and trait X-squared = , df = 4, p-value = Warning message: l approximation du Chi-2 est peut-être incorrecte in: chisq.test(malade, trait) E. Comets (UMR738) Introduction à R - Novembre / 65

21 Variables discrètes (2) avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution La fonction CrossTable, contenue dans le package gmodels, permet d obtenir des tables de contigence identiques à la Proc Freq de SAS : > library(gmodels) > CrossTable(fumeur,reponse,prop.t=F,prop.chisq=F) reponse fumeur 0 1 Row Total Column Total E. Comets (UMR738) Introduction à R - Novembre / 65

22 avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Tests de comparaison d une proportion (1) On suppose un taux de succès p = O/N où O est le nombre de succès et N est le nombre de patients. Dans le cas de plusieurs groupes, on suppose que l on a les variables Succes et Groupe. comparaison de p à une référence : prop.test(o,n,p0) ou binom.test(o,n,p0) > prop.test(220,500,0.5) 1-sample proportions test with continuity correction data: 220 out of 500, null probability 0.5 X-squared = 6.962, df = 1, p-value = alternative hypothesis: true p is not equal to percent confidence interval: sample estimates: p 0.44 E. Comets (UMR738) Introduction à R - Novembre / 65

23 avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Tests de comparaison d une proportion (1) On suppose un taux de succès p = O/N où O est le nombre de succès et N est le nombre de patients. Dans le cas de plusieurs groupes, on suppose que l on a les variables Succes et Groupe. comparaison de deux proportions : prop.test(c(o1,o2),c(n1,n2)) fisher.test(matrix(c(o1,o2,n1-o1,n2-o2),2)) fisher.test(succes,groupe) chisq.test(matrix(c(o1,o2,n1-o1,n2-o2),2)) chisq.test(succes,groupe) comparaison de plus de 2 proportions : chisq.test(succes,groupe) ou fisher.test(succes,groupe) E. Comets (UMR738) Introduction à R - Novembre / 65

24 Tests de normalité avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Test de Shapiro-Wilk (hypothèse nulle = "normalité"): > x <- rnorm(100) > y <- runif(100,-2,2) > shapiro.test(x) Shapiro-Wilk normality test data: x W = , p-value = > shapiro.test(y) Shapiro-Wilk normality test data: y W = , p-value = E. Comets (UMR738) Introduction à R - Novembre / 65

25 Tests de distribution avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Test de Kolmogorov-Smirnov ks.test(x,"distribution") pour tester si x suit la distribution "distribution" (ex : punif, pnorm...) ks.test(x,y) pour tester si x et y suivent les mêmes distributions > x<-runif(20);y<-rnorm(20) > ks.test(x,y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.55, p-value = alternative hypothesis: two.sided > ks.test(x,"pnorm") One-sample Kolmogorov-Smirnov test data: x D = , p-value = 3.032e-05 alternative hypothesis: two.sided E. Comets (UMR738) Introduction à R - Novembre / 65

26 Exercice avancés Moyenne et variance Analyse de variance Variables discrètes Tests de distribution Reprendre la base airquality pour répondre à la question : y a-t-il une relation entre le fait d observer une température supérieure à 85 F et le fait d observer un pic d ozone supérieur à 75 ppb? construire le tableau de contingence et utiliser un test du χ 2 la distribution des concentrations d Ozone suit-elle une loi normale? attention aux données manquantes E. Comets (UMR738) Introduction à R - Novembre / 65

27 avancés simples Eléments des graphes Sauvegarde Moyenne et variance Analyse de variance Variables discrètes Tests de distribution simples Eléments des graphes Sauvegarde avancés Librairies graphiques avancées ggplot2 E. Comets (UMR738) Introduction à R - Novembre / 65

28 Les graphiques avancés La fonction de base est plot : > x<-c(-1000:1000)*pi/500 > y<-cos(x) > plot(x,y) simples Eléments des graphes Sauvegarde donne y x E. Comets (UMR738) Introduction à R - Novembre / 65

29 avancés Options de la fonction plot simples Eléments des graphes Sauvegarde main="le titre" sub="le sous-titre" xlab="",ylab="" xlim=c(xa,xb) ylim=c(ya,yb) type="" log="" pch=n, lty=n col=n font=n,cex=n titre du graphe sous-titre du graphe légende des axes limites des axes par défaut : "p" pour points sinon "l", "o", "h" ou "s" échelle logarithmique pour les X ("x"), pour les Y ("y") ou les 2("xy") symbole ou type de ligne utilisé couleur fonte et taille du texte et des symboles Pour plus de détails, voir help(par) E. Comets (UMR738) Introduction à R - Novembre / 65

30 avancés simples Eléments des graphes Sauvegarde Types de symboles utilisables (pour référence) plot symbols : points (... pch = *, cex = 3 ) * * o o % % O O # # E. Comets (UMR738) Introduction à R - Novembre / 65

31 avancés Exemple d utilisation de plot simples Eléments des graphes Sauvegarde > plot(x,y,xlim=c(0,pi),ylim=c(-1,1), xlab="x",ylab="y",lty=2,type="l", main="graphe de la fonction cosinus") donne y graphe de la fonction cosinus x E. Comets (UMR738) Introduction à R - Novembre / 65

32 avancés Tracé de variables discrètes simples Eléments des graphes Sauvegarde > plot(test$poids,test$womac, xlim=c(70,85),ylim=c(0,50), xlab="poids",ylab="womac",pch=2,type="p", main="relation entre les variables poids et womac") relation entre les variables poids et womac womac poids E. Comets (UMR738) Introduction à R - Novembre / 65

33 Exercice avancés simples Eléments des graphes Sauvegarde Réaliser le graphe suivant à partir de la base airquality Ozone observée les 20 premiers jours du mois de mai ozone E. Comets (UMR738) Introduction à R -jours Novembre / 65

34 avancés Ajouter des éléments à un graphe simples Eléments des graphes Sauvegarde title() legend() text() mtext() box() lines(x,y) points(a,b) arrows(a,b,c,d) abline(a,b) titre légende texte texte dans la marge encadrement du graphe trait entre x(=c(a,b)) et y(=c(c,d)) tracé du point de coordonnées (a,b) tracé d une flèche entre (a,b) et (c,d) tracé de la droite d ordonnée à l origine a et de pente b E. Comets (UMR738) Introduction à R - Novembre / 65

35 Exemple avancés >x<-c(0:1000)*pi/100 >plot(x,cos(x),xlim=c(0,pi),ylim=c(-1,1), type="l",ylab="",font=3) >lines(x,sin(x),lty=2) >abline(-1,1,lty=3) >legend(1, -0.5, c("cos(x)", "sin(x)", "x-1"), lty = c(1, 2, 3)) simples Eléments des graphes Sauvegarde cos(x) sin(x) x E. Comets (UMR738) Introduction à R - Novembre x / 65

36 Exercice avancés simples Eléments des graphes Sauvegarde Réaliser le graphe suivant à partir de la base airquality Relation entre l ozone et le vent, selon la température Ozone (ppb) Temp>=85 F Temp<85 F Vent (mph) E. Comets (UMR738) Introduction à R - Novembre / 65

37 avancés simples Eléments des graphes Sauvegarde hist() barplot() boxplot() qqplot(), qqnorm() pie() pairs() matplot() histogramme graphe en barre boîte à moustache graphe quantile-quantile camembert corrélations entre les colonnes d une matrice corrélations entre les colonnes de deux matrices E. Comets (UMR738) Introduction à R - Novembre / 65

38 Histogramme avancés simples Eléments des graphes Sauvegarde On peut spécifier le nombre de barres de l histogramme grâce à la commande breaks hist(airquality$ozone) hist(airquality$ozone,breaks=20) Histogram of airquality$ozone Histogram of airquality$ozone Frequency Frequency airquality$ozone airquality$ozone E. Comets (UMR738) Introduction à R - Novembre / 65

39 avancés Histogrammes de plusieurs variables simples Eléments des graphes Sauvegarde Pour tracer plusieurs graphes sur la même page (ex : histogramme de différentes variables), on utilise l option mfrow=c(m,n) > par(mfrow=c(2,2)) > hist(airquality$ozone,main="",xlab="ozone") > hist(airquality$solar.r,main="",xlab="solar.r") > hist(airquality$wind,main="",xlab="wind") > hist(airquality$temp,main="",xlab="temp") Frequency Frequency Ozone Solar.R Frequency Frequency Wind Temp E. Comets (UMR738) Introduction à R - Novembre / 65

40 Exercice avancés simples Eléments des graphes Sauvegarde Réaliser le graphique suivant à partir de la base swiss Frequency Density Agriculture Examination Frequency Frequency E. Comets (UMR738) Education Introduction à R - Novembre 2009 Catholic 40 / 65

41 Boxplot avancés simples Eléments des graphes Sauvegarde Le boxplot permet de résumer graphiquement la distribution d un échantillon : > boxplot(airquality$ozone) Ozone E. Comets (UMR738) Introduction à R - Novembre / 65

42 avancés Boxplot de plusieurs variables simples Eléments des graphes Sauvegarde On peut tracer un boxplot d un data.frame (peu d intérêt si les échelles des variables sont trop différentes) > boxplot(airquality) Ozone Solar.R Wind Temp Month Day E. Comets (UMR738) Introduction à R - Novembre / 65

43 avancés simples Eléments des graphes Sauvegarde Boxplot d une variable selon des catégories Pour tracer les boxplot de Ozone, selon si Temp est < ou à 85 F. > air1<-transform(airquality,iftemp=ifelse(temp>85,1,0)) > attach(air1) > boxplot(ozone~itemp,xlab="itemp",ylab="ozone") > legend(1.8,170,c("0 : Temp<=85","1 : Temp>85")) Ozone : Temp<85 1 : Temp> Itemp E. Comets (UMR738) Introduction à R - Novembre / 65

44 Exercice avancés simples Eléments des graphes Sauvegarde Réaliser le graphique suivant à partir de la base swiss Fertility : Edu <10 1 : Edu >10 Fertility : Inf.Mort<20 1 : Inf.Mort> E. Comets (UMR738) Introduction à R - Novembre / 65

45 Les spaghetti plot avancés simples Eléments des graphes Sauvegarde La fonction interaction.plot trace des données longitudinales selon des catégories (en particulier par sujet) >attach(esoph) >interaction.plot(agegp, alcgp, ncases/ncontrols, xlab="age par groupe",trace.label="alcool") esoph Data mean of ncases/ncontrols alcool g/day age par groupe E. Comets (UMR738) Introduction à R - Novembre / 65

46 Quantile-quantile plot avancés simples Eléments des graphes Sauvegarde Pour comparer les quantile empiriques de 2 vecteurs x1,x2. Si x1 et x2 sont 2 réalisations d une même variable aléatoire, le qq-plot est proche de la droite y=x > x1<-runif(100) > x2<-runif(100) > qqplot(x1,x2,main="qq-plot de x1 et x2") > abline(0,1) qq plot de x1 et x2 x x1 E. Comets (UMR738) Introduction à R - Novembre / 65

47 Quantile-quantile norm avancés simples Eléments des graphes Sauvegarde Pour comparer les quantile empiriques d un vecteur aux quantiles théoriques de la distribution normale. > x<-runif(100) > y<-rnorm(100) > qqnorm(x) > qqnorm(y) > abline(0,1) > abline(0,1) qq norm de x qq norm de y Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles E. Comets (UMR738) Introduction à R - Novembre / 65

48 Camembert avancés simples Eléments des graphes Sauvegarde Pour faire un camembert > pie(rep(1,12),col=rainbow(12)) E. Comets (UMR738) Introduction à R - Novembre / 65

49 Corrélations : pairs avancés simples Eléments des graphes Sauvegarde Trace les graphes des variables deux à deux : > pairs(trees) Girth Height Volume E. Comets (UMR738) Introduction à R - Novembre / 65

50 avancés simples Eléments des graphes Sauvegarde associés à un type d objet (1) > attach(swiss) > lm1<-lm(fertility~education) > par(mfrow=c(2,2)) > plot(lm1) Residuals vs Fitted Normal Q Q plot Residuals Standardized residuals Fitted values Theoretical Quantiles Standardized residuals Scale Location plot Cook s distance Cook s distance plot Fitted values Obs. number E. Comets (UMR738) Introduction à R - Novembre / 65

51 avancés simples Eléments des graphes Sauvegarde associés à un type d objet (2) Pour afficher uniquement le premier graphe : > attach(swiss) > lm1<-lm(fertility~education) > par(mfrow=c(2,2)) > plot(lm1,which=1) En fait plot fait ici appel à une autre fonction, plot.lm, qui sait comment construire les graphes associés aux résultats d une régression linéaire. Il y a de nombreuses méthodes spécifiques associées à différents objets : methods(plot) E. Comets (UMR738) Introduction à R - Novembre / 65

52 avancés Analyse de variance (3) : graphe simples Eléments des graphes Sauvegarde > xbar <- tapply(folate,ventilation, mean) > s <- tapply(folate,ventilation,sd) > n <- tapply(folate,ventilation,length) # nombre de patients > sem <- s/sqrt(n) > stripchart(folate~ventilation,pch=16,vert=t) > arrows(1:3,xbar+sem,1:3,xbar-sem,angle=90,code=3,length=.1) > lines(1:3,xbar,pch=4,type="b",cex=2) N2O+O2,24h N2O+O2,op O2,24h E. Comets (UMR738) Introduction à R - Novembre / 65

53 Enregistrer une figure avancés simples Eléments des graphes Sauvegarde Sauvegarde avec une commande, exemple en postscript postscript("mongraphe.eps") par(mfrow=c(2,2)) plot(lm1) dev.off() Formats disponibles jpeg : jpeg("mongraphe.jpg") postscript : postscript("mongraphe.eps") png : png("mongraphe.png") Sauvegarde avec la fenêtre graphique placer la souris sur la figure de R puis File/Save as/ et choisir son format Copier-coller dans Power-Point placer la souris sur la figure de R et taper Ctrl+C ouvrir PowerPoint et dans une diapo, taper Ctrl+V. E. Comets (UMR738) Introduction à R - Novembre / 65

54 Exercice avancés simples Eléments des graphes Sauvegarde Tracer sur 4 figures placées sur une même page les densités des lois suivantes : loi normale centrée réduite loi log-normale correspondante loi de Poisson (paramètre à choisir) loi Gamma E. Comets (UMR738) Introduction à R - Novembre / 65

55 avancés Librairies graphiques avancées ggplot2 Moyenne et variance Analyse de variance Variables discrètes Tests de distribution simples Eléments des graphes Sauvegarde avancés Librairies graphiques avancées ggplot2 E. Comets (UMR738) Introduction à R - Novembre / 65

56 avancés avancés Librairies graphiques avancées ggplot2 Librairies graphiques spécialisées lattice : librairie graphique apportant des fonctions treillis ggplot2 : définition d une grammaire graphique Ces librairies sont utilisées par d autres librairies pour tracer des graphes xpose par exemple utilise lattice Conception différente d un graphe graphe considéré comme un objet dont on spécifie les caractéristiques pas d ajout possible sur un graphe de type lattice (mais complètement paramétrable) E. Comets (UMR738) Introduction à R - Novembre / 65

57 Librairie lattice avancés Librairies graphiques avancées ggplot2 Utilisation similaire aux fonctions graphiques classiques mais fonctionnement différent création d un objet tracé automatique quand R est utilisé interactivement à l intérieur d un fichier (source) ou d une fonction, l objet doit être tracé explicitement par un print Utilisation de formules ( ) décrivant les relations représentées dans les graphes relation directe et intuitive entre graphe et analyse capacités graphiques améliorées par rapport aux graphes de la librairie standard E. Comets (UMR738) Introduction à R - Novembre / 65

58 Librairie ggplot2 avancés Librairies graphiques avancées ggplot2 Librairie développée par Hadley Wickham première version ggplot utilise lattice Apprentissage pas de tutoriel livre disponible en PDF E. Comets (UMR738) Introduction à R - Novembre / 65

59 Graphe de base : qplot avancés Librairies graphiques avancées ggplot2 Fonctionne comme plot Peut être redirigé vers un objet nécessite d appeler l objet pour que le graphe soit tracé Options automatisées ajout de couleurs pour différencier des groupes (couleurs choisies selon des palettes prédéfinies) différenciation (split) selon des groupes nom des attributs faciles à retenir (colour, size, shape) E. Comets (UMR738) Introduction à R - Novembre / 65

60 Un graphe avec plot avancés Librairies graphiques avancées ggplot2 plot(airquality$temp,airquality$ozone,xlab="temperature",ylab="ozone",type="n") month<-sort(unique(airquality$month)) for(i in month) points(airquality$temp[airquality$month==i], airquality$ozone[airquality$month==i],col=(i-4)) legend(60,150,month,col=(month-4),pch=1) Ozone Month Temperature E. Comets (UMR738) Introduction à R - Novembre / 65

61 avancés Le même graphe avec qplot Librairies graphiques avancées ggplot2 library(ggplot2) qplot(temp,ozone,data=airquality,colour=month) 150 Ozone 100 Month Temp E. Comets (UMR738) Introduction à R - Novembre / 65

62 avancés Changements de graphes Librairies graphiques avancées ggplot2 Fonctionne par la définition d objets géométriques (geom) caractérisant les graphes Ajustement d une courbe par ajout de l option geom="smooth" ajustement linéaire (method="lm") ajustement de splines Changement de style de graphe histogramme : geom="histogram" boîte à moustaches : geom="boxplot" Deux courbes/styles peuvent se superposer : geom=c("point","smooth") notion de couche (layer) comme Photoshop ou Gimp E. Comets (UMR738) Introduction à R - Novembre / 65

63 avancés Librairies graphiques avancées ggplot2 Un graphe plus sophistiqué q1<-qplot(temp,ozone,data=airquality,colour=month,geom=c("point","smooth"), facets=.~month,span=2,facet_grid)+geom_smooth(method="lm",linetype=2) q1 E. Comets (UMR738) Introduction à R - Novembre / 65

64 avancés Passer à ggplot2 ou pas? Librairies graphiques avancées ggplot2 Deux modes de raisonnement très différents... Avantage des graphes de base simple mais paramétrisable à l infini on arrive toujours à faire ce qu on veut (mais parfois on y passe du temps!) Avantage des graphes de ggplot2 très rapide de faire de beaux graphes sans avoir à régler plein de petits détails (regroupement, comparaisons,...) relation immédiate entre le graphe et l analyse statistique en revanche, plus compliqué de paramétriser certains éléments par rapport aux graphiques de base Choix très personnel... E. Comets (UMR738) Introduction à R - Novembre / 65

65 avancés Librairies graphiques avancées ggplot2 Pas immédiat : plusieurs graphes sur une page plot(airquality[,1:2],type="n",axes=f,xlab="",ylab="") pl1<-qplot(as.factor(month),ozone,data=airquality,colour=month,geom=c("jitter"), xlab="month") pl2<-qplot(as.factor(month),ozone,data=airquality,colour=month,geom=c("boxplot"), xlab="month") vp1<-viewport(width=0.5, height=1,x=0.25,y=0.5) vp2<-viewport(width=0.5, height=1,x=0.75,y=0.5) print(pl1,vp=vp1) print(pl2,vp=vp2) E. Comets (UMR738) Introduction à R - Novembre / 65

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011 Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

TP de Statistiques: Utilisation du logiciel R

TP de Statistiques: Utilisation du logiciel R TP de Statistiques: Utilisation du logiciel R Année 2006-2007 2 Table des matières Introduction i 1 Premiers pas avec R 1 1.1 R est une calculatrice............................................. 1 1.2 R

Plus en détail

Optimiser ses graphiques avec R

Optimiser ses graphiques avec R Optimiser ses graphiques avec R Jérôme Sueur MNHN Systématique et Evolution UMR CNRS 7205 OSEB sueur@mnhn.fr 28 Avril 2011 1 Typologie 2 Base 3 ggplot2 4 Références Outline 1 Typologie 2 Base 3 ggplot2

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat. 1 Objectif Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat. Tout le monde l aura compris, je passe énormément de temps à analyser les logiciels

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes

Gnuplot. Chapitre 3. 3.1 Lancer Gnuplot. 3.2 Options des graphes Chapitre 3 Gnuplot Le langage C ne permet pas directement de dessiner des courbes et de tracer des plots. Il faut pour cela stocker résultats dans des fichier, et, dans un deuxième temps utiliser un autre

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Exemples d Analyses de Variance avec R

Exemples d Analyses de Variance avec R Exemples d Analyses de Variance avec R Christophe Pallier 5 août 00 Résumé R est un logiciel d analyse statistique qui fournit toutes les procédures usuelles (t-tests, anova, tests non paramétriques...)

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr Programmation avec R Polycopié d exercices Leslie REGAD ; Gaëlle LELANDAIS leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr Ce polycopié rassemble différents exercices vous

Plus en détail

Séance 0 : Linux + Octave : le compromis idéal

Séance 0 : Linux + Octave : le compromis idéal Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est

Plus en détail

Une introduction au langage R

Une introduction au langage R Une introduction au langage R Faouzi LYAZRHI UP Biostatistique Ecole Nationale Vétérinaire, 23, chemin des Capelles, BP 87614, F-31076 Toulouse cédex email : f.lyazrhi@envt.fr 2005 1. INSTALLER R 3 2.

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des 2010 Minitab, Inc. Tous droits réservés. Version 16.1.0 Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des marques déposées de Minitab, Inc. aux Etats-Unis et

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas Fiche TD avec le logiciel : tdr335 Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas F. Menu, A.B. Dufour, E. Desouhant et I. Amat La fiche permet de se familiariser

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

INTRODUCTION AU LOGICIEL R

INTRODUCTION AU LOGICIEL R INTRODUCTION AU LOGICIEL R Variables et mise en jambe Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 (UMR738) 1 / 68 Sur le site www.cran.r-project.org : Ou trouver

Plus en détail

Aide - mémoire gnuplot 4.0

Aide - mémoire gnuplot 4.0 Aide - mémoire gnuplot 4.0 Nicolas Kielbasiewicz 20 juin 2008 L objet de cet aide-mémoire est de présenter les commandes de base pour faire rapidement de très jolis graphiques et courbes à l aide du logiciel

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Utilisation du Logiciel de statistique SPSS 8.0

Utilisation du Logiciel de statistique SPSS 8.0 Utilisation du Logiciel de statistique SPSS 8.0 1 Introduction Etude épidémiologique transversale en population générale dans 4 pays d Afrique pour comprendre les différences de prévalence du VIH. 2000

Plus en détail

Statistique inférentielle TD 1 : Estimation

Statistique inférentielle TD 1 : Estimation POLYTECH LILLE Statistique inférentielle TD : Estimation Exercice : Maîtrise Statistique des Procédés Une entreprise de construction mécanique fabrique de pièces demoteurdevoiturepourungrandconstructeur

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger. Cet ouvrage est fondé sur les notes d un cours dispensé pendant quelques années à l Institut universitaire de technologie de Grenoble 2, au sein du Département statistique et informatique décisionnelle

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND

Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND 80 78 76 74 72 70 2 TABLE DES MATIÈRES STRUCTURE de STATISTICA : interface usager... 3 SORTIES : classeurs,

Plus en détail

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité

Plus en détail

Présentation du logiciel

Présentation du logiciel Chapitre A Présentation du logiciel R Pré-requis et objectif La lecture du chapitre sur l installation de R dans les Annexes peut se révéler utile. Ce chapitre présente les origines, l objectif et les

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Cours 7 : Utilisation de modules sous python

Cours 7 : Utilisation de modules sous python Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

http://cermics.enpc.fr/scilab

http://cermics.enpc.fr/scilab scilab à l École des Ponts ParisTech http://cermics.enpc.fr/scilab Introduction à Scilab Graphiques, fonctions Scilab, programmation, saisie de données Jean-Philippe Chancelier & Michel De Lara cermics,

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

Calcul Formel et Numérique, Partie I

Calcul Formel et Numérique, Partie I Calcul Formel et Numérique N.Vandenberghe nvdb@irphe.univ-mrs.fr Table des matières 1 Introduction à Matlab 2 1.1 Quelques généralités.......................... 2 2 Où trouver des informations 2 3 Opérations

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Analyse exploratoire des données

Analyse exploratoire des données Analyse exploratoire des données Introduction à R pour la recherche biomédicale http://wwwaliquoteorg/cours/2012_biomed Objectifs Au travers de l analyse exploratoire des données, on cherche essentiellement

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Initiation au logiciel R

Initiation au logiciel R Université Paris Dauphine Année 2005 2006 U.F.R. Mathématiques de la Décision MAT-6-3 : Statistique exploratoire et numérique (NOISE) Initiation au logiciel R Jean-Michel MARIN Ce document a pour objectif

Plus en détail

Package TestsFaciles

Package TestsFaciles Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Introduction à SPSS. Guy Mélard, U.L.B. Mars 2006 (gmelard@ulb.ac.be) Guy Mélard, ULB 1. Introduction à SPSS. Objectif de la leçon.

Introduction à SPSS. Guy Mélard, U.L.B. Mars 2006 (gmelard@ulb.ac.be) Guy Mélard, ULB 1. Introduction à SPSS. Objectif de la leçon. à SPSS Objectif de la leçon à SPSS Elle a pour but de fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation en complément de SAS, avec l illustration sur des exemples

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase

Plus en détail

Manipuler des données calendaires

Manipuler des données calendaires Fiche TD avec le logiciel : tdr1b Manipuler des données calendaires D. Chessel La fiche contient quelques exercices élémentaires pour lire, éditer et manipuler des dates d événements. On pourra y revenir

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R Jeudi 10 octobre 2013 CHAIGNEAU Alicia GAZAN Rozenn DAUFOUY Camille JOURDAN Sandra Introduction 2 Evolution des outils de collecte Big data

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

TP 1 Introduction à Matlab Février 2009

TP 1 Introduction à Matlab Février 2009 1 Introduction TP 1 Introduction à Matlab Février 2009 Matlab pour «MATtrix LABoratory», est un logiciel qui a été conçu pour fournir un environnement de calcul numérique de haut niveau. Il est particulièrement

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan 1 Objectifs Traitement statistique des données d enquête avec introduction à SPSS Gilbert Ritschard Département d économétrie, Université de Genève gilbert.ritschard@themes.unige.ch Bamako, 7-11 octobre

Plus en détail

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Étude des flux d individus et des modalités de recrutement chez Formica rufa Étude des flux d individus et des modalités de recrutement chez Formica rufa Bruno Labelle Théophile Olivier Karl Lesiourd Charles Thevenin 07 Avril 2012 1 Sommaire Remerciements I) Introduction p3 Intérêt

Plus en détail

Evaluation des modèles non-linéaires à effets mixtes

Evaluation des modèles non-linéaires à effets mixtes Evaluation des effets mixtes INSERM UMR738 GDR Statistiques et Santé, 20 octobre 2009 Pharmacométrie Définition modélisation des données obtenues lors d essais cliniques sur des médicaments développement

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Découverte du tableur CellSheet

Découverte du tableur CellSheet Découverte du tableur CellSheet l application pour TI-83 Plus et TI-84 Plus. Réalisé par Guy Juge Professeur de mathématiques et formateur IUFM de l académie de Caen Pour l équipe des formateurs T 3 Teachers

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Analyse des durées de vie avec le logiciel R

Analyse des durées de vie avec le logiciel R Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs Cours 1 I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs IV-Les facteurs I-1 Généralités sur R R (1995, AT&T Bell Laboratories) est un logiciel d analyse statistique et graphique,

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Innovations Majeures de la Version 4

Innovations Majeures de la Version 4 Innovations Majeures de la Version 4 Un nouvel environnement SIG avec de puissants outils graphiques. De nouveaux moteurs hydrologiques et hydrauliques plus sûrs et plus performants. De nouveaux modes

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

1 Importer et modifier des données avec R Commander

1 Importer et modifier des données avec R Commander Université de Nantes 2015/2016 UFR des Sciences et Techniques Département de Mathématiques TP1 STATISTIQUE DESCRIPTIVE Frédéric Lavancier Avant propos Ouvrir l application R Saisir dans la console library(rcmdr)

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel Fiche d utilisation du logiciel 1 - Installation J. Thioulouse & D. Chessel Résumé Cette fiche est une introduction à l'utilisation du logiciel R pour les trois environnements Unix, Windows et MacOS. Plan

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

3.2. Matlab/Simulink. 3.2.1. Généralités

3.2. Matlab/Simulink. 3.2.1. Généralités 3.2. Matlab/Simulink 3.2.1. Généralités Il s agit d un logiciel parfaitement dédié à la résolution de problèmes d'analyse numérique ou de traitement du signal. Il permet d'effectuer des calculs matriciels,

Plus en détail