Formulaire de fonctions statistiques pour R

Documents pareils
Lire ; Compter ; Tester... avec R

Annexe commune aux séries ES, L et S : boîtes et quantiles

Introduction aux Statistiques et à l utilisation du logiciel R

FORMULAIRE DE STATISTIQUES

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

La place de SAS dans l'informatique décisionnelle

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Aide-mémoire de statistique appliquée à la biologie

Cours Informatique Master STEP

TP de Statistiques: Utilisation du logiciel R

Introduction à MATLAB R

Logiciel XLSTAT version rue Damrémont PARIS

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Initiation à LabView : Les exemples d applications :

données en connaissance et en actions?

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Une introduction au langage R

R01 Import de données

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Chapitre 3. Les distributions à deux variables

SEMIN. Données sous R : stockage et échange. Julio PEDRAZA ACOSTA

Algorithmique et Programmation, IMA

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

1 Complément sur la projection du nuage des individus

Gestion des données avec R

Introduction à l approche bootstrap

Statistiques descriptives

VI. Tests non paramétriques sur un échantillon

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Architecture des Systèmes d Information Architecture des Systèmes d Information

Validation probabiliste d un Système de Prévision d Ensemble

Cours d initiation à la programmation en C++ Johann Cuenin

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Leçon N 4 : Statistiques à deux variables

1 Importer et modifier des données avec R Commander


STATISTIQUES. UE Modélisation pour la biologie

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Présentation du logiciel

Probabilités III Introduction à l évaluation d options

Cours d algorithmique pour la classe de 2nde

Résumé du Cours de Statistique Descriptive. Yves Tillé

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

Initiation au logiciel R

3. Caractéristiques et fonctions d une v.a.

Bases de programmation. Cours 5. Structurer les données

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Optimiser ses graphiques avec R

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Biostatistiques : Petits effectifs

INTRODUCTION AU LOGICIEL R

Factorisation Factoriser en utilisant un facteur commun Fiche méthode

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Package TestsFaciles

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours de méthodes de scoring

STAGE IREM 0- Premiers pas en Python

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Créer le schéma relationnel d une base de données ACCESS

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

La classification automatique de données quantitatives

TD3: tableaux avancées, première classe et chaînes

LES TYPES DE DONNÉES DU LANGAGE PASCAL

1. Vocabulaire : Introduction au tableau élémentaire

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Dans l'article précédent, vous avez appris

1 Introduction - Qu est-ce que le logiciel R?

Statistiques Descriptives à une dimension

Info0101 Intro. à l'algorithmique et à la programmation. Cours 3. Le langage Java

Analyse exploratoire des données

Projet du 5 octobre du [date] (Adaptation des fonds propres de base) Sommaire

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Exercice : la frontière des portefeuilles optimaux sans actif certain

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Chap III : Les tableaux

Etude des propriétés empiriques du lasso par simulations

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Définitions. Numéro à préciser. (Durée : )

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Cours d Algorithmique-Programmation 2 e partie (IAP2): programmation 24 octobre 2007impérative 1 / 44 et. structures de données simples

L exclusion mutuelle distribuée

Initiation à l algorithmique

Corrigé des TD 1 à 5

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

03/04/2007. Tâche 1 Tâche 2 Tâche 3. Système Unix. Time sharing

Cette application développée en C# va récupérer un certain nombre d informations en ligne fournies par la ville de Paris :

Cours 9 : Plans à plusieurs facteurs

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Statistique Descriptive Élémentaire

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

MICROINFORMATIQUE NOTE D APPLICATION 1 (REV. 2011) ARITHMETIQUE EN ASSEMBLEUR ET EN C

Transcription:

Formulaire de fonctions statistiques pour R Le logiciel R est un logiciel libre de statistique. De l aide et de nombreuses informations sur R peuvent être trouvées sur le site web : http://www.r-project.org. Pour appeler l aide sur les fonctions utilisées: help(nomfonction). AFFECTATION D UN OBJET À UNE VARIABLE On peut utiliser indifféremment: X <- commande X = commande X reçoit la valeur de commande. commande désigne n importe quel type d objet, ex: 2, 2+3, mean(y),... IMPORT/EXPORT DES DONNÉES 2.1 Importer un tableau d un fichier texte read.table(fichier, header = FALSE, sep = "\t",dec = ".",na.strings = "NA") Le fichier est lu sous la forme d un data.frame (cf section suivante). Plusieurs options sont spécifiables, entre autres: fichier: nom du fichier à mettre entre guillemets (attention ne pas oublier l extension), sep: type de séparateur (\t signifie tabulation), na.strings: indique comment sont spécifiés les valeurs manquantes (NA: Not Available). 2.2 Exporter un objet, X, sous forme de fichier texte write.table(x, file = "nom_du_fichier") 1

TYPE D OBJET 3.1 Vecteur La commande c() crée un vecteur avec les arguments que l on lui transmet. Ex: z = c(1.25, 0.25, 5.34) Séquence de nombres entiers (avec un pas de 1). Ex: x=1:10 Pour extraire le i-ème élément du vecteur x: x[i] les éléments 1,6 et 10: x[c(1,6,10)] les éléments 5 à 10: x[5:10] 3.2 Tableau de données: data.frame Le data.frame est le format naturel de stockage des données sur lesquelles on désire procéder à des traitements statistiques. Ses colonnes sont des vecteurs représentant des variables. On accède aux variables composant un data.frame D à partir du nom de la variable: D$femme ou à partir du numéro de la colonne: D[,2]. Pour extraire le sous-tableau composé des lignes i à j et des colonnes k à l d un tableau de données D, on procédera comme suit: D[i:j,k:l]. Dimension de D: dim(d). Pour afficher les premières lignes d un data.frame D: head(d). Pour obtenir la nature des différentes colonnes de D: str(d). Il peut s agir d entiers (int), de numériques (num), de facteurs (factor), i.e. des variables qualitatives à modalités fixées (levels). RÉSUMÉ STATISTIQUE DES DONNÉES 4.1 En univarié Quelques fonctions statistiques s appliquant à une distribution codée sous forme de vecteur: length(x): nombre de valeurs stockées dans le vecteur. mean(x): moyenne des valeurs du vecteur. sd(x): écart-type des valeurs du vecteur. var(x): variance des valeurs du vecteur. quantile(x): donne les quantiles (par défaut les quartiles). summary(x): donne un résumé de la distribution des données. 2

4.2 En bivarié cor(x,y): corrélation entre x et y. GRAPHIQUES 5.1 Distribution d une variable continue Histogramme: hist(x) Boîte à moustaches: boxplot(x) 5.2 Distribution d une variable discrète Camembert: pie(x) Barres: barplot(x) Le vecteur contient les effectifs correspondant aux modalités de la variable; si x est le vecteur contenant les valeurs de la variable pour les observations, il est nécessaire de créer le vecteur des effectifs à l aide de la commande: table(x). On peut donc utiliser la commande pie(table(x))). 5.3 Distribution jointe de deux variables continues Nuage de points: plot(x,y) identify(x, y, labels = noms) x et y: vecteurs de variables continues. labels: vecteurs d identifiants. points(xbis, ybis,col=2) superpose les points (xbis,ybis) en rouge sur le graphique précédent. CALCUL DES QUANTILES DES DISTRIBUTIONS USUELLES Pour obtenir le quantile d ordre α = p d une distribution Gaussienne N (µ, σ 2 ): qnorm(p, mean = mu, sd = sigma) où mu est la valeur de µ et sigma la valeur de σ. Pour obtenir le quantile d ordre α = p d une distribution χ 2 df : qchisq(p, df) Pour obtenir le quantile d ordre α = p d une distribution de Fisher F(df1, df2): 3

qf(p, df1, df2) Pour obtenir le quantile d ordre α = p d une distribution de Student S df : qt(p, df) TESTS STATISTIQUES 7.1 Test de Student: t.test La commande t.test permet d effectuer un test de Student sur un ou deux échantillons. 7.1.1 Cas d un échantillon: estimation de l espérance (variance inconnue) et test de comparaison de moyenne à une valeur, H 0 : µ = µ 0 On suppose que les données sont des réalisations de v.a. gaussiennes indépendantes et identiquement distribuées. On souhaite tester l hypothèse selon laquelle l espérance µ d une variable aléatoire gaussienne est égale à une certaine valeur µ 0. Les arguments de t.test à déterminer sont: x: le vecteur de données (premier argument); µ = µ 0 : la valeur de l espérance sous l hypothèse nulle, i.e. H 0 : µ = µ 0. Par défaut, égal à 0. alternative=: le type d hypothèse alternative, 3 possibles: two.sided pour H 1 : µ µ 0 greater pour H 1 : µ > µ 0 lower pour H 1 : µ < µ 0 7.1.2 Cas de deux échantillons indépendants: test de comparaison des moyennes de 2 populations, H 0 : µ x µ y = 0 On suppose les données issues de deux populations de v.a. gaussiennes indépendantes et identiquement distribuées au sein de chaque population. Dans ce cas, les arguments à donner sont: x= et y= les deux vecteurs d observations des deux échantillons; µ = µ 0, la valeur de la différence des espérances des deux échantillons sous H 0, i.e. H 0 = E(X Y ) = µ 0 ; var.equal=true, si les variances des deux échantillons sont supposées égales. 7.1.3 Cas de deux échantillons appariés: test de comparaison de la différence des moyennes de 2 populations, H 0 : E(X Y ) = µ 0 On suppose que les différences observées entre chaque paire sont la réalisation de v.a. gaussiennes indépendantes et identiquement distribuées. En plus des arguments précédents, paired=true, précise que les deux échantillons sont appariés; µ = µ 0 indique l espérance de la différence des mesures sous H 0, i.e. E(X i Y i ) = µ 0. 4

7.2 Test de comparaison de variances On suppose les données issues de deux populations de v.a. gaussiennes indépendantes et identiquement distribuées au sein de chaque population. var.test(x, y, ratio = 1, alternative = c("two.sided", "less", "greater")) x= et y=: les deux vecteurs d observations des deux échantillons; ratio: valeur de r 0 telle que sous H 0 : s 2 x/s 2 y = r 0, par défaut r 0 = 1; alternative= le type d hypothèse alternative. 7.3 Test de proportion: prop.test La commande prop.test permet d effectuer un test sur les proportions de données issues d un ou deux échantillons. 7.3.1 Cas d un échantillon On suppose que les données sont des réalisations de v.a. indépendantes et identiquement distribuées selon une loi de Bernoulli. prop.test(n, n, p=p0, alternative = alternative) N, le nombre de succès; n, l effectif de l échantillon; p, la probabilité sous H 0, par défaut p 0 = 0.5; alternative = two.sided pour H 1 : p p 0 greater pour H 1 : p > p 0 lower pour H 1 : p < p 0 (two.sided par défaut)... 7.3.2 Cas de deux échantillons indépendants On suppose que les données sont des réalisations de deux populations de v.a. indépendantes et identiquement distribuées selon une loi de Bernoulli au sein de chaque population. Dans ce cas, les arguments à donner sont: N, le vecteur des succès, c(n1,n2); n, le vecteur des effectifs des échantillons, c(n1,n2). On ne définit pas p. 5

7.4 Test du χ 2 : chisq.test 7.4.1 Test d ajustement du χ 2 H 0 : X suit la loi L contre H 1 : X ne suit pas la loi L. Les données sont supposées indépendantes. On définit arbitrairement k classes. Pour que le test basé sur une approximation soit valide, il faut que les effectifs de chaque classe soient supérieurs à 5. chisq.test(x,p) avec: x, le vecteur des effectifs par classes; p, le vecteur des probabilités théoriques des classes. 7.4.2 Test d indépendance du χ 2 X et Y, deux variables qualitatives à p et q modalités, mesurées sur une population de taille n. chisq.test(tab) avec Tab la table de contingence de X et Y. Cette table peut être décrite (si calculée auparavant) avec la fonction matrix ou calculée avec la fonction table. ESTIMATION D UN MODÈLE LINÉAIRE Les commandes R pour l analyse d un modèle linéaire sont les mêmes, qu il s agisse d une régression linéaire, d une ANOVA ou d une ANCOVA. 8.1 Rappels sur les modèles linéaires 8.1.1 La régression linéaire Y (variable à expliquer) et X (variable(s) explicative(s)) sont des variables quantitatives. suppose que: p Y i = µ + β j x j,i + E i j=1 E i N (0, σ 2 ), indépendants et identiquement distribués Lorsque le modèle n inclut qu une variable explicative (p = 1), on parle de régression linéaire simple. Si p > 1, on parle de régression linéaire multiple. 8.1.2 ANOVA (Analyse de la variance) Y est quantitative et X est qualitatif. On ANOVA à 1 facteur Le modèle s écrit: Y i,j = µ + α j + E i,j E i,j N (0, σ 2 ), indépendants et identiquement distribués où α j désigne l effet spécifique associé à la modalité j du facteur (j = 1,..., J). 6

ANOVA à 2 facteurs Le modèle s écrit: Y i,j,k = µ + α j + β k + γ j,k + E i,j,k E i,j,k N (0, σ 2 ), indépendants et identiquement distribués où α j désigne l effet spécifique associé à la modalité j du premier facteur (j = 1,..., J), β k désigne l effet spécifique associé à la modalité k du deuxième facteur (k = 1,..., K), γ j,k sont les termes d interaction. S il n y a pas d interaction entre les deux facteurs (ANOVA à deux facteurs sans interaction), le modèle se simplifie de la façon suivante: Y i,j,k = µ + α j + β k + E i,j,k E i,j,k N (0, σ 2 ), indépendants et identiquement distribués 8.1.3 ANCOVA (Analyse de la covariance) Y est quantitative, X contient à la fois des variables explicatives quantitatives et qualitatives. Lorsque le modèle contient une variable explicative qualitative et une variable explicative quantitative, le modèle s écrit: 8.2 Commandes de base Y i,j = (µ + α j ) + (γ + β j )x i + E i,j E i,j N (0, σ 2 ), indépendants et identiquement distribués Modèle linéaire y expliqué par x: NomDuModele= lm(y~x) où x et y sont les noms des vecteurs des observations des variables X et Y. 8.3 Fonctions associées Vérifications graphiques des hypothèses (homoscédasticité, linéarité, normalité des résidus) plot(nomdumodele) Tableau d analyse de la variance et tests de type 1 des variables explicatives anova(nomdumodele) Tableau d analyse de la variance et tests de type 2 des variables explicatives ANOVA(NomDuModele) Cette commande nécessite le chargement du package car. Pour installer le package: install.packages(car), pour charger le package pour la session courante: library(car). Estimations des coefficients et tests associés summary(nomdumodele) Coefficients estimés coef(nomdumodele) 7

ELÉMENTS DE PROGRAMMATION R 9.1 La boucle for La boucle for permet de répéter les mêmes instructions plusieurs fois lorsque le nombre de répétitions à réaliser est connu. Les répétitions sont gérées au moyen d un compteur dont la valeur est incrémentée à chaque itération de la boucle. Sous R, la boucle for se structure comme suit: for (\ldots) { \ldots } Les parenthèses (\ldots) servent à définir le compteur et les valeurs qu il va prendre successivement à chaque tour de boucle. Les accolades {\ldots} servent à délimiter les actions à répéter pour chacune des valeurs prises par le compteur. Par exemple, le code for (i in 1:10) { print(i) } permettra d afficher tour à tour les valeurs de tous les entiers allant de 1 à 10 dans la console. 9.2 La fonction apply La fonction apply() permet d appliquer une fonction (par exemple une moyenne, une somme) à chaque ligne ou chaque colonne d un tableau de données. Cette fonction prend 3 arguments dans l ordre suivant: nom du tableau de données, un nombre pour dire si la fonction doit s appliquer aux lignes (1), aux colonnes (2) ou aux deux (c(1,2)), le nom de la fonction à appliquer. Par exemple, apply(tab,2,mean) permet de calculer la moyenne pour chaque variable (colonne) du tableau de données Tab. 9.3 La fonction by La fonction by permet d appliquer un même traitement à tous les niveaux d un facteur. Sa syntaxe est la suivante: by(variablefacteur,fonction) où variable est le nom de la variable sur laquelle porte le calcul, facteur est le nom du facteur selon les niveaux duquel on répète le traitement, fonction est le nom de la fonction utilisée. Par exemple, by(data$age,data$sexe,mean) permettrait de calculer un âge moyen par sexe à partir des données du data.frame data. 8