Cours 6 : Les statistiques avec R. XVII- Généralités XVIII- Les formules XIX- Les sorties

Dimension: px
Commencer à balayer dès la page:

Download "Cours 6 : Les statistiques avec R. XVII- Généralités XVIII- Les formules XIX- Les sorties"

Transcription

1 Cours 6 : Les statistiques avec R XVII- Généralités XVIII- Les formules XIX- Les sorties XX- Les fonctions génériques

2 XVII- Généralités Fonctions d analyse statistique disponibles Package «stats» : contient les fonctions d'analyse statistique classiques (tests d hypothèses classiques, modèles linéaires, distributions, résumés statistiques, séries temporelles, analyses multivariées). Il est chargé au démarrage. Accessibles avec library(help="stats") Packages spécifiques : d'autres packages de méthodes statistiques sont disponibles, distribués avec R ou à télécharger. Exemples : class : fonctions pour classification boot : fonctions bootstrap stats4: fonctions stats utilisant S4 survival : analyse de survie

3 Quelques fonctions dans «stats»: XVII- Généralités Modélisation SSlogis Modèle logistique aov Analyse de variance glm Modèles linéaires généralisés lm Modèles linéaires manova Analyse de variance multivariée ksmooth Kernel Regression Smoother step Choix d un modèle par l algorithme Stepwise Tests bartlett.test Test de Bartlett d homogénéité de variances binom.test Test Binomial exact chisq.test Test du Chi2 cor.test Test d Association/Correlation t.test t-test de Student de comparaison de moyennes var.test F Test de Fisher de comparaison de Variances wilcox.test Test de rang de Wilcoxon ks.test Tests de Kolmogorov-Smirnov

4 XVII- Généralités Estimation density Estimation de densité par noyaux ecdf Fonction de répartition empirique Analyse des données hclust Classifications hiérarchiques kmeans Classifications par partitionnement princomp Analyse en composantes principales prccomp Analyse en composantes principales dist Calcul de matrices de distance

5 XVIII- Les formules Syntaxe des principales fonctions : les formules Certaines fonctions statistiques (en particulier les fonctions de modélisation) travaillent sur des formules (?formula): fonction (formula=, data = ) formula= de type réponse ~ prédicteurs data= tableau de données éventuel dans lequel se trouvent les variables dans la formule. réponse = variable à expliquer predicteurs=ensemble des variables explicatives, séparées par des symboles arithmétiques qui ont ici une signification particulière.

6 XVIII- Les formules Exemple de formules : y~a : prédicteur a y~a+b : prédicteurs a et b y~m : autant de modèles que de predicteurs dans M (matrice) y ~ x - 1 ( ou y ~ 0 + x) : modèle sans terme constant. y~log(b) y ~ a + I(b+c) : predicteurs a et (b+c) y~a:b : interactions de a et b y~a*b : a+b+a:b effets principaux et interaction entre a et b y~(a+b)^2 : effets principaux a et b et interactions du second ordre a+b+a:b y=a*b-a:b : a+b

7 XVIII- Les formules Exemples de fonctions travaillant sur des formules Exemple 1 : Régression linéaire simple (RLS) de y sur x ( x et y quantitatives) >x=sample(s,200,replace=true);y=3+7*x+rnorm(200,0,100) > regression=lm(y~x) Exemple 2 : Régression linéaire multiple (RLM) de la fertilité sur l éducation et la mortalité infantile (toutes les variables sont quantitatives) > data(swiss) >fit = lm(fertility~ Education+Infant.Mortality,swiss) Exemple 3 : Analyse de variance à un facteur. Ici, analyse de l effet du facteur insecticide à 6 niveaux (spray) sur la réponse nombre d insectes (count), basée sur l observation de 12 cultures, tour à tour pulvérisées par les 6 insecticides (la réponse est quantitative, le facteur est un facteur) > data(insectsprays) >anov=aov(sqrt(count) ~ spray, data = InsectSprays);anov

8 XVIII- Les formules Autres syntaxes : D autres fonctions travaillent sur des matrices, des vecteurs ou des data.frame (tests statistiques, analyse des données)

9 XVIII- Les formules Exemples de fonctions ne travaillant pas sur les formules Exemple 4 : Test du chi2 : On veut tester le lien existant entre de variables qualitatives X et Y à partir d un échantillon sous forme de table de contingence (de croisement) >O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE) > colnames(o)=c("homme","femme"); rownames(o)=c("voyant","aveugle") X2=chisq.test(O,correct=FALSE) Exemple 5 : Test de student : on veut tester l egalité entre deux moyennes au vu d un échantillon de chaque sous-population x= (X1,..., Xn1) et y=(y1,..., Yn2) : >x = rnorm(100,1,1); y = rexp(200,1) >st=t.test(x,y) #Test de student (resp. de Welch) d égalité de moyennes si variances des #variables égales (resp. diff érentes) >x = rnorm(100,1,1); #avec sous populations identifiées par un facteur à deux niveaux >z=rep(c(t,f),50) # de stratification >st2=t.test(x~z)

10 XIX- Les Sorties Pour afficher un bref résumé de l analyse, taper le nom de l objet créé par la fonction: >regression #exemple 1 Call: lm(formula = Y ~ X) Coefficients: (paramètres estimés) (Intercept) X Paramètres estimés. Droite de régression : y = 10.91x Nbre de degres de libertés >anov Call: aov(formula = sqrt(count) ~ spray, data = InsectSprays) Terms: (table d analyse variance) spray Residuals Sum of Squares Deg. of Freedom 5 66 Residual standard error: Estimated effects may be unbalanced Somme des carrés intra-classe Somme des carrés inter-classes (résiduels) Ecart-type estimé des résidus

11 XIX- Les Sorties > X2 Pearson's Chi-squared test data: tab Valeur de la statistique de test du chi2 X-squared = , df = 1, p-value = 1.894e-07 P(X>X-squared ) P(X>X-squared ) X v.a. de loi X²(1)

12 XIX- Les Sorties > st Test t pour variances inégales Welch Two Sample t-test data: x and y t = , df = , p-value = P(T>t ) T v.a. de loi T( ) alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of x : mean of y : x et y

13 XIX- Les Sorties Les fonctions statistiques de R retournent un objet de classe empruntée au nom de la fonction (aov retourne un objet de classe "aov", lm retourne un objet de classe "lm", les tests retournent des objets de classe "htest " ). Cet objet contient les résultats de l analyse. C est généralement une liste dont l'affichage est déterminé par sa classe (aov() et lm() produisent des listes différentes). On peut regarder les éléments de l'objet liste crée et afficher les noms de la liste associée par les fonctions attributes() et names().

14 XIX- Les Sorties >names(regression) #ou names(fit) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "xlevels" "call" "terms" "model" > names(anov) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "contrasts" "xlevels" "call" "terms" "model"

15 XIX- Les Sorties >attributes(x2) $names [1] "statistic" "parameter" "p.value" "method" "data.name" "observed" [7] "expected" "residuals" $class [1] "htest

16 XIX- Les Sorties Pour extraire les éléments de la liste, on utilise les fonctions du même nom que ces éléments : >coefficients(fit) # ou fit$coefficients #coefficients de la regression (Intercept) Education Infant.Mortality >regression$residuals #ou residuals(regression) #residus observés

17 XIX- Les Sorties > X2$expected #tableau des effectifs théoriques homme femme voyant aveugle >X2$residuals homme femme voyant aveugle >sum(x2$residuals^2) la somme des carrés des résidus est la valeur du chi-deux

18 XX- Les fonctions génériques Certaines fonctions sont aussi utilisées pour extraire les résultats désirés : les fonctions génériques. Elles agissent spécifiquement en fonction de la classe de l'objet. Les fonctions génériques ont une syntaxe unique pour tous les cas.

19 XX- Les fonctions génériques Principales fonctions génériques permettant d'extraire des informations d'un objet qui résulte d'une analyse: print() : retourne un résumé succint de l analyse summary() : retourne un résumé détaillé de l analyse df.residual() : retourne le nombre de degrés de libertés du résidu coef (): retourne les coefficients estimés avec parfois leurs erreurs-standard residuals() : retourne les résidus fitted() : retourne les valeurs ajustées par le modèle loglik() : calcule la vraisemblance et le nombre de paramètres d un modèle AIC() : calcule le critère d information d Akaike anova():table d analyse de la variance plot() : graphique adapté à l analyse. Résidus du modèle pour modélisation.

20 XX- Les fonctions génériques Exemple : summary() permet d'afficher un résumé détaillé de l analyse, spécifique à la classe de l objet. > apropos("^summary") [1] "summary.aov" "summary.aovlist" "summary.glm" [4] "summary.infl" "summary.lm" "summary.manova" [7] "summary.mlm" "summary.stepfun" "summaryrprof" [10] "summary" "summary.connection" "summary.data.frame" [13] "summary.date" "summary.default" "summary.factor" [16] "summary.matrix" "summary.posixct" "summary.posixlt" [19] "summary.table" >

21 XX- Les fonctions génériques > summary(regression) Call: lm(formula = Y ~ X) Coefficient de détermination (=r²) Residuals: Min 1Q Median 3Q Max Tests de student de nullité des coefficients Coefficients: Estimate Std. Error t value Pr(> t ) Ecart-type résiduel et nombre (Intercept) de dl des residus (n-2) X e-13 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: on 28 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 28 DF, p-value: 4.312e-13 Test de fisher de Significativite du modèle

22 XX- Les fonctions génériques >summary(anov) Somme des carrés inter-classe Variance inter-classe Df Sum Sq Mean Sq F value Pr(>F) spray < 2.2e-16 *** Residuals Test de Fisher de --- significativité du modèle Signif. codes: 0 `***' `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Variance intra-classe Somme des carrés intra-classe

23 XX- Les fonctions génériques Exemple : plot() retourne des graphes choisis pour l analyse en question >apropos("^plot") [1] "plot.density" "plot.ecdf" "plot.lm" [4] "plot.mlm" "plot.spec" "plot.spec.coherency" [7] "plot.spec.phase" "plot.stepfun" "plot.ts" [10] "plot.tukeyhsd" "plot" "plot.default" [13] "plot.design" "plot.new" "plot.window" [16] "plot.xy"

24 XX- Les fonctions génériques > par(mfrow=c(2,2)) > plot(anov)

25 > par(mfrow=c(2,2)) > plot(anov)

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat. 1 Objectif Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat. Tout le monde l aura compris, je passe énormément de temps à analyser les logiciels

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011 Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr

Plus en détail

TP de Statistiques: Utilisation du logiciel R

TP de Statistiques: Utilisation du logiciel R TP de Statistiques: Utilisation du logiciel R Année 2006-2007 2 Table des matières Introduction i 1 Premiers pas avec R 1 1.1 R est une calculatrice............................................. 1 1.2 R

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Étude des flux d individus et des modalités de recrutement chez Formica rufa Étude des flux d individus et des modalités de recrutement chez Formica rufa Bruno Labelle Théophile Olivier Karl Lesiourd Charles Thevenin 07 Avril 2012 1 Sommaire Remerciements I) Introduction p3 Intérêt

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas Fiche TD avec le logiciel : tdr335 Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas F. Menu, A.B. Dufour, E. Desouhant et I. Amat La fiche permet de se familiariser

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

INTRODUCTION AU LOGICIEL R

INTRODUCTION AU LOGICIEL R INTRODUCTION AU LOGICIEL R Variables et mise en jambe Anne Dubois, Julie Bertrand, Emmanuelle Comets emmanuelle.comets@inserm.fr INSERM UMR738 (UMR738) 1 / 68 Sur le site www.cran.r-project.org : Ou trouver

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R Y. BROSTAUX (1) RÉSUMÉ Cette note constitue une introduction au langage et à l'environnement de programmation 5 dans sa version 1.4.1 pour

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Chapitre 4 : Régression linéaire

Chapitre 4 : Régression linéaire Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Exemples d Analyses de Variance avec R

Exemples d Analyses de Variance avec R Exemples d Analyses de Variance avec R Christophe Pallier 5 août 00 Résumé R est un logiciel d analyse statistique qui fournit toutes les procédures usuelles (t-tests, anova, tests non paramétriques...)

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification,

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyse des durées de vie avec le logiciel R

Analyse des durées de vie avec le logiciel R Analyse des durées de vie avec le logiciel R Ségolen Geffray Des outils ainsi que des données pour l analyse des durées de vie sont disponibles dans les packages survival MASS Il est nécessaire de charger

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Modèles Estimés sur Données de Panel

Modèles Estimés sur Données de Panel Modèles Estimés sur Données de Panel Introduction Il est fréquent en économétrie qu on ait à composer avec des données à deux dimensions : - une dimension chronologique - une dimension spatiale Par exemple,

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs Cours 1 I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs IV-Les facteurs I-1 Généralités sur R R (1995, AT&T Bell Laboratories) est un logiciel d analyse statistique et graphique,

Plus en détail

SAS de base : gestion des données et procédures élémentaires

SAS de base : gestion des données et procédures élémentaires 1 SAS de base : gestion des données et procédures élémentaires SAS de base : gestion des données et procédures élémentaires Résumé Description des commandes (module SAS de base) les plus utiles de l étape

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Une introduction au langage R

Une introduction au langage R Une introduction au langage R Faouzi LYAZRHI UP Biostatistique Ecole Nationale Vétérinaire, 23, chemin des Capelles, BP 87614, F-31076 Toulouse cédex email : f.lyazrhi@envt.fr 2005 1. INSTALLER R 3 2.

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Séance 0 : Linux + Octave : le compromis idéal

Séance 0 : Linux + Octave : le compromis idéal Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Processus de compétitivité : Facteurs et évaluation

Processus de compétitivité : Facteurs et évaluation Processus de compétitivité : Facteurs et évaluation Application aux entreprises tunisiennes par Selma Katlane Ben Mlouka Selma Katlane Ben Mlouka Docteur en gestion, Assistante à la Faculté des Sciences

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Cycle de formation certifiante Sphinx

Cycle de formation certifiante Sphinx Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives

Plus en détail

Package TestsFaciles

Package TestsFaciles Package TestsFaciles March 26, 2007 Type Package Title Facilite le calcul d intervalles de confiance et de tests de comparaison avec prise en compte du plan d échantillonnage. Version 1.0 Date 2007-03-26

Plus en détail

Introduction à l analyse des statistiques des données : travaux pratiques avec le logiciel R.

Introduction à l analyse des statistiques des données : travaux pratiques avec le logiciel R. Introduction à l analyse des statistiques des données : travaux pratiques avec le logiciel R. Christophe Pallier 1 Christophe Lalanne 2 25 février 2005 1 www.pallier.org 2 christophe.lalanne.free.fr Résumé

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Analyse de données linguistiques

Analyse de données linguistiques 2011-2012 Slides inspirés des cours de S. Evert et M. Baroni Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode

Plus en détail

Imputation du salaire d ego dans TeO

Imputation du salaire d ego dans TeO Imputation du salaire d ego dans TeO Objet de la note : linéariser la réponse en tranche du salaire, et imputer le salaire en cas de non réponse Champ et principe de la méthode Les individus qui se sont

Plus en détail

Data mining II. Modélisation Statistique & Apprentissage

Data mining II. Modélisation Statistique & Apprentissage Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire

Plus en détail

Introduction à SPSS. Guy Mélard, U.L.B. Mars 2006 (gmelard@ulb.ac.be) Guy Mélard, ULB 1. Introduction à SPSS. Objectif de la leçon.

Introduction à SPSS. Guy Mélard, U.L.B. Mars 2006 (gmelard@ulb.ac.be) Guy Mélard, ULB 1. Introduction à SPSS. Objectif de la leçon. à SPSS Objectif de la leçon à SPSS Elle a pour but de fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation en complément de SAS, avec l illustration sur des exemples

Plus en détail

Ects. Utilitaire d Économétrie Version 2. Russell Davidson

Ects. Utilitaire d Économétrie Version 2. Russell Davidson Ects Utilitaire d Économétrie Version 2 Russell Davidson Mars 1993 Ects, Version 2 c Russell Davidson, Mars 1993. Tous droits de reproduction, de traduction, d adaptation, et d exécution réservés pour

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Installation. Notes de Cours sur le logiciel R. Plan. Au démarrage

Installation. Notes de Cours sur le logiciel R. Plan. Au démarrage Installation Notes de Cours sur le logiciel R Anne PHILIPPE Université de Nantes, UFR des Sciences et Techniques Laboratoire de Mathématiques Jean Leray email : Anne.philippe@math.univ-nantes.fr 1 er octobre

Plus en détail

Modèle GARCH Application à la prévision de la volatilité

Modèle GARCH Application à la prévision de la volatilité Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes

Plus en détail

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES J. sci. pharm. biol., Vol.9, n - 00, pp. 9-0 EDUCI 00 9 VALLEE POLNEAU S.* DIAINE C. COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES Notre étude visait à comparer les résultats obtenus

Plus en détail

Evaluation des modèles non-linéaires à effets mixtes

Evaluation des modèles non-linéaires à effets mixtes Evaluation des effets mixtes INSERM UMR738 GDR Statistiques et Santé, 20 octobre 2009 Pharmacométrie Définition modélisation des données obtenues lors d essais cliniques sur des médicaments développement

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

COURS DE DATA MINING

COURS DE DATA MINING COURS DE DATA MINING Stéphane TUFFERY Université Rennes 1 Master 2 Ingénierie économique et financière Octobre 2011 14/10/2011 Stéphane Tufféry - Usage réservé à l Université Rennes 1 1 Présentation de

Plus en détail

INITIATION AU LOGICIEL SAS

INITIATION AU LOGICIEL SAS INITIATION AU LOGICIEL SAS (version 9.1.3 sous Windows) Hélène HAMISULTANE Bibliographie : Initiation au logiciel SAS(9) pour Windows, Coqué N. (juin 2006). www.agroparistech.fr/img/pdf/polysas.pdf SAS

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

STAGE IREM 0- Premiers pas en Python

STAGE IREM 0- Premiers pas en Python Université de Bordeaux 16-18 Février 2014/2015 STAGE IREM 0- Premiers pas en Python IREM de Bordeaux Affectation et expressions Le langage python permet tout d abord de faire des calculs. On peut évaluer

Plus en détail

Econométrie et applications

Econométrie et applications Econométrie et applications Ecole des Ponts ParisTech Département Sciences Economiques Gestion Finance Nicolas Jacquemet (nicolas.jacquemet@univ-paris1.fr) Université Paris 1 & Ecole d Economie de Paris

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Cours 7 : Utilisation de modules sous python

Cours 7 : Utilisation de modules sous python Cours 7 : Utilisation de modules sous python 2013/2014 Utilisation d un module Importer un module Exemple : le module random Importer un module Exemple : le module random Importer un module Un module est

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................

Plus en détail

Statistique de l assurance

Statistique de l assurance Statistique de l assurance Arthur Charpentier To cite this version: Arthur Charpentier. Statistique de l assurance. 3ème cycle. Université de Rennes 1 et Université de Montréal, 2010, pp.133.

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail