[00:01] Après avoir vu les principaux tests d associations dans le cas où on croise deux variables, on va s intéresser au modèle d ANOVA et de

Documents pareils
Un exemple de régression logistique sous

Gestion des données avec R

Lire ; Compter ; Tester... avec R

Le Logiciel de Facturation ultra simplifié spécial Auto-Entrepreneur

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Traitement des données avec Microsoft EXCEL 2010

TRANSPORT ET LOGISTIQUE :

CONFIGURATION FIREWALL

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Aide-mémoire de statistique appliquée à la biologie

Arbres binaires de décision

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Comment installer le gestionnaire de licence avec une nouvelle version de Arche / Effel / Melody?

Introduction aux Statistiques et à l utilisation du logiciel R

Données longitudinales et modèles de survie

PARAMETRAGE DU STOCKAGE/DESTOCKAGE DES ARTICLES & MOUVEMENTS DE STOCKS

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

Université de Picardie - Jules Verne UFR d'economie et de Gestion

«Cours Statistique et logiciel R»

SUGARCRM MODULE RAPPORTS

Trier les ventes (sales order) avec Vtiger CRM

données en connaissance et en actions?

L adresse électronique professionnelle : Mode d emploi

Les Tutoriaux Utilisez Foxmail comme client de messagerie

GROOBAX. cliquer sur le «G» Cliquer sur «options» Sélectionner le dossier qui contiendra les paramètres => Cliquer A chercher le dossier créé en 2/

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Les Différents types de Requêtes dans Access

La place de SAS dans l'informatique décisionnelle

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Chapitre 3. Les distributions à deux variables

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

GUIDE ISAN: 7 Création d un ISAN In-Dev 1

DE LA CAMÉRA SOMMAIRE

Utilisation du Logiciel de statistique SPSS 8.0

EXCEL TUTORIEL 2012/2013

Administration du site (Back Office)

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

MES PREMIERS PAS SUR DITES «CHEESE»

Initiation à LabView : Les exemples d applications :

Bases de données documentaires et distribuées Cours NFE04

Introduction : L accès à Estra et à votre propre espace Connexion Votre espace personnel... 5

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Site web de Support : Manuel utilisateur

Mise en place d un routeur en Load Balancing

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Fonctions de deux variables. Mai 2011

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

1. Introduction Création d'une requête...2

Organiser le disque dur Dossiers Fichiers

Utilisation du site de retours Lexibook

CRÉER DES LEÇONS AVEC L'ÉDITEUR DU LOGICIEL 1000 MOTS POUR APPRENDRE À LIRE EN FRANÇAIS, ANGLAIS ET ALLEMAND

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

NOTICE D INSTALLATION DE LA BASCULE STAGE VERSION 4.30 NOTICE D INSTALLATION DE LA BASCULE STAGE VERSION 4.30

Régression linéaire. Nicolas Turenne INRA

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SRAL Saint Raphaël. Maison des associations 213, rue de la Soleillette Saint Raphaël. : : dromain.jean-pierre@neuf.

Guide d utilisation IPAB-ASSOCIATION v5.0 GUIDE D UTILISATION. à destination des associations et organismes sans but lucratif.

SPHINX Logiciel de dépouillement d enquêtes

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Comment créer un nouveau compte? 1/2- Pour le consommateur

EXERCICE N 9. Base Centrale de pilotage. Notions abordées : Création d objets personnels. Utilisation de fonctions numériques

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Comment créer un nouveau compte? Pour une Borne en local on via Internet

Petit guide d utilisation Prezi

INSTALLATION DE CEGID BUSINESS VERSION 2008 Edition 4 (CD-Rom du 16/07/2009) SUR UN POSTE AUTONOME SOMMAIRE

Manuel Utilisateur. Module CAISSE

Conventions d écriture et outils de mise au point

Utilisation de l outil lié à MBKSTR 9

Introduction à la présentation graphique avec xmgrace

Installation et lancement d ETHNOS Configuration requise... 5 Installation... 5 Lancement Les modules d ETHNOS... 7

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Foire aux Questions Note: Les réponses aux questions correspondent à la version Mise en route

DE LA CAMÉRA SOMMAIRE

Quelques éléments de compilation en C et makefiles

1. Installation de COMPTINE

Optimisation Discrète

Coup de Projecteur sur les Réseaux de Neurones

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Planifier et contrôler un projet avec Microsoft Project

Avertissement : Nos logiciels évoluent rendant parfois les nouvelles versions incompatibles avec les anciennes.

Travaux pratiques avec RapidMiner

GUIDE Excel (version débutante) Version 2013

Nombre de marches Nombre de facons de les monter

Guide d utilisation 2012

Etude des propriétés empiriques du lasso par simulations

FÉDÉRATION MAROCAINE DES SOCIÉTÉS D'ASSURANCES ET DE RÉASSURANCE FICHIER CENTRAL CRM. MANUEL D UTILISATION Version 1.0

LECON 2 : PROPRIETES DE L'AFFICHAGE Version aout 2011

VAMT 3. Activation de produits Microsoft

Programmation linéaire

MANUEL 3A Online. 2013/2014 Manuel 3A Online 1

GUIDE D UTILISATION 1

Optimisation des fonctions de plusieurs variables

Diigo : fonctions avancées

1 Complément sur la projection du nuage des individus

Guide Enseignant de l application OpenERP

BOSS : Bourses régionale du Sanitaire et du Social GUIDE UTILISATEUR ETUDIANT

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

(Mis à jour : 7 déc. 12)

Transcription:

[00:01] Après avoir vu les principaux tests d associations dans le cas où on croise deux variables, on va s intéresser au modèle d ANOVA et de régression linéaire et logistique. 1

[00:10] On va charger de nouveau notre fichier de données, cette fois-ci on voit qu on peut très bien cliquer dessus 2

[00:15] plutôt que de taper la commande load() et on va s intéresser à considérer un sousensemble de notre data-frame smp. En particulier on va regarder pour la variable profession les individus qui sont soit sans-emploi soit qui ont profession intermédiaire soit qui sont cadre et on va regarder simplement les variables age, nombre enfant (n.enfant). Donc on avait vu la commande subset(). On lui donne le nom du data-frame et un filtre pour sélectionner les lignes. Ici on va dire que prof vaut soit «sans emploi» OU (c est le OU logique : ) prof vaut «prof.intermediaire» OU (c est toujours le OU logique) prof vaut «cadre» et on sélectionnera les variables : age, n.enfant et la profession. On peut regarder les premières observations de ce data-frame là (head(subset(smp, prof == "sans emploi" prof == "prof.intermediaire" prof == "cadre", c(age, n.enfant, prof)))) donc ça ce sont les six premières observations c est pas le tableau complet. On a bien la variable "age", "nombre d enfant" et "profession". Parmi les professions on a que des professions intermédiaires, les sans-emploi et ce qui n apparaît pas ici : les cadres. 3

[01:33] En fait, on peut sauvegarder ce data-frame-là dans une variable qu on va appeler smpb (smpb <- subset(smp, prof %in% c("sans emploi", "prof.intermediaire", "cadre"), c(age, n.enfant, prof))). Donc si on regarde maintenant notre espace de travail, on a un nouveau data frame qui est un sous-ensemble du data-frame de départ dans lequel on a seulement 304 observations, donc ce sont les observations qui remplissent ce critère-là donc la profession est parmi ces modalités-là et on a simplement trois variables. Si on regarde en fait un résumé de ce tableau (summary(smpb)), on s aperçoit qu on a bien notre variable «age» qui est résumée avec le minimum, le maximum, etc., le nombre d enfants de la même manière (on a 11 valeurs manquantes). Par contre ce dont on s aperçoit, c est que pour la variable «prof», R a conservé les anciens niveaux qui n ont plus lieu d être ici puisque de toute façon ils ne sont plus vérifiés. 4

[02:28] Donc ce qu on va faire c est simplement réappliquer la commande factor() (smpb$prof <- factor(smpb$prof, labels=c("cadre", "intermédiaire", "sans emploi"))) sur notre variable «profession» et dans ce cas-là R va recalculer automatiquement les niveaux de notre variable de sorte que cette foisci on aura bien les trois modalités qui sont listées. On peut faire un tableau également pour vérifier (table(smp$prof)) ça c est notre variable d origine ; (table(smpb$prof)) ça c est notre variable dans le tableau restreint. On retrouve bien les mêmes effectifs mais on n a plus que ces modalités-là. 5

[03:05] Alors si maintenant on souhaite résumer le nombre d enfants moyen (c est la variable «n.enfant») en fonction de la profession dans ce data-frame-là, on utilisera la commande par exemple aggregate() (aggregate(n.enfant ~ prof, data=smpb, mean)) avec une formule donc on décrit le nombre d enfants par la variable profession en utilisant le tilde (~) pour indiquer la relation entre les deux variables. [03 :29] On peut éventuellement faire un graphique en utilisant exactement la même expression et avec boxplot() (boxplot(n.enfant ~ prof, data=smpb, xlab="profession", ylab="nombre d'enfants", col="cornflowerblue", border="cornflowerblue")) donc on a pour chacune des modalités la distribution du nombre d enfants, ici en ordonnée. 6

[03:47] Que se passe-t-il si on souhaite réaliser une ANOVA, alors la commande pour réaliser les ANOVA ou les modèles de régression linéaire s appelle lm(). On peut regarder dans l aide en ligne (help(lm)) donc c est une commande très générale pour ce qu on appelle les modèles linéaires. Ça inclut la régression linéaire et puis la régression sur variables indicatrices ou variables catégorielles qui est le cas particulier de l ANOVA. Donc on va utiliser la formule qu on a utilisée juste précédemment : le nombre d enfants décrit par la profession dans le data-frame smpb et puis on va stocker ce résultat-là dans une variable qu on appellera «m» (m <- lm(n.enfant ~ prof, data=smpb)). Ici on a en fait stocké le résultat de notre analyse de régression dans la variable «m» ; on peut regarder à quoi correspond "m", en fait ça nous rappelle l instruction qu on a tapée c.à.d. la commande lm(), la formule et le data-frame dans lequel on trouve les variables et puis des coefficients. Dans un cadre d ANOVA en fait on utilisera la commande drop1() (drop1(m, test="f")) qui nous permet en donnant le nom d une variable et en spécifiant un test de Fisher Snedecor de fournir un tableau d analyse de variance, avec ici la variable explicative «profession» à deux degrés de liberté, la somme des carrés correspondante et la valeur de «F» correspondant au test de l analyse de variance. Donc ici la statistique de test 3.83 et ici le degré de significativité 0.02. 7

[05:19] En fait on peut regarder aussi par exemple dans le cas de deux variables numériques : la variable nombre d enfant et l âge par exemple. Donc c est toujours avec le même dataframe et puis on peut utiliser, stocker ça dans une variable «m» (m <- lm(n.enfant ~ age, data=smpb)), cette fois-ci on va avoir l intercept qui représente le terme d ordonnée à l origine et «age» qui va représenter la pente. 8

[05:52] Pour avoir les tests associés on tapera simplement summary(m) et on aura un tableau avec les coefficients de régression et les tests t associés ici pour la pente 10.77 et le degré de significativité. 9

[06:11] En fait on a toujours travaillé sur notre data-frame smpb mais la commande lm() permet d utiliser directement une option subset qui revient globalement au subset qu on a effectué ici donc ce test-là. On va recopier simplement cette expression (prof == "sans emploi" prof == "prof.intermediaire" prof == "cadre") 10

[06:29] et on va refaire exactement le même modèle. La seule différence c est que on va travailler avec le tableau d origine donc smp et on va rajouter la commande subset= et on va indiquer ici les options du filtre qu on souhaite réaliser sur notre tableau (m <- lm(n.enfant ~ age, data=smp, subset= prof == "sans emploi" prof == "prof.intermediaire" prof == "cadre")). Si on produit le résumé du modèle de régression, on vérifie qu on a bien le même résultat. Donc l intérêt ici, c est que l on peut utiliser à la fois une notation par formule, on décrit la relation entre le nombre d enfants qui est la variable de réponse et l âge qui est la variable explicative, ces variables se trouvent dans le data-frame qui s appelle smp. Par contre ce data-frame-là va être filtré selon les critères qui sont indiqués (dans la commande) dans l option subset. Donc en particulier on ne va s intéresser qu aux individus qui remplissent les conditions profession égal soit sans emploi, soit profession intermédiaire, soit cadre. 11

[07:29] Lorsqu on a un modèle de régression, on peut utiliser la commande coef() pour afficher les coefficients du modèle de régression et on peut éventuellement indexer ces coefficients par le numéro de position donc coef du modèle entre crochets 2 (coef(m)[2]), c est le deuxième élément renvoyé par la commande coef(). Ça correspond donc à la pente. Ici on s aperçoit que la pente, on pourrait directement l appeler «age» comme on avait fait pour indexer des variables dans un data-frame (coef(m)["age"]) et on obtient le coefficient de régression associé à la variable «age» dans le modèle de régression simple présenté précédemment. 12

[08:06] On peut utiliser pour obtenir les intervalles de confiance en utilisant la commande confint() donc toujours sur la variable dans laquelle on a stocké notre modèle de régression, donc ici les intervalles de confiance à 95% par défaut pour la pente sont indiqués sur la deuxième ligne et on peut également obtenir un tableau d analyse de variance associé à la régression à l aide de la commande anova(). 13

[08:32] Lorsque l on souhaite réaliser des prédictions sur des valeurs non nécessairement observées on peut utiliser la commande predict(). Dans ces cas-là on va lui donner le nom de la variable dans laquelle on a stocké notre modèle de régression et un data-frame dans lequel on va indiquer pour la variable qui sert de variable explicative les valeurs pour lesquelles on souhaite effectuer la prédiction. Si on souhaite avoir des intervalles de confiance pour la prédiction on rajoutera l option interval="confidence" (predict(m, data.frame(age=c(20, 30, 40)), interval="confidence")). On a dans ces cas-là sous la colonne «fit» les valeurs prédites et «lwr», «upr» représentent les bornes inférieures et supérieures des intervalles de confiance à 95% pour la prévision. 14

[09:18] En dehors de la régression linéaire, on peut s intéresser à la régression logistique. Dans ces cas-là on prendra par exemple une variable binaire. On va en construire une à partir de nombre d enfants. On va s intéresser au nombre d enfants supérieur à 2. Dans ces cas-là on codera 1 sinon on code 0 et là j ai juste oublié qu il faut rajouter l instruction ifelse() qui permet de construire la variable binaire (smp$n.enfant.bin <- factor(ifelse(smp$n.enfant > 2, 1, 0))), donc la commande ifelse() prend une variable sur laquelle on réalise un test logique donc «est-ce-que le nombre d enfants est supérieur à deux?» Dans ces cas-là on associe la valeur 1 sinon on associe la valeur 0. On a maintenant un moyen de comparer très rapidement qu on s est pas trompé. Il suffit simplement d afficher les deux tableaux (table(smp$n.enfant) table(smp$n.enfant.bin)). Donc en fait les individus pour lesquels le nombre d enfants n est pas supérieur à 2 sont ici et le reste se trouve ici. Donc ça ce sont les individus pour lesquels on a associé la valeur 1, donc il y en a 214. 15

[10:25] On a vu la commande lm(), en fait pour la régression logistique c est la commande glm() qu on utilisera avec toujours une notation par formule. La seule différence c est qu il faudra indiquer le type de régression qu on souhaite effectuer. Donc on va utiliser un modèle pareil «m» et on va dire que notre formule ça va être le nombre d enfants en fonction de l âge comme dans le cas de la régression linéaire sauf qu ici on a dichotomisé la variable. On prendra les données dans notre data-frame smp. Cette foisci on va prendre tout le data-frame et ce qu on va indiquer c est qu on veut faire de la régression logistique donc on indiquera dans la famille «binomiale» avec comme échelle de lien le «logit» (m <- glm(n.enfant.bin ~ age, data=smp, family=binomial("logit"))). 16

[11:11] On peut afficher un résumé des coefficients de régression avec la commande summary() et cette fois-ci on a la variable explicative avec la valeur du coefficient de régression sur l échelle du log odds. 17