Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Documents pareils
Ricco Rakotomalala R.R. Université Lyon 2

La place de SAS dans l'informatique décisionnelle

Introduction à MATLAB R

R00 Installation du logiciel R sous Windows

Introduction à. Oracle Application Express

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Travaux pratiques avec RapidMiner

GROOBAX. cliquer sur le «G» Cliquer sur «options» Sélectionner le dossier qui contiendra les paramètres => Cliquer A chercher le dossier créé en 2/

Anne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, , ISBN :

Business Intelligence

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

L informatique en BCPST

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

1 Modélisation d être mauvais payeur

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Transmission d informations sur le réseau électrique

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Calcul Scientifique avec 3

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

TP 1. Prise en main du langage Python

données en connaissance et en actions?

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

TRANSPORT ET LOGISTIQUE :

INTRODUCTION AU DATA MINING

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Projet Matlab : un logiciel de cryptage

ANNEXE 8 : Le Mailing

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Tutoriel code::blocks

1 Architecture du cœur ARM Cortex M3. Le cœur ARM Cortex M3 sera présenté en classe à partir des éléments suivants :

AIDE à l utilisation du cédérom «L athlétisme à l école» Niveau Primaire SOMMAIRE

Travail personnel sur ordinateur

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

1. Structure d'un programme FORTRAN 95

Pourquoi R devient incontournable en recherche, enseignement et développement

Formats d images. 1 Introduction

BIRT (Business Intelligence and Reporting Tools)

Tutoriel de formation SurveyMonkey

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Version 6.20 Guide d Utilisation

26 Centre de Sécurité et de

Présentation du PL/SQL

CARPE. Documentation Informatique S E T R A. Version Août CARPE (Documentation Informatique) 1

10 mn pour se connecter à un fichier Excel. Pas à Pas.

Le nouveau visage de la Dataviz dans MicroStrategy 10

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Information utiles. webpage : Google+ : digiusto/

2 Serveurs OLAP et introduction au Data Mining

Préparation à l installation d Active Directory

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

ENVOI EN NOMBRE DE MESSAGES AUDIO

Un exemple de régression logistique sous

Spécificités, Applications et Outils

Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller.

CONSULTATION SUR PLACE

FAA : Fonctions Automatiques de l Application. Les fonctions automatiques incluses dans vos applications développées avec

Limitations of the Playstation 3 for High Performance Cluster Computing

Introduction à Eclipse

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Convertisseur BBAN/IBAN

Utiliser Freemind à l'école

ERETES-SERIES. Support de formation. Formation ERETES ERETES-SERIE 1/58

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

La rencontre du Big Data et du Cloud

Installation et utilisation de Cobian Backup 8

Eclipse atelier Java

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Tutoriel : Utilisation du serveur de calcul à distance de PSE

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

4. Personnalisation du site web de la conférence

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Cours Plugin Eclipse. Université Paris VI / Parcours STL / Master I Pierre-Arnaud Marcelot - Iktek - pamarcelot@iktek.com

1.2 Genèse. 1.3 Version de Designer utilisée

GUIDE D UTILISATION DE LA BASE DE DONNEES SUR LES PROJETS EXISTANTS ET PREVUS

Plan du cours. Historique du langage Nouveautés de Java 7

Gestion des certificats en Internet Explorer

Backuppc, retour d expérience

Atelier Le gestionnaire de fichier

Présentation du logiciel

1 Introduction - Qu est-ce que le logiciel R?

Pour les futurs développeurs Sommaire

Scénario: Score d appétence de la carte visa premier

INDUSTRIALISATION ET RATIONALISATION

TP Wireshark. Première approche de Wireshark. 1 ) Lancer Wireshark (double clic sur l icône sur le bureau). La fenêtre

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Canvas 3D et WebGL. Louis Giraud et Laetitia Montagny. 9 Avril Université Lyon 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Pourquoi utiliser SharePoint?

Business Intelligence avec Excel, Power BI et Office 365

Universal Robots. Fiche Méthode : Installation du simulateur Polyscope

TP1. Outils Java Eléments de correction

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Transcription:

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1

R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types de données, branchements conditionnels, boucles, organisation du code en procédures et fonctions, découpage en modules. Mode de d exécution : transmettre à R le fichier script «.r» R est un logiciel de statistique et de data mining, pilotée en ligne de commande. Il est extensible (quasiment) à l infini via le système des packages. Les instructions servent à manipuler les objets R c.-à-d. les ensembles de données, les vecteurs, les modèles, etc. Mode de d exécution : introduire commandes dans le terminal, manipulation interactive C est le mode que nous exploiterons dans ce tutoriel. 2

Installation http://www.r-project.org/ R peut fonctionner sous Windows, Mac OS X, Linux 3

Mode d utilisation Mode «terminal» + interactivité, visualisation immédiate des résultats + avec, on retrouve les anciennes commandes - pas de sauvegarde des commandes si fermeture de R (si en fait, avec FICHIER / SAUVER L HISTORIQUE DES COMMANDES) Mode «script» + interactivité, visualisation immédiate des résultats (CTRL + R) + maintien d une liste «propre» des commandes utiles uniquement + possibilité d E/S (chargement ou sauvegarde d un fichier script «.r» mode conseillé pour nous 4

Charger les données Structure data.frame Nom du data.frame Nom du fichier Séparateur de colonnes Point décimal 1 ère ligne = nom des variables Fichier texte, séparateur tabulation. «âge», «taux» et «angine» sont considérées comme quantitatives. «cœur» est une variable qualitative. data.frame = matrice de données = liste de vecteurs de même longueur. Vecteur = variable. Les variables sont typées. Les plus utilisées sont «numeric / integer» (variables quantitatives) et «factor» (variables qualitatives) Remarque : on peut accéder aux variables d un data.frame avec l opérateur $ 5

Le système des packages Package? Un package est une bibliothèque externe Sous Windows fichiers binaires pré-compilés Extension.zip Il est toujours documenté : fichier HTML (aide sous R) et PDF Quel intérêt? Un package contient des collections de fonctions utilisables sous R Souvent centrés sur un sujet particulier (ex. rpart pour les arbres de décision, etc.) Gestion affinée des packages : nous pouvons les installer, désinstaller, charger, décharger et mettre à jour à notre guise Ce système permet d augmenter considérablement la puissance de R!!! 6

Installation (une fois) et chargement d un package (à chaque utilisation) (1) Lancer l installation (2) Choisir le site miroir de téléchargement > Chargement du package [library] > Lecture du fichier Excel (1 ère feuille, nom de variable sur 1 ère ligne) [read.xlsx] > Statistiques descriptives [summary] > ls() liste le contenu de la mémoire (3) Choisir le package à installer 7

Régression logistique glm() pour la régression linéaire généralisée Logit(cœur) = a0 + a1.âge + a2.taux + a3.angine data = heart (data.frame des données) family = binomial (régression logistique) «modele» (objet régression généralisée) Description succincte du modèle (coefficients, ddl, déviance du modèle trivial, déviance du modèle, AIC critère Akaike) Description détaillée (coefficients, écarts-type des coefficients, test de significativité, ) 8

Manipulation de l objet «modele» Ex. Test du rapport de vraisemblance pour évaluer la significativité globale du modèle Tous les objets R sont typés (class permet de le connaître), certains ont des champs (attributes fournit la liste). Champs associés à l objet «modele». Certains sont des scalaires (vecteur de taille 1), d autres des vecteurs, d autres encore des matrices, des listes, des data.frame, Rapport de vraisemblance = Déviance du modèle trivial (réduit à la constante) déviance du modèle étudié DDL = écart entre les deux DDL P-VALUE = loi du KHI-2 à DDL degrés de liberté Le modèle est globalement significatif à 5% Nouveaux objets présents en mémoire après les calculs (chi2, ddl et pvalue, tous des scalaires ici ) 9

Prédiction avec la régression logistique Matrice de confusion, taux d erreur Modèle utilisé pour la prédiction Données à prédire (ça peut être un autre data.frame, ex. échantillon test) Prédiction = Proba d être positif (présence de cœur) Prédiction avec predict( ) Transformer les probas en affectation (ifelse), variable qualitative (factor) Pred.proba et pred.moda sont deux nouveaux vecteurs accessibles dans la mémoire de R table( ) construit un tableau croisé entre la cible observée (coeur) et la prédiction du modèle (pred.moda) Matrice de confusion La table mc se comporte comme une matrice à 2 dimensions, on en déduit le taux d erreur Nouvelle liste des objets disponibles en mémoire 10

Sélection de variables Backward Optimisation du critère AIC avec stepaic Librairie pour la sélection pas-à-pas. Modèle de départ (avec toutes les variables) Plage de recherche Direction de recherche AIC modèle complet = 24.62 1 ère meilleure variable à retirer : angine, AIC = 24.151 (OK) 2 ème variable à retirer : âge, mais AIC = 24.682 (PAS OK) Arrêt de la procédure Print du modèle simplifié 11

Sélection de variables Forward Optimisation du critère AIC avec stepaic Modèle de départ (cœur = a0) Direction de recherche AIC modèle trivial= 26.43 1 ère meilleure variable à ajouter : taux, AIC = 24.682 (OK) 2 ème variable à ajouter : âge, AIC = 24.151 (OK) 3 ème variable à ajouter : angine, mais AIC = 24.618 (PAS OK) Arrêt de la procédure Print du modèle après sélection 12

Conclusion - R est magique De la documentation à profusion (n achetez jamais des livres sur R) Site du cours http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html Programmation R http://www.duclert.org/ Quick-R http://www.statmethods.net/ POLLS (Kdnuggets) Data Mining / Analytics Tools Used - http://www.kdnuggets.com/polls/2011/tools-analytics-data-mining.html (Mai 2011, R en 2 nde position) What languages you used for data mining / data analysis? http://www.kdnuggets.com/polls/2011/languages-for-data-mining-analytics.html (Août 2011, langage R en 1 ère position) Article New York Times (Janvier 2009) Data Analysts Captivated by R s Power - http://www.nytimes.com/2009/01/07/technology/businesscomputing/07program.html?_r=1 13