Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2



Documents pareils
Ricco Rakotomalala R.R. Université Lyon 2

Business Intelligence

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

1 Modélisation d être mauvais payeur

Travaux pratiques avec RapidMiner

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

R00 Installation du logiciel R sous Windows

L informatique en BCPST

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Arbres binaires de décision

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

Présentation du logiciel

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Anne Tasso. Java. Le livre de. premier langage. 10 e édition. Avec 109 exercices corrigés. Groupe Eyrolles, , ISBN :

Inspiration 7.5. Brève description d Inspiration. Avantages d Inspiration. Inconvénients d Inspiration

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

GROOBAX. cliquer sur le «G» Cliquer sur «options» Sélectionner le dossier qui contiendra les paramètres => Cliquer A chercher le dossier créé en 2/

Eclipse atelier Java

Calcul Scientifique avec 3

Cyberclasse L'interface web pas à pas

données en connaissance et en actions?

Installation et lancement d ETHNOS Configuration requise... 5 Installation... 5 Lancement Les modules d ETHNOS... 7

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TP 1. Prise en main du langage Python

chapitre 4 Nombres de Catalan

Guide d exploration de base de données de IBM SPSS Modeler 15

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Formats d images. 1 Introduction

Spécificités, Applications et Outils

Les concepts de base, l organisation des données

Groupe Eyrolles, 2005,

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Conseils et astuces pour un déploiement réussi de la solution VMware Mirage

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Pourquoi utiliser SharePoint?

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Tutoriel code::blocks

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

La classification automatique de données quantitatives

Initiation à la bureautique

Google Documents permet d élaborer un questionnaire, de le diffuser sur le net pour ensuite le dépouiller.

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Introduction à MATLAB R

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

vtiger CRM Pack de langue Manuel d instalation version Française 0.1

HERCULES DJ AUDIO PROCEDURES MISE A JOUR FIRMWARE

Organiser le disque dur Dossiers Fichiers

Projet Matlab : un logiciel de cryptage

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Pour les futurs développeurs Sommaire

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Introduction à. Oracle Application Express

ENVOI EN NOMBRE DE MESSAGES AUDIO

Atelier Le gestionnaire de fichier

Pourquoi R devient incontournable en recherche, enseignement et développement

Cassio facilite la saisie de vos ventes comptoir

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction à la B.I. Avec SQL Server 2008

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Contrôle distant par liaison SSH Christian Dupaty BTS Systèmes Numériques Lycée Fourcade Gardanne Académie d Aix Marseille

Transmission d informations sur le réseau électrique

Travail personnel sur ordinateur

Gestion des données avec R

Installation du logiciel Windows Suivant Démarrer Tous les programmes Démarrer Tous les programmes Marketing Manager Marketing Manager Linux ici Mac

Structure typique d un protocole de recherche. Préparé par Johanne Desrosiers dans le cadre d une formation au réseau FORMSAV

1 Introduction - Qu est-ce que le logiciel R?

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles

SUGARCRM MODULE RAPPORTS

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Algorithmes d'apprentissage

REALISATION D UNE CALCULATRICE GRACE AU LOGICIEL CROCODILE CLIPS 3.

BIRT (Business Intelligence and Reporting Tools)

Tutoriel : Utilisation du serveur de calcul à distance de PSE

Listes de fournitures du secondaire pour la rentrée

Présentation. La société VFCS, offre un éventail très large de services couvrant vos besoins liés aux technologies actuelles de l'informatique.

CATALOGUE DES FORMATIONS

Manuel de formation Spaceman 1 ère journée

1. Présentation du TP

AIDE à l utilisation du cédérom «L athlétisme à l école» Niveau Primaire SOMMAIRE

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Business Intelligence avec Excel, Power BI et Office 365

Messagerie & Groupeware. augmentez l expertise de votre capital humain

INCORPORER EXCEL EN LIGNE DANS UN FICHIER CRÉÉ AVEC L ÉDITEUR DE TEXTE 15 avril 2015

Mise à jour Apsynet DataCenter

Tutoriel QSOS. Version /02/2013

Février Novanet-IS. Suite progicielle WEB pour l Assurance. Description fonctionnelle

1/ Présentation de SQL Server :

26 Centre de Sécurité et de

Transcription:

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html

R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types de données, branchements conditionnels, boucles, organisation du code en procédures et fonctions, découpage en modules. Mode de d exécution : transmettre à R le fichier script «.r» R est un logiciel de statistique et de data mining, pilotée en ligne de commande. Il est extensible (quasiment) à l infini via le système des packages. Les instructions servent à manipuler les objets R c.-à-d. les ensembles de données, les vecteurs, les modèles, etc. Mode de d exécution : introduire commandes dans le terminal, manipulation interactive C est le mode que nous exploiterons dans ce tutoriel. 2

Installation http://www.r-project.org/ R peut fonctionner sous Windows, Mac OS X, Linux 3

Mode d utilisation Mode «terminal» + interactivité, visualisation immédiate des résultats + avec, on retrouve les anciennes commandes - pas de sauvegarde des commandes si fermeture de R (si en fait, avec FICHIER / SAUVER L HISTORIQUE DES COMMANDES) Mode «script» + interactivité, visualisation immédiate des résultats (CTRL + R) + maintien d une liste «propre» des commandes utiles uniquement + possibilité d E/S (chargement ou sauvegarde d un fichier script «.r» mode conseillé pour nous 4

Charger les données Structure data.frame Nom du data.frame Nom du fichier Séparateur de colonnes Point décimal ère ligne = nom des variables Fichier texte, séparateur tabulation. «âge», «taux» et «angine» sont considérées comme quantitatives. «cœur» est une variable qualitative. data.frame = matrice de données = liste de vecteurs de même longueur. Vecteur = variable. Les variables sont typées. Les plus utilisées sont «numeric / integer» (variables quantitatives) et «factor» (variables qualitatives) Remarque : on peut accéder aux variables d un data.frame avec l opérateur $ 5

Le système des packages Package? Un package est une bibliothèque externe Sous Windows fichiers binaires pré-compilés Extension.zip Il est toujours documenté : fichier HTML (aide sous R) et PDF Quel intérêt? Un package contient des collections de fonctions utilisables sous R Souvent centrés sur un sujet particulier (ex. rpart pour les arbres de décision, etc.) Gestion affinée des packages : nous pouvons les installer, désinstaller, charger, décharger et mettre à jour à notre guise Ce système permet d augmenter considérablement la puissance de R!!! 6

Installation (une fois) et chargement d un package (à chaque utilisation) () Lancer l installation (2) Choisir le site miroir de téléchargement > Chargement du package [library] > Lecture du fichier Excel ( ère feuille, nom de variable sur ère ligne) [read.xlsx] > Statistiques descriptives [summary] > ls() liste le contenu de la mémoire (3) Choisir le package à installer 7

Fichier utilisé pour la présentation des arbres de décision Echantillon d apprentissage, 399 observations breast.app <- read.xlsx(file="breast.xls",sheetindex=,header=t) Echantillon de test, 300 observations breast.test <- read.xlsx(file="breast.xls",sheetindex=2,header=t) 8

Arbres de décision avec le package «rpart» Chargement du package «rpart», spécialisé dans les arbres Toujours installé avec R [ data = breast.app ] - Construction de l arbre sur l échantillon «breast.app». [ classe ~. ] - Prédire «classe» à partir des autres variables de la base. [ method = «class» ] - On construit un arbre de décision c.-à-d. apprentissage supervisé. Affichage «format texte» de l arbre. ucellsize< 3.5 Affichage «graphique» de l arbre dans R. begnin bchromatin< 3.5 malignant malignant 9

Evaluation de l arbre sur un échantillon test Construction de la prédiction avec predict( ) Modèle utilisé pour la prédiction newdata - Appliquer la prédiction sur l échantillon test (data.frame «breast.test») Matrice de confusion «pred.classe» est un vecteur de taille 300 ; 9 individus ont été classés «begnin», 09 «malignant». type - Prédiction est une variable qualitative (classement) table( ) construit un tableau croisé entre la cible observée (classe) et la prédiction du modèle (pred.classe) La table mc se comporte comme une matrice à 2 dimensions, on en déduit le taux d erreur erreur = Somme des éléments hors diagonale principale / Nombre total des observations. 0

Modifier les paramètres de construction de l arbre Modifier les paramètres de construction de l arbre Minsplit = taille minimale pour segmenter Minbucket = effectif d admissibilité Construction de l arbre avec les paramètres modifiés. Parce que moins de 20 individus sur cette feuille

Autres packages pour les arbres Le package «tree» Chargement du package «tree», il faut l installer au préalable Paramètres d apprentissage : nobs = nombre d obs. dans l éch. d apprentissage ; mincut = effectif d admissibilité, minsize = taille min. pour segmenter Apprentissage : classe vs. toutes les autres variables du data.frame DEVIANCE = -2 * n * [0.649 * LN(0.649) + 0.35 * LN(0.35)] 2

Autres packages pour les arbres Le package «party» malignant begnin Un des avantages, affichage «sympathique» de l arbre. ucellsize p < 0.00 2 bnuclei p < 0.00 3 3 9 ucellshape p = 0.032 3 bnuclei p < 0.00 4 4 4 normnucl p < 0.00 2 2 4 4 malignant begnin Node 5 (n = 203) 0.8 0.6 0.4 0.2 0 malignant begnin Node 6 (n = 26) 0.8 0.6 0.4 0.2 0 malignant begnin Node 7 (n = 22) 0.8 0.6 0.4 0.2 0 malignant begnin Node 8 (n = 8) 0.8 0.6 0.4 0.2 0 malignant begnin Node 0 (n = 29) 0.8 0.6 0.4 0.2 0 Node (n = 0) 0.8 0.6 0.4 0.2 0 3

Conclusion - R est magique De la documentation à profusion (n achetez jamais des livres sur R) Site du cours http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html RPART T. M. Therneau, E.J. Atkinson, «An introduction to Recursive Partitioning using RPART Routines» http://www.mayo.edu/hsr/techrpt/6.pdf Programmation R http://www.duclert.org/ Quick-R http://www.statmethods.net/ POLLS (Kdnuggets) Data Mining / Analytics Tools Used - http://www.kdnuggets.com/polls/20/tools-analytics-data-mining.html (Mai 20, R en 2 nde position) What languages you used for data mining / data analysis? http://www.kdnuggets.com/polls/20/languages-for-data-mining-analytics.html (Août 20, langage R en ère position) 4