Atouts et faiblesses du logiciel R en enseignement, recherche et industrie

Documents pareils
La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

AGROBASE : un système de gestion de données expérimentales

RAPID Prenez le contrôle sur vos données

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Pourquoi R devient incontournable en recherche, enseignement et développement

statique J. Bertrand To cite this version: HAL Id: jpa

Compte-rendu de Hamma B., La préposition en français

Program Analysis and Transformation: From the Polytope Model to Formal Languages

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

PACKZ System Requirements. Version: Version: Copyright 2015, PACKZ Software GmbH. 1

Instructions Mozilla Thunderbird Page 1

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Dessin assisté par ordinateur en lycée professionnel

Paxton. ins Net2 desktop reader USB

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Peut-on perdre sa dignité?

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Le Cloud Computing est-il l ennemi de la Sécurité?

Telecharger gratuitement convertisseur de fichier word en pdf

Guide d'installation rapide TFM-560X YO.13

Tex: The book of which I'm the author is an historical novel.

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Bourses d excellence pour les masters orientés vers la recherche

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

Forthcoming Database

Institut français des sciences et technologies des transports, de l aménagement

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

Application Form/ Formulaire de demande

SERVEUR DÉDIÉ DOCUMENTATION

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Exemple PLS avec SAS

GIGABIT PCI DESKTOP ADAPTER DGE-530T. Quick Installation Guide+ Guide d installation+

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Gestion des prestations Volontaire

Once the installation is complete, you can delete the temporary Zip files..

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Tom Pertsekos. Sécurité applicative Web : gare aux fraudes et aux pirates!

Netdays Comprendre et prévenir les risques liés aux codes malicieux

DOCUMENTATION - FRANCAIS... 2

La solution idéale de personnalisation interactive sur internet

Les Champs Magnétiques

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

HAUTE DISPONIBILITÉ DE MACHINE VIRTUELLE AVEC HYPER-V 2012 R2 PARTIE CONFIGURATION OPENVPN SUR PFSENSE

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Embases pour raccordement G1/8 - G1/4

Module de paiement Ogone pour Magento Commerce

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Contrôle d'accès Access control. Notice technique / Technical Manual

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

APPENDIX 6 BONUS RING FORMAT

Eléments de statistique

Jessica Dubois. To cite this version: HAL Id: jpa

UNIVERSITE LYON 3 (JEAN MOULIN) Référence GALAXIE : 4140

How to Login to Career Page

Industrial Phd Progam

ANGULAR JS AVEC GDE GOOGLE

Préparer un état de l art

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Modélisation géostatistique des débits le long des cours d eau.

Comfort Duett. TV-kit. USA: English/Français/Español. Comfort Duett

Notice Technique / Technical Manual

WEB page builder and server for SCADA applications usable from a WEB navigator

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Les déterminants du volume d aide professionnelle pour. reste-à-charge

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Face Recognition Performance: Man vs. Machine

Invitation / CTI. CeBIT «SWISS Pavilion» Research & Innovation Applied Research, Basic Research, Emerging Technologies, Start-ups, Spin-offs

Cloud Computing Stratégie IBM France

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

Connaître la version de SharePoint installée

Contents Windows

Les techniques de la télémaintenance

SUGARCRM Sugar Open Source Guide d Installation de French SugarCRM Open Source Version 4.2

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

BIG Data et R: opportunités et perspectives

MANUEL MARKETING ET SURVIE PDF

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

CETTE FOIS CEST DIFFERENT PDF

Transcription:

Atouts et faiblesses du logiciel R en enseignement, recherche et industrie Pierre-André Cornillon, Eric Matzner-Løber To cite this version: Pierre-André Cornillon, Eric Matzner-Løber. Atouts et faiblesses du logiciel R en enseignement, recherche et industrie. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France. 2009. <inria-00386794> HAL Id: inria-00386794 https://hal.inria.fr/inria-00386794 Submitted on 22 May 2009 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Atouts et faiblesses de R en enseignement, recherche et industrie Pierre-André Cornillon 1, & Eric Matzner-Løber 2 (1) Montpellier SupAgro, pierre-andre.cornillon@supagro.inra.fr (2) Université de Rennes, eml@uhb.fr Résumé Dans cette conférence, nous aborderons le logiciel R sous trois aspects : son utilisation en enseignement, en recherche et dans le monde de l entreprise. Pour chacune de ces trois utilisations, il est nécessaire d évaluer les demandes spécifiques du domaine et les réponses qu apporte R. Rappelons brièvement que R est multi-plateforme et multi-os. Il est entièrement gratuit, très complet et offre à la fois des commandes mais aussi des menus déroulants. Il est donc raisonnable de penser que ce logiciel fera partie des logiciels de statistique les plus enseignés. Sa facilité de programmation et sa forte utilisation dans le monde de la recherche en font dès aujourd hui un langage omniprésent. On peut donc s interroger sur les futures évolutions de R vis à vis de la recherche en statistiques. Dans la troisième partie, nous comparerons R avec ses différents concurrents et analyserons les points qui gouvernent les choix de logiciels en entreprise (prix, interface graphique, intégration dans les base de données...). Bien évidemment le logiciel est loin d être parfait mais il comporte dès à présent des avantages qui lui valent d être adopté par un nombre croissant d entreprises. Abstract In this talk, we will present the use of R software in teaching, research and enterprise. To each of these three fields corresponds specifics problems. Recall that R is truly multi-platform and multi-os. This is a free software with numerous statistical methods already available. It offers also a Graphical User Interface in addition to the Command Line Interface, which is the natural way to interact with R. According to these remarks, it seems natural to think that R will be very soon the most used statistical software for teaching. Its programming ease and its widespread use make R to be the lingua franca of the statistical community. What will be the future of R in statistical research? In the third part, we will try to make a comparison between R and other statistical softwares. We will analyze both positive and negative aspects of R software in the industry and try to understand if the success of R in research field will carry on in the industry. Mots clés R, package, logiciel libre, logiciel de statistique Keywords R, package, free software, statistical software 1

1 R et l enseignement Les méthodes statistiques sont toujours illustrées à partir d exemples et donc de données. Afin de rendre les étudiants autonomes, l enseignant doit donc prendre en compte le traitement de données dans la formation en statistiques. Les méthodes les plus simples, comme les calculs de moyennes ou de variances empiriques, peuvent être directement illustrées en utilisant des machines à calculer. Cependant, ce stade est rapidement dépassé et lorsque la méthodologie devient complexe, un logiciel doit être utilisé. A ce stade, l enseignant se trouve confronté à plusieurs choix: utiliser un tableur et ses fonctionnalités ; utiliser un logiciel basé sur des commandes ou CLI (Command Line Interface), permettant d enchaîner des commandes au sein scripts ; utiliser un logiciel basé sur des menus déroulant ou GUI (Graphical User Interface). Au cours de cette présentation, nous envisagerons les avantages et les inconvénients de ces 3 approches et nous placerons le logiciel R dans ces trois possibilités. Les avantages de R peuvent être résumés simplement. Il s agit d un logiciel gratuit qui est disponible sur de nombreux sites miroirs comme par exemple le site lyonnais: http://cran.univ-lyon1.fr/. Par ailleurs il est multi-plateformes (32 bits, 64 bits, Risc, Sisc) et multi-os (windows, Mac, Linux, Unixes), ce qui facilite son intégration dans tous les environnements pédagogiques. Ensuite il s agit d un logiciel complet où presque toutes les méthodes statistiques sont déjà implémentées via des ajouts de librairies de programmes (ou packages) gratuits. Enfin, ce logiciel offre une base de type CLI avec des éditeurs adaptés (tinn-r, ESS pour emacs, kate etc.) qui permettent une intégration assez avancée de R. Cependant, une possibilité pédagogique originale de GUI est disponible via le package Rcmdr. Le logiciel R offre donc le choix à l enseignant entre CLI et GUI sans changer d environnement. 2 R et la recherche Il semblerait que le langage proposé par S et R se rapproche du statut de langage commun de la communauté des statistiques. L essor de ce langage peut être mesuré par la multiplication du nombre de packages disponibles pour R. Ainsi, le logiciel R constitue un des logiciels les plus complets des statistiques et surtout le plus réactifs aux nouvelles méthodes, comme le boosting, les svm ou le lasso. Cet essor peut aussi se mesurer par le nombre en forte croissance des livres traitant de statistiques au travers du logiciel R. Des maisons d édition comme Springer (par exemple [1]), Chapman & Hall (par exemple [7]) ou Wiley (par exemple [6]) proposent désormais de nombreux ouvrages sur ce logiciel en anglais et désormais des ouvrages en français 2

commencent à paraître [5]. Notons au passage que Springer possède même une collection spécifique intitulée user!. Enfin, jusqu à présent les packages sont plutôt une conséquence d un article dans une revue, comme par exemple le package mboost de Bühlmann & Hothorn [3] qui peut être vu comme une conséquence des articles antérieurs de Bühlmann sur le sujet [2,4]. Mais, afin d assurer la reproductibilité des résultats numériques, la mise à disposition des codes et leur mise en forme semblent des objectifs raisonnables de l évaluation scientifique des méthodes statistiques. L élaboration de package R sera peut-être à l avenir une nécessité dans la rédaction d articles. Nous illustrerons la conception d un package basique afin de monter la simplicité de la mise en œuvre. 3 R et le monde de l entreprise Lorsque l entreprise utilise des méthodes statistiques elle est rapidement confrontée à des choix de logiciels. Même s il est rare qu une entreprise ne possède qu un seul logiciel, les critères de choix sont relativement constants et relèvent des mêmes questionnements que nous pouvons résumer ainsi: Logiciel en production ou en investigation? Interface graphique (GUI) ou non? Intégration des logiciels vers les bases de données de l entreprise? Agrément FDA? Logiciel payant et nécessité d un interlocuteur? Possibilité de programmer ses interfaces et de piloter des programmes dans d autres langages de bas niveaux? Nous présenterons comment le logiciel R répond à ces questions et quelles sont ses avantages et inconvénients à l heure actuelle. Même si des entreprises ont déjà fait le choix de R, ce logiciel ne répond pas actuellement à toutes les attentes. 4 Conclusion Le logiciel R présente de nombreux atouts mais aussi des faiblesses. Il semble important de savoir, si celles-ci seront comblées. Rappelons que le projet R est un projet de type coopératif et il n existe donc pas de prévisionnel concernant telle ou telle amélioration. Cependant, l étendue des améliorations entre la première version de R et la version actuelle laisse à penser que de nombreuses améliorations seront réalisées et que ce logiciel constitue un choix d avenir. 3

Bibliographie [1] Albert, J. (2007). Bayesian computation with R. Springer, New-York. [2] Bühlmann, P. (2006). Boosting for high-dimensional linear models. Annals of Statistics 34, 559-583. [3] Bühlmann, P. & Hothorn, T. (2007). Boosting algorithms: regularization, prediction and model fitting (with discussion). Statistical Science 22, 477 505. [4] Bühlmann, P. & Yu, B. (2003).Boosting with the l 2 loss: Regression and classification. Journal of American Statistical Association 98, 324-339. [5] Cornillon, P-A., Guyader A., Husson F., Jégou N., Josse J., Kloareg M., Matzner- Løber E. & Rouvière L. (2008). Statistiques avec R, Presses Universitaires de Rennes, Rennes. [6] Crawley, M. (2005). Statistics: An Introduction using R. Wiley, New-York. [7] Faraway, J. (2007). Extending the linear model with R. Chapman & Hall/CRC, Boca Raton. 4