Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Dimension: px
Commencer à balayer dès la page:

Download "Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin"

Transcription

1 Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet pour le cours Analyse Multivariée, Prof. G. Saporta Juin 2005 Table des matières 1 Introduction 2 2 Description des données 2 3 Analyses préliminaires exploratoires 3 4 Analyse discriminante sur l innovation Description de la méthode Premiers résultats Evaluation de la méthode Validation croisée (Jackknife) Régression logistique Description de la méthode et modélisation Premiers résultats et sélection des variables Evaluation de la méthode Validation croisée (Jackknife) Comparaison des scores obtenus avec les deux méthodes 15 7 Conclusions 16 A Annexe : code R utilisé 17 Références 21 1

2 1 Introduction Dans ce travail seront analysées des données concernant des caractéristiques de 130 entreprises du Canton Tessin. Ces données ont été recueillies pendant les mois de juin et juillet de 2004 et se réfèrent au 31 décembre L enquête a été effectuée dans le cadre d un projet intitulé API : aires productives intégrées financé par le Canton du Tessin qui s inscrivait dans les travaux de révision d un document qui s appelle Plan Directeur Cantonal qui est une sorte de document prince pour l aménagement du territoire du Canton Tessin. Les méthodes utilisées seront l analyse discriminante et la régression logistique dans une optique de score, l objectif étant de classifier, à partir des caractéristiques des entreprises, celles innovatrices et celles qui ne le sont pas. L échantillon n étant pas assez grand pour le diviser en données d apprentissage et données de test, des méthodes non-paramétriques de rééchantillonage seront utilisées pour juger la qualité des analyses. 2 Description des données Les données qui seront analysées dans ce travail proviennent de réponses d entreprises à un questionnaire. Il s agit d un échantillon de 130 entreprises du Canton Tessin faisant partie des branches d activité industrielles, des constructions, du commerce (au détail et en gros), des services informatiques et financiers. Ces branches économiques avaient été choisies parce que l intérêt du projet portait surtout sur les zones industrielles et artisanales du Tessin. Voici une description des variables qui seront prises en compte pour l analyse : inno : si l entreprise a introduit une innovation de produit et/où de service dans les 3 ans précedents (0/1) (variable à discriminer ou expliquer) ; taille : effectifs de l entreprise (en équivalent plein temps) ; ca.pers : chiffre d affaires moyen par effectif par année (des 3 dernières annes , 2002, 2003) ; rd : pourcentage de personnel avec des fonctions de recherche et développement dans l entreprise ; aca : pourcentage de personnel avec une formation académique dans l entreprise; expo : pourcentage de chiffre d affaires réalisé à l étranger ; ca.inno : pourcentage de chiffre d affaires réalisé grâce à des produits / services complètement nouveaux ; form : si l entreprise possède des programmes de formation internes ; brev : si l entreprise a déposé des demandes de brevet de produit, d une composante ou d un procédé de production (0/1) ; cert.qual : si l entreprise possède une certification de qualité (0/1) ; gest.int : si l entreprise dispose d un système de gestion intégré ERP (style SAP) (0/1) ; intranet : si l entreprise dispose d un réseau informatique interne du type Intranet (0/1) ; internet : si l entreprise est attachée à Internet (0/1) ; site : si l entreprise possède ou non un site internet (0/1). 2

3 L identité des entreprises étant confidentielle, elle ne sera pas mentionnée dans ce travail. 3 Analyses préliminaires exploratoires Dans cette section seront présentées des statistiques descriptives des variables et des graphiques aidant la visualisation de leur distribution empirique. Pour ce qui concerne la variable à discriminer (inno) l échantillon se divise en 50% d entreprises ayant introduit une innovation de produit et/ou de service dans les trois dernières années (65 entreprises) et l autre 50% n ayant introduit aucune innovation. Pour les variables explicatives, il faut distinguer 3 types de variables : 1. variables numériques : taille et ca.pers ; 2. variables en pourcentage (entre 0 et 100%) : rd, aca, expo et ca.inno ; 3. variables catégorielles (dans notre cas toutes binaires) : form, brev, cert.qual, gest.int, intranet, internet et site. Fig. 1 Histogrammes et graphiques en barres de toutes les variables (s absolues) inno taille ca.pers rd aca e+00 2 e+06 4 e expo ca.inno form brev cert.qual gest.int intranet internet site On peut voir dans la figure 1 comme la distribution de la taille des entreprises et du chiffre d affaires par effectif est très asymétrique et biasée vers la droite. Avec une transformation logarithmique de ces deux variables on peut voir comme la distribution devient plus symétrique (voir figure 2). Les variables numériques continues transformées seront utilisées pour la régression logistique. Pour l analyse discriminante dans la prochaine section, la transformation en logarithme naturel a aidé dans la catégorisation de ces deux variables de la façon suivante : taille de l entreprise (taille) : 3

4 Fig. 2 Histogrammes des transformations logarithmiques de la taille et du chiffre d affaires par effectif (s absolues) Histogram of log(taille) Histogram of log(ca.pers) log(taille) log(ca.pers) entre 1 et 5 effectifs ; entre 5 et 20 effectifs : entre 20 et 50 effectifs : entre 50 et 150 effectifs : plus de 150 effectifs ; chiffre d affaires par effectif (par année) (ca.pers) : moins de CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; plus de 1,2 millions CHF/personne par année. En ce qui concerne les variables en pourcentage, les histogrammes montrent aussi une forte distribution asymétrique. Des transformations en variables catégorielles sera appliquée à ces variables en pourcentage, de la façon suivante : % de personnel avec des fonctions de recherche et développement dans l entreprise (rd) : entre 0 et 1% ; entre 1 et 20% ; entre 20 et 50% ; entre 50 et 100%. % de personnel avec une formation académique dans l entreprise (aca) : même découpage que rd ; % de chiffre d affaires réalisé à l étranger (expo) : même découpage que rd ; % de chiffre d affaires réalisé grâce à des produits/services complètement nouveaux (ca.inno) : même découpage que rd. 4

5 Les tranches de pourcentage crées seront interprétées de la façon suivante : entre 0 et 1% : niveau zéro ; entre 1 et 20% : niveau faible ; entre 20 et 50% : niveau moyen ; entre 50 et 100% : niveau haut. Les s absolues de ces variables découpées en classes sont présentées dans la figure 3. Fig. 3 Fréquences absolues des variables continues et en pourcentage découpées en classes taille ca.pers rd.factor moins plus ,2mio plus zéro faible moyen haut aca.factor expo.factor ca.inno.factor zéro faible moyen haut zéro faible moyen haut zéro faible moyen haut Ces variables, ainsi catégorisées, seront utilisées dans les prochaines sections où seront appliquées les méthodes d analyse multivariée. 4 Analyse discriminante sur l innovation Le but de l analyse discriminante est celui de classer (affecter à des classes préexistantes) des individus (dans notre cas des entreprises) caractérisés par un certain nombre de variables numériques ou nominales. L analyse factorielle discriminante consiste à rechercher les combinaisons linéaires de p variables explicatives (x 1,x 2,...,x p ), généralement continues, qui permettent de séparer au mieux les q classes (dans notre cas les deux classes : entreprises qui innovent et qui n innovent pas). La pluspart des variables explicatives étant catégorielles, une analyse discriminante classique ne semble pas être la plus appropriée. C est pour cela que les variables continues ont été catégorisées pour pouvoir appliquer la méthode DISQUAL. 5

6 4.1 Description de la méthode Le tableau de données étant à ce point formé de variables nominales, on procède au codage disjonctif complet des p variables explicatives. Le codage disjonctif complet consiste à créer, pour chaque variable, autant de colonnes que la variable a de modalités. Les colonnes représentent les indicatrices de chaque modalité de chaque variable. Dans notre cas, nous avons 13 variables explicatives, dont 2 à cinq modalités, 4 à quatre modalités et 7 variables binaires à deux modalités, ce qui fait une matrice de dimension (130,40) : 130 entreprises (lignes) et 40 modalités possibles (colonnes). Les sommes en ligne de cette matrice (que nous appelons X) sont toujours égales au nombre de variables explicatives, soit 13 dans notre cas. La matrice X n est pas inversible puisqu il existe p relations linéaires entre les colonnes du tableau disjonctif complet. Une possibilité dans ce cas est de réaliser une analyse discriminante classique sur les facteurs de l analyse des correspondances multiples. Cette méthode est connue sous le nom de méthode DISQUAL ou de régularisation par axes principaux. La procédure consiste donc à effectuer une analyse des correspondances sur le tableau disjonctif complet (matrice X) où les p variables catégorielles sont remplacées par k variables continues correspondant aux facteurs de l analyse des correspondances multiples. Ensuite, à partir des k variables continues, qui représentent les coordonnées sur les axes factoriels de l analyse des correspondances multiples, effectuer une analyse factorielle discriminante. Des k variables numériques ainsi crées, on retiendra les coordonnées factorielles les plus discriminantes. 4.2 Premiers résultats L analyse des correspondances multiples a fait ressortir 27 facteurs indépendants dont l importance se répartit selon le graphe ci-dessous (figure 4) en valeur propre de la variance. Les valeurs propres ainsi que la part de variance que Fig. 4 Valeurs propres résultants de l analyse des correspondances multiples Valeurs propres les facteurs expliquent sont présentées dans la table 1. Dans la figure 5 sont 6

7 représentées les coordonnées des 40 modalitées possibles sur les deux premiers axes de l analyse des correspondances multiples. Tab. 1 Valeurs propres de l analyse des correspondances multiples Valeurs propres Part de variance expliquée Part cumulée Même si les deux premiers axes n expliquent qu environ 23% de la variance totale, on peut chercher d interpréter le sens des facteurs. Pour le premier facteur (abscisse de la figure 5) il ne semble pas y avoir un grand pouvoir discriminant (les points sont assez proches de l origine). On peut remarquer quand-même, en bas à droite, la modalité des entreprises ayant plus de 150 effectifs, opposée aux modalités des entreprises de taille inférieure qui se trouvent plus à gauche. Le premier axe semblerait caractériser la taille des entreprises (mais la distinction n est pas évidente). Par contre, le deuxième axe (ordonnée de la figure 5) parait plus discriminant : on remarque en haut les modalités rd.haut et aca.haut s opposant assez nettement des modalités plus basses de ces variables. On peut interpréter ce facteur comme indicateur de la qualité du personnel des entreprises. Pour la recherche d une fonction discriminante, on choisit de retenir les 11 pre- 7

8 Fig. 5 Coordonnées des modalitées sur les 2 premiers axes de l analyse des correspondances multiples Axes 1 et 2: 23% de var.expliquée rd.haut aca.haut ca.inno.haut rd.moyen ca.pers.0 60 ca.pers.450 1,2mio expo.haut taille.moins5 aca.moyen gest.int.1 internet.0 brev.1 form.0 cert.qual.0 ca.inno.moyen site.0 aca.zéro ca.pers ca.inno.faible intranet.1 intranet.0 taille.5 20 rd.zéro brev.0 internet.1 gest.int.0 expo.zéro expo.faible site.1 ca.inno.zéro form.1 ca.pers taille rd.faible expo.moyen cert.qual.1 aca.faible ca.pers.1,2mio plus taille taille.150plus miers axes (facteurs), qui ensemble expliquent environ le 69% de la variance (soit on laisse tomber les facteurs qui expliquent moins de 4% de la variance). On applique donc une analyse discriminante linéaire sur les 11 premiers facteurs résultants de l analyse des correspondances multiples, le but étant de trouver une fonction (combinaison linéaire des facteurs, qui sont des variables continues) qui discrimine au mieux les deux groupes d entreprises, soit celles qui innovent de celles qui n innovent pas. L équation ci-dessous illustre le résultat de l analyse discriminante : Z = F F F F F F F F F F F11 (1) L équation (1) définit un score Z qui discrimine la variable de la façon suivante : { 0 l entreprise innove si Z < 0 l entreprise n innove pas 4.3 Evaluation de la méthode À partir de la fonction discriminante illustrée dans l équation (1), on peut calculer les scores Z pour chacune des entreprises et voir comment cette fonction les classe dans les deux groupes. Les résultats sont résumés dans la matrice de confusion ci-dessous. La lecture de cette matrice de confusion est la suivante : 0 1 total

9 sur la première ligne, on voit que, parmi les 65 entreprises faisant partie du groupe non-innovateur, 59 sont classées correctement (soit 90,8%) et 6 sont classées dans le mauvais groupe; sur la deuxième ligne, on voit que, parmi les 65 entreprises innovatrices, 58 ont été bien classées (soit 89,2%) et 7 ont été classées dans le mauvais groupe. Cette matrice, ayant été calculée à partir des mêmes données sur lesquelles l estimation de la fonction discriminante a été faite, n est pas une bonne mesure de la qualité du modèle. En général, cette matrice sur-estime la qualité du modèle. Pour cette raison, dans la prochaine section seront utilisés des méthodes non-paramétriques de réechantillonage, afin d avoir une mesure de la qualité du modèle Validation croisée (Jackknife) La validation croisée consiste à effectuer une analyse discriminante en enlevant une observation (une entreprise) pour ensuite utiliser l estimation pour classer l entreprise qui a été omise dans l estimation de la fonction discriminante. Cette procédure va être faite 130 fois (chaque fois on élimine une entreprise) et de cette façon on aura une matrice de confusion contenant les prévisions faites indépendamment de chaque entreprise. À partir des facteurs obtenus avec l analyse des correspondances multiples, qui constituent les nouvelles variables continues, on enlève à chaque tour une entreprise, on estime la fonction discriminante et avec cette fonction on classe l entreprise qui a été omise. Le résultat de la procédure est résumé dans la matrice de confusion ci-dessous. Sur les 65 entreprises non-innovatrices (première 0 1 total ligne), 57 sont bien classées (87,7%), ce qui montre une bonne performance du modèle. Pour les entreprises innovatrices (deuxième ligne), 55 entreprises sur 65 sont classées correctement (84,6%). Globalement, avec la validation croisée, on obtient un pourcentage d entreprises bien classées de = 86,15% Régression logistique Dans cette section sera effectuée une régression logistique sur la variable dépendante inno, dans l optique d arriver à discriminer les entreprises innovatrices de celles non-innovatrices. 5.1 Description de la méthode et modélisation La régression logistique convient pour la modélisation d une variable dichotomique Y = 0/1. L objectif est de modeliser l espérance conditionnelle de Y sachant les valeurs de certaines variables explicatives X 1,...,X p : π(x) = Prob(Y = 1 X = x) 9

10 Le modèle linéaire classique du type : π(x) = β 0 + β 1 x β p x p convient mal et le modèle logistique est plus naturel. La régression logistique modélise l espérance conditionnelle de la variable dichotomique de la façon suivante : eβ0+β1 x1+...+βp xp π(x) = 1 + e β0+β1 x1+...+βp xp ou, de façon équivalente : ( ) π(x) log = β 0 + β 1 x β p x p 1 π(x) Le rapport π(x) Prob(Y = 1 X = x) Prob(Y = 1 X = x) = = 1 π(x) 1 Prob(Y = 1 X = x) Prob(Y = 0 X = x) est appelé odds-ratio. Le logarithme naturel de ce rapport est appelé log-odds ou simplement logit. 5.2 Premiers résultats et sélection des variables Dans notre cas, on va dans un premier temps faire une estimation logit avec toutes les variables explicatives, en prenant les transformations en logarithme naturel pour les deux variables continues taille et ca.pers (taille et chiffre d affaires par personne par année) présentées dans la section 3 à la page 3. Les variables en pourcentage seront laissées telles qu elles étaient dans les données originales. À partir de l estimation avec toutes les variables explicatives, une procédure de backward-selection basée sur le critère d Akaike sera effectuée 1. Le critère d Akaike (AIC) est défini comme : AIC = 2 log(vraisemblance) + 2 # de paramètres et sert à comparer la qualitè de modèles avec différents paramètres, le but étant de minimiser le critère 2. Dans un deuxième temps, une deuxième estimation sera faite, mais avec les mêmes variables utilisées pour l analyse discriminante, c està-dire avec les variables continues et celles en pourcentage découpées en classes. Après cette estimation, une procédure de backward-selection sera aussi appliquée. Les résultats de la première estimation sont résumés dans la table 2. On peut remarquer comme seulement les variables taille, ca.inno et site ont des coefficients significativement différents de zéro (p-value< 0,05). Avec une procédure de backward-selection, à partir de cette estimation pleine (avec toutes les variables explicatives), on aboutit à l estimation présentée 1 La procédure commence en faisant une estimation avec toutes les variables explicatives. Ensuite, la variable qui contribue davantage à la réduction de l AIC est enlevée. La procédure s arrête lorsqu en enlevant une variable, le critère d Akaike ne diminue plus. 2 Plus le critère d Akaike est bas et mieux c est. En effet, le critère AIC contient le logarithme naturel de la vraisemblance précédé d un signe moins et une penalité qui tient compte du nombre de paramètres. 10

11 Tab. 2 Régression logistique avec toutes les variables explicatives Estimate Std. Error z value p-value (Intercept) log(taille) log(ca.pers) rd aca expo ca.inno form brev cert.qual gest.int intranet internet site AIC= Tab. 3 Résultats de la backward-selection Estimate Std. Error z value p-value (Intercept) log(taille) rd expo ca.inno form brev site AIC= dans la table 3. La procédure a retenu 7 variables, dont 5 sont significatives (une l est seulement au seuil de 10%). Les signes des coefficients sonts tous positifs sauf celui concernant le logarithme de la taille, qui est négafif. L interprétation de ce coefficient serait que plus la taille d une entreprise est grande et moins l entreprise aurait une probabilité d innover. Les résultats de la deuxième estimation, avec les variables continues et en pourcentage catégorisées, sont présentées dans la table 4. Il faut remarquer qu avec toutes les variables exprimées en catégories, le nombre de coefficients à estimer devient plus grand. En effet, par exemple pour la variable taille, qui avait été découpée en 5 classes, 4 coefficients sont estimés. La modalité pour laquelle un coefficient n est pas estimé (effectifs entre 1 et 5 dans le cas de la variable taille) est la catégorie de référence pour cette variable. Les coefficients estimés sont donc à lire en référence de la modalité qui a été omise. En effectuant une 11

12 Tab. 4 Régression logistique avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus rdfaible rdmoyen rdhaut acafaible acamoyen acahaut expofaible expomoyen expohaut ca.innofaible ca.innomoyen ca.innohaut form brev cert.qual gest.int intranet internet site AIC= procédure de backward-selection on obtient les résultats résumés dans la table 5. Les variables retenues sont taille, ca.pers, aca, ca.inno, form, brev et site. Il est intéressant de remarquer : pour la variable taille : il semble que jusqu à une taille de 150 effectifs, la taille a un effet négatif sur la probabilité d innover (les 3 coefficients sont tous significatifs au moins à un seuil de 10%). Pour les entreprises ayant plus de 150 effectifs (grandes entreprises) la taille semble avoir un impact positif sur la probabilité d innover (mais attention : le coefficient n est pas significatif) ; pour la variable ca.pers : toutes les modalités de chiffre d affaire par effectif supérieures à francs suisses par année ont un effet positif sur la probabilité d innover, par rapport à la catégorie de référence. La modalité entre et francs suisses par année par effectif n est que 12

13 Tab. 5 Résultat de la backward-selection avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus acafaible acamoyen acahaut ca.innofaible ca.innomoyen ca.innohaut form brev site AIC= faiblement significative (p-value= 0, 113) et celle de plus de 1 million de francs suisses est encore plus faiblement significative (p-value= 0,3054) ; pour la variable aca : un pourcentage faible d effectifs avec une formation académique (entre 1 et 20%) a un effet négatif sur la probabilité d innover, par rapport à un pourcentage nul. Par contre, des pourcentages moyens ou hauts de personnel avec une formation académique semblent avoir un effet positif sur la probabilité d innover. Il faut dire quand-même que le coefficient de la modalité haute n est pas significatif ; pour la variable ca.inno : plus une entreprise vend grâce à des produits et/ou services nouveaux et plus la probabilité d innover devient grande par rapport à celle de n innover pas. Les coefficients sont tous significatifs au moins à un seuil de 5% ; pour les variables form et site : le fait de posséder des programmes de formation interne pour le personnel et le fait d avoir un site internet semblent avoir un effet positif sur la probabilité d innover (même s il faut remarquer la pas très grande significativité pour le fait d avoir des programmes de formation interne) ; pour la variable brev : le coefficient n est pas significatif, mais le signe dirait que le fait d avoir déposé un ou plusieurs brevets ait un effet positif sur la probabilité d innover. En utilisant toutes les variables découpées en catégories, on perd en degrés de liberté mais on a l avantage de faire ressortir des relations non-linéaires qu avec les variables continues ne pouvaient pas être détectées. 13

14 5.3 Evaluation de la méthode Dans cette partie seront utilisées les deux estimations obtenues avec les procédures de backward-selection à la section précédente. Les matrices de confusion pour les deux modèles, basées sur les données d apprentissage, sont données ci-dessous (à gauche pour le modèle avec les variables continues et à droite pour celui avec les variables continues catégorisées ). Le modèle avec les 0 1 total 0 1 total variables continues et en pourcentage découpées en classes semble classer mieux les entreprises dans les deux groupes. Comme dans le cas de l analyse discriminante, les matrices de confusion basées sur les données d apprentissage (celles utilisées pour les estimations des modèles) ne sont pas de bons indicateurs de la qualité des modèles. Dans la prochaine section, des méthodes non-paramétriques de réechantillonage seront effectuées Validation croisée (Jackknife) La procédure est analogue à celle effectuée à la section à la page 9 pour l analyse discriminante. La procédure, dans le cas en question, est : 1. effectuer une estimation du modèle de régression logistique en enlevant une entreprise ; 2. en utilisant les paramètres estimés, classer l entreprise qui a été omise ; 3. répéter la procédure pour chaque entreprise; 4. vérifier la qualité de la prévision en comparant les résultats avec les données originales de la variable inno. La procédure va être appliquée aux deux modèles de régression logistique réduits (les deux obtenus avec les procédures de backward-selection ). Les deux matrices de confusion résultantes sont présentées ci-dessous. En ce qui 0 1 total 0 1 total concerne les entreprises non-innovatrices, les deux modèles classent correctement 56 et 55 entreprises sur 65 respectivement (soit 86,1% et 84,6%). Pour les entreprises innovatrices, les deux modèles prévoient correctement 53 respectivement 58 entreprises sur 65 (soit 81,5% et 89,2%). Le pourcentage de bien-classées globalement est de = 86,9% respectivement = 83,8% et de Les résultats sont du même ordre de grandeur que ceux obtenus avec l analyse discriminante. Globalement, les résultats obtenus avec les deux régression logistiques avec la validation croisée, sont semblables à ceux obtenus avec l analyse discriminante (83,8% et 86,9% contre 86,15% avec l analyse discriminante). 14

15 6 Comparaison des scores obtenus avec les deux méthodes Dans cette section seront comparés graphiquement et en termes de corrélation les scores pour les entreprises obtenus avec l analyse discriminante et avec la régression logistique. Fig. 6 Représentation graphique des scores score.logit score.logit LD1 Dans la figure 6 sont représentés les scores pour les 130 entreprises obtenus avec les différentes méthodes. On voit qu il forment un nuage assez linéaire, ce qui est témoigné aussi par la matrice des corrélations présentée ci-dessous. LD1 score.logit1 score.logit2 LD score.logit score.logit2 1 Les coefficients de corrélation linéaires empiriques des scores obtenus avec les trois modèles sont assez hauts, sauf pour celui entre le LD1 et le score.logit1 (qui sont ceux obtenus avec l analyse discriminante et avec le premier modèle de régression logistique réduit avec les variables continues). La comparaison a été faite à des fins uniquement illustratifs, car les trois modèles n ont pas utilisé exactement les mêmes variables (catégorielles vs. continues, facteurs de l analyse des correspondances multiples, etc... ). Une autre représentation intéressante, qui illustre la bonne qualité des performances des trois modèles, sont les courbes ROC pour les validations croisées qui ont été faites. Ces courbes représentent la proportion de vrais positifs en fonction de la proportion de faux positifs lorsque le seuil varie. Plus la courbe s éloigne de la ligne diagonale et mieux c est. En d autres termes, plus la surface (estimée) sous la courbe (AUC : area under the curve ) est proche de 1 et 15

16 Fig. 7 Courbes ROC pour les validations croisées des 3 modèles logit1 logit2 Prop. de vrais positifs Prop. de vrais positifs Prop. de faux positifs AUC = Prop. de faux positifs AUC = discriminante Prop. de vrais positifs Prop. de faux positifs AUC = mieux c est (=bonne qualité du score); plus la surface est proche de 1/2 (aire minimale) et pire sera la qualité du score. On voit dans la figure 7 comme les trois courbes ROC ont visuellement une bonne allure, témoignée par les aires sous les courbes respectivement de 0,905, 0,899 et 0, Conclusions Dans ce travail des données concernant 130 entreprises tessinoises ont été analysées. Le but étant de classifier les entreprises dans des groupes prédefinis comme innovatrices et non-innovatrices, deux approches ont été appliquées. Dans un premier temps, une analyse discriminante DISQUAL a été effectuée : cette méthode utilise les facteurs résultant de l analyse des correspondances multiples (variables continues) pour calculer une fonction discriminante. Dans un deuxième temps, deux modèles de régression logistique ont été estimés : un contenant les variables originales (sauf une transformation en logarithme naturel des deux variables continues) et un avec toutes les variables transformées en catégorielles. La performance des trois modèles a été évaluée avec une validation croisée, qui consiste à faire tant d estimations qu on a d observations, en omettant à chaque fois une observation pour après la classifier avec l estimation faite sans celle-ci. Les performances sont globalement assez bonnes et, même avec des approches différentes, les scores obtenus sont assez corrélés. 16

17 A Annexe : code R utilisé Dans cet annexe on peut trouver le code R utilisé pour les analyses effectuées dans ce travail, avec quelques commentaires. Les lignes de code précédées d un signe # sont des commentaires, et ne sont pas executées en tant que commandes par R. Certaines commandes ont été divisées sur plusieurs lignes, pour des motifs de layout de page exclusivement. #IMPORTATION DES DONNEES A PARTIR DU FICHIER TEXTE dati<-read.table(file="./dati.txt", sep="\t", header=true) dati<-dati[,-15] #CHARGEMENT DES LIBRAIRIES UTILISEES POUR LES ANALYSES library(mass) library(boot) library(xtable) library(ade4) library(scatterplot3d) #DISCRETISATION/CATEGORISATION DES VARIABLES CONTINUES attach(dati) taille.factor<-factor(cut(taille, breaks=c(0,5,20,50, 150, 450), labels=c("moins5", "5-20", "20-50", "50-150", "150plus"))) ca.pers.factor<-factor(cut(ca.pers, breaks=c(0,60000,160000, , , ), labels=c("0-60 ", " ", " ", "450-1,2mio", "1,2mio-plus"))) detach(dati) #DISCRETISATION/CATEGORISATION DES VARIABLES EN POURCENTAGE dati.perc<-dati[, 4:7] rd.factor<-factor(cut(dati.perc$rd, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) aca.factor<- factor(cut(dati.perc$aca, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) expo.factor<- factor(cut(dati.perc$expo, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) ca.inno.factor<- factor(cut(dati.perc$ca.inno, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) dati.perc.factor<-data.frame(rd.factor, aca.factor, expo.factor, ca.inno.factor) rm(rd.factor, aca.factor, expo.factor, ca.inno.factor) #GRAPHIQUES DES VARIABLES CATEGORIELLES CREES 17

18 par(mfrow=c(2,3)) barplot(table(taille.factor), main="taille.factor") barplot(table(ca.pers.factor), main="ca.pers.factor") for(i in 1:4){ barplot(table(dati.perc.factor[, i]), main=names(dati.perc. factor)[i]) } #HISTOGRAMMES ET GRAPHIQUES EN BARRES DE TOUTES LES VARIABLES # ORIGINALES par(mfrow=c(3,5)) nomi=names(dati) for(i in 1:ncol(dati)){ if(class(dati[,i])=="numeric") hist(dati[,i], main=nomi[i], col="gray", xlab="", ylab="frquence") else barplot(table (dati[,i]), main=nomi[i], ylab="frquence") } #HISTOGRAMMES DES DEUX VARIABLES CONTINUES TRANSFORMEES EN #LOGARITHME NATUREL par(mfrow=c(1,2)) attach(dati) hist(log(taille), col="gray", ylab="frquence") hist(log(ca.pers), col="gray", ylab="frquence") detach(dati) #CREATION DU DATA.FRAME dati.factor, QUI CONTIENT TOUTES #LES VARIABLES CATEGORIZEES SOUS FORME DE factor dati.bin.factor<-data.frame(as.factor(dati$inno), as.factor (dati$form), as.factor(dati$brev), as.factor(dati$cert.qual), as.factor(dati$gest.int), as.factor(dati$intranet), as.factor (dati$internet), as.factor(dati$site)) names(dati.bin.factor)<-names(dati)[c(1,8:14)] dati.factor<-data.frame(as.factor(dati$inno), taille.factor, ca.pers.factor, dati.perc.factor, dati.bin.factor[, -1]) names(dati.factor)<-names(dati) #CREATION DU TABLEAU DISJONCTIF COMPLET DES VARIABLES EXPLICATIVES library(ade4) disj.complet<-acm.disjonctif(dati.factor[, -1]) #ANALYSE DES CORRESPONDANCES MULTIPLES (AVEC LES VARIABLES #CATEGORIELLES ET LES VARIABLES CONTINUES CATEGORIZEES #avec la librairie ade4 dati.acm<-dudi.acm(dati.factor[, -1], scannf = FALSE, nf=2) #avec la librairie MASS dati.mca<-mca(dati.factor[, -1], abbrev=false, nf=27) #DIAGRAMME EN BARRES DES VALEURS PROPRES dati.eigen<-dati.mca$d^2 18

19 barplot(dati.eigen, main="valeurs propres") #INERTIE CUMULATIVE DES VALEURS PROPRES (AXES FACTORIELS) #POURCENTAGE DE VARIANCE QU EXPLIQUENT LES FACTEURS DE #L ANALYSE DES CORRESPONDANCES MULTIPLES dati.mca.expl<-data.frame(dati.eigen, dati.eigen/sum(dati.eigen), cumsum(dati.eigen)/sum(dati.eigen)) names(dati.mca.expl)<-c("valeurs propres","% de variance EXPLIQUEE", "% CUMULE") #GRAPHIQUE DES MODALITES DES VARIABLES SUR LES DEUX PREMIERS AXES #DE L ANALYSE DES CORRESPONDANCES MULTIPLES plot(dati.mca, rows=f, cex=0.9, cex.axis=1.3, cex.lab=1.3, main= "Axes 1 et 2: 23% de var.expliquee"); abline(v=0,h=0) #DISQUAL: ANALYSE DISCRIMINANTE AVEC LES FACTEURS OBTENUS AVEC #L ANALYSE DES CORRESPONDANCES MULTIPLES disqual<-data.frame(dati$inno, dati.mca$rs) names(disqual)[1]<-"inno" disqual.lda2<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data=disqual) disqual.pred<-predict(disqual.lda2) confusionmat<-table(disqual$inno, disqual.pred$class) confusionmat #GRAPHIQUE DES DENSITES KERNEL ESTIMEES #CE GRAPHIQUE N EST PAS PRESENT DANS LE DOCUMENT plot(disqual.lda2, type = "density", dimen = 1) #VALIDATION CROISEE prev<-numeric(nrow(dati.factor)) score.crossed<-numeric(nrow(dati.factor)) n<-length(prev) for(i in 1:n){ lda.crossed<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data= disqual[-i,]) score.crossed[i]<-t(as.matrix(dati.mca$rs[i, 1:11])) %*% as.matrix(lda.crossed$scaling) if(score.crossed[i]>=0) prev[i]<-1 } confusionmat2<-table(dati$inno, prev) confusionmat2 #REGRESSION LOGISTIQUE (1). AVEC VARIABLES ORIGINALES dati.logit<-glm(inno ~ log(taille) + log(ca.pers) + rd + aca + expo + ca.inno + form + brev + cert.qual + gest.int +intranet + internet + site, family=binomial(link="logit"), data=dati) summary(dati.logit) #BACKWARD SELECTION (1). 19

20 dati.logit.step<-stepaic(dati.logit, direction="backward") summary(dati.logit.step) #REGRESSION LOGISTIQUE (2). AVEC VARIABLES CATEGORIZEES dati.factor.logit<- glm(inno ~., family=binomial(link="logit"), data=dati.factor) summary(dati.factor.logit) #BACKWARD SELECTION (2). dati.factor.step<-stepaic(dati.factor.logit, direction="backward") summary(dati.factor.step) #SCORE LOGIT mat.logit<-as.matrix(cbind(1, dati[, c(2,4,6,7,8,9,14)])) mat.logit[,2]<-log(mat.logit[,2]) linear.pred<-mat.logit %*% as.matrix(dati.logit.step$coefficients) linear.pred[linear.pred>=0]<-1 linear.pred[linear.pred<0]<-0 linear.pred confusionmat3<-table(dati$inno, linear.pred) confusionmat3 linear.pred2<-predict(dati.factor.step) linear.pred2[linear.pred2>=0]<-1 linear.pred2[linear.pred2<0]<-0 confusionmat4<-table(dati$inno, linear.pred2) confusionmat4 #VALIDAITON CROISEE DES DEUX MODELES LOGIT REDUITS n<-nrow(dati) score.logit1<-numeric(n); prev.logit1<-numeric(n); dati.logit1<-dati[, c(2,4,6,7,8,9,14)] dati.logit1<-cbind(1,dati.logit1) dati.logit1[,2]<-log(dati.logit1[,2]) for(i in 1:n){ est<-glm(inno ~ log(taille) + rd + expo + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati[-i,]) score.logit1[i]<- as.matrix(dati.logit1[i, ]) %*% as.matrix(est$coefficients) if(score.logit1[i]>=0) prev.logit1[i]<-1 } confusionmat5<-table(dati$inno, prev.logit1) confusionmat5 dati.logit2<-model.matrix(dati.factor.step) score.logit2<-numeric(n); prev.logit2<-numeric(n); for(i in 1:n){ est2<-glm(inno ~ taille + ca.pers + aca + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati.factor[-i,]) score.logit2[i]<- t(as.matrix(dati.logit2[i, ])) %*% as.matrix(est2$coefficients) if(score.logit2[i]>=0) prev.logit2[i]<-1 } 20

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés

Feuille de TP N 3 : Modèle log-linéaire - Travail guidé. 1 Cancers : modèle log-linéaire à deux facteurs croisés M1 MLG Année 2012 2013 Feuille de TP N 3 : Modèle log-linéaire - Travail guidé 1 Cancers : modèle log-linéaire à deux facteurs croisés Ce premier exercice reprend l exercice 1 de la feuille de TD n 3.

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Jackknife et bootstrap comparés

Jackknife et bootstrap comparés Jackknife et bootstrap comparés Statistique linéaire θ(x 1,...,X n ) = c + n 1 n 1 α(x i) c constante, α fonction Exemples : X, 1 + n 1 Xi /n Jackknife et bootstrap comparés Statistique linéaire θ(x 1,...,X

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Projetde SériesTemporelles

Projetde SériesTemporelles COMMUNAUTE ECONOMIQU E ET MONETAIRE DE L AFRIQUE CENTRALE (CEMAC) INSTITUT SOUS REGIONAL DE STATISTIQUES ET D ECONOMIE APPLIQUEE (ISSEA) Projetde SériesTemporelles MODELISATION DE LA RENTABILITE DE L INDICE

Plus en détail

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold

Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Analyse des données «Hamburgers» à l aide de SPSS (v2, janvier 2011) Auteur : André Berchtold Le site web «The Fast Food Explorer» (www.fatcalories.com) propose des données relatives à la composition des

Plus en détail

Questions pratiques 4: Transformer la variable dépendante

Questions pratiques 4: Transformer la variable dépendante Questions pratiques 4: Transformer la variable dépendante Jean-François Bickel Statistique II SPO8 Transformer une variable consiste en une opération arithmétique qui vise à construire une nouvelle variable

Plus en détail

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision Dans ce tableau, si le chercheur ne s intéresse pas aux notes item par item mais simplement à la note globale, alors il conservera seulement les première et dernière colonnes et calculera des statistiques

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2?

16. Comment introduire les valeurs prises par la variable SPORT pour les 30 premiers sujets introduits dans L2? T.P. 5 partie 1 Variable ordinale Calcul manuel de quantiles Utilisation des fonctions intégrées de la TI-84 Utilisation du programme D1 (Corrigé pour 30 cas) V. Prise en compte de 30 cas (pour éviter

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant

FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant FACULTE DE MEDECINE D ANGERS Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant Année scolaire 2007-2008 SANTE PUBLIQUE ET MEDECINE SOCIALE Responsable

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

RETScreen International. ACÉTATE 3 : Feuille Sommaire financier

RETScreen International. ACÉTATE 3 : Feuille Sommaire financier Module de formation NOTES DU FORMATEUR ANALYSES FINANCIÈRE ET DE RISQUE AVEC LE LOGICIEL RETSCREEN COURS D ANALYSE DE PROJETS D ÉNERGIES PROPRES Ce document donne la transcription de la présentation orale

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010)

Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010) Quelques manipulations avec R et utilisation de la «librairie» IPErad (version avril 2010) Ce document constitue une brève introduction à l utilisation de R. Elle rassemble des éléments épars présentés

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Premiers pas vers l analyse de données...

Premiers pas vers l analyse de données... Fiche TD avec le logiciel : tdr1101 Premiers pas vers l analyse de données... A.B. Dufour & D. Clot Cette fiche comprend des exercices portant sur les paramètres descriptifs principaux et les représentations

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Traitement des données avec EXCEL 2007

Traitement des données avec EXCEL 2007 Traitement des données avec EXCEL 2007 Vincent Jalby Octobre 2010 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation (questionnaire),

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Méthode en trois étapes destinée à une évaluation globale des résultats obtenus pour différents échantillons.

Méthode en trois étapes destinée à une évaluation globale des résultats obtenus pour différents échantillons. ISP Rue J. Wytsman, 14 B-1050 BRUXELLES SERVICE PUBLIC FEDERAL (SPF) SANTE PUBLIQUE, PROTECTION DE LA CHAINE ALIMENTAIRE ET ENVIRONNEMENT COMMISSION DE BIOLOGIE CLINIQUE SERVICE DES LABORATOIRES DE BIOLOGIE

Plus en détail

La régression logistique généralisée avec la procédure LOGISTIC

La régression logistique généralisée avec la procédure LOGISTIC La régression logistique généralisée avec la procédure LOGISTIC 1 Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc

Plus en détail

I] ETUDE STATISTIQUES SIMPLE

I] ETUDE STATISTIQUES SIMPLE INTRODUCTION Scilab (contraction de Scientific Laboratory) est un logiciel libre, développé à l'inria Rocquencourt. C'est un environnement de calcul numérique qui permet d'effectuer rapidement toutes les

Plus en détail

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES

Analyse de données. [Tapez le sous-titre du document] ANALYSE DE DONNEES 2011 2012. ANALYSE DE DONNEES Page 1 LICENCE 3 SCIENCES ECONOMIQUES 2011 2012 ANALYSE DE DONNEES 2011 2012 LICENCE 3 SCIENCES ECONOMIQUES COURS DE M. THIERRY BLAYAC Analyse de données [Tapez le sous-titre du document] ANALYSE DE DONNEES Page 1 H34VEN Cours pour Licence

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Examen d accès - 28 Septembre 2012

Examen d accès - 28 Septembre 2012 Examen d accès - 28 Septembre 2012 Aucun document autorisé - Calculatrice fournie par le centre d examen Cet examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Modèles références de régression multinomiale.

Modèles références de régression multinomiale. Modèles références de régression multinomiale. Propriétés et applications en classification supervisée. Jean Peyhardi 1,3, Catherine Trottier 1,2 & Yann Guédon 3 1 UM2, Institut de Mathématiques et Modélisation

Plus en détail

Cahier de textes Page 1 sur 9. Cahier de textes

Cahier de textes Page 1 sur 9. Cahier de textes Cahier de textes Page 1 sur 9 Cahier de textes Jeudi 04/09/2014 9h-12h et 13h30-16h30 : Cours sur la logique : - Conjonction, disjonction, implication, équivalence - Quelques formules. - Quantificateurs

Plus en détail

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08.

Choisissez la formation. Qui vous intéresse! SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc. Tél : 037-67.08.66/67 Fax : 037-67.08. SPSS Maghreb 72,Av.des Nations Unies Rabat-Agdal-Maroc Tél : 037-67.08.66/67 Fax : 037-67.08.69 Choisissez la formation spssmaroc@maghrebnet.net.ma Qui vous intéresse! Site web : www.spss.com/localoffices/morocco

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Probabilités et Statistiques. Chapitre 1 : Statistique descriptive

Probabilités et Statistiques. Chapitre 1 : Statistique descriptive U.P.S. I.U.T. A, Département d Informatique Année 2008-2009 Probabilités et Statistiques Emmanuel PAUL Chapitre 1 : Statistique descriptive 1 Objectifs des statistiques. Il s agit d étudier un ou plusieurs

Plus en détail

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES

Module 2 29 Décembre 2009 Intervenant: Dhuin STATISTIQUES STATISTIQUES I. Séries statistiques simples... 1 A. Définitions... 1 1. Population... 1 2. Caractère statistique... 1 B. Séries classées / représentations graphiques.... 2 1. Séries classées... 2 2. Représentations

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

Courte initiation à R

Courte initiation à R Courte initiation à R Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe OSMOSE

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

Examen d accès - 1 Octobre 2009

Examen d accès - 1 Octobre 2009 Examen d accès - 1 Octobre 2009 Aucun document autorisé - Calculatrice fournie par le centre d examen Ce examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses sont

Plus en détail

Probabilités Loi exponentielle Exercices corrigés

Probabilités Loi exponentielle Exercices corrigés Probabilités Loi exponentielle Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : densité de probabilité Exercice 2 : loi exponentielle de paramètre

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier

Christophe Fournier. Clinique de Thuys. Aunége - Christophe Fournier Christophe Fournier Clinique de Thuys Aunége - Christophe Fournier 2 Table des matières Information sur l'échantillon 3 Structure de l'échantillon...4 Point méthodologique 6 Point méthodologique...7 Représentativité

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Dossier / TD Econométrie. Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls

Dossier / TD Econométrie. Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls Dossier / TD Econométrie Analyse de la demande d essence aux Etats-Unis entre 1960-1995 fichier : essence.xls Source : Greene "Econometric Analysis" Prentice Hall International, 4 ème édition, 2000 Council

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Cours 11 : Homogénéité de la variance et transformations non linéaires

Cours 11 : Homogénéité de la variance et transformations non linéaires Cours 11 : Homogénéité de la variance et transformations non linéaires Table des matières Section 1. Régularité de la nature et effets linéaires... 2 Section 2. Homogénéité des variances... 2 Section 3.

Plus en détail

Exercice 2 du cours Management Bancaire : «Calcul de la VaR d une position de marché»

Exercice 2 du cours Management Bancaire : «Calcul de la VaR d une position de marché» Exercice du cours Management Bancaire : «Calcul de la VaR d une position de marché» La réglementation bancaire impose aux banques de maintenir un niveau de capital minimum pour absorber les pertes dues

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire?

Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Outils méthodologiques et astuces pour la thèse de médecine Les statistiques, comment faire? Cyril Ferdynus, USM, CHU RECUEIL DE DONNEES Recueil hors ligne Epidata (http://www.epiconcept.fr/html/epidata.html)

Plus en détail

2.1.1 Sélectionner les variables... 10

2.1.1 Sélectionner les variables... 10 Web'Stat est le dernier né des logiciels Sphinx. Entièrement en ligne, il propose un panel complet d'outils d'analyses statistiques avancées : équations structurelles, classifications hiérarchiques, régressions

Plus en détail

Eléments de statistique Introduction - Analyse de données exploratoire

Eléments de statistique Introduction - Analyse de données exploratoire Eléments de statistique Introduction - Louis Wehenkel Département d Electricité, Electronique et Informatique - Université de Liège B24/II.93 - L.Wehenkel@ulg.ac.be MATH0487-2 : 3BacIng, 3BacInf - 16/9/2014

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

Chacune des valeurs d une variable en est une modalité particulière.

Chacune des valeurs d une variable en est une modalité particulière. Psychologie générale Jean Paschoud STATISTIQUE Sommaire Rôle de la statistique Variables Échelles de mesure Résumer, décrire Comparer Rôle de la statistique La statistique est avant tout un outil permettant

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

La régression logistique

La régression logistique La régression logistique Présentation pour le cours SOL6210, Analyse quantitative avancée Claire Durand, 2015 1 Utilisation PQuand la variable dépendante est nominale ou ordinale < Deux types selon la

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

Introduction à l'analyse statistique des données

Introduction à l'analyse statistique des données INTRODUCTION À L'ANALYSE STATISTIQUE DES DONNÉES CONCEPTS DE BASE Un certain nombre de concepts, préalables indispensables à la compréhension des analyses présentées, sont définis ici. De même pour quelques

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail