Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Dimension: px
Commencer à balayer dès la page:

Download "Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin"

Transcription

1 Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet pour le cours Analyse Multivariée, Prof. G. Saporta Juin 2005 Table des matières 1 Introduction 2 2 Description des données 2 3 Analyses préliminaires exploratoires 3 4 Analyse discriminante sur l innovation Description de la méthode Premiers résultats Evaluation de la méthode Validation croisée (Jackknife) Régression logistique Description de la méthode et modélisation Premiers résultats et sélection des variables Evaluation de la méthode Validation croisée (Jackknife) Comparaison des scores obtenus avec les deux méthodes 15 7 Conclusions 16 A Annexe : code R utilisé 17 Références 21 1

2 1 Introduction Dans ce travail seront analysées des données concernant des caractéristiques de 130 entreprises du Canton Tessin. Ces données ont été recueillies pendant les mois de juin et juillet de 2004 et se réfèrent au 31 décembre L enquête a été effectuée dans le cadre d un projet intitulé API : aires productives intégrées financé par le Canton du Tessin qui s inscrivait dans les travaux de révision d un document qui s appelle Plan Directeur Cantonal qui est une sorte de document prince pour l aménagement du territoire du Canton Tessin. Les méthodes utilisées seront l analyse discriminante et la régression logistique dans une optique de score, l objectif étant de classifier, à partir des caractéristiques des entreprises, celles innovatrices et celles qui ne le sont pas. L échantillon n étant pas assez grand pour le diviser en données d apprentissage et données de test, des méthodes non-paramétriques de rééchantillonage seront utilisées pour juger la qualité des analyses. 2 Description des données Les données qui seront analysées dans ce travail proviennent de réponses d entreprises à un questionnaire. Il s agit d un échantillon de 130 entreprises du Canton Tessin faisant partie des branches d activité industrielles, des constructions, du commerce (au détail et en gros), des services informatiques et financiers. Ces branches économiques avaient été choisies parce que l intérêt du projet portait surtout sur les zones industrielles et artisanales du Tessin. Voici une description des variables qui seront prises en compte pour l analyse : inno : si l entreprise a introduit une innovation de produit et/où de service dans les 3 ans précedents (0/1) (variable à discriminer ou expliquer) ; taille : effectifs de l entreprise (en équivalent plein temps) ; ca.pers : chiffre d affaires moyen par effectif par année (des 3 dernières annes , 2002, 2003) ; rd : pourcentage de personnel avec des fonctions de recherche et développement dans l entreprise ; aca : pourcentage de personnel avec une formation académique dans l entreprise; expo : pourcentage de chiffre d affaires réalisé à l étranger ; ca.inno : pourcentage de chiffre d affaires réalisé grâce à des produits / services complètement nouveaux ; form : si l entreprise possède des programmes de formation internes ; brev : si l entreprise a déposé des demandes de brevet de produit, d une composante ou d un procédé de production (0/1) ; cert.qual : si l entreprise possède une certification de qualité (0/1) ; gest.int : si l entreprise dispose d un système de gestion intégré ERP (style SAP) (0/1) ; intranet : si l entreprise dispose d un réseau informatique interne du type Intranet (0/1) ; internet : si l entreprise est attachée à Internet (0/1) ; site : si l entreprise possède ou non un site internet (0/1). 2

3 L identité des entreprises étant confidentielle, elle ne sera pas mentionnée dans ce travail. 3 Analyses préliminaires exploratoires Dans cette section seront présentées des statistiques descriptives des variables et des graphiques aidant la visualisation de leur distribution empirique. Pour ce qui concerne la variable à discriminer (inno) l échantillon se divise en 50% d entreprises ayant introduit une innovation de produit et/ou de service dans les trois dernières années (65 entreprises) et l autre 50% n ayant introduit aucune innovation. Pour les variables explicatives, il faut distinguer 3 types de variables : 1. variables numériques : taille et ca.pers ; 2. variables en pourcentage (entre 0 et 100%) : rd, aca, expo et ca.inno ; 3. variables catégorielles (dans notre cas toutes binaires) : form, brev, cert.qual, gest.int, intranet, internet et site. Fig. 1 Histogrammes et graphiques en barres de toutes les variables (s absolues) inno taille ca.pers rd aca e+00 2 e+06 4 e expo ca.inno form brev cert.qual gest.int intranet internet site On peut voir dans la figure 1 comme la distribution de la taille des entreprises et du chiffre d affaires par effectif est très asymétrique et biasée vers la droite. Avec une transformation logarithmique de ces deux variables on peut voir comme la distribution devient plus symétrique (voir figure 2). Les variables numériques continues transformées seront utilisées pour la régression logistique. Pour l analyse discriminante dans la prochaine section, la transformation en logarithme naturel a aidé dans la catégorisation de ces deux variables de la façon suivante : taille de l entreprise (taille) : 3

4 Fig. 2 Histogrammes des transformations logarithmiques de la taille et du chiffre d affaires par effectif (s absolues) Histogram of log(taille) Histogram of log(ca.pers) log(taille) log(ca.pers) entre 1 et 5 effectifs ; entre 5 et 20 effectifs : entre 20 et 50 effectifs : entre 50 et 150 effectifs : plus de 150 effectifs ; chiffre d affaires par effectif (par année) (ca.pers) : moins de CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; plus de 1,2 millions CHF/personne par année. En ce qui concerne les variables en pourcentage, les histogrammes montrent aussi une forte distribution asymétrique. Des transformations en variables catégorielles sera appliquée à ces variables en pourcentage, de la façon suivante : % de personnel avec des fonctions de recherche et développement dans l entreprise (rd) : entre 0 et 1% ; entre 1 et 20% ; entre 20 et 50% ; entre 50 et 100%. % de personnel avec une formation académique dans l entreprise (aca) : même découpage que rd ; % de chiffre d affaires réalisé à l étranger (expo) : même découpage que rd ; % de chiffre d affaires réalisé grâce à des produits/services complètement nouveaux (ca.inno) : même découpage que rd. 4

5 Les tranches de pourcentage crées seront interprétées de la façon suivante : entre 0 et 1% : niveau zéro ; entre 1 et 20% : niveau faible ; entre 20 et 50% : niveau moyen ; entre 50 et 100% : niveau haut. Les s absolues de ces variables découpées en classes sont présentées dans la figure 3. Fig. 3 Fréquences absolues des variables continues et en pourcentage découpées en classes taille ca.pers rd.factor moins plus ,2mio plus zéro faible moyen haut aca.factor expo.factor ca.inno.factor zéro faible moyen haut zéro faible moyen haut zéro faible moyen haut Ces variables, ainsi catégorisées, seront utilisées dans les prochaines sections où seront appliquées les méthodes d analyse multivariée. 4 Analyse discriminante sur l innovation Le but de l analyse discriminante est celui de classer (affecter à des classes préexistantes) des individus (dans notre cas des entreprises) caractérisés par un certain nombre de variables numériques ou nominales. L analyse factorielle discriminante consiste à rechercher les combinaisons linéaires de p variables explicatives (x 1,x 2,...,x p ), généralement continues, qui permettent de séparer au mieux les q classes (dans notre cas les deux classes : entreprises qui innovent et qui n innovent pas). La pluspart des variables explicatives étant catégorielles, une analyse discriminante classique ne semble pas être la plus appropriée. C est pour cela que les variables continues ont été catégorisées pour pouvoir appliquer la méthode DISQUAL. 5

6 4.1 Description de la méthode Le tableau de données étant à ce point formé de variables nominales, on procède au codage disjonctif complet des p variables explicatives. Le codage disjonctif complet consiste à créer, pour chaque variable, autant de colonnes que la variable a de modalités. Les colonnes représentent les indicatrices de chaque modalité de chaque variable. Dans notre cas, nous avons 13 variables explicatives, dont 2 à cinq modalités, 4 à quatre modalités et 7 variables binaires à deux modalités, ce qui fait une matrice de dimension (130,40) : 130 entreprises (lignes) et 40 modalités possibles (colonnes). Les sommes en ligne de cette matrice (que nous appelons X) sont toujours égales au nombre de variables explicatives, soit 13 dans notre cas. La matrice X n est pas inversible puisqu il existe p relations linéaires entre les colonnes du tableau disjonctif complet. Une possibilité dans ce cas est de réaliser une analyse discriminante classique sur les facteurs de l analyse des correspondances multiples. Cette méthode est connue sous le nom de méthode DISQUAL ou de régularisation par axes principaux. La procédure consiste donc à effectuer une analyse des correspondances sur le tableau disjonctif complet (matrice X) où les p variables catégorielles sont remplacées par k variables continues correspondant aux facteurs de l analyse des correspondances multiples. Ensuite, à partir des k variables continues, qui représentent les coordonnées sur les axes factoriels de l analyse des correspondances multiples, effectuer une analyse factorielle discriminante. Des k variables numériques ainsi crées, on retiendra les coordonnées factorielles les plus discriminantes. 4.2 Premiers résultats L analyse des correspondances multiples a fait ressortir 27 facteurs indépendants dont l importance se répartit selon le graphe ci-dessous (figure 4) en valeur propre de la variance. Les valeurs propres ainsi que la part de variance que Fig. 4 Valeurs propres résultants de l analyse des correspondances multiples Valeurs propres les facteurs expliquent sont présentées dans la table 1. Dans la figure 5 sont 6

7 représentées les coordonnées des 40 modalitées possibles sur les deux premiers axes de l analyse des correspondances multiples. Tab. 1 Valeurs propres de l analyse des correspondances multiples Valeurs propres Part de variance expliquée Part cumulée Même si les deux premiers axes n expliquent qu environ 23% de la variance totale, on peut chercher d interpréter le sens des facteurs. Pour le premier facteur (abscisse de la figure 5) il ne semble pas y avoir un grand pouvoir discriminant (les points sont assez proches de l origine). On peut remarquer quand-même, en bas à droite, la modalité des entreprises ayant plus de 150 effectifs, opposée aux modalités des entreprises de taille inférieure qui se trouvent plus à gauche. Le premier axe semblerait caractériser la taille des entreprises (mais la distinction n est pas évidente). Par contre, le deuxième axe (ordonnée de la figure 5) parait plus discriminant : on remarque en haut les modalités rd.haut et aca.haut s opposant assez nettement des modalités plus basses de ces variables. On peut interpréter ce facteur comme indicateur de la qualité du personnel des entreprises. Pour la recherche d une fonction discriminante, on choisit de retenir les 11 pre- 7

8 Fig. 5 Coordonnées des modalitées sur les 2 premiers axes de l analyse des correspondances multiples Axes 1 et 2: 23% de var.expliquée rd.haut aca.haut ca.inno.haut rd.moyen ca.pers.0 60 ca.pers.450 1,2mio expo.haut taille.moins5 aca.moyen gest.int.1 internet.0 brev.1 form.0 cert.qual.0 ca.inno.moyen site.0 aca.zéro ca.pers ca.inno.faible intranet.1 intranet.0 taille.5 20 rd.zéro brev.0 internet.1 gest.int.0 expo.zéro expo.faible site.1 ca.inno.zéro form.1 ca.pers taille rd.faible expo.moyen cert.qual.1 aca.faible ca.pers.1,2mio plus taille taille.150plus miers axes (facteurs), qui ensemble expliquent environ le 69% de la variance (soit on laisse tomber les facteurs qui expliquent moins de 4% de la variance). On applique donc une analyse discriminante linéaire sur les 11 premiers facteurs résultants de l analyse des correspondances multiples, le but étant de trouver une fonction (combinaison linéaire des facteurs, qui sont des variables continues) qui discrimine au mieux les deux groupes d entreprises, soit celles qui innovent de celles qui n innovent pas. L équation ci-dessous illustre le résultat de l analyse discriminante : Z = F F F F F F F F F F F11 (1) L équation (1) définit un score Z qui discrimine la variable de la façon suivante : { 0 l entreprise innove si Z < 0 l entreprise n innove pas 4.3 Evaluation de la méthode À partir de la fonction discriminante illustrée dans l équation (1), on peut calculer les scores Z pour chacune des entreprises et voir comment cette fonction les classe dans les deux groupes. Les résultats sont résumés dans la matrice de confusion ci-dessous. La lecture de cette matrice de confusion est la suivante : 0 1 total

9 sur la première ligne, on voit que, parmi les 65 entreprises faisant partie du groupe non-innovateur, 59 sont classées correctement (soit 90,8%) et 6 sont classées dans le mauvais groupe; sur la deuxième ligne, on voit que, parmi les 65 entreprises innovatrices, 58 ont été bien classées (soit 89,2%) et 7 ont été classées dans le mauvais groupe. Cette matrice, ayant été calculée à partir des mêmes données sur lesquelles l estimation de la fonction discriminante a été faite, n est pas une bonne mesure de la qualité du modèle. En général, cette matrice sur-estime la qualité du modèle. Pour cette raison, dans la prochaine section seront utilisés des méthodes non-paramétriques de réechantillonage, afin d avoir une mesure de la qualité du modèle Validation croisée (Jackknife) La validation croisée consiste à effectuer une analyse discriminante en enlevant une observation (une entreprise) pour ensuite utiliser l estimation pour classer l entreprise qui a été omise dans l estimation de la fonction discriminante. Cette procédure va être faite 130 fois (chaque fois on élimine une entreprise) et de cette façon on aura une matrice de confusion contenant les prévisions faites indépendamment de chaque entreprise. À partir des facteurs obtenus avec l analyse des correspondances multiples, qui constituent les nouvelles variables continues, on enlève à chaque tour une entreprise, on estime la fonction discriminante et avec cette fonction on classe l entreprise qui a été omise. Le résultat de la procédure est résumé dans la matrice de confusion ci-dessous. Sur les 65 entreprises non-innovatrices (première 0 1 total ligne), 57 sont bien classées (87,7%), ce qui montre une bonne performance du modèle. Pour les entreprises innovatrices (deuxième ligne), 55 entreprises sur 65 sont classées correctement (84,6%). Globalement, avec la validation croisée, on obtient un pourcentage d entreprises bien classées de = 86,15% Régression logistique Dans cette section sera effectuée une régression logistique sur la variable dépendante inno, dans l optique d arriver à discriminer les entreprises innovatrices de celles non-innovatrices. 5.1 Description de la méthode et modélisation La régression logistique convient pour la modélisation d une variable dichotomique Y = 0/1. L objectif est de modeliser l espérance conditionnelle de Y sachant les valeurs de certaines variables explicatives X 1,...,X p : π(x) = Prob(Y = 1 X = x) 9

10 Le modèle linéaire classique du type : π(x) = β 0 + β 1 x β p x p convient mal et le modèle logistique est plus naturel. La régression logistique modélise l espérance conditionnelle de la variable dichotomique de la façon suivante : eβ0+β1 x1+...+βp xp π(x) = 1 + e β0+β1 x1+...+βp xp ou, de façon équivalente : ( ) π(x) log = β 0 + β 1 x β p x p 1 π(x) Le rapport π(x) Prob(Y = 1 X = x) Prob(Y = 1 X = x) = = 1 π(x) 1 Prob(Y = 1 X = x) Prob(Y = 0 X = x) est appelé odds-ratio. Le logarithme naturel de ce rapport est appelé log-odds ou simplement logit. 5.2 Premiers résultats et sélection des variables Dans notre cas, on va dans un premier temps faire une estimation logit avec toutes les variables explicatives, en prenant les transformations en logarithme naturel pour les deux variables continues taille et ca.pers (taille et chiffre d affaires par personne par année) présentées dans la section 3 à la page 3. Les variables en pourcentage seront laissées telles qu elles étaient dans les données originales. À partir de l estimation avec toutes les variables explicatives, une procédure de backward-selection basée sur le critère d Akaike sera effectuée 1. Le critère d Akaike (AIC) est défini comme : AIC = 2 log(vraisemblance) + 2 # de paramètres et sert à comparer la qualitè de modèles avec différents paramètres, le but étant de minimiser le critère 2. Dans un deuxième temps, une deuxième estimation sera faite, mais avec les mêmes variables utilisées pour l analyse discriminante, c està-dire avec les variables continues et celles en pourcentage découpées en classes. Après cette estimation, une procédure de backward-selection sera aussi appliquée. Les résultats de la première estimation sont résumés dans la table 2. On peut remarquer comme seulement les variables taille, ca.inno et site ont des coefficients significativement différents de zéro (p-value< 0,05). Avec une procédure de backward-selection, à partir de cette estimation pleine (avec toutes les variables explicatives), on aboutit à l estimation présentée 1 La procédure commence en faisant une estimation avec toutes les variables explicatives. Ensuite, la variable qui contribue davantage à la réduction de l AIC est enlevée. La procédure s arrête lorsqu en enlevant une variable, le critère d Akaike ne diminue plus. 2 Plus le critère d Akaike est bas et mieux c est. En effet, le critère AIC contient le logarithme naturel de la vraisemblance précédé d un signe moins et une penalité qui tient compte du nombre de paramètres. 10

11 Tab. 2 Régression logistique avec toutes les variables explicatives Estimate Std. Error z value p-value (Intercept) log(taille) log(ca.pers) rd aca expo ca.inno form brev cert.qual gest.int intranet internet site AIC= Tab. 3 Résultats de la backward-selection Estimate Std. Error z value p-value (Intercept) log(taille) rd expo ca.inno form brev site AIC= dans la table 3. La procédure a retenu 7 variables, dont 5 sont significatives (une l est seulement au seuil de 10%). Les signes des coefficients sonts tous positifs sauf celui concernant le logarithme de la taille, qui est négafif. L interprétation de ce coefficient serait que plus la taille d une entreprise est grande et moins l entreprise aurait une probabilité d innover. Les résultats de la deuxième estimation, avec les variables continues et en pourcentage catégorisées, sont présentées dans la table 4. Il faut remarquer qu avec toutes les variables exprimées en catégories, le nombre de coefficients à estimer devient plus grand. En effet, par exemple pour la variable taille, qui avait été découpée en 5 classes, 4 coefficients sont estimés. La modalité pour laquelle un coefficient n est pas estimé (effectifs entre 1 et 5 dans le cas de la variable taille) est la catégorie de référence pour cette variable. Les coefficients estimés sont donc à lire en référence de la modalité qui a été omise. En effectuant une 11

12 Tab. 4 Régression logistique avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus rdfaible rdmoyen rdhaut acafaible acamoyen acahaut expofaible expomoyen expohaut ca.innofaible ca.innomoyen ca.innohaut form brev cert.qual gest.int intranet internet site AIC= procédure de backward-selection on obtient les résultats résumés dans la table 5. Les variables retenues sont taille, ca.pers, aca, ca.inno, form, brev et site. Il est intéressant de remarquer : pour la variable taille : il semble que jusqu à une taille de 150 effectifs, la taille a un effet négatif sur la probabilité d innover (les 3 coefficients sont tous significatifs au moins à un seuil de 10%). Pour les entreprises ayant plus de 150 effectifs (grandes entreprises) la taille semble avoir un impact positif sur la probabilité d innover (mais attention : le coefficient n est pas significatif) ; pour la variable ca.pers : toutes les modalités de chiffre d affaire par effectif supérieures à francs suisses par année ont un effet positif sur la probabilité d innover, par rapport à la catégorie de référence. La modalité entre et francs suisses par année par effectif n est que 12

13 Tab. 5 Résultat de la backward-selection avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus acafaible acamoyen acahaut ca.innofaible ca.innomoyen ca.innohaut form brev site AIC= faiblement significative (p-value= 0, 113) et celle de plus de 1 million de francs suisses est encore plus faiblement significative (p-value= 0,3054) ; pour la variable aca : un pourcentage faible d effectifs avec une formation académique (entre 1 et 20%) a un effet négatif sur la probabilité d innover, par rapport à un pourcentage nul. Par contre, des pourcentages moyens ou hauts de personnel avec une formation académique semblent avoir un effet positif sur la probabilité d innover. Il faut dire quand-même que le coefficient de la modalité haute n est pas significatif ; pour la variable ca.inno : plus une entreprise vend grâce à des produits et/ou services nouveaux et plus la probabilité d innover devient grande par rapport à celle de n innover pas. Les coefficients sont tous significatifs au moins à un seuil de 5% ; pour les variables form et site : le fait de posséder des programmes de formation interne pour le personnel et le fait d avoir un site internet semblent avoir un effet positif sur la probabilité d innover (même s il faut remarquer la pas très grande significativité pour le fait d avoir des programmes de formation interne) ; pour la variable brev : le coefficient n est pas significatif, mais le signe dirait que le fait d avoir déposé un ou plusieurs brevets ait un effet positif sur la probabilité d innover. En utilisant toutes les variables découpées en catégories, on perd en degrés de liberté mais on a l avantage de faire ressortir des relations non-linéaires qu avec les variables continues ne pouvaient pas être détectées. 13

14 5.3 Evaluation de la méthode Dans cette partie seront utilisées les deux estimations obtenues avec les procédures de backward-selection à la section précédente. Les matrices de confusion pour les deux modèles, basées sur les données d apprentissage, sont données ci-dessous (à gauche pour le modèle avec les variables continues et à droite pour celui avec les variables continues catégorisées ). Le modèle avec les 0 1 total 0 1 total variables continues et en pourcentage découpées en classes semble classer mieux les entreprises dans les deux groupes. Comme dans le cas de l analyse discriminante, les matrices de confusion basées sur les données d apprentissage (celles utilisées pour les estimations des modèles) ne sont pas de bons indicateurs de la qualité des modèles. Dans la prochaine section, des méthodes non-paramétriques de réechantillonage seront effectuées Validation croisée (Jackknife) La procédure est analogue à celle effectuée à la section à la page 9 pour l analyse discriminante. La procédure, dans le cas en question, est : 1. effectuer une estimation du modèle de régression logistique en enlevant une entreprise ; 2. en utilisant les paramètres estimés, classer l entreprise qui a été omise ; 3. répéter la procédure pour chaque entreprise; 4. vérifier la qualité de la prévision en comparant les résultats avec les données originales de la variable inno. La procédure va être appliquée aux deux modèles de régression logistique réduits (les deux obtenus avec les procédures de backward-selection ). Les deux matrices de confusion résultantes sont présentées ci-dessous. En ce qui 0 1 total 0 1 total concerne les entreprises non-innovatrices, les deux modèles classent correctement 56 et 55 entreprises sur 65 respectivement (soit 86,1% et 84,6%). Pour les entreprises innovatrices, les deux modèles prévoient correctement 53 respectivement 58 entreprises sur 65 (soit 81,5% et 89,2%). Le pourcentage de bien-classées globalement est de = 86,9% respectivement = 83,8% et de Les résultats sont du même ordre de grandeur que ceux obtenus avec l analyse discriminante. Globalement, les résultats obtenus avec les deux régression logistiques avec la validation croisée, sont semblables à ceux obtenus avec l analyse discriminante (83,8% et 86,9% contre 86,15% avec l analyse discriminante). 14

15 6 Comparaison des scores obtenus avec les deux méthodes Dans cette section seront comparés graphiquement et en termes de corrélation les scores pour les entreprises obtenus avec l analyse discriminante et avec la régression logistique. Fig. 6 Représentation graphique des scores score.logit score.logit LD1 Dans la figure 6 sont représentés les scores pour les 130 entreprises obtenus avec les différentes méthodes. On voit qu il forment un nuage assez linéaire, ce qui est témoigné aussi par la matrice des corrélations présentée ci-dessous. LD1 score.logit1 score.logit2 LD score.logit score.logit2 1 Les coefficients de corrélation linéaires empiriques des scores obtenus avec les trois modèles sont assez hauts, sauf pour celui entre le LD1 et le score.logit1 (qui sont ceux obtenus avec l analyse discriminante et avec le premier modèle de régression logistique réduit avec les variables continues). La comparaison a été faite à des fins uniquement illustratifs, car les trois modèles n ont pas utilisé exactement les mêmes variables (catégorielles vs. continues, facteurs de l analyse des correspondances multiples, etc... ). Une autre représentation intéressante, qui illustre la bonne qualité des performances des trois modèles, sont les courbes ROC pour les validations croisées qui ont été faites. Ces courbes représentent la proportion de vrais positifs en fonction de la proportion de faux positifs lorsque le seuil varie. Plus la courbe s éloigne de la ligne diagonale et mieux c est. En d autres termes, plus la surface (estimée) sous la courbe (AUC : area under the curve ) est proche de 1 et 15

16 Fig. 7 Courbes ROC pour les validations croisées des 3 modèles logit1 logit2 Prop. de vrais positifs Prop. de vrais positifs Prop. de faux positifs AUC = Prop. de faux positifs AUC = discriminante Prop. de vrais positifs Prop. de faux positifs AUC = mieux c est (=bonne qualité du score); plus la surface est proche de 1/2 (aire minimale) et pire sera la qualité du score. On voit dans la figure 7 comme les trois courbes ROC ont visuellement une bonne allure, témoignée par les aires sous les courbes respectivement de 0,905, 0,899 et 0, Conclusions Dans ce travail des données concernant 130 entreprises tessinoises ont été analysées. Le but étant de classifier les entreprises dans des groupes prédefinis comme innovatrices et non-innovatrices, deux approches ont été appliquées. Dans un premier temps, une analyse discriminante DISQUAL a été effectuée : cette méthode utilise les facteurs résultant de l analyse des correspondances multiples (variables continues) pour calculer une fonction discriminante. Dans un deuxième temps, deux modèles de régression logistique ont été estimés : un contenant les variables originales (sauf une transformation en logarithme naturel des deux variables continues) et un avec toutes les variables transformées en catégorielles. La performance des trois modèles a été évaluée avec une validation croisée, qui consiste à faire tant d estimations qu on a d observations, en omettant à chaque fois une observation pour après la classifier avec l estimation faite sans celle-ci. Les performances sont globalement assez bonnes et, même avec des approches différentes, les scores obtenus sont assez corrélés. 16

17 A Annexe : code R utilisé Dans cet annexe on peut trouver le code R utilisé pour les analyses effectuées dans ce travail, avec quelques commentaires. Les lignes de code précédées d un signe # sont des commentaires, et ne sont pas executées en tant que commandes par R. Certaines commandes ont été divisées sur plusieurs lignes, pour des motifs de layout de page exclusivement. #IMPORTATION DES DONNEES A PARTIR DU FICHIER TEXTE dati<-read.table(file="./dati.txt", sep="\t", header=true) dati<-dati[,-15] #CHARGEMENT DES LIBRAIRIES UTILISEES POUR LES ANALYSES library(mass) library(boot) library(xtable) library(ade4) library(scatterplot3d) #DISCRETISATION/CATEGORISATION DES VARIABLES CONTINUES attach(dati) taille.factor<-factor(cut(taille, breaks=c(0,5,20,50, 150, 450), labels=c("moins5", "5-20", "20-50", "50-150", "150plus"))) ca.pers.factor<-factor(cut(ca.pers, breaks=c(0,60000,160000, , , ), labels=c("0-60 ", " ", " ", "450-1,2mio", "1,2mio-plus"))) detach(dati) #DISCRETISATION/CATEGORISATION DES VARIABLES EN POURCENTAGE dati.perc<-dati[, 4:7] rd.factor<-factor(cut(dati.perc$rd, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) aca.factor<- factor(cut(dati.perc$aca, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) expo.factor<- factor(cut(dati.perc$expo, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) ca.inno.factor<- factor(cut(dati.perc$ca.inno, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) dati.perc.factor<-data.frame(rd.factor, aca.factor, expo.factor, ca.inno.factor) rm(rd.factor, aca.factor, expo.factor, ca.inno.factor) #GRAPHIQUES DES VARIABLES CATEGORIELLES CREES 17

18 par(mfrow=c(2,3)) barplot(table(taille.factor), main="taille.factor") barplot(table(ca.pers.factor), main="ca.pers.factor") for(i in 1:4){ barplot(table(dati.perc.factor[, i]), main=names(dati.perc. factor)[i]) } #HISTOGRAMMES ET GRAPHIQUES EN BARRES DE TOUTES LES VARIABLES # ORIGINALES par(mfrow=c(3,5)) nomi=names(dati) for(i in 1:ncol(dati)){ if(class(dati[,i])=="numeric") hist(dati[,i], main=nomi[i], col="gray", xlab="", ylab="frquence") else barplot(table (dati[,i]), main=nomi[i], ylab="frquence") } #HISTOGRAMMES DES DEUX VARIABLES CONTINUES TRANSFORMEES EN #LOGARITHME NATUREL par(mfrow=c(1,2)) attach(dati) hist(log(taille), col="gray", ylab="frquence") hist(log(ca.pers), col="gray", ylab="frquence") detach(dati) #CREATION DU DATA.FRAME dati.factor, QUI CONTIENT TOUTES #LES VARIABLES CATEGORIZEES SOUS FORME DE factor dati.bin.factor<-data.frame(as.factor(dati$inno), as.factor (dati$form), as.factor(dati$brev), as.factor(dati$cert.qual), as.factor(dati$gest.int), as.factor(dati$intranet), as.factor (dati$internet), as.factor(dati$site)) names(dati.bin.factor)<-names(dati)[c(1,8:14)] dati.factor<-data.frame(as.factor(dati$inno), taille.factor, ca.pers.factor, dati.perc.factor, dati.bin.factor[, -1]) names(dati.factor)<-names(dati) #CREATION DU TABLEAU DISJONCTIF COMPLET DES VARIABLES EXPLICATIVES library(ade4) disj.complet<-acm.disjonctif(dati.factor[, -1]) #ANALYSE DES CORRESPONDANCES MULTIPLES (AVEC LES VARIABLES #CATEGORIELLES ET LES VARIABLES CONTINUES CATEGORIZEES #avec la librairie ade4 dati.acm<-dudi.acm(dati.factor[, -1], scannf = FALSE, nf=2) #avec la librairie MASS dati.mca<-mca(dati.factor[, -1], abbrev=false, nf=27) #DIAGRAMME EN BARRES DES VALEURS PROPRES dati.eigen<-dati.mca$d^2 18

19 barplot(dati.eigen, main="valeurs propres") #INERTIE CUMULATIVE DES VALEURS PROPRES (AXES FACTORIELS) #POURCENTAGE DE VARIANCE QU EXPLIQUENT LES FACTEURS DE #L ANALYSE DES CORRESPONDANCES MULTIPLES dati.mca.expl<-data.frame(dati.eigen, dati.eigen/sum(dati.eigen), cumsum(dati.eigen)/sum(dati.eigen)) names(dati.mca.expl)<-c("valeurs propres","% de variance EXPLIQUEE", "% CUMULE") #GRAPHIQUE DES MODALITES DES VARIABLES SUR LES DEUX PREMIERS AXES #DE L ANALYSE DES CORRESPONDANCES MULTIPLES plot(dati.mca, rows=f, cex=0.9, cex.axis=1.3, cex.lab=1.3, main= "Axes 1 et 2: 23% de var.expliquee"); abline(v=0,h=0) #DISQUAL: ANALYSE DISCRIMINANTE AVEC LES FACTEURS OBTENUS AVEC #L ANALYSE DES CORRESPONDANCES MULTIPLES disqual<-data.frame(dati$inno, dati.mca$rs) names(disqual)[1]<-"inno" disqual.lda2<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data=disqual) disqual.pred<-predict(disqual.lda2) confusionmat<-table(disqual$inno, disqual.pred$class) confusionmat #GRAPHIQUE DES DENSITES KERNEL ESTIMEES #CE GRAPHIQUE N EST PAS PRESENT DANS LE DOCUMENT plot(disqual.lda2, type = "density", dimen = 1) #VALIDATION CROISEE prev<-numeric(nrow(dati.factor)) score.crossed<-numeric(nrow(dati.factor)) n<-length(prev) for(i in 1:n){ lda.crossed<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data= disqual[-i,]) score.crossed[i]<-t(as.matrix(dati.mca$rs[i, 1:11])) %*% as.matrix(lda.crossed$scaling) if(score.crossed[i]>=0) prev[i]<-1 } confusionmat2<-table(dati$inno, prev) confusionmat2 #REGRESSION LOGISTIQUE (1). AVEC VARIABLES ORIGINALES dati.logit<-glm(inno ~ log(taille) + log(ca.pers) + rd + aca + expo + ca.inno + form + brev + cert.qual + gest.int +intranet + internet + site, family=binomial(link="logit"), data=dati) summary(dati.logit) #BACKWARD SELECTION (1). 19

20 dati.logit.step<-stepaic(dati.logit, direction="backward") summary(dati.logit.step) #REGRESSION LOGISTIQUE (2). AVEC VARIABLES CATEGORIZEES dati.factor.logit<- glm(inno ~., family=binomial(link="logit"), data=dati.factor) summary(dati.factor.logit) #BACKWARD SELECTION (2). dati.factor.step<-stepaic(dati.factor.logit, direction="backward") summary(dati.factor.step) #SCORE LOGIT mat.logit<-as.matrix(cbind(1, dati[, c(2,4,6,7,8,9,14)])) mat.logit[,2]<-log(mat.logit[,2]) linear.pred<-mat.logit %*% as.matrix(dati.logit.step$coefficients) linear.pred[linear.pred>=0]<-1 linear.pred[linear.pred<0]<-0 linear.pred confusionmat3<-table(dati$inno, linear.pred) confusionmat3 linear.pred2<-predict(dati.factor.step) linear.pred2[linear.pred2>=0]<-1 linear.pred2[linear.pred2<0]<-0 confusionmat4<-table(dati$inno, linear.pred2) confusionmat4 #VALIDAITON CROISEE DES DEUX MODELES LOGIT REDUITS n<-nrow(dati) score.logit1<-numeric(n); prev.logit1<-numeric(n); dati.logit1<-dati[, c(2,4,6,7,8,9,14)] dati.logit1<-cbind(1,dati.logit1) dati.logit1[,2]<-log(dati.logit1[,2]) for(i in 1:n){ est<-glm(inno ~ log(taille) + rd + expo + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati[-i,]) score.logit1[i]<- as.matrix(dati.logit1[i, ]) %*% as.matrix(est$coefficients) if(score.logit1[i]>=0) prev.logit1[i]<-1 } confusionmat5<-table(dati$inno, prev.logit1) confusionmat5 dati.logit2<-model.matrix(dati.factor.step) score.logit2<-numeric(n); prev.logit2<-numeric(n); for(i in 1:n){ est2<-glm(inno ~ taille + ca.pers + aca + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati.factor[-i,]) score.logit2[i]<- t(as.matrix(dati.logit2[i, ])) %*% as.matrix(est2$coefficients) if(score.logit2[i]>=0) prev.logit2[i]<-1 } 20

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Projetde SériesTemporelles

Projetde SériesTemporelles COMMUNAUTE ECONOMIQU E ET MONETAIRE DE L AFRIQUE CENTRALE (CEMAC) INSTITUT SOUS REGIONAL DE STATISTIQUES ET D ECONOMIE APPLIQUEE (ISSEA) Projetde SériesTemporelles MODELISATION DE LA RENTABILITE DE L INDICE

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique.

Didacticiel - Etudes de cas. Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. Objectif Comparer TANAGRA, ORANGE et WEKA lors de la construction d une courbe ROC à partir de la régression logistique. TANAGRA, ORANGE et WEKA sont trois logiciels de data mining gratuits. S ils poursuivent

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Approche bayésienne des modèles à équations structurelles

Approche bayésienne des modèles à équations structurelles Manuscrit auteur, publié dans "42èmes Journées de Statistique (2010)" Approche bayésienne des modèles à équations structurelles Séverine Demeyer 1,2 & Nicolas Fischer 1 & Gilbert Saporta 2 1 LNE, Laboratoire

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Examen d accès - 1 Octobre 2009

Examen d accès - 1 Octobre 2009 Examen d accès - 1 Octobre 2009 Aucun document autorisé - Calculatrice fournie par le centre d examen Ce examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses sont

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE

LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE LE QUESTIONNAIRE ISALEM : ETUDE STATISTIQUE 1. OBJECTIFS DE L'ETUDE STATISTIQUE Le traitement statistique des données a été effectué par le Professeur A. ALBERT du Centre Interdisciplinaire de Statistique

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

Cours STAT 2150. "Statistique non paramétrique: Méthodes de lissage"

Cours STAT 2150. Statistique non paramétrique: Méthodes de lissage Cours STAT 2150 "Statistique non paramétrique: Méthodes de lissage" Année académique 2008-2009 Séance 1 1 Table de matière du cours 1. Introduction (Fonction de répartition, histogramme, propriétés d un

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Mesures et incertitudes

Mesures et incertitudes En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Décrire les données. Chapitre 2

Décrire les données. Chapitre 2 Chapitre 2 Décrire les données La description des données est une étape importante de la démarche d analyse. Beaucoup d enquêtes se limitent à cette étape, qui donne un premier niveau de lecture des résultats

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining Approche Data Mining par WEKA WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr Yves Lechevallier Dauphine 1 1 WEKA 3.4

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Fonction inverse Fonctions homographiques

Fonction inverse Fonctions homographiques Fonction inverse Fonctions homographiques Année scolaire 203/204 Table des matières Fonction inverse 2. Définition Parité............................................ 2.2 Variations Courbe représentative...................................

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Cahier méthodologique, tableau récapitulatif 2009-2013 et Matrices importance/performance Mars 2014 Service Études et Statistiques Table

Plus en détail

Régression logistique ou modèle binomial

Régression logistique ou modèle binomial 1 Régression logistique ou modèle binomial Résumé Régression logistique ou modèle binomial Rappels sur la régression logistique ou modèle binomial du modèle linéaire général. Définition de la notion de

Plus en détail

Représentation des nombres entiers et réels. en binaire en mémoire

Représentation des nombres entiers et réels. en binaire en mémoire L3 Mag1 Phys. fond., cours C 15-16 Rep. des nbs. en binaire 25-09-05 23 :06 :02 page 1 1 Nombres entiers 1.1 Représentation binaire Représentation des nombres entiers et réels Tout entier positif n peut

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Le montant des garanties constituées aux fins du STPGV est-il excessif? Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Brock. Rapport supérieur

Brock. Rapport supérieur Simplification du processus de demande d aide financière dans les établissementss : Étude de cas à l Université Brock Rapport préparé par Higher Education Strategy Associates et Canadian Education Project

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base M.A. Knefati 1 & A. Oulidi 2 & P.Chauvet 1 & M. Delecroix 3 1 LUNAM Université, Université Catholique de l Ouest,

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé.

Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013. Calculatrice autorisée - Aucun document n'est autorisé. TES Spé Maths Eléments de correction du Bac Blanc n 2 de Mathématiquesdu Lundi 8 Avril2013 Calculatrice autorisée - Aucun document n'est autorisé. Vous apporterez un grand soin à la présentation et à la

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Le 13 octobre 2014 Autorité des marchés financiers 17, place de la Bourse 75082 Paris cedex 02 Tél. : 01 53

Plus en détail

Ressources pour le lycée technologique

Ressources pour le lycée technologique éduscol Enseignement de mathématiques Classe de première STMG Ressources pour le lycée technologique Dérivation : Approximation affine et applications aux évolutions successives Contexte pédagogique Objectifs

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Nombre dérivé et tangente

Nombre dérivé et tangente Nombre dérivé et tangente I) Interprétation graphique 1) Taux de variation d une fonction en un point. Soit une fonction définie sur un intervalle I contenant le nombre réel a, soit (C) sa courbe représentative

Plus en détail

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres

Il y a 24 individus en ligne (les modèles de voitures) et 6 variables en colonnes (paramètres mécaniques). Valeurs propres VOITURE: On étudie 6 différents paramètres mécaniques (les variables), exprimées dans des unités différentes, de 24 modèles de voitures (les individus). Modèle Cylindre Puissance Vitesse Poids Longueur

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Classification de données binaires via l introduction de mesures de similarités dans les modèles de mélange

Classification de données binaires via l introduction de mesures de similarités dans les modèles de mélange Classification de données binaires via l introduction de mesures de similarités dans les modèles de mélange Seydou N. SYLLA 1,2,3, Stéphane GIRARD 1, Abdou Ka DIONGUE 2 Aldiouma DIALLO 3 & Cheikh SOKHNA

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007 Université de Montréal 14 mars 2007 Christian FRANCQ GREMARS-EQUIPPE, Université Lille 3 Propriétés statistiques des modèles GARCH Outline 1 Identification 2 Test de bruit blanc faible Test d homoscédaticité

Plus en détail