Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Dimension: px
Commencer à balayer dès la page:

Download "Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin"

Transcription

1 Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet pour le cours Analyse Multivariée, Prof. G. Saporta Juin 2005 Table des matières 1 Introduction 2 2 Description des données 2 3 Analyses préliminaires exploratoires 3 4 Analyse discriminante sur l innovation Description de la méthode Premiers résultats Evaluation de la méthode Validation croisée (Jackknife) Régression logistique Description de la méthode et modélisation Premiers résultats et sélection des variables Evaluation de la méthode Validation croisée (Jackknife) Comparaison des scores obtenus avec les deux méthodes 15 7 Conclusions 16 A Annexe : code R utilisé 17 Références 21 1

2 1 Introduction Dans ce travail seront analysées des données concernant des caractéristiques de 130 entreprises du Canton Tessin. Ces données ont été recueillies pendant les mois de juin et juillet de 2004 et se réfèrent au 31 décembre L enquête a été effectuée dans le cadre d un projet intitulé API : aires productives intégrées financé par le Canton du Tessin qui s inscrivait dans les travaux de révision d un document qui s appelle Plan Directeur Cantonal qui est une sorte de document prince pour l aménagement du territoire du Canton Tessin. Les méthodes utilisées seront l analyse discriminante et la régression logistique dans une optique de score, l objectif étant de classifier, à partir des caractéristiques des entreprises, celles innovatrices et celles qui ne le sont pas. L échantillon n étant pas assez grand pour le diviser en données d apprentissage et données de test, des méthodes non-paramétriques de rééchantillonage seront utilisées pour juger la qualité des analyses. 2 Description des données Les données qui seront analysées dans ce travail proviennent de réponses d entreprises à un questionnaire. Il s agit d un échantillon de 130 entreprises du Canton Tessin faisant partie des branches d activité industrielles, des constructions, du commerce (au détail et en gros), des services informatiques et financiers. Ces branches économiques avaient été choisies parce que l intérêt du projet portait surtout sur les zones industrielles et artisanales du Tessin. Voici une description des variables qui seront prises en compte pour l analyse : inno : si l entreprise a introduit une innovation de produit et/où de service dans les 3 ans précedents (0/1) (variable à discriminer ou expliquer) ; taille : effectifs de l entreprise (en équivalent plein temps) ; ca.pers : chiffre d affaires moyen par effectif par année (des 3 dernières annes , 2002, 2003) ; rd : pourcentage de personnel avec des fonctions de recherche et développement dans l entreprise ; aca : pourcentage de personnel avec une formation académique dans l entreprise; expo : pourcentage de chiffre d affaires réalisé à l étranger ; ca.inno : pourcentage de chiffre d affaires réalisé grâce à des produits / services complètement nouveaux ; form : si l entreprise possède des programmes de formation internes ; brev : si l entreprise a déposé des demandes de brevet de produit, d une composante ou d un procédé de production (0/1) ; cert.qual : si l entreprise possède une certification de qualité (0/1) ; gest.int : si l entreprise dispose d un système de gestion intégré ERP (style SAP) (0/1) ; intranet : si l entreprise dispose d un réseau informatique interne du type Intranet (0/1) ; internet : si l entreprise est attachée à Internet (0/1) ; site : si l entreprise possède ou non un site internet (0/1). 2

3 L identité des entreprises étant confidentielle, elle ne sera pas mentionnée dans ce travail. 3 Analyses préliminaires exploratoires Dans cette section seront présentées des statistiques descriptives des variables et des graphiques aidant la visualisation de leur distribution empirique. Pour ce qui concerne la variable à discriminer (inno) l échantillon se divise en 50% d entreprises ayant introduit une innovation de produit et/ou de service dans les trois dernières années (65 entreprises) et l autre 50% n ayant introduit aucune innovation. Pour les variables explicatives, il faut distinguer 3 types de variables : 1. variables numériques : taille et ca.pers ; 2. variables en pourcentage (entre 0 et 100%) : rd, aca, expo et ca.inno ; 3. variables catégorielles (dans notre cas toutes binaires) : form, brev, cert.qual, gest.int, intranet, internet et site. Fig. 1 Histogrammes et graphiques en barres de toutes les variables (s absolues) inno taille ca.pers rd aca e+00 2 e+06 4 e expo ca.inno form brev cert.qual gest.int intranet internet site On peut voir dans la figure 1 comme la distribution de la taille des entreprises et du chiffre d affaires par effectif est très asymétrique et biasée vers la droite. Avec une transformation logarithmique de ces deux variables on peut voir comme la distribution devient plus symétrique (voir figure 2). Les variables numériques continues transformées seront utilisées pour la régression logistique. Pour l analyse discriminante dans la prochaine section, la transformation en logarithme naturel a aidé dans la catégorisation de ces deux variables de la façon suivante : taille de l entreprise (taille) : 3

4 Fig. 2 Histogrammes des transformations logarithmiques de la taille et du chiffre d affaires par effectif (s absolues) Histogram of log(taille) Histogram of log(ca.pers) log(taille) log(ca.pers) entre 1 et 5 effectifs ; entre 5 et 20 effectifs : entre 20 et 50 effectifs : entre 50 et 150 effectifs : plus de 150 effectifs ; chiffre d affaires par effectif (par année) (ca.pers) : moins de CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; entre et CHF/personne par année ; plus de 1,2 millions CHF/personne par année. En ce qui concerne les variables en pourcentage, les histogrammes montrent aussi une forte distribution asymétrique. Des transformations en variables catégorielles sera appliquée à ces variables en pourcentage, de la façon suivante : % de personnel avec des fonctions de recherche et développement dans l entreprise (rd) : entre 0 et 1% ; entre 1 et 20% ; entre 20 et 50% ; entre 50 et 100%. % de personnel avec une formation académique dans l entreprise (aca) : même découpage que rd ; % de chiffre d affaires réalisé à l étranger (expo) : même découpage que rd ; % de chiffre d affaires réalisé grâce à des produits/services complètement nouveaux (ca.inno) : même découpage que rd. 4

5 Les tranches de pourcentage crées seront interprétées de la façon suivante : entre 0 et 1% : niveau zéro ; entre 1 et 20% : niveau faible ; entre 20 et 50% : niveau moyen ; entre 50 et 100% : niveau haut. Les s absolues de ces variables découpées en classes sont présentées dans la figure 3. Fig. 3 Fréquences absolues des variables continues et en pourcentage découpées en classes taille ca.pers rd.factor moins plus ,2mio plus zéro faible moyen haut aca.factor expo.factor ca.inno.factor zéro faible moyen haut zéro faible moyen haut zéro faible moyen haut Ces variables, ainsi catégorisées, seront utilisées dans les prochaines sections où seront appliquées les méthodes d analyse multivariée. 4 Analyse discriminante sur l innovation Le but de l analyse discriminante est celui de classer (affecter à des classes préexistantes) des individus (dans notre cas des entreprises) caractérisés par un certain nombre de variables numériques ou nominales. L analyse factorielle discriminante consiste à rechercher les combinaisons linéaires de p variables explicatives (x 1,x 2,...,x p ), généralement continues, qui permettent de séparer au mieux les q classes (dans notre cas les deux classes : entreprises qui innovent et qui n innovent pas). La pluspart des variables explicatives étant catégorielles, une analyse discriminante classique ne semble pas être la plus appropriée. C est pour cela que les variables continues ont été catégorisées pour pouvoir appliquer la méthode DISQUAL. 5

6 4.1 Description de la méthode Le tableau de données étant à ce point formé de variables nominales, on procède au codage disjonctif complet des p variables explicatives. Le codage disjonctif complet consiste à créer, pour chaque variable, autant de colonnes que la variable a de modalités. Les colonnes représentent les indicatrices de chaque modalité de chaque variable. Dans notre cas, nous avons 13 variables explicatives, dont 2 à cinq modalités, 4 à quatre modalités et 7 variables binaires à deux modalités, ce qui fait une matrice de dimension (130,40) : 130 entreprises (lignes) et 40 modalités possibles (colonnes). Les sommes en ligne de cette matrice (que nous appelons X) sont toujours égales au nombre de variables explicatives, soit 13 dans notre cas. La matrice X n est pas inversible puisqu il existe p relations linéaires entre les colonnes du tableau disjonctif complet. Une possibilité dans ce cas est de réaliser une analyse discriminante classique sur les facteurs de l analyse des correspondances multiples. Cette méthode est connue sous le nom de méthode DISQUAL ou de régularisation par axes principaux. La procédure consiste donc à effectuer une analyse des correspondances sur le tableau disjonctif complet (matrice X) où les p variables catégorielles sont remplacées par k variables continues correspondant aux facteurs de l analyse des correspondances multiples. Ensuite, à partir des k variables continues, qui représentent les coordonnées sur les axes factoriels de l analyse des correspondances multiples, effectuer une analyse factorielle discriminante. Des k variables numériques ainsi crées, on retiendra les coordonnées factorielles les plus discriminantes. 4.2 Premiers résultats L analyse des correspondances multiples a fait ressortir 27 facteurs indépendants dont l importance se répartit selon le graphe ci-dessous (figure 4) en valeur propre de la variance. Les valeurs propres ainsi que la part de variance que Fig. 4 Valeurs propres résultants de l analyse des correspondances multiples Valeurs propres les facteurs expliquent sont présentées dans la table 1. Dans la figure 5 sont 6

7 représentées les coordonnées des 40 modalitées possibles sur les deux premiers axes de l analyse des correspondances multiples. Tab. 1 Valeurs propres de l analyse des correspondances multiples Valeurs propres Part de variance expliquée Part cumulée Même si les deux premiers axes n expliquent qu environ 23% de la variance totale, on peut chercher d interpréter le sens des facteurs. Pour le premier facteur (abscisse de la figure 5) il ne semble pas y avoir un grand pouvoir discriminant (les points sont assez proches de l origine). On peut remarquer quand-même, en bas à droite, la modalité des entreprises ayant plus de 150 effectifs, opposée aux modalités des entreprises de taille inférieure qui se trouvent plus à gauche. Le premier axe semblerait caractériser la taille des entreprises (mais la distinction n est pas évidente). Par contre, le deuxième axe (ordonnée de la figure 5) parait plus discriminant : on remarque en haut les modalités rd.haut et aca.haut s opposant assez nettement des modalités plus basses de ces variables. On peut interpréter ce facteur comme indicateur de la qualité du personnel des entreprises. Pour la recherche d une fonction discriminante, on choisit de retenir les 11 pre- 7

8 Fig. 5 Coordonnées des modalitées sur les 2 premiers axes de l analyse des correspondances multiples Axes 1 et 2: 23% de var.expliquée rd.haut aca.haut ca.inno.haut rd.moyen ca.pers.0 60 ca.pers.450 1,2mio expo.haut taille.moins5 aca.moyen gest.int.1 internet.0 brev.1 form.0 cert.qual.0 ca.inno.moyen site.0 aca.zéro ca.pers ca.inno.faible intranet.1 intranet.0 taille.5 20 rd.zéro brev.0 internet.1 gest.int.0 expo.zéro expo.faible site.1 ca.inno.zéro form.1 ca.pers taille rd.faible expo.moyen cert.qual.1 aca.faible ca.pers.1,2mio plus taille taille.150plus miers axes (facteurs), qui ensemble expliquent environ le 69% de la variance (soit on laisse tomber les facteurs qui expliquent moins de 4% de la variance). On applique donc une analyse discriminante linéaire sur les 11 premiers facteurs résultants de l analyse des correspondances multiples, le but étant de trouver une fonction (combinaison linéaire des facteurs, qui sont des variables continues) qui discrimine au mieux les deux groupes d entreprises, soit celles qui innovent de celles qui n innovent pas. L équation ci-dessous illustre le résultat de l analyse discriminante : Z = F F F F F F F F F F F11 (1) L équation (1) définit un score Z qui discrimine la variable de la façon suivante : { 0 l entreprise innove si Z < 0 l entreprise n innove pas 4.3 Evaluation de la méthode À partir de la fonction discriminante illustrée dans l équation (1), on peut calculer les scores Z pour chacune des entreprises et voir comment cette fonction les classe dans les deux groupes. Les résultats sont résumés dans la matrice de confusion ci-dessous. La lecture de cette matrice de confusion est la suivante : 0 1 total

9 sur la première ligne, on voit que, parmi les 65 entreprises faisant partie du groupe non-innovateur, 59 sont classées correctement (soit 90,8%) et 6 sont classées dans le mauvais groupe; sur la deuxième ligne, on voit que, parmi les 65 entreprises innovatrices, 58 ont été bien classées (soit 89,2%) et 7 ont été classées dans le mauvais groupe. Cette matrice, ayant été calculée à partir des mêmes données sur lesquelles l estimation de la fonction discriminante a été faite, n est pas une bonne mesure de la qualité du modèle. En général, cette matrice sur-estime la qualité du modèle. Pour cette raison, dans la prochaine section seront utilisés des méthodes non-paramétriques de réechantillonage, afin d avoir une mesure de la qualité du modèle Validation croisée (Jackknife) La validation croisée consiste à effectuer une analyse discriminante en enlevant une observation (une entreprise) pour ensuite utiliser l estimation pour classer l entreprise qui a été omise dans l estimation de la fonction discriminante. Cette procédure va être faite 130 fois (chaque fois on élimine une entreprise) et de cette façon on aura une matrice de confusion contenant les prévisions faites indépendamment de chaque entreprise. À partir des facteurs obtenus avec l analyse des correspondances multiples, qui constituent les nouvelles variables continues, on enlève à chaque tour une entreprise, on estime la fonction discriminante et avec cette fonction on classe l entreprise qui a été omise. Le résultat de la procédure est résumé dans la matrice de confusion ci-dessous. Sur les 65 entreprises non-innovatrices (première 0 1 total ligne), 57 sont bien classées (87,7%), ce qui montre une bonne performance du modèle. Pour les entreprises innovatrices (deuxième ligne), 55 entreprises sur 65 sont classées correctement (84,6%). Globalement, avec la validation croisée, on obtient un pourcentage d entreprises bien classées de = 86,15% Régression logistique Dans cette section sera effectuée une régression logistique sur la variable dépendante inno, dans l optique d arriver à discriminer les entreprises innovatrices de celles non-innovatrices. 5.1 Description de la méthode et modélisation La régression logistique convient pour la modélisation d une variable dichotomique Y = 0/1. L objectif est de modeliser l espérance conditionnelle de Y sachant les valeurs de certaines variables explicatives X 1,...,X p : π(x) = Prob(Y = 1 X = x) 9

10 Le modèle linéaire classique du type : π(x) = β 0 + β 1 x β p x p convient mal et le modèle logistique est plus naturel. La régression logistique modélise l espérance conditionnelle de la variable dichotomique de la façon suivante : eβ0+β1 x1+...+βp xp π(x) = 1 + e β0+β1 x1+...+βp xp ou, de façon équivalente : ( ) π(x) log = β 0 + β 1 x β p x p 1 π(x) Le rapport π(x) Prob(Y = 1 X = x) Prob(Y = 1 X = x) = = 1 π(x) 1 Prob(Y = 1 X = x) Prob(Y = 0 X = x) est appelé odds-ratio. Le logarithme naturel de ce rapport est appelé log-odds ou simplement logit. 5.2 Premiers résultats et sélection des variables Dans notre cas, on va dans un premier temps faire une estimation logit avec toutes les variables explicatives, en prenant les transformations en logarithme naturel pour les deux variables continues taille et ca.pers (taille et chiffre d affaires par personne par année) présentées dans la section 3 à la page 3. Les variables en pourcentage seront laissées telles qu elles étaient dans les données originales. À partir de l estimation avec toutes les variables explicatives, une procédure de backward-selection basée sur le critère d Akaike sera effectuée 1. Le critère d Akaike (AIC) est défini comme : AIC = 2 log(vraisemblance) + 2 # de paramètres et sert à comparer la qualitè de modèles avec différents paramètres, le but étant de minimiser le critère 2. Dans un deuxième temps, une deuxième estimation sera faite, mais avec les mêmes variables utilisées pour l analyse discriminante, c està-dire avec les variables continues et celles en pourcentage découpées en classes. Après cette estimation, une procédure de backward-selection sera aussi appliquée. Les résultats de la première estimation sont résumés dans la table 2. On peut remarquer comme seulement les variables taille, ca.inno et site ont des coefficients significativement différents de zéro (p-value< 0,05). Avec une procédure de backward-selection, à partir de cette estimation pleine (avec toutes les variables explicatives), on aboutit à l estimation présentée 1 La procédure commence en faisant une estimation avec toutes les variables explicatives. Ensuite, la variable qui contribue davantage à la réduction de l AIC est enlevée. La procédure s arrête lorsqu en enlevant une variable, le critère d Akaike ne diminue plus. 2 Plus le critère d Akaike est bas et mieux c est. En effet, le critère AIC contient le logarithme naturel de la vraisemblance précédé d un signe moins et une penalité qui tient compte du nombre de paramètres. 10

11 Tab. 2 Régression logistique avec toutes les variables explicatives Estimate Std. Error z value p-value (Intercept) log(taille) log(ca.pers) rd aca expo ca.inno form brev cert.qual gest.int intranet internet site AIC= Tab. 3 Résultats de la backward-selection Estimate Std. Error z value p-value (Intercept) log(taille) rd expo ca.inno form brev site AIC= dans la table 3. La procédure a retenu 7 variables, dont 5 sont significatives (une l est seulement au seuil de 10%). Les signes des coefficients sonts tous positifs sauf celui concernant le logarithme de la taille, qui est négafif. L interprétation de ce coefficient serait que plus la taille d une entreprise est grande et moins l entreprise aurait une probabilité d innover. Les résultats de la deuxième estimation, avec les variables continues et en pourcentage catégorisées, sont présentées dans la table 4. Il faut remarquer qu avec toutes les variables exprimées en catégories, le nombre de coefficients à estimer devient plus grand. En effet, par exemple pour la variable taille, qui avait été découpée en 5 classes, 4 coefficients sont estimés. La modalité pour laquelle un coefficient n est pas estimé (effectifs entre 1 et 5 dans le cas de la variable taille) est la catégorie de référence pour cette variable. Les coefficients estimés sont donc à lire en référence de la modalité qui a été omise. En effectuant une 11

12 Tab. 4 Régression logistique avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus rdfaible rdmoyen rdhaut acafaible acamoyen acahaut expofaible expomoyen expohaut ca.innofaible ca.innomoyen ca.innohaut form brev cert.qual gest.int intranet internet site AIC= procédure de backward-selection on obtient les résultats résumés dans la table 5. Les variables retenues sont taille, ca.pers, aca, ca.inno, form, brev et site. Il est intéressant de remarquer : pour la variable taille : il semble que jusqu à une taille de 150 effectifs, la taille a un effet négatif sur la probabilité d innover (les 3 coefficients sont tous significatifs au moins à un seuil de 10%). Pour les entreprises ayant plus de 150 effectifs (grandes entreprises) la taille semble avoir un impact positif sur la probabilité d innover (mais attention : le coefficient n est pas significatif) ; pour la variable ca.pers : toutes les modalités de chiffre d affaire par effectif supérieures à francs suisses par année ont un effet positif sur la probabilité d innover, par rapport à la catégorie de référence. La modalité entre et francs suisses par année par effectif n est que 12

13 Tab. 5 Résultat de la backward-selection avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) taille taille taille taille150plus ca.pers ca.pers ca.pers450-1,2mio ca.pers1,2mio-plus acafaible acamoyen acahaut ca.innofaible ca.innomoyen ca.innohaut form brev site AIC= faiblement significative (p-value= 0, 113) et celle de plus de 1 million de francs suisses est encore plus faiblement significative (p-value= 0,3054) ; pour la variable aca : un pourcentage faible d effectifs avec une formation académique (entre 1 et 20%) a un effet négatif sur la probabilité d innover, par rapport à un pourcentage nul. Par contre, des pourcentages moyens ou hauts de personnel avec une formation académique semblent avoir un effet positif sur la probabilité d innover. Il faut dire quand-même que le coefficient de la modalité haute n est pas significatif ; pour la variable ca.inno : plus une entreprise vend grâce à des produits et/ou services nouveaux et plus la probabilité d innover devient grande par rapport à celle de n innover pas. Les coefficients sont tous significatifs au moins à un seuil de 5% ; pour les variables form et site : le fait de posséder des programmes de formation interne pour le personnel et le fait d avoir un site internet semblent avoir un effet positif sur la probabilité d innover (même s il faut remarquer la pas très grande significativité pour le fait d avoir des programmes de formation interne) ; pour la variable brev : le coefficient n est pas significatif, mais le signe dirait que le fait d avoir déposé un ou plusieurs brevets ait un effet positif sur la probabilité d innover. En utilisant toutes les variables découpées en catégories, on perd en degrés de liberté mais on a l avantage de faire ressortir des relations non-linéaires qu avec les variables continues ne pouvaient pas être détectées. 13

14 5.3 Evaluation de la méthode Dans cette partie seront utilisées les deux estimations obtenues avec les procédures de backward-selection à la section précédente. Les matrices de confusion pour les deux modèles, basées sur les données d apprentissage, sont données ci-dessous (à gauche pour le modèle avec les variables continues et à droite pour celui avec les variables continues catégorisées ). Le modèle avec les 0 1 total 0 1 total variables continues et en pourcentage découpées en classes semble classer mieux les entreprises dans les deux groupes. Comme dans le cas de l analyse discriminante, les matrices de confusion basées sur les données d apprentissage (celles utilisées pour les estimations des modèles) ne sont pas de bons indicateurs de la qualité des modèles. Dans la prochaine section, des méthodes non-paramétriques de réechantillonage seront effectuées Validation croisée (Jackknife) La procédure est analogue à celle effectuée à la section à la page 9 pour l analyse discriminante. La procédure, dans le cas en question, est : 1. effectuer une estimation du modèle de régression logistique en enlevant une entreprise ; 2. en utilisant les paramètres estimés, classer l entreprise qui a été omise ; 3. répéter la procédure pour chaque entreprise; 4. vérifier la qualité de la prévision en comparant les résultats avec les données originales de la variable inno. La procédure va être appliquée aux deux modèles de régression logistique réduits (les deux obtenus avec les procédures de backward-selection ). Les deux matrices de confusion résultantes sont présentées ci-dessous. En ce qui 0 1 total 0 1 total concerne les entreprises non-innovatrices, les deux modèles classent correctement 56 et 55 entreprises sur 65 respectivement (soit 86,1% et 84,6%). Pour les entreprises innovatrices, les deux modèles prévoient correctement 53 respectivement 58 entreprises sur 65 (soit 81,5% et 89,2%). Le pourcentage de bien-classées globalement est de = 86,9% respectivement = 83,8% et de Les résultats sont du même ordre de grandeur que ceux obtenus avec l analyse discriminante. Globalement, les résultats obtenus avec les deux régression logistiques avec la validation croisée, sont semblables à ceux obtenus avec l analyse discriminante (83,8% et 86,9% contre 86,15% avec l analyse discriminante). 14

15 6 Comparaison des scores obtenus avec les deux méthodes Dans cette section seront comparés graphiquement et en termes de corrélation les scores pour les entreprises obtenus avec l analyse discriminante et avec la régression logistique. Fig. 6 Représentation graphique des scores score.logit score.logit LD1 Dans la figure 6 sont représentés les scores pour les 130 entreprises obtenus avec les différentes méthodes. On voit qu il forment un nuage assez linéaire, ce qui est témoigné aussi par la matrice des corrélations présentée ci-dessous. LD1 score.logit1 score.logit2 LD score.logit score.logit2 1 Les coefficients de corrélation linéaires empiriques des scores obtenus avec les trois modèles sont assez hauts, sauf pour celui entre le LD1 et le score.logit1 (qui sont ceux obtenus avec l analyse discriminante et avec le premier modèle de régression logistique réduit avec les variables continues). La comparaison a été faite à des fins uniquement illustratifs, car les trois modèles n ont pas utilisé exactement les mêmes variables (catégorielles vs. continues, facteurs de l analyse des correspondances multiples, etc... ). Une autre représentation intéressante, qui illustre la bonne qualité des performances des trois modèles, sont les courbes ROC pour les validations croisées qui ont été faites. Ces courbes représentent la proportion de vrais positifs en fonction de la proportion de faux positifs lorsque le seuil varie. Plus la courbe s éloigne de la ligne diagonale et mieux c est. En d autres termes, plus la surface (estimée) sous la courbe (AUC : area under the curve ) est proche de 1 et 15

16 Fig. 7 Courbes ROC pour les validations croisées des 3 modèles logit1 logit2 Prop. de vrais positifs Prop. de vrais positifs Prop. de faux positifs AUC = Prop. de faux positifs AUC = discriminante Prop. de vrais positifs Prop. de faux positifs AUC = mieux c est (=bonne qualité du score); plus la surface est proche de 1/2 (aire minimale) et pire sera la qualité du score. On voit dans la figure 7 comme les trois courbes ROC ont visuellement une bonne allure, témoignée par les aires sous les courbes respectivement de 0,905, 0,899 et 0, Conclusions Dans ce travail des données concernant 130 entreprises tessinoises ont été analysées. Le but étant de classifier les entreprises dans des groupes prédefinis comme innovatrices et non-innovatrices, deux approches ont été appliquées. Dans un premier temps, une analyse discriminante DISQUAL a été effectuée : cette méthode utilise les facteurs résultant de l analyse des correspondances multiples (variables continues) pour calculer une fonction discriminante. Dans un deuxième temps, deux modèles de régression logistique ont été estimés : un contenant les variables originales (sauf une transformation en logarithme naturel des deux variables continues) et un avec toutes les variables transformées en catégorielles. La performance des trois modèles a été évaluée avec une validation croisée, qui consiste à faire tant d estimations qu on a d observations, en omettant à chaque fois une observation pour après la classifier avec l estimation faite sans celle-ci. Les performances sont globalement assez bonnes et, même avec des approches différentes, les scores obtenus sont assez corrélés. 16

17 A Annexe : code R utilisé Dans cet annexe on peut trouver le code R utilisé pour les analyses effectuées dans ce travail, avec quelques commentaires. Les lignes de code précédées d un signe # sont des commentaires, et ne sont pas executées en tant que commandes par R. Certaines commandes ont été divisées sur plusieurs lignes, pour des motifs de layout de page exclusivement. #IMPORTATION DES DONNEES A PARTIR DU FICHIER TEXTE dati<-read.table(file="./dati.txt", sep="\t", header=true) dati<-dati[,-15] #CHARGEMENT DES LIBRAIRIES UTILISEES POUR LES ANALYSES library(mass) library(boot) library(xtable) library(ade4) library(scatterplot3d) #DISCRETISATION/CATEGORISATION DES VARIABLES CONTINUES attach(dati) taille.factor<-factor(cut(taille, breaks=c(0,5,20,50, 150, 450), labels=c("moins5", "5-20", "20-50", "50-150", "150plus"))) ca.pers.factor<-factor(cut(ca.pers, breaks=c(0,60000,160000, , , ), labels=c("0-60 ", " ", " ", "450-1,2mio", "1,2mio-plus"))) detach(dati) #DISCRETISATION/CATEGORISATION DES VARIABLES EN POURCENTAGE dati.perc<-dati[, 4:7] rd.factor<-factor(cut(dati.perc$rd, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) aca.factor<- factor(cut(dati.perc$aca, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) expo.factor<- factor(cut(dati.perc$expo, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) ca.inno.factor<- factor(cut(dati.perc$ca.inno, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) dati.perc.factor<-data.frame(rd.factor, aca.factor, expo.factor, ca.inno.factor) rm(rd.factor, aca.factor, expo.factor, ca.inno.factor) #GRAPHIQUES DES VARIABLES CATEGORIELLES CREES 17

18 par(mfrow=c(2,3)) barplot(table(taille.factor), main="taille.factor") barplot(table(ca.pers.factor), main="ca.pers.factor") for(i in 1:4){ barplot(table(dati.perc.factor[, i]), main=names(dati.perc. factor)[i]) } #HISTOGRAMMES ET GRAPHIQUES EN BARRES DE TOUTES LES VARIABLES # ORIGINALES par(mfrow=c(3,5)) nomi=names(dati) for(i in 1:ncol(dati)){ if(class(dati[,i])=="numeric") hist(dati[,i], main=nomi[i], col="gray", xlab="", ylab="frquence") else barplot(table (dati[,i]), main=nomi[i], ylab="frquence") } #HISTOGRAMMES DES DEUX VARIABLES CONTINUES TRANSFORMEES EN #LOGARITHME NATUREL par(mfrow=c(1,2)) attach(dati) hist(log(taille), col="gray", ylab="frquence") hist(log(ca.pers), col="gray", ylab="frquence") detach(dati) #CREATION DU DATA.FRAME dati.factor, QUI CONTIENT TOUTES #LES VARIABLES CATEGORIZEES SOUS FORME DE factor dati.bin.factor<-data.frame(as.factor(dati$inno), as.factor (dati$form), as.factor(dati$brev), as.factor(dati$cert.qual), as.factor(dati$gest.int), as.factor(dati$intranet), as.factor (dati$internet), as.factor(dati$site)) names(dati.bin.factor)<-names(dati)[c(1,8:14)] dati.factor<-data.frame(as.factor(dati$inno), taille.factor, ca.pers.factor, dati.perc.factor, dati.bin.factor[, -1]) names(dati.factor)<-names(dati) #CREATION DU TABLEAU DISJONCTIF COMPLET DES VARIABLES EXPLICATIVES library(ade4) disj.complet<-acm.disjonctif(dati.factor[, -1]) #ANALYSE DES CORRESPONDANCES MULTIPLES (AVEC LES VARIABLES #CATEGORIELLES ET LES VARIABLES CONTINUES CATEGORIZEES #avec la librairie ade4 dati.acm<-dudi.acm(dati.factor[, -1], scannf = FALSE, nf=2) #avec la librairie MASS dati.mca<-mca(dati.factor[, -1], abbrev=false, nf=27) #DIAGRAMME EN BARRES DES VALEURS PROPRES dati.eigen<-dati.mca$d^2 18

19 barplot(dati.eigen, main="valeurs propres") #INERTIE CUMULATIVE DES VALEURS PROPRES (AXES FACTORIELS) #POURCENTAGE DE VARIANCE QU EXPLIQUENT LES FACTEURS DE #L ANALYSE DES CORRESPONDANCES MULTIPLES dati.mca.expl<-data.frame(dati.eigen, dati.eigen/sum(dati.eigen), cumsum(dati.eigen)/sum(dati.eigen)) names(dati.mca.expl)<-c("valeurs propres","% de variance EXPLIQUEE", "% CUMULE") #GRAPHIQUE DES MODALITES DES VARIABLES SUR LES DEUX PREMIERS AXES #DE L ANALYSE DES CORRESPONDANCES MULTIPLES plot(dati.mca, rows=f, cex=0.9, cex.axis=1.3, cex.lab=1.3, main= "Axes 1 et 2: 23% de var.expliquee"); abline(v=0,h=0) #DISQUAL: ANALYSE DISCRIMINANTE AVEC LES FACTEURS OBTENUS AVEC #L ANALYSE DES CORRESPONDANCES MULTIPLES disqual<-data.frame(dati$inno, dati.mca$rs) names(disqual)[1]<-"inno" disqual.lda2<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data=disqual) disqual.pred<-predict(disqual.lda2) confusionmat<-table(disqual$inno, disqual.pred$class) confusionmat #GRAPHIQUE DES DENSITES KERNEL ESTIMEES #CE GRAPHIQUE N EST PAS PRESENT DANS LE DOCUMENT plot(disqual.lda2, type = "density", dimen = 1) #VALIDATION CROISEE prev<-numeric(nrow(dati.factor)) score.crossed<-numeric(nrow(dati.factor)) n<-length(prev) for(i in 1:n){ lda.crossed<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data= disqual[-i,]) score.crossed[i]<-t(as.matrix(dati.mca$rs[i, 1:11])) %*% as.matrix(lda.crossed$scaling) if(score.crossed[i]>=0) prev[i]<-1 } confusionmat2<-table(dati$inno, prev) confusionmat2 #REGRESSION LOGISTIQUE (1). AVEC VARIABLES ORIGINALES dati.logit<-glm(inno ~ log(taille) + log(ca.pers) + rd + aca + expo + ca.inno + form + brev + cert.qual + gest.int +intranet + internet + site, family=binomial(link="logit"), data=dati) summary(dati.logit) #BACKWARD SELECTION (1). 19

20 dati.logit.step<-stepaic(dati.logit, direction="backward") summary(dati.logit.step) #REGRESSION LOGISTIQUE (2). AVEC VARIABLES CATEGORIZEES dati.factor.logit<- glm(inno ~., family=binomial(link="logit"), data=dati.factor) summary(dati.factor.logit) #BACKWARD SELECTION (2). dati.factor.step<-stepaic(dati.factor.logit, direction="backward") summary(dati.factor.step) #SCORE LOGIT mat.logit<-as.matrix(cbind(1, dati[, c(2,4,6,7,8,9,14)])) mat.logit[,2]<-log(mat.logit[,2]) linear.pred<-mat.logit %*% as.matrix(dati.logit.step$coefficients) linear.pred[linear.pred>=0]<-1 linear.pred[linear.pred<0]<-0 linear.pred confusionmat3<-table(dati$inno, linear.pred) confusionmat3 linear.pred2<-predict(dati.factor.step) linear.pred2[linear.pred2>=0]<-1 linear.pred2[linear.pred2<0]<-0 confusionmat4<-table(dati$inno, linear.pred2) confusionmat4 #VALIDAITON CROISEE DES DEUX MODELES LOGIT REDUITS n<-nrow(dati) score.logit1<-numeric(n); prev.logit1<-numeric(n); dati.logit1<-dati[, c(2,4,6,7,8,9,14)] dati.logit1<-cbind(1,dati.logit1) dati.logit1[,2]<-log(dati.logit1[,2]) for(i in 1:n){ est<-glm(inno ~ log(taille) + rd + expo + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati[-i,]) score.logit1[i]<- as.matrix(dati.logit1[i, ]) %*% as.matrix(est$coefficients) if(score.logit1[i]>=0) prev.logit1[i]<-1 } confusionmat5<-table(dati$inno, prev.logit1) confusionmat5 dati.logit2<-model.matrix(dati.factor.step) score.logit2<-numeric(n); prev.logit2<-numeric(n); for(i in 1:n){ est2<-glm(inno ~ taille + ca.pers + aca + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati.factor[-i,]) score.logit2[i]<- t(as.matrix(dati.logit2[i, ])) %*% as.matrix(est2$coefficients) if(score.logit2[i]>=0) prev.logit2[i]<-1 } 20

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Mesures et incertitudes

Mesures et incertitudes En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Scénario: Score d appétence de la carte visa premier

Scénario: Score d appétence de la carte visa premier Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013 Cahier méthodologique, tableau récapitulatif 2009-2013 et Matrices importance/performance Mars 2014 Service Études et Statistiques Table

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Le montant des garanties constituées aux fins du STPGV est-il excessif? Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

Brock. Rapport supérieur

Brock. Rapport supérieur Simplification du processus de demande d aide financière dans les établissementss : Étude de cas à l Université Brock Rapport préparé par Higher Education Strategy Associates et Canadian Education Project

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE Par Fatoumata A dite Woybi Touré 11135079 Science de la gestion (Ingénierie financière) Projet supervisé présenté en vue de

Plus en détail

Chapitre 4 : Régression linéaire

Chapitre 4 : Régression linéaire Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Fonction inverse Fonctions homographiques

Fonction inverse Fonctions homographiques Fonction inverse Fonctions homographiques Année scolaire 203/204 Table des matières Fonction inverse 2. Définition Parité............................................ 2.2 Variations Courbe représentative...................................

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France Le 13 octobre 2014 Autorité des marchés financiers 17, place de la Bourse 75082 Paris cedex 02 Tél. : 01 53

Plus en détail

http://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines

http://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme Fonctions linéaires et affines 3eme 1 Fonctions linéaires 1.1 Vocabulaire Définition 1 Soit a un nombre quelconque «fixe». Une fonction linéaire associe à un nombre x quelconque le nombre a x. a s appelle

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

Modèle GARCH Application à la prévision de la volatilité

Modèle GARCH Application à la prévision de la volatilité Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident? Nathalie LEPINE GREMAQ, Université de Toulouse1, 31042 Toulouse, France GRAPE, Université Montesquieu-Bordeaux

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Analyse exploratoire des données

Analyse exploratoire des données Analyse exploratoire des données Introduction à R pour la recherche biomédicale http://wwwaliquoteorg/cours/2012_biomed Objectifs Au travers de l analyse exploratoire des données, on cherche essentiellement

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05 EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA

Plus en détail

Nombre dérivé et tangente

Nombre dérivé et tangente Nombre dérivé et tangente I) Interprétation graphique 1) Taux de variation d une fonction en un point. Soit une fonction définie sur un intervalle I contenant le nombre réel a, soit (C) sa courbe représentative

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

Mémoire d Actuariat Tarification de la branche d assurance des accidents du travail Aymeric Souleau aymeric.souleau@axa.com 3 Septembre 2010 Plan 1 Introduction Les accidents du travail L assurance des

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voies : Mathématiques, physique et sciences de l'ingénieur (MPSI) Physique, chimie et sciences de l ingénieur (PCSI) Physique,

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

FONCTION DE DEMANDE : REVENU ET PRIX

FONCTION DE DEMANDE : REVENU ET PRIX FONCTION DE DEMANDE : REVENU ET PRIX 1. L effet d une variation du revenu. Les lois d Engel a. Conditions du raisonnement : prix et goûts inchangés, variation du revenu (statique comparative) b. Partie

Plus en détail

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g. PHYSQ 130: Hooke 1 LOI DE HOOKE: CAS DU RESSORT 1 Introduction La loi de Hooke est fondamentale dans l étude du mouvement oscillatoire. Elle est utilisée, entre autres, dans les théories décrivant les

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678 Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées

Plus en détail