Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin



Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Logiciel XLSTAT version rue Damrémont PARIS

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INF6304 Interfaces Intelligentes

Introduction aux Statistiques et à l utilisation du logiciel R

La classification automatique de données quantitatives

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Initiation à l analyse en composantes principales

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Évaluation de la régression bornée

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Traitement des données avec Microsoft EXCEL 2010

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Relation entre deux variables : estimation de la corrélation linéaire

Chapitre 3. Les distributions à deux variables

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

données en connaissance et en actions?

LES MODELES DE SCORE

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Cours de méthodes de scoring

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

SPHINX Logiciel de dépouillement d enquêtes

Données longitudinales et modèles de survie

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Arbres binaires de décision

Infolettre #18 : Les graphiques avec Excel 2010

Aide-mémoire de statistique appliquée à la biologie

Mesures et incertitudes

Statistique Descriptive Élémentaire

Scénario: Score d appétence de la carte visa premier

Extraction d informations stratégiques par Analyse en Composantes Principales

Annexe commune aux séries ES, L et S : boîtes et quantiles

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

IBM SPSS Regression 21

NON-LINEARITE ET RESEAUX NEURONAUX

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

CAPTEURS - CHAINES DE MESURES

Introduction à l approche bootstrap

STATISTIQUES. UE Modélisation pour la biologie

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Exercices Corrigés Premières notions sur les espaces vectoriels

Séries Statistiques Simples

ACP Voitures 1- Méthode

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Coup de Projecteur sur les Réseaux de Neurones

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Optimisation des ressources des produits automobile première

Le montant des garanties constituées aux fins du STPGV est-il excessif?

«Cours Statistique et logiciel R»

Gestion obligataire passive

Brock. Rapport supérieur

Principe d un test statistique

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Chapitre 4 : Régression linéaire

Table des matières. I Mise à niveau 11. Préface

Fonction inverse Fonctions homographiques

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

: seul le dossier dossier sera cherché, tous les sousdomaines

L'analyse des données à l usage des non mathématiciens

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

1 Modélisation d être mauvais payeur

23. Interprétation clinique des mesures de l effet traitement

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

La place de SAS dans l'informatique décisionnelle

Représentation d une distribution

1. Vocabulaire : Introduction au tableau élémentaire

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Modèle GARCH Application à la prévision de la volatilité

Un exemple de régression logistique sous

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Lire ; Compter ; Tester... avec R

Analyse exploratoire des données

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Nombre dérivé et tangente

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN


Statistiques Descriptives à une dimension

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

SIG ET ANALYSE EXPLORATOIRE

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Leçon N 4 : Statistiques à deux variables

Loi binomiale Lois normales

IBM SPSS Direct Marketing 21

4. Résultats et discussion

Programmes des classes préparatoires aux Grandes Ecoles

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

FONCTION DE DEMANDE : REVENU ET PRIX

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

INTRODUCTION AU DATA MINING

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Transcription:

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet pour le cours Analyse Multivariée, Prof. G. Saporta Juin 2005 Table des matières 1 Introduction 2 2 Description des données 2 3 Analyses préliminaires exploratoires 3 4 Analyse discriminante sur l innovation 5 4.1 Description de la méthode...................... 6 4.2 Premiers résultats.......................... 6 4.3 Evaluation de la méthode...................... 8 4.3.1 Validation croisée (Jackknife)................ 9 5 Régression logistique 9 5.1 Description de la méthode et modélisation............. 9 5.2 Premiers résultats et sélection des variables............ 10 5.3 Evaluation de la méthode...................... 14 5.3.1 Validation croisée (Jackknife)................ 14 6 Comparaison des scores obtenus avec les deux méthodes 15 7 Conclusions 16 A Annexe : code R utilisé 17 Références 21 1

1 Introduction Dans ce travail seront analysées des données concernant des caractéristiques de 130 entreprises du Canton Tessin. Ces données ont été recueillies pendant les mois de juin et juillet de 2004 et se réfèrent au 31 décembre 2003. L enquête a été effectuée dans le cadre d un projet intitulé API : aires productives intégrées financé par le Canton du Tessin qui s inscrivait dans les travaux de révision d un document qui s appelle Plan Directeur Cantonal qui est une sorte de document prince pour l aménagement du territoire du Canton Tessin. Les méthodes utilisées seront l analyse discriminante et la régression logistique dans une optique de score, l objectif étant de classifier, à partir des caractéristiques des entreprises, celles innovatrices et celles qui ne le sont pas. L échantillon n étant pas assez grand pour le diviser en données d apprentissage et données de test, des méthodes non-paramétriques de rééchantillonage seront utilisées pour juger la qualité des analyses. 2 Description des données Les données qui seront analysées dans ce travail proviennent de réponses d entreprises à un questionnaire. Il s agit d un échantillon de 130 entreprises du Canton Tessin faisant partie des branches d activité industrielles, des constructions, du commerce (au détail et en gros), des services informatiques et financiers. Ces branches économiques avaient été choisies parce que l intérêt du projet portait surtout sur les zones industrielles et artisanales du Tessin. Voici une description des variables qui seront prises en compte pour l analyse : inno : si l entreprise a introduit une innovation de produit et/où de service dans les 3 ans précedents (0/1) (variable à discriminer ou expliquer) ; taille : effectifs de l entreprise (en équivalent plein temps) ; ca.pers : chiffre d affaires moyen par effectif par année (des 3 dernières annes - 2001, 2002, 2003) ; rd : pourcentage de personnel avec des fonctions de recherche et développement dans l entreprise ; aca : pourcentage de personnel avec une formation académique dans l entreprise; expo : pourcentage de chiffre d affaires réalisé à l étranger ; ca.inno : pourcentage de chiffre d affaires réalisé grâce à des produits / services complètement nouveaux ; form : si l entreprise possède des programmes de formation internes ; brev : si l entreprise a déposé des demandes de brevet de produit, d une composante ou d un procédé de production (0/1) ; cert.qual : si l entreprise possède une certification de qualité (0/1) ; gest.int : si l entreprise dispose d un système de gestion intégré ERP (style SAP) (0/1) ; intranet : si l entreprise dispose d un réseau informatique interne du type Intranet (0/1) ; internet : si l entreprise est attachée à Internet (0/1) ; site : si l entreprise possède ou non un site internet (0/1). 2

L identité des entreprises étant confidentielle, elle ne sera pas mentionnée dans ce travail. 3 Analyses préliminaires exploratoires Dans cette section seront présentées des statistiques descriptives des variables et des graphiques aidant la visualisation de leur distribution empirique. Pour ce qui concerne la variable à discriminer (inno) l échantillon se divise en 50% d entreprises ayant introduit une innovation de produit et/ou de service dans les trois dernières années (65 entreprises) et l autre 50% n ayant introduit aucune innovation. Pour les variables explicatives, il faut distinguer 3 types de variables : 1. variables numériques : taille et ca.pers ; 2. variables en pourcentage (entre 0 et 100%) : rd, aca, expo et ca.inno ; 3. variables catégorielles (dans notre cas toutes binaires) : form, brev, cert.qual, gest.int, intranet, internet et site. Fig. 1 Histogrammes et graphiques en barres de toutes les variables (s absolues) inno taille ca.pers rd aca 0 10 30 50 0 20 60 100 0 20 40 60 80 0 20 40 60 80 0 20 40 60 80 0 1 0 100 200 300 400 0 e+00 2 e+06 4 e+06 0 10 30 50 0 20 40 60 80 100 expo ca.inno form brev cert.qual 0 20 40 60 80 0 10 30 50 0 20 40 60 80 0 20 40 60 80 120 0 20 40 60 80 100 0 20 40 60 80 100 0 2 8 13 30 70 0 1 0 1 0 1 gest.int intranet internet site 0 20 40 60 80 100 0 20 40 60 0 20 40 60 80 120 0 20 40 60 80 0 1 0 1 0 1 0 1 On peut voir dans la figure 1 comme la distribution de la taille des entreprises et du chiffre d affaires par effectif est très asymétrique et biasée vers la droite. Avec une transformation logarithmique de ces deux variables on peut voir comme la distribution devient plus symétrique (voir figure 2). Les variables numériques continues transformées seront utilisées pour la régression logistique. Pour l analyse discriminante dans la prochaine section, la transformation en logarithme naturel a aidé dans la catégorisation de ces deux variables de la façon suivante : taille de l entreprise (taille) : 3

Fig. 2 Histogrammes des transformations logarithmiques de la taille et du chiffre d affaires par effectif (s absolues) Histogram of log(taille) Histogram of log(ca.pers) 0 5 10 15 20 25 30 0 10 20 30 40 0 1 2 3 4 5 6 log(taille) 9 10 11 12 13 14 15 log(ca.pers) entre 1 et 5 effectifs ; entre 5 et 20 effectifs : entre 20 et 50 effectifs : entre 50 et 150 effectifs : plus de 150 effectifs ; chiffre d affaires par effectif (par année) (ca.pers) : moins de 60 000 CHF/personne par année ; entre 60 000 et 160 000 CHF/personne par année ; entre 160 000 et 450 000 CHF/personne par année ; entre 450 000 et 1 200 000 CHF/personne par année ; plus de 1,2 millions CHF/personne par année. En ce qui concerne les variables en pourcentage, les histogrammes montrent aussi une forte distribution asymétrique. Des transformations en variables catégorielles sera appliquée à ces variables en pourcentage, de la façon suivante : % de personnel avec des fonctions de recherche et développement dans l entreprise (rd) : entre 0 et 1% ; entre 1 et 20% ; entre 20 et 50% ; entre 50 et 100%. % de personnel avec une formation académique dans l entreprise (aca) : même découpage que rd ; % de chiffre d affaires réalisé à l étranger (expo) : même découpage que rd ; % de chiffre d affaires réalisé grâce à des produits/services complètement nouveaux (ca.inno) : même découpage que rd. 4

Les tranches de pourcentage crées seront interprétées de la façon suivante : entre 0 et 1% : niveau zéro ; entre 1 et 20% : niveau faible ; entre 20 et 50% : niveau moyen ; entre 50 et 100% : niveau haut. Les s absolues de ces variables découpées en classes sont présentées dans la figure 3. Fig. 3 Fréquences absolues des variables continues et en pourcentage découpées en classes taille ca.pers rd.factor 0 10 20 30 40 50 60 0 10 20 30 40 50 0 20 40 60 80 100 moins5 5 20 20 50 50 150 150plus 0 60 60 160 160 450 1,2mio plus zéro faible moyen haut aca.factor expo.factor ca.inno.factor 0 20 40 60 80 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 zéro faible moyen haut zéro faible moyen haut zéro faible moyen haut Ces variables, ainsi catégorisées, seront utilisées dans les prochaines sections où seront appliquées les méthodes d analyse multivariée. 4 Analyse discriminante sur l innovation Le but de l analyse discriminante est celui de classer (affecter à des classes préexistantes) des individus (dans notre cas des entreprises) caractérisés par un certain nombre de variables numériques ou nominales. L analyse factorielle discriminante consiste à rechercher les combinaisons linéaires de p variables explicatives (x 1,x 2,...,x p ), généralement continues, qui permettent de séparer au mieux les q classes (dans notre cas les deux classes : entreprises qui innovent et qui n innovent pas). La pluspart des variables explicatives étant catégorielles, une analyse discriminante classique ne semble pas être la plus appropriée. C est pour cela que les variables continues ont été catégorisées pour pouvoir appliquer la méthode DISQUAL. 5

4.1 Description de la méthode Le tableau de données étant à ce point formé de variables nominales, on procède au codage disjonctif complet des p variables explicatives. Le codage disjonctif complet consiste à créer, pour chaque variable, autant de colonnes que la variable a de modalités. Les colonnes représentent les indicatrices de chaque modalité de chaque variable. Dans notre cas, nous avons 13 variables explicatives, dont 2 à cinq modalités, 4 à quatre modalités et 7 variables binaires à deux modalités, ce qui fait une matrice de dimension (130,40) : 130 entreprises (lignes) et 40 modalités possibles (colonnes). Les sommes en ligne de cette matrice (que nous appelons X) sont toujours égales au nombre de variables explicatives, soit 13 dans notre cas. La matrice X n est pas inversible puisqu il existe p relations linéaires entre les colonnes du tableau disjonctif complet. Une possibilité dans ce cas est de réaliser une analyse discriminante classique sur les facteurs de l analyse des correspondances multiples. Cette méthode est connue sous le nom de méthode DISQUAL ou de régularisation par axes principaux. La procédure consiste donc à effectuer une analyse des correspondances sur le tableau disjonctif complet (matrice X) où les p variables catégorielles sont remplacées par k variables continues correspondant aux facteurs de l analyse des correspondances multiples. Ensuite, à partir des k variables continues, qui représentent les coordonnées sur les axes factoriels de l analyse des correspondances multiples, effectuer une analyse factorielle discriminante. Des k variables numériques ainsi crées, on retiendra les coordonnées factorielles les plus discriminantes. 4.2 Premiers résultats L analyse des correspondances multiples a fait ressortir 27 facteurs indépendants dont l importance se répartit selon le graphe ci-dessous (figure 4) en valeur propre de la variance. Les valeurs propres ainsi que la part de variance que Fig. 4 Valeurs propres résultants de l analyse des correspondances multiples Valeurs propres 0.00 0.05 0.10 0.15 0.20 0.25 les facteurs expliquent sont présentées dans la table 1. Dans la figure 5 sont 6

représentées les coordonnées des 40 modalitées possibles sur les deux premiers axes de l analyse des correspondances multiples. Tab. 1 Valeurs propres de l analyse des correspondances multiples Valeurs propres Part de variance expliquée Part cumulée 1 0.29 0.14 0.14 2 0.19 0.09 0.23 3 0.15 0.07 0.30 4 0.13 0.06 0.36 5 0.12 0.06 0.42 6 0.12 0.06 0.48 7 0.10 0.05 0.53 8 0.10 0.05 0.57 9 0.08 0.04 0.61 10 0.08 0.04 0.65 11 0.08 0.04 0.69 12 0.07 0.03 0.72 13 0.07 0.03 0.75 14 0.06 0.03 0.78 15 0.06 0.03 0.81 16 0.05 0.03 0.84 17 0.05 0.02 0.86 18 0.04 0.02 0.88 19 0.04 0.02 0.90 20 0.04 0.02 0.92 21 0.03 0.02 0.93 22 0.03 0.01 0.95 23 0.03 0.01 0.96 24 0.03 0.01 0.97 25 0.02 0.01 0.99 26 0.02 0.01 0.99 27 0.01 0.01 1.00 Même si les deux premiers axes n expliquent qu environ 23% de la variance totale, on peut chercher d interpréter le sens des facteurs. Pour le premier facteur (abscisse de la figure 5) il ne semble pas y avoir un grand pouvoir discriminant (les points sont assez proches de l origine). On peut remarquer quand-même, en bas à droite, la modalité des entreprises ayant plus de 150 effectifs, opposée aux modalités des entreprises de taille inférieure qui se trouvent plus à gauche. Le premier axe semblerait caractériser la taille des entreprises (mais la distinction n est pas évidente). Par contre, le deuxième axe (ordonnée de la figure 5) parait plus discriminant : on remarque en haut les modalités rd.haut et aca.haut s opposant assez nettement des modalités plus basses de ces variables. On peut interpréter ce facteur comme indicateur de la qualité du personnel des entreprises. Pour la recherche d une fonction discriminante, on choisit de retenir les 11 pre- 7

Fig. 5 Coordonnées des modalitées sur les 2 premiers axes de l analyse des correspondances multiples Axes 1 et 2: 23% de var.expliquée 0.02 0.00 0.02 0.04 0.06 rd.haut aca.haut ca.inno.haut rd.moyen ca.pers.0 60 ca.pers.450 1,2mio expo.haut taille.moins5 aca.moyen gest.int.1 internet.0 brev.1 form.0 cert.qual.0 ca.inno.moyen site.0 aca.zéro ca.pers.160 450 ca.inno.faible intranet.1 intranet.0 taille.5 20 rd.zéro brev.0 internet.1 gest.int.0 expo.zéro expo.faible site.1 ca.inno.zéro form.1 ca.pers.60 160 taille.20 50 rd.faible expo.moyen cert.qual.1 aca.faible ca.pers.1,2mio plus taille.50 150 taille.150plus 0.06 0.04 0.02 0.00 0.02 0.04 0.06 miers axes (facteurs), qui ensemble expliquent environ le 69% de la variance (soit on laisse tomber les facteurs qui expliquent moins de 4% de la variance). On applique donc une analyse discriminante linéaire sur les 11 premiers facteurs résultants de l analyse des correspondances multiples, le but étant de trouver une fonction (combinaison linéaire des facteurs, qui sont des variables continues) qui discrimine au mieux les deux groupes d entreprises, soit celles qui innovent de celles qui n innovent pas. L équation ci-dessous illustre le résultat de l analyse discriminante : Z = 295.175668 F1 + 270.697203 F2 110.622294 F3 + 35.995833 F4 + + 312.570181 F5 108.759275 F6 105.136217 F7 + 8.405082 F8 13.760823 F9 + 25.428183 F10 65.180816 F11 (1) L équation (1) définit un score Z qui discrimine la variable de la façon suivante : { 0 l entreprise innove si Z < 0 l entreprise n innove pas 4.3 Evaluation de la méthode À partir de la fonction discriminante illustrée dans l équation (1), on peut calculer les scores Z pour chacune des entreprises et voir comment cette fonction les classe dans les deux groupes. Les résultats sont résumés dans la matrice de confusion ci-dessous. La lecture de cette matrice de confusion est la suivante : 0 1 total 0 59 6 65 1 7 58 65 8

sur la première ligne, on voit que, parmi les 65 entreprises faisant partie du groupe non-innovateur, 59 sont classées correctement (soit 90,8%) et 6 sont classées dans le mauvais groupe; sur la deuxième ligne, on voit que, parmi les 65 entreprises innovatrices, 58 ont été bien classées (soit 89,2%) et 7 ont été classées dans le mauvais groupe. Cette matrice, ayant été calculée à partir des mêmes données sur lesquelles l estimation de la fonction discriminante a été faite, n est pas une bonne mesure de la qualité du modèle. En général, cette matrice sur-estime la qualité du modèle. Pour cette raison, dans la prochaine section seront utilisés des méthodes non-paramétriques de réechantillonage, afin d avoir une mesure de la qualité du modèle. 4.3.1 Validation croisée (Jackknife) La validation croisée consiste à effectuer une analyse discriminante en enlevant une observation (une entreprise) pour ensuite utiliser l estimation pour classer l entreprise qui a été omise dans l estimation de la fonction discriminante. Cette procédure va être faite 130 fois (chaque fois on élimine une entreprise) et de cette façon on aura une matrice de confusion contenant les prévisions faites indépendamment de chaque entreprise. À partir des facteurs obtenus avec l analyse des correspondances multiples, qui constituent les nouvelles variables continues, on enlève à chaque tour une entreprise, on estime la fonction discriminante et avec cette fonction on classe l entreprise qui a été omise. Le résultat de la procédure est résumé dans la matrice de confusion ci-dessous. Sur les 65 entreprises non-innovatrices (première 0 1 total 0 57 8 65 1 10 55 65 ligne), 57 sont bien classées (87,7%), ce qui montre une bonne performance du modèle. Pour les entreprises innovatrices (deuxième ligne), 55 entreprises sur 65 sont classées correctement (84,6%). Globalement, avec la validation croisée, 57 + 55 on obtient un pourcentage d entreprises bien classées de = 86,15%. 130 5 Régression logistique Dans cette section sera effectuée une régression logistique sur la variable dépendante inno, dans l optique d arriver à discriminer les entreprises innovatrices de celles non-innovatrices. 5.1 Description de la méthode et modélisation La régression logistique convient pour la modélisation d une variable dichotomique Y = 0/1. L objectif est de modeliser l espérance conditionnelle de Y sachant les valeurs de certaines variables explicatives X 1,...,X p : π(x) = Prob(Y = 1 X = x) 9

Le modèle linéaire classique du type : π(x) = β 0 + β 1 x 1 +... + β p x p convient mal et le modèle logistique est plus naturel. La régression logistique modélise l espérance conditionnelle de la variable dichotomique de la façon suivante : eβ0+β1 x1+...+βp xp π(x) = 1 + e β0+β1 x1+...+βp xp ou, de façon équivalente : ( ) π(x) log = β 0 + β 1 x 1 +... + β p x p 1 π(x) Le rapport π(x) Prob(Y = 1 X = x) Prob(Y = 1 X = x) = = 1 π(x) 1 Prob(Y = 1 X = x) Prob(Y = 0 X = x) est appelé odds-ratio. Le logarithme naturel de ce rapport est appelé log-odds ou simplement logit. 5.2 Premiers résultats et sélection des variables Dans notre cas, on va dans un premier temps faire une estimation logit avec toutes les variables explicatives, en prenant les transformations en logarithme naturel pour les deux variables continues taille et ca.pers (taille et chiffre d affaires par personne par année) présentées dans la section 3 à la page 3. Les variables en pourcentage seront laissées telles qu elles étaient dans les données originales. À partir de l estimation avec toutes les variables explicatives, une procédure de backward-selection basée sur le critère d Akaike sera effectuée 1. Le critère d Akaike (AIC) est défini comme : AIC = 2 log(vraisemblance) + 2 # de paramètres et sert à comparer la qualitè de modèles avec différents paramètres, le but étant de minimiser le critère 2. Dans un deuxième temps, une deuxième estimation sera faite, mais avec les mêmes variables utilisées pour l analyse discriminante, c està-dire avec les variables continues et celles en pourcentage découpées en classes. Après cette estimation, une procédure de backward-selection sera aussi appliquée. Les résultats de la première estimation sont résumés dans la table 2. On peut remarquer comme seulement les variables taille, ca.inno et site ont des coefficients significativement différents de zéro (p-value< 0,05). Avec une procédure de backward-selection, à partir de cette estimation pleine (avec toutes les variables explicatives), on aboutit à l estimation présentée 1 La procédure commence en faisant une estimation avec toutes les variables explicatives. Ensuite, la variable qui contribue davantage à la réduction de l AIC est enlevée. La procédure s arrête lorsqu en enlevant une variable, le critère d Akaike ne diminue plus. 2 Plus le critère d Akaike est bas et mieux c est. En effet, le critère AIC contient le logarithme naturel de la vraisemblance précédé d un signe moins et une penalité qui tient compte du nombre de paramètres. 10

Tab. 2 Régression logistique avec toutes les variables explicatives Estimate Std. Error z value p-value (Intercept) 5.1922 4.8737 1.07 0.2867 log(taille) 1.3977 0.3979 3.51 0.0004 log(ca.pers) 0.4674 0.4040 1.16 0.2473 rd 0.3574 0.3464 1.03 0.3022 aca 0.0231 0.0258 0.90 0.3706 expo 0.0162 0.0109 1.48 0.1376 ca.inno 0.0671 0.0282 2.38 0.0172 form 0.7276 0.6636 1.10 0.2728 brev 16.0336 1553.9171 0.01 0.9918 cert.qual 0.7842 0.7965 0.98 0.3249 gest.int 1.0520 1.0796 0.97 0.3299 intranet 0.2653 0.6904 0.38 0.7008 internet 0.4016 1.1882 0.34 0.7354 site 1.8533 0.6883 2.69 0.0071 AIC= 112.03 Tab. 3 Résultats de la backward-selection Estimate Std. Error z value p-value (Intercept) 0.2114 0.7315 0.29 0.7726 log(taille) 1.3909 0.3554 3.91 0.0001 rd 0.3576 0.3485 1.03 0.3048 expo 0.0198 0.0101 1.97 0.0486 ca.inno 0.0856 0.0320 2.67 0.0076 form 1.1015 0.6013 1.83 0.0670 brev 16.5833 1534.6561 0.01 0.9914 site 1.8886 0.6159 3.07 0.0022 AIC= 105.41 dans la table 3. La procédure a retenu 7 variables, dont 5 sont significatives (une l est seulement au seuil de 10%). Les signes des coefficients sonts tous positifs sauf celui concernant le logarithme de la taille, qui est négafif. L interprétation de ce coefficient serait que plus la taille d une entreprise est grande et moins l entreprise aurait une probabilité d innover. Les résultats de la deuxième estimation, avec les variables continues et en pourcentage catégorisées, sont présentées dans la table 4. Il faut remarquer qu avec toutes les variables exprimées en catégories, le nombre de coefficients à estimer devient plus grand. En effet, par exemple pour la variable taille, qui avait été découpée en 5 classes, 4 coefficients sont estimés. La modalité pour laquelle un coefficient n est pas estimé (effectifs entre 1 et 5 dans le cas de la variable taille) est la catégorie de référence pour cette variable. Les coefficients estimés sont donc à lire en référence de la modalité qui a été omise. En effectuant une 11

Tab. 4 Régression logistique avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) 7.3088 2.7368 2.67 0.0076 taille5-20 5.4650 1.7472 3.13 0.0018 taille20-50 4.8766 1.8719 2.61 0.0092 taille50-150 3.5829 2.7921 1.28 0.1994 taille150plus 15.0498 5547.1975 0.00 0.9978 ca.pers60-160 3.7534 2.2699 1.65 0.0982 ca.pers160-450 2.3206 2.1744 1.07 0.2859 ca.pers450-1,2mio 9.0417 3.2173 2.81 0.0049 ca.pers1,2mio-plus 4.3633 4.1265 1.06 0.2903 rdfaible 1.2377 1.8479 0.67 0.5030 rdmoyen 12.2465 3394.0996 0.00 0.9971 rdhaut 1.1922 11870.8669 0.00 0.9999 acafaible 3.0330 1.5629 1.94 0.0523 acamoyen 2.6073 2.0656 1.26 0.2068 acahaut 16.2882 5026.7959 0.00 0.9974 expofaible 1.0452 1.1500 0.91 0.3634 expomoyen 2.3267 2.4212 0.96 0.3366 expohaut 1.1456 1.6223 0.71 0.4801 ca.innofaible 4.1777 1.2093 3.45 0.0006 ca.innomoyen 5.3959 2.7218 1.98 0.0474 ca.innohaut 6.1986 2.3788 2.61 0.0092 form1 2.0108 1.2096 1.66 0.0964 brev1 20.4540 2533.6477 0.01 0.9936 cert.qual1 0.1570 1.3532 0.12 0.9076 gest.int1 0.0949 1.7582 0.05 0.9570 intranet1 1.0250 1.3508 0.76 0.4480 internet1 2.5961 2.0755 1.25 0.2110 site1 3.6238 1.3982 2.59 0.0095 AIC= 101.75 procédure de backward-selection on obtient les résultats résumés dans la table 5. Les variables retenues sont taille, ca.pers, aca, ca.inno, form, brev et site. Il est intéressant de remarquer : pour la variable taille : il semble que jusqu à une taille de 150 effectifs, la taille a un effet négatif sur la probabilité d innover (les 3 coefficients sont tous significatifs au moins à un seuil de 10%). Pour les entreprises ayant plus de 150 effectifs (grandes entreprises) la taille semble avoir un impact positif sur la probabilité d innover (mais attention : le coefficient n est pas significatif) ; pour la variable ca.pers : toutes les modalités de chiffre d affaire par effectif supérieures à 60 000 francs suisses par année ont un effet positif sur la probabilité d innover, par rapport à la catégorie de référence. La modalité entre 160 000 et 450 000 francs suisses par année par effectif n est que 12

Tab. 5 Résultat de la backward-selection avec toutes les variables catégorielles Estimate Std. Error z value p-value (Intercept) 5.5673 2.0109 2.77 0.0056 taille5-20 4.8226 1.6302 2.96 0.0031 taille20-50 4.4074 1.7664 2.50 0.0126 taille50-150 3.6457 2.1119 1.73 0.0843 taille150plus 12.4412 5366.4955 0.00 0.9982 ca.pers60-160 4.1961 2.1014 2.00 0.0458 ca.pers160-450 2.9411 1.8556 1.59 0.1130 ca.pers450-1,2mio 9.0308 3.1625 2.86 0.0043 ca.pers1,2mio-plus 3.6937 3.6042 1.02 0.3054 acafaible 1.9901 1.1470 1.74 0.0827 acamoyen 2.9802 1.7204 1.73 0.0832 acahaut 16.7609 4520.7652 0.00 0.9970 ca.innofaible 3.9372 0.9529 4.13 0.0000 ca.innomoyen 5.6785 2.5430 2.23 0.0255 ca.innohaut 6.7434 2.3031 2.93 0.0034 form1 1.4555 0.9209 1.58 0.1140 brev1 18.8882 2810.1460 0.01 0.9946 site1 3.4679 1.2627 2.75 0.0060 AIC= 85.486 faiblement significative (p-value= 0, 113) et celle de plus de 1 million de francs suisses est encore plus faiblement significative (p-value= 0,3054) ; pour la variable aca : un pourcentage faible d effectifs avec une formation académique (entre 1 et 20%) a un effet négatif sur la probabilité d innover, par rapport à un pourcentage nul. Par contre, des pourcentages moyens ou hauts de personnel avec une formation académique semblent avoir un effet positif sur la probabilité d innover. Il faut dire quand-même que le coefficient de la modalité haute n est pas significatif ; pour la variable ca.inno : plus une entreprise vend grâce à des produits et/ou services nouveaux et plus la probabilité d innover devient grande par rapport à celle de n innover pas. Les coefficients sont tous significatifs au moins à un seuil de 5% ; pour les variables form et site : le fait de posséder des programmes de formation interne pour le personnel et le fait d avoir un site internet semblent avoir un effet positif sur la probabilité d innover (même s il faut remarquer la pas très grande significativité pour le fait d avoir des programmes de formation interne) ; pour la variable brev : le coefficient n est pas significatif, mais le signe dirait que le fait d avoir déposé un ou plusieurs brevets ait un effet positif sur la probabilité d innover. En utilisant toutes les variables découpées en catégories, on perd en degrés de liberté mais on a l avantage de faire ressortir des relations non-linéaires qu avec les variables continues ne pouvaient pas être détectées. 13

5.3 Evaluation de la méthode Dans cette partie seront utilisées les deux estimations obtenues avec les procédures de backward-selection à la section précédente. Les matrices de confusion pour les deux modèles, basées sur les données d apprentissage, sont données ci-dessous (à gauche pour le modèle avec les variables continues et à droite pour celui avec les variables continues catégorisées ). Le modèle avec les 0 1 total 0 1 total 0 56 9 65 61 4 65 1 12 53 65 5 60 65 variables continues et en pourcentage découpées en classes semble classer mieux les entreprises dans les deux groupes. Comme dans le cas de l analyse discriminante, les matrices de confusion basées sur les données d apprentissage (celles utilisées pour les estimations des modèles) ne sont pas de bons indicateurs de la qualité des modèles. Dans la prochaine section, des méthodes non-paramétriques de réechantillonage seront effectuées. 5.3.1 Validation croisée (Jackknife) La procédure est analogue à celle effectuée à la section 4.3.1 à la page 9 pour l analyse discriminante. La procédure, dans le cas en question, est : 1. effectuer une estimation du modèle de régression logistique en enlevant une entreprise ; 2. en utilisant les paramètres estimés, classer l entreprise qui a été omise ; 3. répéter la procédure pour chaque entreprise; 4. vérifier la qualité de la prévision en comparant les résultats avec les données originales de la variable inno. La procédure va être appliquée aux deux modèles de régression logistique réduits (les deux obtenus avec les procédures de backward-selection ). Les deux matrices de confusion résultantes sont présentées ci-dessous. En ce qui 0 1 total 0 1 total 0 56 9 65 55 10 65 1 12 53 65 7 58 65 concerne les entreprises non-innovatrices, les deux modèles classent correctement 56 et 55 entreprises sur 65 respectivement (soit 86,1% et 84,6%). Pour les entreprises innovatrices, les deux modèles prévoient correctement 53 respectivement 58 entreprises sur 65 (soit 81,5% et 89,2%). Le pourcentage de bien-classées globalement est de = 86,9% respectivement. 56 + 53 130 = 83,8% et de 55 + 58 130 Les résultats sont du même ordre de grandeur que ceux obtenus avec l analyse discriminante. Globalement, les résultats obtenus avec les deux régression logistiques avec la validation croisée, sont semblables à ceux obtenus avec l analyse discriminante (83,8% et 86,9% contre 86,15% avec l analyse discriminante). 14

6 Comparaison des scores obtenus avec les deux méthodes Dans cette section seront comparés graphiquement et en termes de corrélation les scores pour les entreprises obtenus avec l analyse discriminante et avec la régression logistique. Fig. 6 Représentation graphique des scores score.logit2 10 0 10 20 30 40 10 0 10 20 30 40 score.logit1 3 2 1 0 1 2 3 4 LD1 Dans la figure 6 sont représentés les scores pour les 130 entreprises obtenus avec les différentes méthodes. On voit qu il forment un nuage assez linéaire, ce qui est témoigné aussi par la matrice des corrélations présentée ci-dessous. LD1 score.logit1 score.logit2 LD1 1 0.56 0.73 score.logit1 1 0.77 score.logit2 1 Les coefficients de corrélation linéaires empiriques des scores obtenus avec les trois modèles sont assez hauts, sauf pour celui entre le LD1 et le score.logit1 (qui sont ceux obtenus avec l analyse discriminante et avec le premier modèle de régression logistique réduit avec les variables continues). La comparaison a été faite à des fins uniquement illustratifs, car les trois modèles n ont pas utilisé exactement les mêmes variables (catégorielles vs. continues, facteurs de l analyse des correspondances multiples, etc... ). Une autre représentation intéressante, qui illustre la bonne qualité des performances des trois modèles, sont les courbes ROC pour les validations croisées qui ont été faites. Ces courbes représentent la proportion de vrais positifs en fonction de la proportion de faux positifs lorsque le seuil varie. Plus la courbe s éloigne de la ligne diagonale et mieux c est. En d autres termes, plus la surface (estimée) sous la courbe (AUC : area under the curve ) est proche de 1 et 15

Fig. 7 Courbes ROC pour les validations croisées des 3 modèles logit1 logit2 Prop. de vrais positifs 0.0 0.2 0.4 0.6 0.8 1.0 Prop. de vrais positifs 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Prop. de faux positifs AUC = 0.905 0.0 0.2 0.4 0.6 0.8 1.0 Prop. de faux positifs AUC = 0.899 discriminante Prop. de vrais positifs 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Prop. de faux positifs AUC = 0.941 mieux c est (=bonne qualité du score); plus la surface est proche de 1/2 (aire minimale) et pire sera la qualité du score. On voit dans la figure 7 comme les trois courbes ROC ont visuellement une bonne allure, témoignée par les aires sous les courbes respectivement de 0,905, 0,899 et 0,941. 7 Conclusions Dans ce travail des données concernant 130 entreprises tessinoises ont été analysées. Le but étant de classifier les entreprises dans des groupes prédefinis comme innovatrices et non-innovatrices, deux approches ont été appliquées. Dans un premier temps, une analyse discriminante DISQUAL a été effectuée : cette méthode utilise les facteurs résultant de l analyse des correspondances multiples (variables continues) pour calculer une fonction discriminante. Dans un deuxième temps, deux modèles de régression logistique ont été estimés : un contenant les variables originales (sauf une transformation en logarithme naturel des deux variables continues) et un avec toutes les variables transformées en catégorielles. La performance des trois modèles a été évaluée avec une validation croisée, qui consiste à faire tant d estimations qu on a d observations, en omettant à chaque fois une observation pour après la classifier avec l estimation faite sans celle-ci. Les performances sont globalement assez bonnes et, même avec des approches différentes, les scores obtenus sont assez corrélés. 16

A Annexe : code R utilisé Dans cet annexe on peut trouver le code R utilisé pour les analyses effectuées dans ce travail, avec quelques commentaires. Les lignes de code précédées d un signe # sont des commentaires, et ne sont pas executées en tant que commandes par R. Certaines commandes ont été divisées sur plusieurs lignes, pour des motifs de layout de page exclusivement. #IMPORTATION DES DONNEES A PARTIR DU FICHIER TEXTE dati<-read.table(file="./dati.txt", sep="\t", header=true) dati<-dati[,-15] #CHARGEMENT DES LIBRAIRIES UTILISEES POUR LES ANALYSES library(mass) library(boot) library(xtable) library(ade4) library(scatterplot3d) #DISCRETISATION/CATEGORISATION DES VARIABLES CONTINUES attach(dati) taille.factor<-factor(cut(taille, breaks=c(0,5,20,50, 150, 450), labels=c("moins5", "5-20", "20-50", "50-150", "150plus"))) ca.pers.factor<-factor(cut(ca.pers, breaks=c(0,60000,160000, 450000, 1200000, 5000000), labels=c("0-60 ", "60-160 ", "160-450 ", "450-1,2mio", "1,2mio-plus"))) detach(dati) #DISCRETISATION/CATEGORISATION DES VARIABLES EN POURCENTAGE dati.perc<-dati[, 4:7] rd.factor<-factor(cut(dati.perc$rd, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) aca.factor<- factor(cut(dati.perc$aca, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) expo.factor<- factor(cut(dati.perc$expo, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) ca.inno.factor<- factor(cut(dati.perc$ca.inno, breaks=c(0, 1, 20, 50, 100), labels=c("zro","faible","moyen","haut"))) dati.perc.factor<-data.frame(rd.factor, aca.factor, expo.factor, ca.inno.factor) rm(rd.factor, aca.factor, expo.factor, ca.inno.factor) #GRAPHIQUES DES VARIABLES CATEGORIELLES CREES 17

par(mfrow=c(2,3)) barplot(table(taille.factor), main="taille.factor") barplot(table(ca.pers.factor), main="ca.pers.factor") for(i in 1:4){ barplot(table(dati.perc.factor[, i]), main=names(dati.perc. factor)[i]) } #HISTOGRAMMES ET GRAPHIQUES EN BARRES DE TOUTES LES VARIABLES # ORIGINALES par(mfrow=c(3,5)) nomi=names(dati) for(i in 1:ncol(dati)){ if(class(dati[,i])=="numeric") hist(dati[,i], main=nomi[i], col="gray", xlab="", ylab="frquence") else barplot(table (dati[,i]), main=nomi[i], ylab="frquence") } #HISTOGRAMMES DES DEUX VARIABLES CONTINUES TRANSFORMEES EN #LOGARITHME NATUREL par(mfrow=c(1,2)) attach(dati) hist(log(taille), col="gray", ylab="frquence") hist(log(ca.pers), col="gray", ylab="frquence") detach(dati) #CREATION DU DATA.FRAME dati.factor, QUI CONTIENT TOUTES #LES VARIABLES CATEGORIZEES SOUS FORME DE factor dati.bin.factor<-data.frame(as.factor(dati$inno), as.factor (dati$form), as.factor(dati$brev), as.factor(dati$cert.qual), as.factor(dati$gest.int), as.factor(dati$intranet), as.factor (dati$internet), as.factor(dati$site)) names(dati.bin.factor)<-names(dati)[c(1,8:14)] dati.factor<-data.frame(as.factor(dati$inno), taille.factor, ca.pers.factor, dati.perc.factor, dati.bin.factor[, -1]) names(dati.factor)<-names(dati) #CREATION DU TABLEAU DISJONCTIF COMPLET DES VARIABLES EXPLICATIVES library(ade4) disj.complet<-acm.disjonctif(dati.factor[, -1]) #ANALYSE DES CORRESPONDANCES MULTIPLES (AVEC LES VARIABLES #CATEGORIELLES ET LES VARIABLES CONTINUES CATEGORIZEES #avec la librairie ade4 dati.acm<-dudi.acm(dati.factor[, -1], scannf = FALSE, nf=2) #avec la librairie MASS dati.mca<-mca(dati.factor[, -1], abbrev=false, nf=27) #DIAGRAMME EN BARRES DES VALEURS PROPRES dati.eigen<-dati.mca$d^2 18

barplot(dati.eigen, main="valeurs propres") #INERTIE CUMULATIVE DES VALEURS PROPRES (AXES FACTORIELS) #POURCENTAGE DE VARIANCE QU EXPLIQUENT LES FACTEURS DE #L ANALYSE DES CORRESPONDANCES MULTIPLES dati.mca.expl<-data.frame(dati.eigen, dati.eigen/sum(dati.eigen), cumsum(dati.eigen)/sum(dati.eigen)) names(dati.mca.expl)<-c("valeurs propres","% de variance EXPLIQUEE", "% CUMULE") #GRAPHIQUE DES MODALITES DES VARIABLES SUR LES DEUX PREMIERS AXES #DE L ANALYSE DES CORRESPONDANCES MULTIPLES plot(dati.mca, rows=f, cex=0.9, cex.axis=1.3, cex.lab=1.3, main= "Axes 1 et 2: 23% de var.expliquee"); abline(v=0,h=0) #DISQUAL: ANALYSE DISCRIMINANTE AVEC LES FACTEURS OBTENUS AVEC #L ANALYSE DES CORRESPONDANCES MULTIPLES disqual<-data.frame(dati$inno, dati.mca$rs) names(disqual)[1]<-"inno" disqual.lda2<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data=disqual) disqual.pred<-predict(disqual.lda2) confusionmat<-table(disqual$inno, disqual.pred$class) confusionmat #GRAPHIQUE DES DENSITES KERNEL ESTIMEES #CE GRAPHIQUE N EST PAS PRESENT DANS LE DOCUMENT plot(disqual.lda2, type = "density", dimen = 1) #VALIDATION CROISEE prev<-numeric(nrow(dati.factor)) score.crossed<-numeric(nrow(dati.factor)) n<-length(prev) for(i in 1:n){ lda.crossed<-lda(inno ~ X1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11, data= disqual[-i,]) score.crossed[i]<-t(as.matrix(dati.mca$rs[i, 1:11])) %*% as.matrix(lda.crossed$scaling) if(score.crossed[i]>=0) prev[i]<-1 } confusionmat2<-table(dati$inno, prev) confusionmat2 #REGRESSION LOGISTIQUE (1). AVEC VARIABLES ORIGINALES dati.logit<-glm(inno ~ log(taille) + log(ca.pers) + rd + aca + expo + ca.inno + form + brev + cert.qual + gest.int +intranet + internet + site, family=binomial(link="logit"), data=dati) summary(dati.logit) #BACKWARD SELECTION (1). 19

dati.logit.step<-stepaic(dati.logit, direction="backward") summary(dati.logit.step) #REGRESSION LOGISTIQUE (2). AVEC VARIABLES CATEGORIZEES dati.factor.logit<- glm(inno ~., family=binomial(link="logit"), data=dati.factor) summary(dati.factor.logit) #BACKWARD SELECTION (2). dati.factor.step<-stepaic(dati.factor.logit, direction="backward") summary(dati.factor.step) #SCORE LOGIT mat.logit<-as.matrix(cbind(1, dati[, c(2,4,6,7,8,9,14)])) mat.logit[,2]<-log(mat.logit[,2]) linear.pred<-mat.logit %*% as.matrix(dati.logit.step$coefficients) linear.pred[linear.pred>=0]<-1 linear.pred[linear.pred<0]<-0 linear.pred confusionmat3<-table(dati$inno, linear.pred) confusionmat3 linear.pred2<-predict(dati.factor.step) linear.pred2[linear.pred2>=0]<-1 linear.pred2[linear.pred2<0]<-0 confusionmat4<-table(dati$inno, linear.pred2) confusionmat4 #VALIDAITON CROISEE DES DEUX MODELES LOGIT REDUITS n<-nrow(dati) score.logit1<-numeric(n); prev.logit1<-numeric(n); dati.logit1<-dati[, c(2,4,6,7,8,9,14)] dati.logit1<-cbind(1,dati.logit1) dati.logit1[,2]<-log(dati.logit1[,2]) for(i in 1:n){ est<-glm(inno ~ log(taille) + rd + expo + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati[-i,]) score.logit1[i]<- as.matrix(dati.logit1[i, ]) %*% as.matrix(est$coefficients) if(score.logit1[i]>=0) prev.logit1[i]<-1 } confusionmat5<-table(dati$inno, prev.logit1) confusionmat5 dati.logit2<-model.matrix(dati.factor.step) score.logit2<-numeric(n); prev.logit2<-numeric(n); for(i in 1:n){ est2<-glm(inno ~ taille + ca.pers + aca + ca.inno + form + brev + site, family=binomial(link="logit"), data=dati.factor[-i,]) score.logit2[i]<- t(as.matrix(dati.logit2[i, ])) %*% as.matrix(est2$coefficients) if(score.logit2[i]>=0) prev.logit2[i]<-1 } 20