Choix de modèle en régression linéaire

Transcription

1 Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un modèle particulier pour la prédiction d une variable binaire. Avant d aborder ce point, les grands principes et les questions fondamentales des problèmes de choix de modèles sont abordés dans le cadre plus pédagogique du modèle gaussien ou de régression classique. Aussi, en vue d un objectif prédictif, ce TP compare les techniques visant à la recherche de modèles de régression linéaire multiple parcimonieux ainsi que celles des techniques de régression biaisée (ridge) ou encore de régression sur des facteurs (régression sur compposantes principales, pls) pour des données présentant un problème de multicolinéarité. 1 Régression linéaire simple Cette première section très élémentaire est optionnelle. Elle sera sautée en première approche et reprise plus tard si nécessaire. 1.1 Les données Pour 47 immeubles d appartements locatifs d une grande ville américaine, les données (Jobson, 1991) fournissent le revenu net en fonction du nombre d appartements. Liste des variables : Revenu : net operating income Nbappart : number of suites 1.2 Étapes préalables Lire les données >suit=read.table( /users/magist/besse/d ata/tp/suitincom.dat ) >names(suit)=c("revenu","nbappt") Afficher le contenu >suit Étude des distributions >hist(suit$revenu) >hist(suit$nbappt) >boxplot(suit$revenu) >boxplot(suit$nbappt) Même chose avec les variables transformées >hist(log(suit$revenu)) >hist(log(suit$nbappt)) >hist(sqrt(suit$revenu)) >hist(sqrt(suit$nbappt)) Estimations non paramétriques de la densité avec noyau gaussien >plot(density(log(suit$revenu))) >plot(density(log(suit$nbappt))) Quelles transformations vous semblent les plus raisonnables? 1.3 Première modélisation Ajuster (fit) le modèle revenu=β 0 + β 1 nbappt. >reg=lm(revenu nbappt,data=suit) >summary(reg) >anova(reg) Nuage des points >plot(suit$nbappt,suit$revenu) Ajouter la droite de régression >abline(reg) Graphique des résidus studentisés >plot(reg$fitted.values,rstudent(reg))

2 Master pro Fouille de données Philippe Besse 2 Détection de points influents par la distance de Cook >plot(reg$fitted.values, cooks.distance(reg)) Que penser de cette modélisation (R 2, résidus, points influents...)? 1.4 Deuxième modélisation Ajuster (fit) le modèle log(revenu)=β 0 + β 1 log(nbappt) >lsuit=data.frame(log(suit$nbappt),log(suit$revenu)) >names(lsuit)=c("lrevenu","lnbappt") >plot(lsuit$lnbappt,lsuit$lrevenu) >lreg=lm(lrevenu Lnbappt,data=lsuit) >summary(lreg) >anova(lreg) Graphe du nuage de points >plot(lsuit$lnbappt,lsuit$lrevenu) Ajouter la droite de régression >abline(lreg) Graphique des résidus studentisés >plot(lreg$fitted.values,rstudent(lreg)) Détection de points influents par la distance de Cook >plot(lreg$fitted.values, cooks.distance(lreg)) Que penser de cette modélisation (R 2, résidus, points influents...)? Laquelle préférer? 1.5 Régression non paramétrique Refaire le graphique de régression simple >plot(lsuit$lnbappt,lsuit$lrevenu) >abline(lreg) Lissage spline avec paramètre optimal >lsuit.spl=smooth.spline(lsuitlnbappt, lsuitlrevenu) Tracé de la courbe de régression non paramétrique >lines(lsuit.spl, col = "blue") Autre courbe présentatn plus de flexibilité >lines(smooth.spline(lsuit$lnbappt,lsuit$lrevenu, df=10), +lty=2, col = "red") 2 Sélection de variables en régression multiple 2.1 Les données Les données (Jobson, 1991) décrivent les résultats comptables de 80 entreprises du Royaume Uni. RETCAP est la variable à prédire. Les entreprises sont réparties aléatoirement en deux groupes de 40 entreprises. Descriptif des 13 variables : RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital flow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net fixed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital flow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets Lecture des données

3 Master pro Fouille de données Philippe Besse 3 >ukcomp1=read.table( /users/magist/besse/d ata/tp/ukcomp1.datr, +header=true) >summary(ukcomp1) >boxplot(ukcomp1) Vérifier rapidement sur les graphes précédents l allure raisonnablement symétrique des distributions, la présence de quelques points atypiques. 2.2 Première modélisation Estimer le modèle complet sur le premier fichier expliquant RETCAP avec toutes les autres variables. Calculer et représenter les dignostics (ésidus studentisés, les distances de Cook). Interpréter les diagnostics en terme de colinéarité, de précisions des estimations (écarts-types des b j ) et d influence. Estimation du modèle >lm.uk=lm(retcap.,data=ukcomp1) Résultats numériques >summary(lm.uk) Regroupement des graphiques sur la même page >par(mfrow=c(2,2)) Résiduas et points influents >plot(lm.uk,las=1) 2.3 Choix de modèle à la main par élimination SAS, Splus et R proposent des algorithmes de sélection automatique des variables. Néanmoins il est nécessaire de savoir se débrouiller avec les outils plus limités proposés par d autres logiciels ou encore simplement de comprendre comment fonctionne ces algorithmes. Itérer la procédure suivante : 1. Estimer le modèle et choisir, parmi les variables explicatives, celle X j pour lequel le test de Student (H 0 : b j = 0) est le moins significatif, c est-à-dire avec la plus grande prob value. >lm.uk=lm(retcap WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 2. La retirer du modèle et recalculer l estimation. >lm.uk=lm(retcap WCFTCL+WCFTDT+LOGSALE+LOGASST +NFATAST+CAPINT+FATTOT+INVTAST+PAYOUT+QUIKRAT+CURRAT,data=ukcomp1) >anova(lm.uk) 3. Arrêter le processus lorsque tous les coefficients sont considérés comme significativement (à 5%) différents de 0 sauf celui du terme constant (intercept) qui reste présent. Noter la séquence des modèles ainsi obtenus. Comparer avec la procédure automatique identique descendante : >lm.uk=lm(retcap., data = ukcomp1) >step.uk=step(lm.uk,direction="backward",k=log(40)) >summary(step.uk) >step.uk$anova Ou encore avec la procédure ascendante : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="forward",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+ >summary(step.uk) >step.uk$anova Celle-ci fournit une solution différente. Cette stratégie d exploration du graphe ne passe pas par le même chemin que la stratégie descendante. En revanche la procédure mixte explorte plus de solutions : >lm.uk=lm(retcap 1, data = ukcomp1) >step.uk=step(lm.uk,direction="both",k=log(40), scope=list(upper= WCFTCL+WCFTDT+GEARRAT+LOGSALE+LOGASST+NFA >summary(step.uk) >step.uk$anova Remarquer en suivant la trace comment cette procédure débute comme la procédure forward, mais, autorisant la sortie de certaines variables revient finalement à la même solution optimale que celle proposée par la stratégie backward.

4 Master pro Fouille de données Philippe Besse Sélection automatique du modèle Parmi les différents types d algorithmes disponibles dans R et les différents critères de choix, une des façons les plus efficaces est la recherche exhaustive du meilleur modèle parmi tous les sous-modèles possibles selon l algorithme de Furnival et Wilson. Seul le meilleur pour chaque niveau, c est-à-dire pour chaque valeur q du nombre de variables explicatives sont donnés. Il est alors facile de choisir celui minimisant l un des critères globaux (C p, R2 ajusté... ) estimant un risque pénalisé. Cet algorithme est disponible dans le package leaps. Chargement de la librairie >library(leaps) Retour à un graphe par page >par(mfrow=c(1,1)) Extraction des variables explicatives >ukcomp=ukcomp1[,2 :13] Recherche des meilleurs modèles au sens du Cp >uk.choix1=leaps(ukcomp,ukcomp1[,"retcap"],method="cp",nbest=1) Résultats >uk.choix1$cp >plot(uk.choix1$size-1,uk.choix1$cp) Meilleur modèle >t=(uk.choix1$cp==min(uk.choix1$cp)) Liste des variables explicatives >colnames(ukcomp)[uk.choix1$whi[t]] Recherche des meilleurs modèles au sens du R2 ajusté >uk.choix2=leaps(ukcomp,ukcomp1[,"retcap"],method="adjr2",nbest=1) >uk.choix2$adjr2 >plot(uk.choix2$size-1,uk.choix2$adjr2) >t=(uk.choix12$adjr2==max(uk.choix2$adjr2)) Variables explicatives du meilleur modèle au sens du R2 ajusté >colnames(ukcomp)[uk.choix2$whi[t]] Liste des meilleurs modèles pour chaque dimension. >for (i in (1 :12)) cat(uk.choix2adjr2[i], uk.choix1cp[i], +colnames(ukcomp)[uk.choix1$whi[i,]],"\n")} Noter le modèle de C p minimum et celui de R 2 ajusté maximum. 2.5 Dernières estimations Estimer les différents modèles : complet, meilleur C p et meilleur R 2 ajusté. >lm.uk0=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk1=lm(retcap WCFTDT+LOGSALE+NFATAST+CURRAT,data=ukcomp1) >lm.uk2=lm(retcap WCFTDT+LOGSALE+LOGASST+NFATAST+FATTOT+ +INVTAST+QUIKRAT+CURRAT,data=ukcomp1) Vérifer sur ces modèles les valeurs des différents diagnostics d influence, des résidus. >par(mfrow=c(2,2)) >plot(lm.uk0,las=1) >plot(lm.uk1,las=1) >plot(lm.uk2,las=1) Attention, la validité du modèle ainsi obtenu reste conditionnée à celle de l hypothèse de linéarité. Il peut posséder d honnêtes propriétés prédictives sans pour autant avoir des capacités d explication de la variable RETCAP. 3 Comparaison de méthodes sur un échantillon test L objet de cette section est de comparer plusieurs méthodes de modélisation dans le cas d un problème de multicolinéarité : par sélection de variables, par régression biaisée (ridge), par régression sur composantes principales, par régression PLS (partial least square). Nous disposons de deux échantillons. Le premier, dit échantillon d apprentissage, sert à rechercher un meilleur modèle pour chacune des méthodes et à estimer les paramètres de ce modèle. Chacun de ces modèles sont ensuite appliqués au deuxième échantillon, dit échantillon test, pour prédire les valeurs de la variable à expliquer. Une estimation de l erreur de

5 Master pro Fouille de données Philippe Besse 5 prédiction : la somme des carrés des différences entre valeurs prédites et valeurs observées, renseigne sur la qualité d un modèle et permet de les comparer entre eux et donc de comparer les différentes méthodes de régression. 3.1 Lecture des données Lire les données de l échantillon test. >ukcomp.test=read.table( /users/magist/besse/d ata/tp/ukcomp2.datr, +header=true) >summary(ukcomp.test) Réorganisation des colonnes de la base de test >ukcomp.test=data.frame(ukcomp.test[,names(ukcomp1)]) 3.2 Modèles obtenu par sélection de variables Les modèles lm.uk0, lm.uk1 et lm.uk2 ont été calculés ci-dessus. Ils vont être utilisés pour calculer les prédictions de l échantillon test et une estimation de l erreur quadratique. >sum((predict(lm.uk0,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk1,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) >sum((predict(lm.uk2,newdata=ukcomp.test)-ukcomp.test[,"retcap"])**2) Comparer ces erreurs. Conclusion? 3.3 Régression ridge La sélection de variables permet donc de restreindre les problemes de colinéarité source importante de variance des prédictions. Une autre façon de résoudre ce problème consiste à calculer une estimation sous contrainte sur la norme du vecteur des paramètres ou, c est équivalent, à translater d une valeur k la diagonale de la matrice à inverser afin d améliorer son conditionnement. Cette technique appelée ridge regression est calculée par une fonction de la librairie MASS. Chargement de la librairie >library(mass) Calcul pour différentes valeurs du paramètre de pénalisation >ridge.uk=lm.ridge(retcap.,data=ukcomp1,lambda=seq(0,0.4,0.001)) >par(mfrow=c(1,1)) Comportement des paramètres estimés en fonction de la pénalisation >plot(ridge.uk) Choix de la valeur minimisant l erreur estimée par validation croisée >select(ridge.uk) Estimation des paramètres pour la valeur optimale de pénalisation >ridgeopt.uk=lm.ridge(retcap.,data=cbind(ukcomp1,lambda=0.033) Petit souci pour construire les prédictions à partir de ce modèle car la fonction predict n est pas implémentée! 3.4 Régression PLS Cette dernière approche permet d illustrer l usage de la régression PLS très utilisée dans des situations de multicolinéarité et même lorsque le nombre de variables explicatives excède le nombre d observations comme par exemple en chimiométrie. Cette méthode est disponible dans un package spécifique de R (pls.pcr). >library(pls.pcr) Estimation avec recherche du nombre de composantes par validation croisée >uk.simpls= mvr(ukcomp, ukcomp1[,"retcap"], validation="cv", method="simpls") Résultats : un choix de 4 composantes est suggéré >summary(uk.simpls) graphique >plot(uk.simpls) Calcul des prédictions >pred.uk=predict(uk.simpls,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2)

6 Master pro Fouille de données Philippe Besse Régression sur composantes principales Cette approche peut, dans certaines situations, donner de bons résultats se déroule ; elle se déroule en deux étapes incluse dans une fonction de la librairie pls.pcr. 1. Calcul des variables principales deux à deux orthogonales et engendrant le même espace que les variables explicatives par une analyse en composantes principales, 2. Régression sur ces variables principales après une sélection automatique des variables. Estimation avec recherche du nombre de composantes par validation croisée >uk.pcr = mvr(ukcomp, ukcomp1[,"retcap"], validation="cv") Résultats : un choix de 7 composantes est suggéré >summary(uk.pcr) D autres exécutions peuvent donner d autres résultats car la validation croisée est un procédé aléatoire. Calcul des prédictions >pred.uk=predict(uk.pcr,as.matrix(ukcomp.test[,2 :13]),4) >sum((pred.uk-ukcomp.test[,"retcap"])**2) La variable à expliquer n est pas nécessairement liée aux variables principales de grande variance d où un problème pouvant apparaître dans cette méthode. 4 Conclusion Comparer les erreurs de prédictions de chaque modèle sur l échantillon test. Attention, en fonction de l exemple traité et du jeu de données, une méthode peut apparaître meilleure qu une autre sans généralisation possible.