Choix du modèle. Frédéric Bertrand et Myriam Maumy. Master 1ère Année Strasbourg, France

Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TRANSPORT ET LOGISTIQUE :

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Continuité et dérivabilité d une fonction

Calcul élémentaire des probabilités

Chapitre 3. Les distributions à deux variables

Les critères d identification des pays les moins avancés

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Expérimentation de l usage du smartphone dans l enseignement technologique S.T.M.G.

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Configuration de tous les systèmes d exploitations

Réaliser la fiche de lecture du document distribué en suivant les différentes étapes de la méthodologie (consulter le support du TD!

Vade-Mecum. des demandes de crédit. Business Angel+

Introduction au Data-Mining

Arbres binaires de décision

Résolution de systèmes linéaires par des méthodes directes

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

GUIDE UTILISATEUR WEBCONFERENCE. Utilisation depuis un PC Windows

La jurisprudence du Conseil constitutionnel et le droit civil

Interprétation IFRIC 12 Accords de concession de services

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Préparez la retraite que vous voulez

Pleins feux sur les IFRS

STRICTEMENT CONFIDENTIEL

Résumé non technique

Votre Réseau est-il prêt?

IBM SPSS Regression 21

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Programmation Linéaire - Cours 1

Rapport d évaluation du master

Régression linéaire. Nicolas Turenne INRA

Mesure du surendettement en Europe

LES ORDRES DE BOURSE. Le guide. Découvrir et apprendre à maîtriser les différents types d ordres

Annexe commune aux séries ES, L et S : boîtes et quantiles

Section des Formations et des diplômes

MANUEL D UTILISATION DE LA SALLE DES MARCHES APPEL D OFFRES OUVERT ACCES ENTREPRISES. Version 8.2

Qu est-ce qu un outil de travail collaboratif Google Drive?

CRÉER UN COURS EN LIGNE

Analyse de la variance Comparaison de plusieurs moyennes

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Notions de sécurités en informatique

Questions d Entretiens en Finance de Marché Retour 2011/2012

Système de contrôle du trafic d une ligne de métro Dossier de tests

Rapport de stage d initiation

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

Le droit de préemption en matière immobilière

Le trading haute fréquence vu de l AMF. Arnaud Oseredczuck, chef du service de la surveillance des marchés

STAGE D INITIATION RAPPORT DE. Elaboré par. Prénom NOM. Encadré par : Mr Prénom NOM (Société) Société d accueil :. (Sigle de la société d accueil)

Rédiger et administrer un questionnaire

Relation entre deux variables : estimation de la corrélation linéaire

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Info-assurance Séance d information de l IASB du 19 mars 2015

Service en ligne Obligation de retenue (Articles 30bis et 30ter)

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

La Solution Crypto et les accès distants

Chapitre 2/ La fonction de consommation et la fonction d épargne

Algèbre binaire et Circuits logiques ( )

Optimisation des ressources des produits automobile première

1 Définition de la non stationnarité

Évaluation de la régression bornée

Norme comptable internationale 33 Résultat par action

Gestion électronique des procurations

Bases de données documentaires et distribuées Cours NFE04

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

AMENDEMENT. Présenté par Daniel Raoul, Roland Courteau et les membres du groupe socialiste. Article unique

Le calcul du barème d impôt à Genève

Facturation / Trains de facture INTRODUCTION. On peut accéder à la gestion des trains de facture de deux manières : Via les menus classiques

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Enregistrement et transformation du son. S. Natkin Novembre 2001

Coup de Projecteur sur les Réseaux de Neurones

ACCORDS BILATERAUX DES REGLEMENTS COMMUNAUTAIRES LA FRANCE ET LES PAYS-BAS

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

CAPTEURS - CHAINES DE MESURES

Programmes des classes préparatoires aux Grandes Ecoles

1. Les types d enquêtes

Le risque Idiosyncrasique

L exclusion mutuelle distribuée

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Crédit d impôt en faveur de l agriculture biologique

Température corporelle d un castor (une petite introduction aux séries temporelles)

GUIDE SUIVI EVALUATION RIDER SUODE

Quelle durée retenir?

TUTORIEL Qualit Eval. Introduction :

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

Cas de synthèse n 1 : Société BIGFLASH SA Bilan d ouverture, journal, grand-livre et balance

DESCRIPTIF DU DOCUMENT. Déploiement Nouveau système de rémunération au ème salaire

Appendice 2. (normative) Structure de niveau supérieur, texte de base identique, termes et définitions de base communs

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Rachat périodique d actions Libérez la valeur de votre entreprise MC

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

ADMINISTRATION (BI COMMERCE ET GESTION)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Société Anonyme au capital de Euros Siège Social : 57 rue Saint-Cyr LYON R.C.S.Lyon

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Transcription:

1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1ère Année 11-02-2008

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Il existe plusieurs critères pour sélectionner (p 1) variables explicatives parmi k variables explicatives disponibles. Le critère du R 2 se révèle le plus simple à définir.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Un inconvénient majeur du R 2 : Il augmente de façon monotone avec l introduction de nouvelles variables même si celles-ci sont peu corrélées avec la variable expliquée. Pour parer à cet inconvénient, il est conseillé de se tourner vers l utilisation des alternatives suivantes : le R 2 ajusté le C p de Mallows qui est un autre critère relatif au biais. les critères AIC et AICc. le critère BIC. Ces six critères vont être maintenant présentés.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le coefficient de détermination multiple R 2 : Il a déjà été introduit dans le cours portant sur le modèle linéaire. C est une mesure qui permet d évaluer le degré d adéquation du modèle. Lors de l introduction du test F partiel : accroissement de R 2 au fur et à mesure de l introduction de variables dans le modèle. Il atteint son maximum lorsque toutes les variables disponibles au départ sont incluses.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Pour comparer deux modèles ayant le même nombre de variables explicatives : comparer les R 2 obtenus et choisir le modèle pour lequel R 2 le plus grand. Pour comparer un modèle avec (p 1) variables avec un modèle (p 1 + r) variables : utiliser le test du F partiel. Que nous dit ce test? Ce test dit si l introduction des variables supplémentaires augmente suffisamment le R 2 ou non.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le coefficient de détermination multiple ajusté R 2 aj : Introduire un R 2 qui concerne la population et non plus l échantillon défini par : Estimer R 2 pop par : R 2 aj = 1 R 2 pop = 1 σ2 σ 2 (Y ). s2 s 2 (Y ) = 1 SC res SC tot n 1 n p.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Propriété sur R 2 aj : R 2 aj < R2 dès que p 2. R 2 aj peut prendre des valeurs négatives. Intérêts de R 2 aj : R 2 aj n augmente pas forcément lors de l introduction de variables supplémentaires dans le modèle. possibilité de comparer deux modèles n ayant pas le même nombre de variables à l aide du R 2 aj et choisir le modèle pour lequel R 2 aj est le plus grand.

Le critère du C p de Mallows Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le critère du C p de Mallows est défini par : C p = SC res σ 2 (n 2p) Mais il y a un problème! : Lequel? On ne peut plus estimer σ 2 par Pourquoi? s 2 = SC res n p. Car C p vaudrait toujours p et alors il ne serait plus intéressant.

Que fait-on dans la pratique? Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC On estime σ 2 par le s 2 du modèle qui fait intervenir toutes les k variables explicatives du modèle à disposition. Pour ce modèle on a : C p = p. Et pour les autres? C p prendra d autres valeurs que p. On choisit parmi les modèles le modèle où C p de Mallows est le plus proche de p.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le critère d information d Akaike (AIC) Le critère AIC s applique aux modèles estimés par une méthode du maximum de vraisemblance : les analyses de variance, les régressions linéaires multiples, les régressions logistiques et de Poisson peuvent rentrer dans ce cadre. Le critère AIC est défini par : AIC = 2 log L + 2k où L est la vraisemblance maximisée et k le nombre de paramètres dans le modèle. Avec ce critère, la déviance du modèle 2 log ( L) est pénalisée par 2 fois le nombre de paramètres.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC L AIC représente donc un compromis entre le biais, diminuant avec le nombre de paramètres, et la parcimonie, volonté de décrire les données avec le plus petit nombre de paramètres possibles. La rigueur voudrait que tous les modèles comparés dérivent tous d un même «complet» inclus dans la liste des modèles comparés. Il est nécessaire de vérifier que les conditions d utilisation du modèle complet et de celui sélectionné sont remplies. Le meilleur modèle est celui possédant l AIC le plus faible.

Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le critère d information d Akaike corrigé (AIC c ) Lorsque le nombre de paramètres k est grand par rapport au nombre d observations n, c est-à-dire si N/k < 40, il est recommandé d utiliser l AIC corrigé. Le critère d information d Akaike corrigé, AIC c, est défini par : AIC c = AIC + 2k(k + 1) n k 1. Hurvich, C. M. and Tsai, C.-L., 1995. Model selection for extended quasi-likelihood models in small samples. Biometrics 51 : 1077-1084.

Le critère BIC Critère du R 2 Critère du R 2 ajusté Le critère du C p de Mallows Les critères AIC et AIC c Le critère BIC Le Bayesian information criterion BIC est défini par : BIC = 2 log ( L) + k log (n). Il est plus parcimonieux que le critère AIC puisqu il pénalise plus le nombre de variables présentent de le modèle. Ripley, 2003, souligne que l AIC a été introduit pour retenir des variables pertinentes lors de prévisions, et que le critère BIC vise la sélection de variables statistiquement significative dans le modèle.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Plusieurs types de procédures de sélection de variables : la recherche exhaustive les méthodes de type pas à pas. L efficacité de ces méthodes n est pas démentie mais il est impossible de se fier aux résultats fournis par un programme informatique.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Quant à décider ou supprimer une variable dans un modèle, il faut conserver : une part d intuition une part de déduction une part de synthèse. Surtout ne pas oublier l objectif recherché!

Exemples : Les critères de choix Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Pour rendre l équation utile à des fins de prévision, il est souhaitable que le modèle contienne un maximum de variables explicatives afin d en augmenter le pouvoir explicatif. En raison du coût élevé relatif à l obtention d informations pour un grand nombre de variables explicatives, l analyste souhaite avoir un modèle avec un minimum de variables explicatives.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Pour obtenir un compromis entre ces deux extrêmes, le statisticien dispose d une gamme de méthodes : la recherche exhaustive la méthode descendante la méthode ascendante la régression stepwise deux variantes des quatre méthodes précédentes la régression stagewise. Toutes ces procédures ne mènent pas forcément à la même solution quand elles sont appliquées au même problème.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Lorsque le nombre k de variables explicatives à disposition n est pas trop élevé, il est envisageable de considérer tous les modèles possibles. On a C r k = k! r!(k r)! modèles différents faisant intervenir r variables explicatives. Cela fait k Ck r = 2k r=0 modèles possibles à considérer. On choisit ensuite le modèle pour lequel, par exemple, le R 2 aj est le maximum.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Les méthodes de type pas à pas consistent à considérer d abord un modèle faisant intervenir un certain nombre de variables explicatives. Puis on procède par élimination ou ajout successif de variables. On parle de la méthode descendante lorsqu on élimine des variables (elle sera développée dans le paragraphe 4) On parle de la méthode ascendante lorsqu on ajoute des variables (elle sera développée dans le paragraphe 5). La méthode stepwise est une combinaison de ces deux méthodes (elle sera développée dans le paragraphe 6).

La recherche exhaustive Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise est une méthode fastidieuse et difficile à utiliser sans un ordinateur rapide. Pourquoi? Il faut calculer toutes les régressions possibles impliquant un sous-ensemble des k variables explicatives à disposition, soit un total de 2 k régressions.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Que fait-on ensuite? Ces équations sont réparties selon le nombre r de variables explicatives qu elles contiennent. Chaque ensemble d équations est ordonné selon le critère choisi, souvent le R 2 ou l AIC. Les meilleures équations de régression issues de ce classement sont ensuite sélectionnées pour un examen plus détaillé.

Méthode descendante Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise (ou élimination en arrière) est une simplification de la méthode de la recherche exhaustive. En quoi est-elle une simplification? Cette méthode examine non pas toutes les régressions possibles mais uniquement une régression pour chaque nombre r de variables explicatives.

En pratique comment fait-on? Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Calculer la régression pour le modèle incluant toutes les k variables explicatives à diposition. Effectuer un test de Student pour chacune des variables explicatives. Deux cas se présentent : Les variables sont trouvées significatives. Ce modèle est alors choisi. On stoppe là notre analyse. Éliminer la variable la moins significative du modèle. Recommencer le processus avec une variable en moins. Le modèle final est donc un modèle au sein duquel toutes les variables sont significatives.

Conclusions : Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise La méthode descendante est très satisfaisante pour l utilisateur préférant avoir toutes les variables possibles afin de ne rien ignorer. C est une procédure plus économique en terme de temps et d interprétation Mais il y a un inconvénient majeur. Il n est plus possible de réintroduire une variable une fois qu elle a été supprimée!

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Méthode ascendante (ou sélection en avant) : C est également une simplification de la méthode de la recherche exhaustive. Cette méthode procéde dans le sens inverse de la méthode descendante. Cette méthode examine un modèle avec une seule variable explicative puis introduction une à une d autres variables explicatives.

En pratique comment fait-on? Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Effectuer les k régressions possibles avec une seule variable explicative. Pour chacune d elles, effectuer le test de Student. Retenir le modèle pour lequel la variable explicative est la plus significative. Effectuer les (k 1) régresions possibles avec deux variables explicatives. Pour chacune d elles, effectuer le test de Student pour la nouvelle variable. Retenir le modèle pour lequel la variable est la plus significative. Si aucune variable est retenue, alors on stoppe le processus.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Sinon Sinon Réitérer le processus en effectuant les (k 2) régressions possibles avec trois variables explicatives. Pour chacune d elles, effectuer le test de Student pour la nouvelle variable. Retenir le modèle pour lequel la variable est la plus significative. Si aucune variable est retenue, alors on stoppe le processus. Réitèrer le processus en effectuant les (k 3) régressions possibles avec quatre variables explicatives... Le processus se termine lorsqu on ne peut plus introduire des variable significatives dans le modèle.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Parmi les méthodes présentées, la méthode ascendante est la plus économique. Les avantages de la méthode ascendante : éviter de travailler avec plus de variables que nécessaire, améliorer l équation à chaque étape. L inconvénient majeur de la méthode ascendante : une variable introduite dans le modèle ne peut plus être éliminée. Le modèle final peut alors contenir des variables non significatives. Ce problème est alors résolu par la procèdure stepwise.

Procèdure stepwise : Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise amélioration de la méthode descendante. Pourquoi? À chaque étape, on réexamine toutes les variables introduites précédemment dans le modèle. En effet, une variable considérée comme la plus significative à une étape de l algorithme peut à une étape ultérieure devenir non significative. Pourquoi ce phénomène? En raison de ces corrélations avec d autres variables introduites après coup dans le modèle.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Comment remédie-t-on à cela? La procédure stepwise propose après l introduction d une nouvelle variable dans le modèle : réexaminer les tests de Student pour chaque variable explicative anciennement admise dans le modèle, après réexamen, si des variables ne sont plus significatives, alors retirer du modèle la moins significative d entre elles. Le processus continue jusqu à ce que plus aucune variable ne puisse être introduite ni retirée du modèle.

La procédure stepwise Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise semble être la meilleure procédure de sélection de variables. Mais la procédure stepwise peut facilement abuser l utilisateur qui a tendance à se focaliser exclusivement sur le résultat de la sélection automatique proposé par l outil informatique. En effet, il faut se méfier de certaines situations : celles où apparait un phénomène de multicolinéarité que nous étudierons dans un prochain chapitre.

Les méthodes de type pas à pas Méthode descendante Méthode ascendante Procédure stepwise Un exemple : X 1 et X 2 expliquant significativement Y, sont fortement corrélées entre elles. L introduction de X 1 dans le modèle masquera le pouvoir explicatif de X 2. En effet, l introduction de X 1 en premier va accroitre le R 2 alors que l introduction ultérieure de X 2 provoquera un faible effet. Et réciproquement.

La première variante des méthodes précédentes La seconde variante des méthodes précédentes Premières remarques : Les méthodes présentées jusqu ici : ne sélectionnent pas nécessairement le meilleur modèle absolu, mais donnent généralement un modèle acceptable. Des procédures alternatives et combinatoires sont apparues. On présentera très brièvement seulement deux méthodes dans ce cours.

La première variante des méthodes précédentes La seconde variante des méthodes précédentes La première méthode : effectuer d abord la procédure stepwise. Supposons que le modèle sélectionné contient r variables explicatives. Effectuer alors Ck r régressions possibles utilisant r variables. Choisir comme modèle final celui pour lequel R 2 est maximal. D un point de vue pratique, les améliorations apportées par cette procédure sont faibles...et nécessitent beaucoup de calculs.

La première variante des méthodes précédentes La seconde variante des méthodes précédentes La deuxième méthode : utiliser deux seuils de signification différents lors de l utilisation de la méthode stepwise : un certain seuil (par exemple α = 0, 05) lors de la procédure d élimination de variables, un seuil plus petit (par exemple α = 0, 01) lors de la procédure d introduction de variables.

La première variante des méthodes précédentes La seconde variante des méthodes précédentes On favorise l introduction des variables les plus significatives, tout en acceptant de les maintenir dans le modèle si elles deviennent par la suite un peu moins significatives. C est intéressant d utiliser cette méthode. Pourquoi? Cette méthode propose un modèle alternatif au modèle donné par la méthode stepwise tout en maintenant son pouvoir explicatif.

La procédure de régresion stagewise diffère des procédures présentées ci-dessus. Pourquoi? La procédure de régresion stagewise n aboutit pas toujours à une équation obtenue par la méthode des moindres carrés.

Cette méthode se déroule de la façon suivante : effectuer la régression avec la variable la plus corrélée avec Y. Calculer les résidus obtenus avec cette régression. Considérer ensuite ces résidus comme une nouvelle variable dépendante que l on veut expliquer à l aide des variables explicatives restantes.

Sélectionner ainsi celle d entre elles qui est la plus corrélée avec les résidus. Effectuer une nouvelle régression avec les résidus de la première régression dans le rôle de la variable expliquée. Également calculer les résidus obtenus avec cette nouvelle régression. Réitérer le processus avce des variables explicatives restantes, jusquà ce que plus aucune d entre elles ne soit corrélée significativement avec les résidus.

D un point de vue théorique, la recherche exhaustive est la meilleure. Pour les autres méthodes : Des résultats semblables sans nécessiter autant de calculs. Ces derniers dépendent du choix des seuils de signification utilisés lors des diverses procédures. Dans la pratique, la procédure stepwise et la procédure descendante sont les plus utilisées. En cas de doute et si les conditions le permettent, toutes les régressions doivent être examinées. Les autres méthodes peuvent trouver leur utilisation dans des applications plus spécifiques.