Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Documents pareils

CAPTEURS - CHAINES DE MESURES

Introduction à l approche bootstrap

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Évaluation de la régression bornée

Précision d un résultat et calculs d incertitudes

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

FORMULAIRE DE STATISTIQUES

1 Définition de la non stationnarité

Exemples d application

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Température corporelle d un castor (une petite introduction aux séries temporelles)

1. Vocabulaire : Introduction au tableau élémentaire

Logiciel XLSTAT version rue Damrémont PARIS

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

LES GENERATEURS DE NOMBRES ALEATOIRES

STATISTIQUES. UE Modélisation pour la biologie

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Table des matières. I Mise à niveau 11. Préface

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Chapitre 4 : Régression linéaire

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Coup de Projecteur sur les Réseaux de Neurones

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

MODELE A CORRECTION D ERREUR ET APPLICATIONS

NON-LINEARITE ET RESEAUX NEURONAUX

IBM SPSS Regression 21

Théorie des sondages : cours 5

Le risque Idiosyncrasique

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

4. Résultats et discussion

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

données en connaissance et en actions?

Introduction à la Statistique Inférentielle

Principe d un test statistique

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Le Modèle Linéaire par l exemple :

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

M2 IAD UE MODE Notes de cours (3)

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

INITIATION AU LOGICIEL SAS

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

1 Complément sur la projection du nuage des individus

CHAPITRE 5. Stratégies Mixtes

Introduction aux Statistiques et à l utilisation du logiciel R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

CHAPITRE IX : Les appareils de mesures électriques

Quantification Scalaire et Prédictive

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Leçon 3. Les principaux outils de gestion des stocks

Leçon N 4 : Statistiques à deux variables

I. Ensemble de définition d'une fonction

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Chapitre 3. Les distributions à deux variables

Le modèle de régression linéaire

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

I. Polynômes de Tchebychev

Relation entre deux variables : estimation de la corrélation linéaire

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

TABLE DES MATIERES. C Exercices complémentaires 42

Le modèle de Black et Scholes

Introduction au Data-Mining

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

TD1 Signaux, énergie et puissance, signaux aléatoires

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

PROGRAMME (Susceptible de modifications)

L humain et ses données, le «quantified self»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Qu est-ce qu une probabilité?

Algorithmes d'apprentissage

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Modélisation géostatistique des débits le long des cours d eau.

La classification automatique de données quantitatives

Probabilités III Introduction à l évaluation d options

Leçon 5. Systèmes de gestion à recomplétement périodique et stock de sécurité

Optimisation, traitement d image et éclipse de Soleil

Modèle de calcul des paramètres économiques

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Texte Agrégation limitée par diffusion interne

Statistiques Descriptives à une dimension

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Cours d Analyse. Fonctions de plusieurs variables

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

HTML5, CSS3 et JavaScript Développez vos sites pour les terminaux mobiles

PROJET MODELE DE TAUX

Moments des variables aléatoires réelles

Transcription:

Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005

Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R 2 Validation du modèle de régression

Un exemple Questions : comment relier les dépenses publicitaires aux ventes? Quelles sont les ventes espérées si le coût en frais de publicité sont de 2.2 millions? Quelle confiance apporter à l'estimation? Quel est la qualité de l'ajustement?

Le modèle fondamental : régression linéaire Données: (x 1,y 1 ),(x 2,y 2 ),...,(x n,y n ) Modèle de population: y i = β 0 + β 1. x i + ε i ε 1, ε 2,..., ε n sont des variables aléatoires indépendantes, de distribution normale N(0,σ). Ceci est la vraie relation entre x et y mais nous ne connaissons pas les paramètres β 0 et β 1 que nous devons estimer à partir des données. Commentaires: E(y i x i ) = β 0 + β 1. x i SD(y i x i ) = σ La relation est linéaire décrite par une droite β 0 = valeur «baseline» de y (quand x vaut 0) β 1 = pente de x (variation de y par rapport à une variation de x)

Comment choisir la ligne qui s'ajuste le mieux aux données? Meilleurs choix: b0=13.82 b1=48.60 Coefficients de régression : b 0 et b 1 sont des estimations de β 0 et β 1 Estimation de la régression pour Y à x i : e i = y i y i y i =b 0 b 1. x i erreur résiduelle : La «meilleure» ligne de régression est celle qui choisit b0 et b1 pour minimiser les erreurs totales (somme des résidus au carré): n SCR= i=1 n e i 2 = i=1 y i y i 2

Exemple: Ventes de Nature-Bar en millions de $

Régression multiple En général, il y a beaucoup de facteurs qui influencent les ventes en plus des frais de publicité La régression multiple permet de gérer plus d'une variable x Soient les variables (vecteurs) indépendantes: x 1, x 2,..., x k (k parmi elles) Données: (y 1, x 11, x 21,..., x k1 ),..., (y n, x 1n, x 2n,..., x kn ) Modèle de population: y i = β 0 + β 1. x 1i + β 2. x 2i +...+ β k. x ki + ε i ε 1, ε 2,..., ε n sont des variables aléatoires indépendantes, de distribution normale N(0,σ) Coefficients de régression : b 0, b 1,..., b k sont des estimations de β 0, β 1,..., β k Estimation de la régression pour Y à x i : y i =b 0 b 1. x 1i... b k. x ki Objectif: choisir b 0, b 1,..., b k pour minimiser la somme des carrés des résidus n SCR= i=1 n e i 2 = i=1 y i y i 2

Exemple de sortie d'une régression (sous Excel)

Compréhension de la sortie de la régression 1- coefficients de régression : b 0, b 1,..., b k sont des estimations de β 0, β 1,..., β k basées sur les données de l'échantillon. Un fait: E[b j ]=β j Exemple: b0 = 65.705 (son interprétation est dépendant du contexte) b1 = 48.979 (l'ajout d'1 million $ en publicité est supposé rendre 49 millions $ de ventes) b2 = 59.654 (l'ajout d'1 million $ en promotions est supposé rendre 60 millions $ de ventes) b3 = -1.838 (l'augmentation d'1 million $ en ventes concurrentielles fait diminuer les ventes de 1.8 million $)

Compréhension de la sortie de la régression 2- erreur standard : une estimation de s, la variance de chaque ε i. C'est une mesure de la quantité de «bruit» dans le modèle. Exemple : s = 17.60 3- degré de liberté : nombre de cas nombre de paramètres lié au phénomène d' overfitting (surajustement ou surapprentissage). 4- erreur standard des coefficients : s b0, s b1,..., s bk Ce sont les variances des estimations b 0, b 1,..., b k Ils sont utiles pour évaluer la qualité de l'estimation des coefficients et pour valider le modèle. 5- coefficient de détermination : R 2

R 2 quelle est sa signification? Le paramètre R 2 prend des valeurs entre 0 et 1, c'est un pourcentage. Dans l'exemple sa valeur est 0.833 R 2 =1; les valeurs de x expliquent toutes les variations des valeurs de Y R 2 =0; les valeurs de x n'expliquent pas toutes les variations des valeurs de Y

Le coefficient de détermination est : - une mesure de la qualité générale de la régression - spécifiquement c'est le pourcentage de la variation totale exhibée dans les données y i qui est expliqué par la partie de la ligne de régression La moyenne de l'échantillon de Y : La variation totale dans Y : n i=1 y i y 2 La variation résiduelle (non expliquée) dans Y : R 2 variation expliquée par les variable x = variation totale R 2 variation non expliquée par les variable x =1 variation totale R 2 =1 n i=1 n i=1 y i y i 2 y i y i 2 y= y 1 y 2... y n /n n i=1 n 2 e = i i=1 y i y i 2

Coefficient de détermination R 2 Un R 2 élevé signifie que la plupart de la variation que nous observons dans les données y i peut être attribué à leurs valeurs x correspondantes une propriété désirée. Dans une régression simple, le R 2 est plus élevé si les points de données sont mieux alignés le long d'une ligne. Mais on trouve des extrêmes. La façon dont R 2 est suffisamment «correct» dépend de la situation (par exemple, l'utilisation souhaitée de la régression, et la complexité du problème). Les utilisateurs de la régression tendent à se focaliser sur R 2, mais ce n'est pas le fin mot de l'histoire. Il est important que le modèle de régression soit «valide».

Coefficient de détermination R 2 On ne devrait pas inclure des variables x non reliées à y dans le modèle, juste pour faire un R 2 fictivement élevé. (Avec plus de variables x il y aurait plus de liberté à choisir les b i pour faire la variation résiduelle plus proche de 0). Le R multiple est la racine carrée de R 2.

Validation du modèle de régression Hypothèses sur la population : y i = β 0 + β 1.x 1i +... + β k.x ki + ε i (i=1,...,n) ε 1, ε 2,..., ε n sont des variables indépendantes, ~N(0,σ) 1- linéarité si k=1, cas de la régression simple, on peut vérifier visuellement par un affichage en nuage vérification sanitaire: le signe des coefficients, raison de non-linéarité? 2- normalité de ε i Affichage de l'histogramme des résidus e= y i y i D'habitude les résultats sont vraiment robustes en respectant cette hypothèse

3- hétéroscédasticité Est ce que les termes d'erreur ont une variance constante? (i.e. SD(εi) = σ pour tout i) Vérifier l'affichage des résidus versus l'affichage de Y avec X Pas d'évidence d'hétéroscédasticité Évidence d'hétéroscédasticité Peut être réglé en introduisant une transformation Peut être réglé en introduisant ou en éliminant des variables indépendantes

4- auto-corrélation : est-ce que les termes d'erreur sont indépendants? On affiche les résidus de façon à vérifier les régularités Pas d'évidence d'auto-corrélation Évidence d'auto-corrélation L'autocorrélation peut être présente si les observations ont un ordre séquentiel naturel (par exemple, le temps). Peut être réglé en introduisant ou en transformant une variable.

Pièges et problèmes 1) surspécification inclusion de trop de variables x pour faire R2 fictivement élevé règle du pouce (rule of thumb): on doit veiller à avoir n >= 5.(k+2) 2) extrapolation au delà de la plage des données

Pièges et problèmes 3) multicolinéarité Apparaît quand deux variables x sont très fortement corrélées Peut donner de très mauvaises estimations pour les bi Signes rapporteurs - coefficients de régression (bi) ont le «mauvais» signe - addition / suppression d'une variable indépendante peut changer subtantiellement la valeur des coefficients de régression - coefficients (bi) non significativement différents de zéro peut être réglé par suppression d'une ou plusieurs variables indépendantes

Exemple

Sortie de régression Que s'est-il passé? College GPA et GMAT sont hautement corrélés On élimine GMAT

Modèles de régression En régression linéaire, on choisit les «meilleurs» coefficients b 0, b 1,..., b k comme des estimateurs de β 0, β 1,..., β k. On sait qu'en moyenne chaque b j atteint le bon β j Cependant on veut savoir comment on peut avoir confiance en nos estimateurs

Retour à la sortie de régression

Analyse de la sortie de régression 1) Degré de liberté (df ou dof degree of freedom). dof résiduel = n (k+1) (on a utilisé (k+1) degrés de liberté en formant (k+1) estimateurs d'échantillons b 0, b 1,..., b k ) 2) Erreurs standard des coefficients : s b0, s b1,..., s bk ce sont juste les écarts-types des estimateurs b 0, b 1,..., b k Fait : avant d'observer b j et s bj, b j j s bj obéit à une distribution de Student (t-test) avec dof = (n - k - 1), de même que pour le dof résiduel on utilisera ce fait pour valider la qualité de nos estimateurs b j - quel est l'intervalle de confiance à 95% pour b j? - est-ce que l'intervalle contient 0? pourquoi tenons nous compte de cela?

3) t-statistic t j = b j s bj Une mesure de signification statistique de chaque individu xj pour expliquer la variabilité de y Soit c le nombre pour lequel P( -c < T < c ) = α % (par exemple 95%) où [-c, c] est l'intervalle de confiance ou CI (confidence intervalle), et T obéit à une t-distribution avec dof=(n-k-1) ; Si t j > c alors les α % de CI pour les b j ne contient pas 0. Dans ce cas, nous avons α% de confiance que β j est différent de zéro

Exemple : prime pour les cadres

Variables factices Souvent, quelques variables explicatives dans une régression sont catégorielles davantage que numériques. Si nous pensons que le fait que la possession d'un MBA affecte la prime pour un cadre alors on crée une variable factice en lui donnant 1 si le cadre possède un MBA et 0 sinon Si nous pensons que la saison de l'année influence les ventes, comment allons nous créer une variable factice? Combien? Que se passe-t-il si nous créons 4 variables factices? En général s'il y a m catégories auxquelles une variable x peut appartenir, alors on a besoin de créer m-1 variables factices pour celle-ci

Données OILPLUS

La pratique de la régression Choisir quelles variables indépendantes inclure dans le modèle, basé sur le sens commun et les connaissances spécifiques de contexte. Collecter les données (créer des variables factices au besoin). Faire tourner la régression (partie la plus facile) Analyser les résultats de sortie et changer le modèle (c'est là que se trouve l'action) Tester les résultats de sortie sur des données test

Checklist 1) Checklist statistique Calculer la corrélation entre paires de variables x identifier des preuves de multicolinéarité Vérifier le signe des coefficients (ont-ils un sens?) Vérifier 95% de CI (utiliser un statistique-t comme analyse rapide) est ce que les coefficients sont significativement différents de 0? R 2 critère de qualité mais pas la seule 2) Checklist résiduel normalité - jeter un oeil sur l'histogramme des résidus hétéroscédasticité - afficher les résidus pour chaque variable x Auto-corrélation : si les données ont un ordre naturel, afficher les résidus et rechercher des régularités.

Checklist - subsidiaire 1) linéarité : affichage en nuage (scatter plot), bon sens, et bien connaître votre problème, transformer en incluant des interactions si c'est utile. 2) t-statistique : est-ce que les coefficients sont significativement différents de zéro? Regarder la largeur des intervalles de confiance. 3) F-tests pour les sous-ensembles, égalité des coefficients. 4) R 2 : raisonnablement élevé dans le contexte. 5) Observations influentes, extrêmes de l'espace des prédicteurs, espace des variables dépendant 6) Normalité : afficher l'histogramme des résidus 7) Résidus studentisés (t-statistique) 8) Hétéroscédasticité : afficher les résidus avec chaque variable x, transformersi nécessaire, transformations Box-Cox 9) Auto-corrélation : «affichage en séries temporelles» 10) Multicollinéarité : calculer les corrélations des variables x, est ce que les signes des coefficients sont en accord avec votre intuition? Faire une analyse en composante principale. 11) Valeurs manquantes : quelle influence?