Introduction à l analyse de régression. Jean-François Bickel Statistique II SP08

Documents pareils
Annexe commune aux séries ES, L et S : boîtes et quantiles

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à l approche bootstrap

Leçon N 4 : Statistiques à deux variables

Statistique : Résumé de cours et méthodes

Traitement des données avec Microsoft EXCEL 2010

Manuel d utilisation de Form@Greta

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Prise en main. août 2014

Procédure d installation de mexi backup

Valeur cible et solveur. Les calculs effectués habituellement avec Excel utilisent des valeurs numériques qui constituent les données d'un problème.

Utiliser le service de messagerie électronique de Google : gmail (1)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Microsoft Excel : tables de données

B-web V4 MANUEL D UTILISATION. Espace de travail. Clear2Pay Belgium SA B-web V4 Manuel d Utilisation: Espace de travail

FONCTION DE DEMANDE : REVENU ET PRIX

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

CAC, DAX ou DJ : lequel choisir?

SOMMAIRE AIDE À LA CRÉATION D UN INDEX SOUS WORD. Service général des publications Université Lumière Lyon 2 Janvier 2007

EXCEL et base de données

point On obtient ainsi le ou les points d inter- entre deux objets».

Fonctions de deux variables. Mai 2011

données en connaissance et en actions?

LES REGLEMENTS AVEC SOCIEL.NET DERNIERE MISE A JOUR : le 14 juin 2010

3 : créer de nouveaux onglets dans Netvibes Cliquer sur le bouton «+» et renommer le nouvel onglet (par exemple Encyclopédies en ligne)

DOCM Solutions officielles = n 2 10.

Les indices à surplus constant

Logiciel XLSTAT version rue Damrémont PARIS

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MANUEL DE L UTILISATEUR

Chapitre 6. Fonction réelle d une variable réelle

Coup de Projecteur sur les Réseaux de Neurones

Comment insérer une image de fond?

Modèle de calcul des paramètres économiques

Gestion des réunions dans Outlook 2007

TP 1. Prise en main du langage Python

< Atelier 1 /> Démarrer une application web

Manuel d'utilisation avec le superviseur ISCANSERVER et le client VEHICLE Network System

Gestion électronique des procurations

GUIDE ISAN: 7 Création d un ISAN In-Dev 1

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Cours 9. Régimes du transistor MOS

Chapitre 4 : Régression linéaire

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Consignes pour les travaux d actualité Premier quadrimestre

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Prêt de série et création de groupes d emprunteurs

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Transférer une licence AutoCAD monoposte

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

supérieure Vous ne connaissez pas le numéro de version de votre application?

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Ma conciliation bancaire ne balance pas

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

C2i Niveau 1 Enoncé Activité 1 UPJV

Excel 2007 Niveau 3 Page 1

Notice d utilisation

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Dossier I Découverte de Base d Open Office

[WINDOWS 7 - LES FICHIERS] 28 avril Logiciel / Windows

Séance 0 : Linux + Octave : le compromis idéal

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

Info0101 Intro. à l'algorithmique et à la programmation. Cours 3. Le langage Java

Guide concernant l accès au service TFP Internet pour les. notaires, institutions financières et les représentants légaux.

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

EXCEL Les tableaux croisés dynamiques

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Faire de la publicité sur GOOGLE AD-WORDS

GUIDE D UTILISATION ODT

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

EXCEL TUTORIEL 2012/2013

Guide d usage du portail périscolaire de la Ville de Lorient

MEGA ITSM Accelerator. Guide de démarrage

Création d'un identifiant Apple sans carte bancaire

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

SERVICES EN LIGNE DES SUBVENTIONS ET DES CONTRIBUTIONS

Saari PAIE SOMMAIRE

Utilisation du logiciel ModellingSpace

BACCALAURÉAT PROFESSIONNEL SUJET

Compte bancaire ou assurance vie? 5. Amortissement direct ou indirect?

L analyse boursière avec Scilab

CCP PSI Mathématiques 1 : un corrigé

Créer le schéma relationnel d une base de données ACCESS

Lecture critique et pratique de la médecine

LES TOUT PREMIERS PAS

Effectuer une sauvegarde avec Nero BackItUp

Modes Opératoires WinTrans Mai 13 ~ 1 ~

TABLETTE NUMÉRIQUE TACTILE - IPAD

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Excel 2010 Module 13. Comment créer un tableau d amortissement dégressif d une immobilisation. Enseignant : Christophe Malpart

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

MISE AU POINT FINANCIÈRE GUIDE DE L UTILISATEUR. Le logiciel MISE AU POINT FINANCIÈRE est offert sous licence par EquiSoft.

Le calcul du barème d impôt à Genève

Styler un document sous OpenOffice 4.0

Transcription:

Introduction à l analyse de régression Jean-François Bickel Statistique II SP08 1

I. Les opérations de la régression 1) Description a) de la relation entre une variable dépendante (y) et une ou plusieurs variables indépendantes (x) et la forme de cette relation b) de la force de la relation 2

2. Inférence, sur la base des données d échantillon, a) de la présence ou non d une relation entre une variable dépendante (y) et une ou plusieurs variable(s) indépendante(s) (x) au sein de la population, la forme et la force de cette relation b) de la valeur de y sur la base de la valeur d un ou plusieurs x 3

3. Inférence ou généralisation de type causale : déduire de l existence d une relation (association) entre x et y, que x est une (des) cause(s) de y On parle souvent dans ce cas de «l effet» de x sur y ou que x «explique» (une part de) y 4

II. Principes généraux 1. La régression est une méthode statistique visant à analyser la relation (association) entre une variable dépendante particulière et une ou plusieurs variables indépendantes Dans cette relation, la valeur de la variable dépendante (=y) est traitée comme étant fonction de la valeur de la ou des variable(s) indépendante(s) (=x) 5

En langage formel, y = f(x k ) pour k=1,2,3 variables indépendantes Supposons que l on s intéresse au revenu des personnes ; ce dernier peut être analysé comme étant fonction, par exemple, de l âge et du niveau d éducation des individus revenu=f(âge, éducation) 6

On parle de régression bivariée lorsqu il y a une seule variable indépendante par exemple, le revenu comme étant fonction de l âge uniquement de régression multiple lorsque sont considérées simultanément deux ou plus variables indépendantes par exemple, le revenu comme étant fonction à la fois de l âge et de l éducation 7

2. La relation entre la variable y et la ou les variable(s) indépendante(s) x est susceptible de prendre des formes très variées Cependant, de manière très générale, elle est traitée comme suivant une forme linéaire D où l expression de régression linéaire 8

On parle à ce propos de modèle En statistique, un modèle est une description (=un résumé) de la relation entre variables dans une population Un modèle de régression linéaire (ou simplement modèle linéaire) décrit la relation entre la variable y et la ou les variable(s) indépendante(s) x comme ayant la forme d une équation (linéaire) 9

Dans le modèle linéaire, la relation bivariée entre y et x est décrite (i.e. résumée) par l équation suivante : y=α + βx Si on reprend notre exemple, on pose donc : revenu= α + β(âge) 10

Selon cette équation, le revenu dépend linéairement de l âge I.e. le revenu varie d un terme constant, représenté par le coefficient β, pour chaque année d âge supplémentaire Autrement dit, la relation entre x et y est modélisée (=résumée) par une ligne droite dont la pente est β 11

Cette équation permet aussi de calculer un revenu prédit (ou estimé) pour chacun des âges concernés Ce revenu prédit (ou estimé) peut être plus ou moins différent du revenu effectivement observé au même âge 12

Supposons que dans notre exemple l équation ait la forme suivante (chiffres fictifs) : revenu = 20000 + (600 x âge) Cette équation nous dit que le revenu augmente de 600 Frs pour chaque année d âge additionnelle Le revenu prédit pour une personne âgée de 30 ans est de : 20000 + (600 x 30) = 38000 Frs 13

En généralisant aux cas avec plusieurs variables indépendantes, le modèle linéaire décrit (résume) la relation au moyen de l équation suivante y=α + β 1 x 1 + β 2 x 2 β k x k 14

Dans cette équation i. y est la variable dépendante ii. x 1, x 2 x k sont les variables indépendantes iii. α est un coefficient de valeur constante iv. β 1, β 2 β k sont les coefficients des variables indépendantes 15

Dans notre exemple, revenu= α + β 1 (âge) + β 2 (éducation) Selon cette équation, le revenu dépend linéairement de l âge et de l éducation Pour chacun des âges et pour chaque niveau d éducation, on peut calculer un revenu prédit (ou estimé), qui peut être plus ou moins différent du revenu effectivement observé au même âge ou pour le même niveau d éducation 16

Le revenu prédit varie d un terme constant, représenté par le coefficient β 1, pour toute année d âge supplémentaire, indépendamment de la relation existant entre revenu et niveau d éducation, et, inversement, il varie d un terme constant, représenté par le coefficient β 2, pour tout degré additionnel d éducation, indépendamment de la relation existant entre revenu et âge 17

Supposons que l équation ait la forme suivante (chiffres fictifs) : revenu = 18000 + (1000 x éducation) + (500 x âge) Cette équation nous dit que le revenu augmente de 500 Frs pour chaque année d âge additionnelle, et dans le même temps qu il augmente de 1000 Frs pour chaque niveau d éducation supplémentaire (par exemple mesuré en nombre d années d étude) 18

Ainsi, pour une personne âgée de 40 ans et qui a suivi 12 années d étude, le revenu prédit est de : 50000 = 18000 + (1000 x 12) + (500 x 40) 19

3. Jusqu à maintenant, nous avons raisonner sur les paramètres α et β comme si leurs valeurs étaient directement accessibles et mesurables Or, les paramètres α et β sont ceux de la population ou univers de référence Leurs valeurs sont inconnues, et doivent être estimées à partir des données observées (dans l échantillon) 20

La méthode dite des moindres carrés est la plus couramment utilisée pour estimer les paramètres de l équation de régression linéaire L équation des moindres carrés a, dans le cas de la régression bivariée, la forme ŷ = a + bx En généralisant à la régresion multivariée, on a ŷ = a + b 1 x 1 + b 2 x 2 +... b k x k 21

Les lettres a et b sont les coefficients de l équation de régression tels qu ils sont calculés à partir des données observées (=de l échantillon) De manière conventionnelle, on écrit ŷ afin d indiquer qu il s agit de la valeur prédite de y et non de sa valeur réellement observée 22

Un peu de terminologie Ce cours est dans sa plus grande part consacrée à une forme particulière de régression : la régression multiple linéaire des moindres carrés ordinaires multiple implique que l on fait intervenir deux ou plus variables indépendantes linéaire décrit le type d équation qui est estimée 23

moindres carrés réfère à la méthode utilisée pour estimer les paramètres de l équation de régression ordinaire se dit de la méthode d estimation la plus simple basée sur les moindres carrés ceci pour la distinguer de méthodes d estimation plus complexes basées sur les moindres carrés 24

III. La régression bivariée Après avoir posé quelques principes généraux de l analyse de régression, Entrons plus avant dans sa signification, utilisation et interprétation Pour cela, arrêtons-nous au cas le plus simple, celui de la régression bivariée 25

Partons d un exemple, emprunté à l ouvrage de Paul Allison, p. 8 (cf. référence complète dans la bibliographie du cours) La base de données est constituée de 35 individus pour lesquels on dispose de deux informations (variables) : le revenu annuel (en dollars) et l âge Le fichier de données se présente donc comme suit : 26

27

On s intéresse à déterminer dans quelle mesure le revenu varie en fonction de l âge Pour décrire cette relation, on peut commencer par faire un diagramme de dispersion (scatterplot) où les points représentent les observations (ici des individus) avec l âge en abscisse et le revenu en ordonnée Un tel diagramme est utile pour déterminer si la relation entre x et y est au moins approximativement linéaire 28

1. Pour cela, aller dans le menu Graphes Boîtes de dialogue héritées Dispersion/Points (Scatterplot) 29

30

2. Dans la fenêtre qui s affiche, cliquer sur Dispersion simple, puis sur Définir 3. Puis, dans la fenêtre qui s affiche, sélectionner les variables Revenu et Age et les faire glisser respectivement sous Axe Y et Axe X 4. Puis cliquer soit sur Ok pour faire exécuter directement l instruction, soit sur Coller pour l inscrire dans la fenêtre syntaxe ; dans ce dernier cas, lancer l exécution depuis la fenêtre syntaxe 31

32

33

34

On observe une tendance à l augmentation du revenu avec l âge Cela étant, cette relation est loin d être parfaite Remarquons aussi que la variation du revenu en fonction de l âge augmente avec ce dernier Sur un plan plus théorique, c est d ailleurs là un phénomène qui a été bien documenté par de nombreux travaux 35

Décrire la relation à l aide d une droite de régression semble donc adéquat L équation est de forme ŷ = a + bx Ou, en substituant y et x par les variables qui nous intéressent ici : revenu = a + b(âge) 36

L objectif est de déterminer les coefficients de l équation pour la droite de régression qui permette la meilleure approximation possible des données observées Pour cela, on peut procéder par essai et erreur en examinant successivement différentes équations pour la droite de régression 37

Ci-après, deux droites de régression sont ainsi représentées dans le même diagramme de dispersion que celui vu cidessus La première droite (ŷ=-12600+840x) est construite de façon à ce qu une personne encore à l école obligatoire (âge=15) ait 0$ de revenu, et qu un individu à l âge médian (38 ans) dispose d un revenu équivalent au revenu médian (21000$) 38

La seconde droite (ŷ=-20000+1000x) est construite de façon à avoir une pente plus forte, fixée arbitrairement à 1000, et qu une personne de 20 ans dispose d un revenu équivalent au revenu observé à cet âge (4000$) 39

40 y=-20000 + 1000x y=-12600 + 840x

Comme on le voit sur le diagramme, la valeur observée à un âge donné est plus ou moins éloignée de la valeur prédite pour ce même âge Pour un même âge, l écart entre valeur observée et valeur prédite n a pas la même ampleur selon que l on considère l une ou l autre des droites de régression 41

Sur la base des coefficients de l équation de régression, on peut calculer la valeur prédite de la variable dépendante (ŷ) pour tous les individus concernés Ces valeurs prédites sont généralement différentes des valeurs observées pour cette même variable y On peut calculer une erreur de prédiction, telle que erreur = valeur observée valeur prédite et ce pour tous les individus 42

Obs. 31 Obs. 27 43

Ainsi, en référence à la première droite de régression évoquée ci-dessus, on a pour l observation n 31 (âge=30) un revenu prédit («sur la droite») de 12600 et un revenu observé de 34000, soit une erreur de prédiction de 34000-12600=21400 Pour l observation n 27 (âge=65), un revenu prédit de 42000 et un revenu observé de 5000, soit une erreur de prédiction de 5000-42000=-37000 44

Il est dès lors possible de calculer la somme des erreurs de prédiction pour l ensemble des individus (observations) Mais, comme les erreurs de prédiction peuvent être positives (quand la valeur observée est plus grande que la valeur prédite) ou négatives (dans le cas inverse), elles s annulent 45

Pour tenir compte de ce fait, on élève au carré les erreurs de prédiction (qui dès lors deviennent toutes positives) L objectif reformulé est dès lors le suivant: déterminer des valeurs pour les coefficients de l équation de régression de telle sorte que la somme des carrés des erreurs de prédiction soit la plus petite possible 46

Par la démarche d essai et erreur esquissé ci-dessus, cela pourrait être long et fastidieux! Mais la méthode d estimation des moindres carrés permet d établir directement un tel résultat 47

Plus précisément, la méthode d estimation des moindres carrés permet d établir les valeurs pour les coefficients a et b de l équation de régression qui sont les plus efficientes pour prédire y Autrement dit, c est avec ces valeurs de coefficient que la somme des carrés des erreurs de prédiction est minimale 48

Les formules sont les suivantes : (x - x ) (y - y) b = (x - x ) 2 a = y -b x 49

En utilisant ces formules, on peut reprendre notre exemple est calculé les valeurs des coefficients a et b A l exemple du tableau ci-dessous : 50

... 51

Pour obtenir b, nous prenons simplement le ratio des deux dernières colonnes b = 3559600 / 6796.17 = 523.76 Ce dernier chiffre nous indique qu à chaque année supplémentaire d âge est associé un accroissement de 524$ 52

Pour obtenir a, on calcule a = 25200 (523.76 * 41.77) = 3323 L équation finale est donc ŷ = 3323 + 523.76x 53

Nota Bene Dans l argument développé ici, nous avons parlé d erreurs de prédiction Mais on trouve aussi les expressions équivalentes de valeurs résiduelles ou encore de résidus 54

IV. La régression avec SPSS 55

56

57

58

59

60

Sous forme de syntaxe REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Revenu /METHOD=ENTER Age. * alternativement, les statistiques demandées * peuvent s écrire * /STATISTICS DEFAULTS CI 61

Quelques indications sur l interprétation des résultats fournis par SPSS Sans demande additionnelle, SPSS fournit «en standard» trois tableaux de résultats A. «Récapitulatif du modèle» B. «ANOVA» C. «Coefficients» 62

Donnons quelques éléments d interprétation à leur propos N.B. Par souci d uniformiser le langage de présentation, là où SPSS utilise des majuscules, j utilise des minuscules par exemple quand SPSS écrit «R», il faut lire «r» 63

Tableaux de résultats dans SPSS A. «Récapitulatif du modèle» Modèle 1 Récapitulatif du modèle Erreur standard de R R-deux R-deux ajusté l'estimation.379 a.144.118 18326.338 a. Valeurs prédites : (constantes), Age 64

A. Dans le premier tableau de résultats nommé «Récapitulatif du modèle», figurent notamment les éléments suivants : 1) Une valeur appelée r : elle est, dans le cas d une régression bivariée, rien d autre que le coefficient de corrélation entre x et y r mesure la force de la relation (association) 65

2) Une valeur baptisée «r-deux», qui doit se lire r 2 («r carré»), et que l on appelle également coefficient de détermination Dans une régression bivariée, c est aussi une mesure de la force de la relation entre x et y On l utilise surtout comme mesure de la qualité du modèle (fit), i.e. le degré auquel celui-ci se rapproche des données observées 66

L idée de base du r 2 est qu il mesure la différence entre deux grandeurs i. la somme des carrés des erreurs de prédiction produits par une équation des moindres carrés sans aucune variable indépendante, i.e. avec seulement la constante, qui est alors égale à la moyenne de y (E 1 ) ii. la somme des carrés des erreurs de prédiction produits par l équation des moindres carrés sous inspection (E 2 ) 67

Cette différence, exprimée sous forme de proportion, renvoie à l amélioration de la prédiction due au fait qu on tient compte de x Exprimé en formule, cela donne: r 2 = (E1-E2) / E1 68

Nota Bene Ces éléments portant sur r et r 2 sont repris et développés dans le document «Introduction à l analyse de régression (2)» 69

Tableaux de résultats dans SPSS B. «ANOVA» Modèle 1 Régression Résidu Total ANOVA b Somme des carrés ddl Carré moyen F Signification 1.86E+009 1 1864395608 5.551.025 a 1.11E+010 33 335854679 1.29E+010 34 a. Valeurs prédites : (constantes), Age b. Variable dépendante : Revenu 70

B. Dans le tableau intitulé «Anova» figurent notamment 1) Les valeurs pour les sommes des erreurs de prédiction (évoquées cidessus) 71

2) Le résultat d un test (F) selon lequel l ensemble des coefficients des x sont égales à zéro I.e. un test de l absence de toute relation entre x et y, auquel cas le modèle n est tout simplement pas «meilleur» que celui où ne figure aucun x 72

Nota Bene Nous revenons plus longuement sur ces éléments, ainsi que les autres informations contenues dans le tableau «ANOVA», dans le document «Introduction à l analyse de régression (2)» 73

Tableaux de résultats dans SPSS C. «Coefficients» Modèle 1 (constante) Age a. Variable dépendante : Revenu Coefficients non standardisés Coefficients a Coefficients standardisés Intervalle de confiance à 95% de B Erreur Borne Borne B standard Bêta t Signification inférieure supérieure 3321.568 9788.939.339.737-16594.18 23237.315 523.765 222.302.379 2.356.025 71.488 976.042 74

C. Dans le tableau «Coefficients» figurent les éléments suivants : 1) Dans la colonne intitulée «B», la valeur du coefficient b dans l équation de régression 75

Le signe du coefficient b donne le sens de la relation (ici entre âge et revenu) si b > 0, la relation est positive : y croît quand x croît si b < 0, la relation est négative : y décroît quand x croît si b=0, il y a absence de relation 76

La valeur du coefficient b dépend de l échelle de mesure de x Généralement, on ne donc pas déduire de la valeur du coefficient la force de la relation (association) On ne peut comparer entre elles deux valeurs de coefficient que si l échelle de mesure des variables x est identique 77

2) La valeur sous «Beta» est celle du coefficient b de l équation de régression lorsqu on standardise («score de z»), les valeurs de x et de y la relation entre x et y est dès lors exprimée en termes d écart type et non plus par rapport aux échelles originelles Se lit «de combien varie y en termes d écart type lorsque x augmente d un écart type» 78

Ce coefficient standardisé est une mesure de la force de la relation entre x et y Dans le cas d une régression bivariée, cette valeur est égale au coefficient de corrélation entre x et y, indiquée dans le tableau «Récapitulatif du modèle» 79

3) L erreur standard (se), qui est une mesure de la variation de la valeur du coefficient b dans la population 80

4) La valeur t, qui est égale au ratio b / se Cette valeur renvoie à un test de t (avec un degré de liberté) selon lequel la valeur du coefficient β dans la population est égale à 0 Autrement dit, on teste l hypothèse d indépendance selon laquelle il y a une absence de relation entre x et y dans la population 81

5) La valeur p donne le résultat du test de t exprimé sous forme de probabilité 82

6) L intervalle de confiance, indiquant la borne inférieure et la borne supérieure entre lesquelles se trouve, selon toute probabilité (à 95%), la valeur du coefficient β dans la population Avec les valeurs de l intervalle de confiance, on peut aussi et du même coup de calculer un éventail de valeurs prédites pour y dans la population 83

Nota Bene Les éléments évoqués sous le point 2) se rapportent à la mesure de la force de la relation Ceux évoqués sous les points 3) à 6) se réfèrent à l inférence statistique, i.e. l estimation des valeurs dans la population sur la base des valeurs dans l échantillon Ces deux composantes de la régression sont repris et développés dans le document «Introduction à l analyse de régression (2)» 84

7) Le coefficient pour la constante (colonne «B») Souvent, il ne s interprète pas Il se rapporte en effet à la valeur de y quand x=0 85

Dans notre cas, comme souvent, cela réfère à une situation irréelle ou absurde (ici au revenu des personnes ayant 0 années d âge!) On doit néanmoins tenir compte de la valeur du coefficient si on souhaite prédire la valeur de y 86