Questions pratiques 4: Transformer la variable dépendante



Documents pareils
Table des matières. I Mise à niveau 11. Préface

Intensité sonore et niveau d intensité sonore

Nombre dérivé et tangente

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

CAPTEURS - CHAINES DE MESURES

Représentation des Nombres

FONCTION DE DEMANDE : REVENU ET PRIX

Chapitre 0 Introduction à la cinématique

Chapitre 4 : Régression linéaire

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

TABLE DES MATIERES. C Exercices complémentaires 42

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Inégalités de salaires et de revenus, la stabilité dans l hétérogénéité

Précision d un résultat et calculs d incertitudes

Conversion d un entier. Méthode par soustraction

ELEC2753 Electrotechnique examen du 11/06/2012

Introduction à l étude des Corps Finis

Maple: premiers calculs et premières applications

K W = [H 3 O + ] [OH - ] = = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide

Informations détaillées pour l emploi du calculateur TCF sur le 2 e pilier

Chapitre 3. Les distributions à deux variables

Chapitre 1 Régime transitoire dans les systèmes physiques

ir value.com Le Fundamental Value Indicator

Plus courts chemins, programmation dynamique

CH X Intérêts composés - Amortissements

Chapitre 1 : Évolution COURS

I. Polynômes de Tchebychev

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

La fonction exponentielle

MÉTHODOLOGIE POUR LE CALCUL DE L AMORTISSEMENT ET DE LA VALEUR DU STOCK NET DOMICILIAIRE DIVISION DE L INVESTISSEMENT ET DU STOCK DE CAPITAL

Chapitre 4 - La valeur de l argent dans le temps et l'actualisation des cash-flows

Logiciel XLSTAT version rue Damrémont PARIS

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

Good practice: réduction individuelle des primes d assurance-maladie

L équilibre Ressources Emplois de biens et services schématisé par une balance

«Cours Statistique et logiciel R»

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

U102 Devoir sur les suites (TST2S)

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Coup de Projecteur sur les Réseaux de Neurones

Conseil économique et social

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes

4. L assurance maladie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Moments des variables aléatoires réelles

Régression linéaire. Nicolas Turenne INRA

Pacte de responsabilité et de solidarité. Observatoire de l économie de Seine-et-Marne Melun, le 16 juin 2014

Evaluation de l impact des indicateurs du. Cost of Doing Business sur le taux de croissance de Maurice

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

MESURE DE LA TEMPERATURE

Données longitudinales et modèles de survie

Chapitre 1 I:\ Soyez courageux!

TP 7 : oscillateur de torsion

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Mathématiques financières

Cours 9. Régimes du transistor MOS

Le montant des garanties constituées aux fins du STPGV est-il excessif?

1 Savoirs fondamentaux

Complément d information concernant la fiche de concordance

Statistiques à deux variables

Hypothèques Financement immobilier. Un seul partenaire pour votre hypothèque, votre prévoyance et votre assurance bâtiment

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Erreur statique. Chapitre Définition

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

3. Caractéristiques et fonctions d une v.a.

Publication de comptes financiers du secteur privé non-financier

Le modèle de régression linéaire

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Optimisation, traitement d image et éclipse de Soleil

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Quand arrive la retraite La rente de retraite du Régime de rentes du Québec et les autres sources de revenu à la retraite

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Economie Générale Initiation Ecole des Ponts - ParisTech

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Avec la MSA, préparez votre retraite en toute tranquillité

Mr le Depanneur. Le depanneur est un membre de la disposisition de secours financier Mr le Depanneur ayant un compte depanneur actif ou approuvé.

Retentissement de la réforme de l'ircantec 2008 sur la retraite des Praticiens Hospitaliers.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Codage d information. Codage d information : -Définition-

Portrait statistique de la population de représentant en épargne collective au Québec

0DWKpPDWLTXHVGHO DUJHQW. édité par Mr. G.Moumoulidis (OTE)

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

ANALYSE GÉNÉRALE - PROPOSITION DE CORRIGÉ. Exercice 1

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

I- Définitions des signaux.

Orange Money un service de paiement et de transfert d argent mobile pour l Afrique

Relation entre deux variables : estimation de la corrélation linéaire

Transcription:

Questions pratiques 4: Transformer la variable dépendante Jean-François Bickel Statistique II SPO8

Transformer une variable consiste en une opération arithmétique qui vise à construire une nouvelle variable à partir de la variable d origine, de sorte que la distribution de la nouvelle variable soit différente de celle de la variable d origine et plus conforme à certaines caractéristiques, tout en préservant l ordre des valeurs de la variable d origine 2

Habituellement, transformer une variable dépendante est peu recommandable, car cette opération a aussi pour effet de modifier la relation entre variable dépendante et variables indépendantes, ce qui est normalement considéré comme indésirable 3

Elle peut aussi rendre moins évidente l interprétation notamment dans le cas où les variables x et y réfèrent à des grandeurs de sens commun (le revenu, l âge, etc.) 4

Dans certains cas toutefois, la relation transformée apporte des avantages pour l interprétation et/ou offre une meilleure description du phénomène sous examen La transformation la plus courante pour une variable dépendante est de prendre son logarithme, le plus souvent le logarithme naturel, i.e. en utilisant la base e, qui vaut approximativement 2.71828 5

L équation de régression devient dès lors ln[e(y)] = α + β 1 x 1 + β 2 x 2 + β k x k avec ln[e(y)] = logarithme naturel de l espérance (moyenne) de y 6

Si on élève à l exponentielle les termes de l équation de chaque côté du signe égal, on obtient E(y) = exp (α + β 1 x 1 + β 2 x 2 + β k x k ) 7

Nota Bene Dans le cas d une transformation logarithmique, les valeurs de la variable d origine (avant transformation) doivent toutes être supérieure à zéro (log naturel de 0: pas possible), et il est préférable que la valeur minimale ne soit pas inférieure à 1 (log naturel de 1=0), ce qui permet d avoir des valeurs uniquement positives dans la nouvelle variable 8

Trois raisons peuvent rendre attractif un modèle avec log naturel de y plutôt que y comme variable dépendante 1) Certaines variables comme le salaire annuel ou le temps passé à regarder la télévision n ont jamais de valeurs négatives La transformation logarithmique garantit que quelque soit les valeurs des β et des x, la valeur prédite de y sera toujours positive 9

2) Dans le modèle linéaire usuel, l effet d augmenter une certaine variable x d une unité produit un certain changement en valeur absolue de y Dans le modèle logarithmique, l effet d augmenter une certaine variable x d une unité produit un certain changement en pourcent de y Ce qui peut faire davantage sens, par exemple pour les variables monétaires 10

Soit un modèle de régression de type ln[e(y)] = α + β 1 x 1 + β 2 x 2 + β k x k Une simple transformation des coefficients β permet de les convertir en changement exprimé en pourcent Cette transformation a la forme 100(e β 1) 11

3) Une troisième raison pour transformer la variable dépendante est que la nouvelle variable permette une meilleure description du phénomène sous examen Une illustration graphique peut aider à éclaircir ce point 12

Soit une variable X allant de 1 à 16 on lui fait subir deux transformations produisant deux nouvelles variables Y1 et Y2 i. Y1 = X ii. Y2 = [log10(x)] x 10 la valeur du log10 de X est multipliée par 10 pour une question d échelle 13

18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Y1 = X Y2 = [Log10(X)] x 10 X 14

On remarque que la pente de Y1 est constante par rapport aux valeurs de X lorsqu on passe de X=1 à X=2, Y1 augmente de 1; il en va de même quand on passe de X=15 à X=16 Pour Y3, la pente est variable; elle est plus forte pour les valeurs petites de X puis s atténue au fur et à mesure que X s accroît 15

Dans le cas d une variable avec une forte asymétrie à droite de sa distribution, une transformation logarithmique (log10 ou log naturel) a pour effet i. d accentuer l impact des différences de valeurs sur la gauche de la distribution, là où sont regroupés la majorité des observations 16

ii. de réduire l impact des différences de valeurs sur la droite de la distribution, là où on rencontre des observations peu nombreuses et éloignées des valeurs majoritaires Or, le revenu se caractérise précisément par un grand nombre d observations groupées sur la gauche de la distribution 17

Prendre le logarithme du revenu permet de donner comparativement plus de poids aux différences de revenus parmi le groupe majoritaire et de mieux différencier les situations en son sein Cela permet aussi de réduire le poids conféré aux valeurs extrêmes dans l estimation des paramètres du modèle de régression 18

On peut donc espérer que ce dernier se rapproche davantage des valeurs observées et offre une description plus fine du processus de formation du revenu 19

Exemple Transformation tout d abord de la variable revenu du travail en une nouvelle variable dont les valeurs représentent le logarithme naturel des valeurs originelles Syntaxe compute lognrev=ln(i05wy). exe. 20

Puis effectuation d une analyse de régression avec lognrev comme variable dépendante Par simplification, le modèle ne comprend que deux variables indépendantes, à savoir sexe et éducation (sans interaction) Comparaison enfin des résultats avec ceux de l exercice 6 21

Récapitulatif du modèle Avec i05wy Avec lognrev 22

Commentaire Le R 2 pour la variable dépendante revenu est de.265, alors que le R 2 pour la variable dépendante logarithme du revenu est.298 La transformation de la variable a permis d améliorer la qualité prédictive du modèle; celui-ci décrit mieux, se rapproche davantage des données observées 23

Coefficients Avec i05wy Avec lognrev 24

Commentaire Avec le logarithme du revenu, la direction des effets est similaire Par contre, leur interprétation est modifiée 25

Pour femmes, le coefficient s interprète à l aide de la transformation 100(e -.685-1) = -49.6% Donc, les femmes ont en moyenne un revenu du travail moitié moins élevé (49.6%) que les hommes, à niveau d éducation égal 26

Pour éducation, le coefficient s interprète à l aide de la transformation 100(e.157 1) = 17.0% Donc, chaque niveau d éducation supplémentaire accroît le revenu moyen de 17%, à sexe égal 27