Année académique 2011-2012 STAT-S-308 ECONOMETRIE APPLIQUEE A LA GESTION Titulaire : Catherine DEHON Exercices (Partie informatique) : 1 ère Partie : Régression multiple 2 ème Partie : Séries Chronologiques 3 ème Partie : Modèles Logit et Probit Assistants : Alice McCathie (Alice.Mc.Cathie@ulb.ac.be) Benoît Dewaele (Benoit.Dewaele@ulb.ac.be) 1
Exercice 1- Le prix des Maisons REGRESSION MULTIPLE Considérons les données suivantes relatives au prix d'achat de maisons en fonction de différentes variables (cf légende ci-dessous). PRICE BDR FLR FP RMS ST LOT BTH GAR 53 2 967 0 5 0 39 1.5 0 55 2 815 1 5 0 33 1 2 56 3 900 0 5 1 35 1.5 1 58 3 1007 0 6 1 24 1.5 2 64 3 1100 1 7 0 50 1.5 1.5 44 4 897 0 7 0 25 2 1 49 5 1400 0 8 0 30 1 1 70 3 2261 0 6 0 29 1 2 72 4 1290 0 8 1 33 1.5 1.5 82 4 2104 0 9 0 40 2.5 1 85 8 2240 1 12 1 50 3 2 45 2 641 0 5 0 25 1 0 47 3 862 0 6 0 25 1 0 49 4 1043 0 7 0 30 1.5 0 56 4 1325 0 8 0 50 1.5 0 60 2 782 0 5 1 25 1 0 62 3 1126 0 7 1 30 2 0 64 4 1226 0 8 0 37 2 2 66 2 929 1 5 0 30 1 1 35 4 1137 0 7 0 25 1.5 0 38 3 743 0 6 0 25 1 0 43 3 596 0 5 0 50 1 0 46 2 803 0 5 0 27 1 0 46 2 696 0 4 0 30 2 1 50 2 691 0 6 0 30 1 2 65 3 1023 0 7 1 30 2 1 PRICE = Prix de vente de la maison en milliers de dollars, BDR = Nombre de chambres à coucher, FLR = Superficie totale (calculée à partir des dimensions de chaque pièce et augmentée de 10%, calculée en pieds carrés), FP = nombre de cheminées, RMS = nombre de pièces, ST = fenêtres tempêtes (1 si oui, 0 sinon), LOT = largeur de facade (en pieds), BTH = nombre de salles de bains, GAR = taille du garage (0 si pas de garage, 1 si un garage pour 1 voiture,...), (Source : Mr. Terry Tasch of Long-Kogan Realty, Chicago reproduced in A., Sen and M. Srivastava, Regression analysis. Theory, Method, and Applications, Springer Verlag 1990, p. 32) 2
Questions: 1. Ecrivez l équation du modèle. ESTIMATION 2. Donnez les estimations des paramètres du modèle et interprétez. 3. Estimez le prix de vente moyen d une maison de mille pieds carrés en surface habitable, 40 pieds de façade, 8 pièces, 4 chambres à coucher, 2 salles de bains, avec volets, avec un garage pour une voiture et sans cheminée. 4. Quel serait le coût moyen estimé d une place supplémentaire dans le garage, toutes choses restant égales par ailleurs. 5. Quel serait le coût moyen estimé d une augmentation de 1 pied carré de surface habitable, toutes choses restant égales par ailleurs. 6. Discutez le signe du coefficient associé à la variable BDR. 7. Interprétez la valeur du coefficient associé à la variable ST. 8. Examinez brièvement les sorties graphiques concernant les résidus et détectez d éventuelles violations des hypothèses classiques. TESTS ET INTERVALLES DE CONFIANCE (niveau 5 %) 9. Testez l hypothèse que l ensemble des variables retenues dans ce modèle n ont aucun effet sur le prix de vente d une maison. 10. Testez indépendamment les hypothèses de nullité de chacun des coefficients de régression du modèle. Que représente les valeurs dans la colonne 2-tail signification? 11. Proposez un modèle en ne retenant que les variables dont les coefficients de régression du modèle ci-dessus sont significativement différents de zéro. Pensez-vous que tous les coefficients de ce nouveau modèle seront tous significativement différents de zéro? 12. Donnez un intervalle de confiance approximatif pour chaque coefficient du modèle indépendamment. 3
Exercice 2- Le prix des MBA Une problématique importante liée aux programmes MBA est l'absence de régulation étatique dans ce secteur. En effet, le seul organe jouant ce rôle est l'aacsb (the Association to Advance Collegiate Schools of Business) qui n'a pas pour rôle de faire appliquer des règles, mais seulement d'informer le public de certains critères considérés comme essentiels. Il en résulte donc une grande diversité dans les méthodes, les cours et les objectifs des différents MBA. Quels sont donc les facteurs qui permettent d expliquer les prix des MBA? La base de données MBA.txt va vous permettre d'étudier les caractéristiques qui expliquent la formation des prix des Masters in Business Administration (MBA) à travers le monde. Les variables sont les suivantes: 1. NOM : nom de l université. 2. MIN : prix d inscription à charge de l étudiant pour la totalité du MBA. (VARIABLE REPONSE) 3. Variables des régions (US, EU et RDM) : variables binaires qui vaut 1 si l université se trouve aux Etats-Unis, en Europe ou dans le reste du monde respectivement. 4. AASCB : variable binaire égale à 1 si le programme MBA est accrédité par cette association. 5. NBRETUD : nombre d étudiants inscrits dans le programme MBA de l université. 6. TYPEE : variable binaire égale à 1 si l institution qui organise le programme est privée et 0 si elle est publique. 7. DCP : année de création des différentes institutions universitaires. 8. PF : pourcentage d étudiants de sexe féminin présents au programme par rapport au total d étudiants inscrits. 9. PE : pourcentage d étudiants étrangers présents au programme par rapport au total d étudiants inscrits. 10. AGE : âge moyen des étudiants participant au programme. 11. GMIN : score minimum au GMAT 1 demandé comme critère d admission. Note : Dans la base figure aussi les variables quantitatives transformées en ln. 1 Le Graduate Management Admission Test (GMAT) est un examen en anglais qui mesure les compétences et qui sert à tester l aptitude à étudier le management 4
Questions: 1. Ecrivez l équation du modèle complet (sans le nom de l université). Avant de travailler sur les données, proposez un signe pour chacun des paramètres de régression. Expliquez très brièvement pourquoi vous attendez-vous à obtenir ces signes. 2. Importez les données dans SAS. Pourquoi effectuer la régression avec les variables en log? Comment interpréter la valeur du coefficient dans ce modèle où les variables quantitatives sont toutes exprimées en log (modèle log-log)? 3. A l aide de SAS, effectuez la régression du modèle Comparez les signes des coefficients à votre réponse à la question 1. Expliquez brièvement si vous pensez qu il est possible que notre modèle ait des problèmes de multicolinearité. 4. Testez l'hypothèse que l'ensemble des variables retenues dans le dernier modèle n'ont aucun effet sur la formation des prix des MBA 5. Construisez un nouveau modèle en utilisant la méthode «step-by-step» vue au cours théorique. Est-ce que les variables éliminées sont les mêmes que vous auriez éliminé intuitivement? Si non, est-ce que vous les élimineriez quand même? 6. Utilisez les méthodes graphiques pour vérifier les hypothèses classiques sur les erreurs. 7. Effectuez une analyse des résultats de la dernière régression estimée (valeur et signe des 2 coefficients, interprétation, pertinence des variables, R et R 2 ajusté). 8. En vous basant sur le modèle obtenu au point 6, estimez le prix d un MBA avec les caractéristiques suivantes : université européenne privée, non affiliée à l AASCB, avec 300 étudiants d une moyenne d âge de 29 ans, avec 30% sont étrangers et dont le GMAT min demandé est de 500 points. 5
Exercice 3- Les meurtres aux USA Le fichier DEMO.TXT contient des données démographiques éparses concernant es 50 états américains. Les données sont organisées de la manière suivante : HS : nombres de diplômés d école supérieure par 1000, CR : taux de criminalité par 100.000 habitants, MT : nombre de meurtres par 100.000 habitants, PR : nombre de prisonniers par 100.000 habitants, RP : pourcentage de votants pour le candidat républicain aux élections présidentielles, VT : taux de participation aux élections présidentielles parmi les personnes en âge de voter, PH : nombre de raccordements téléphoniques par 100 habitants (1979), INC : revenu moyen par individu en dollars en 1972, PL : fraction de la population en dessous du seuil de pauvreté. Si non stipulé, ces données sont relatives à l année 1980. Source Sen and Srivastava. i.d. pp 55-56. Questions: 1. Récupérez les données, contenues dans un fichier TXT, dans le logiciel SAS. 2. Faites une régression multiple avec MT comme variable dépendante et inclure toutes les variables indépendantes. Commentez les résultats obtenus. Certaines des variables indépendantes ont peut-être peu d effet sur MT ou mesurent essentiellement le même effet (redondance). Si vous détectez de telles variables, supprimez-les et refaites tourner le modèle. 3. Essayez le modèle MT en fonction de INC, PL et VT. Comparez les résultats avec les précédents. Pouvez-vous expliquer ce que vous observez? 6
Exercice 4- Le trafic de véhicules On désire étudier la relation qui existe entre la vitesse moyenne d un flot de véhicules et la densité du trafic sur une route donnée. Les données sont fournies dans le tableau suivant: Densité du trafic (véhicules / minute) Vitesse moyenne (miles / heure) 20.4 38.8 27.4 31.5 106.2 10.6 80.4 16.1 141.3 7.7 130.9 8.3 121.7 8.5 106.5 11.1 130.5 8.6 101.1 11.1 123.9 9.8 144.2 7.8 29.5 31.8 30.8 31.6 26.5 34.0 35.7 28.9 30.0 28.8 106.2 10.5 97.0 12.3 90.1 13.2 106.7 11.4 99.3 11.2 107.2 10.3 109.1 11.4 A l aide du logiciel SAS, proposez une relation permettant de modéliser la vitesse uniquement en fonction de la densité du trafic. Questions: 1. Estimez le modèle : vitesse = β 0 + β 1 densité. Examinez les résidus à la lumière des hypothèses classiques. 2. Estimez le modèle : vitesse = β 0 + β 1 densité + β 2 densité 2. Comparez ce modèle au précédent. Examinez les résidus, en particulier l hypothèse d homoscédasticité. 3. Examinez l effet au niveau des résidus des transformations stabilisatrices de variance suivantes : a) y log(y) b) y y Faites un choix entre les deux transformations ou, au besoin, proposez une transformation alternative. 4. Proposez une relation entre la vitesse et la densité du trafic. 7
Exercice 5- Les appareils électroménagers (supplémentaire) Un fabriquant d appareils ménagers souhaiterait analyser la relation entre ses ventes totales et les budgets publicitaires relatifs aux trois types de médias (télévision, radio et magazines). Les 3 premières colonnes du tableau suivant contiennent les budgets publicitaires, par type, pour 10 périodes sélectionnées au hasard. La quatrième colonne contient les ventes totales. Toutes les données sont exprimées en millions de dollars. TV MAG RAD VENTES 8.3 4.4 6.1 361.1 6.3 4.2 4.9 344.0 9.9 5.9 6.3 377.9 9.4 3.3 6.1 371.5 10.4 2.7 5.2 365.4 9.0 3.5 5.1 364.5 9.2 4.1 6.0 372.9 10.6 4.8 6.4 379.4 9.3 4.2 5.5 362.6 10.5 6.0 5.9 387.5 Nous proposons d effectuer une analyse de régression, avec l aide du logiciel SAS, où les budgets publicitaires de télévision (TV), magazine (MAG), et radio (RD) seront considérés comme régresseurs (variables explicatives), et les ventes (VEN) comme variable dépendante. Supposons que les variables prises en considération satisfont aux conditions classiques. Questions: 1. Effectuez la régression et interprétez les résultats obtenus. 2. Donnez l écart-type (standard erreur) des estimateurs et interprétez. 3. Au seuil de signification 5%, est-ce que le modèle choisi, basé sur les 3 variables TV, RAD et MAG, explique correctement les ventes? (soyez précis dans votre réponse) 4. Mêmes questions que précédemment si on ne considère que la variable TEL. 4. Mêmes questions que précédemment si on ne considère que la variable RAD. 5. Donnez une estimation de la moyenne des ventes si on suppose que les dépenses publicitaires sont respectivement de $9.5 millions pour TV, de $4.3 millions pour MAG et de $5.2 millions pour RAD. 6. Donnez un intervalle de confiance, au niveau 5%, pour les ventes moyennes quand les dépenses publicitaires sont respectivement de $9.5 millions pour TV, de $4.3 millions pour MAG et de $5.2 millions pour RAD. 7. Déterminez la prévision de ventes quand les dépenses publicitaires sont respectivement de $9.5 millions pour TV, de $4.3 millions pour MAG et de $5.2 millions pour RAD. 8. Donnez un intervalle de prévision, au niveau 5%, pour les ventes, quand les dépenses publicitaires sont respectivement de $9.5 millions pour TV, de $4.3 millions pour MAG et de $5.2 millions pour RAD. 8
Exercice 6- Le prix des corvettes (supplémentaire) Dix Corvettes (célèbre voiture américaine) d âge compris entre 1 an et 6 ans ont été sélectionnées au hasard par The Arizona Republic (Vlan local). Pour chaque voiture on connaît l âge (AGE), le nombre de miles (MIL) parcourus et le prix (PRI). Le tableau suivant contient les données. AGE (ans) MIL(milliers) PRI ($100s) 6 36 125 6 36 115 6 36 130 2 22 260 2 5 219 5 31 150 4 22 190 5 39 163 1 9 260 4 27 160 Nous proposons d effectuer une analyse de régression, avec l aide du logiciel SAS, où les variables AGE et MIL seront considérées comme prédicteurs pour la variable PRI. Supposons que les variables prises en considération satisfassent aux conditions classiques. Questions: 1. Effectuez la régression et interprétez les résultats obtenus. 2. Donnez l écart type des estimateurs et interprétez. 3. Au seuil de signification 5%, pensez vous que le modèle choisi, contenant les 2 variables AGE et MIL, prédit correctement le prix (PRI)? 4. Même question mais en supposant que le modèle ne contient que la variable AGE? Soyez précis dans votre conclusion. 5. Répétez la même question mais en supposant que le modèle ne contient que la variable MIL? Qu en est-il si le seuil est porté à 10%? 6. Déterminez une estimation du prix moyen des Corvettes qui ont 4 ans d âge et ont parcouru 28.000 miles. 7. Calculez un intervalle de confiance (au niveau 5%) pour le prix moyen des Corvettes qui ont 4 ans d âge et ont parcouru 28.000 miles. 8. Déterminez la prévision pour une Corvette quelconque (au hasard) qui a 4 ans d âge et a parcouru 28.000 miles. 9. Donnez un intervalle de prévision (au niveau 5%) pour le prix d une Corvette qui a 4 ans d âge et a parcouru 28.000 miles. 9
Exercice 7- La consommation de carburant (supplémentaire) On souhaiterait prédire la consommation de carburant (mesuré en gallons / 100 miles), on dispose des variables suivantes : 1.COU : Nationalité du constructeur 2.CAR: nom et type 3.MPG: Miles per gallon, une mesure de consommation 4.DRI: rapport de vitesse 5.HOR: puissance 6.DIS : volume du véhicule (en cubic inches) 7.CYL: le nombre de cylindres 8.WEI : le poids Les données que nous disposons ont été collectées par un organisme de consommateur au cours d un test sur route en suivant les recommandations de maintenance données par les constructeurs de chaque véhicule. Nous avons codé la variable COU afin de pouvoir la lire avec SAS suivant la règle suivante : US=1 Japan=2 Germany=3 Sweden=4 France=5 Italy=6 La variable CAR représente le numéro d observation et vous aidera à déterminer le nom des véhicules. Questions: 1. Dans un premier temps, étudiez les corrélations existant entre toutes les variables (mis à part CAR). Discutez et citez les variables les plus corrélées entre elles. 2. On propose de partir du modèle suivant : MPG = β 1 WEI + β 2 DRI + β 3 HOR + β 4 DIS + β 5 CYL + β 6 + ε Effectuez à l aide de SAS les régressions, jusqu à obtenir un modèle où tout les coefficients sont significativement différents de zéro (méthode rétroactive : supprimez une à une les variables les moins non-significatives (au seuil 10%)). 3. On considère le modèle suivant : MPG = β 1 WEI + β 2 DRI + β 3 + ε Effectuez une analyse complète de la dernière sortie disponible (valeur des coefficients, interprétation, pertinence des variables, analyse des résidus, R2, Durbin-Watson). 4. Une des valeurs des résidus semble être aberrante. Précisez laquelle et interprétez. 5. Expliquez comment inclure la variable COU dans le modèle. Nom du fichier de données: CARS.TXT disponible sur le serveur habituel. 10
Voici les données : COU CAR MPG WEI DRI HOR DIS CYL U.S. Buick Estate Wagon 16.9 4.360 2.73 155 350 8 U.S. Ford Country Squire Wagon 15.5 4.054 2.26 142 351 8 U.S. Chevy Malibu Wagon 19.2 3.605 2.56 125 267 8 U.S. Chrysler LeBaron Wagon 18.5 3.940 2.45 150 360 8 U.S. Chevette 30.0 2.155 3.70 68 98 4 Japan Toyota Corona 27.5 2.560 3.05 95 134 4 Japan Datsun 510 27.2 2.300 3.54 97 119 4 U.S. Dodge Omni 30.9 2.230 3.37 75 105 4 Germany Audi 5000 20.3 2.830 3.90 103 131 5 Sweden Volvo 240 GL 17.0 3.140 3.50 125 163 6 Sweden Saab 99 GLE 21.6 2.795 3.77 115 121 4 France Peugeot 694 SL 16.2 3.410 3.58 133 163 6 U.S. Buick Century Special 20.6 3.380 2.73 105 231 6 U.S. Mercury Zephyr 20.8 3.070 3.08 85 200 6 U.S. Dodge Aspen 18.6 3.620 2.71 110 225 6 U.S. AMC Concord D/L 18.1 3.410 2.73 120 258 6 U.S. Chevy Caprice Classic 17.0 3.840 2.41 130 305 8 U.S. Ford LTD 17.6 3.725 2.26 129 302 8 U.S. Mercury Grand Marquis 16.5 3.955 2.26 138 351 8 U.S. Dodge St Regis 18.2 3.830 2.45 135 318 8 U.S. Ford Mustang 4 26.5 2.585 3.08 88 140 4 U.S. Ford Mustang Ghia 21.9 2.910 3.08 109 171 6 Japan Mazda GLC 34.1 1.975 3.73 65 86 4 Japan Dodge Colt 35.1 1.915 2.97 80 98 4 U.S. AMC Spirit 27.4 2.670 3.08 80 121 4 Germany VW Scirocco 31.5 1.990 3.78 71 89 4 Japan Honda Accord LX 29.5 2.135 3.05 68 98 4 U.S. Buick Skylark 28.4 2.670 2.53 90 151 4 U.S. Chevy Citation 28.8 2.595 2.69 115 173 6 U.S. Olds Omega 26.8 2.700 2.84 115 173 6 U.S. Pontiac Phoenix 33.5 2.556 2.69 90 151 4 U.S. Plymouth Horizon 34.2 2.200 3.37 70 105 4 Japan Datsun 210 31.8 2.020 3.70 65 85 4 Italy Fiat Strada 37.3 2.130 3.10 69 91 4 Germany VW Dasher 30.5 2.190 3.70 78 97 4 Japan Datsun 810 22.0 2.815 3.70 97 146 6 Germany BMW 320i 21.5 2.600 3.64 110 121 4 Germany VW Rabbit 31.9 1.925 3.78 71 89 4 Référence: Henderson, H. V. and Velleman, P. F. (1981), "Building Regression Models Interactively." Biometrics, 37, 391-411. Data originally collected from Consumer Reports. Authorization: Contact Consumer Reports Description: Measurements on 38 1978-79 model automobiles. The gas mileage in miles per gallon measured by Consumers' Union on a test track. Other values as reported by automobile manufacturer. Number of cases: 38 as 11
Exercice 1- Chiffres d affaires SERIES CHRONOLOGIQUES Les données à étudier proviennent de l Annuaire Statistique de la Belgique. Il s agit de l indice du chiffre d affaire mensuel des grands magasins à rayons multiples dans le rayon alimentaire sur la période s étendant de janvier 1978 à décembre 1990. Le fichier contenant la série brute (notée : Z t ) porte le nom de MAG.TXT, il se trouve sur le disque E. Recopiez-le sur votre disque H. Nous allons étudier cette série sur une période s étendant de janvier 1978 à juin 1990 (les 6 dernières données seront réservées pour mesurer la qualité des prévisions fournies par les différents modèles). a. Etude préliminaire. - Importation des données et creation d'un compteur de temps - Représentation des données - Obtenir les corrélogrammes et placer les valeurs des autocorrelations dans la base de données que nous décidons d'appeler "magacov". b. Stationnarisation de la série. - Stabilisation de la variance : Nous proposons tout d abord (sur base de l étude préliminaire), la transformation logarithmique suivante : X log Z t t Cette transformation stabilise quelque peu la variance, mais le corrélogramme et corrélogramme partiel des résidus sont semblables à ceux de la série initiale - Stabilisation de la moyenne et traitement de la saisonnalité. On propose de différencier la série transformée : Y t ( 1 B) X. t On voit que cette transformation stabilise quelque peu la tendance, mais que le corrélogramme et corrélogramme partiel des résidus comportent encore des valeurs significatives aux délais 1, 11, 12, 13, 24, 25, 35, 36, 37 ce qui témoigne un phénomène saisonnier important (de période 12). On propose d appliquer une différenciation saisonnière sur la série transformée: 12 W ( 1 B ) Y t t Peut-on conclure que la série transformée W ( 1 B 12 )( 1 B)log Z est stationnaire? t t 12
c. Spécification et estimation Nous allons utiliser la série dslmag : Wt ( 1 B 12 )( 1 B)log Zt (série stationnaire). Sur base des corrélogramme et corrélogramme partiel, proposez un ou plusieurs modèles candidats. Si après estimation du modèle on voit que la constante est non significative, il est inutile de la laisser dans le modèle. Nous ne parlerons pas ici des valeurs extrêmes ou aberrantes. Choix de la méthode: Vous pouvez maintenant préciser les paramètres que vous voulez estimer. Par exemple, pour estimer un SARiMA(2,1,0)(0, 1, 1)12, sur la série lmag, d. Validation du modèle Cette dernière étape est essentielle. Pour chaque modèle estimé, vous devez tester si les résidus forment un bruit blanc. Pour ce faire regardez le correlogramme des résidus qui doit être celui d'un bruit blanc. Les critères AIC et Schwartz doivent être les plus petits possibles. Indication: Nous proposons dans l ordre les modèles suivants: AR(2), SARIMA ( 2, 0, 0)( 0, 0, 1) 12 et SARIMA ( 2, 0, 0)( 1, 0, 0) 12 pour W t. Trouvez comment obtenir les paramètres estimés. Justifiez le choix de ces modèles, déterminez les valeurs des coefficients de chaque modèle estimé et donnez les résultats de validation. Quel modèle vous paraît le mieux représenter la série? 13
Exercice 2-Assurances vie (Mélard p 406) Les données du fichier ASSVIE.TXT sont relatives à la production d assurances sur la vie dans la branche vie-individuelle, pour une grande compagnie. Il s agit du nombre de propositions enregistrées diminué du nombre d affaires classées sans suite pour une raison quelconque. La période de temps étudiée s étend de janvier 1964 à décembre 1980. Il faut noter que le mois de décembre connaît une production plus élevée que la normale à cause du système de rémunération des producteurs. En effet, plusieurs catégories ont été établies, délimitées par des planchers et des plafonds de production. Le passage à une catégorie supérieure procure des avantages intéressants. En revanche, le début de l année, et particulièrement le mois de janvier, est souvent creux pour deux raisons: d une part, le nombre d affaires sans suite est important, et d autre part, les producteurs ont tendance à se remettre des efforts consentis. Analysez ces données. 14
MODELES LOGIT ET PROBIT Exercice 1- Offre de travail des femmes mariées (exemple de devoir) Les données sont constituées de 753 observations de 19 variables, relatives à des femmes blanches mariées qui avaient entre 30 et 60 ans en 1975 (année où l on a récolté les données). Le fichier MROZ.TXT est disponible dans le répertoire habituel E:\. Ce fichier est en format texte. Les séries sont rangées par observation. Liste des variables dans le fichier (dans l ordre): LFP WHRS KL6 K618 WA WE WW RPWG HHRS HA HE HW FAMINC MTR WMED WFED UN CIT AX. Les 428 premières observations sont relatives aux femmes qui ont travaillé durant l année 1975 (le nombre d heures de travail est positif). Elles constituent ce que nous appellerons l échantillon E1. Les 325 dernières observations concernent les femmes qui n ont pas travaillé durant cette année. Elles constituent ce que nous appellerons l échantillon E2. Les variables intervenant dans les modèles étudiés sont les suivantes: - LFP (Labor Force Participation) est une variable indicatrice qui vaut 1 si la femme a travaillé en 1975 et 0 sinon. - WHRS (Wife HouRS of work) est une variable quantitative discrète qui compte le nombre d heures de travail de chaque femme. - KL6 indique le nombre d enfants du ménage qui ont moins de 6 ans. - K618 indique le nombre d enfants du ménage qui ont entre 6 ans et 18 ans. - WA (Wife Age) est une variable quantitative discrète indiquant l âge de la femme au moment de l enquête, en années. - WE (Wife s Educational attainment) est une variable quantitative discrète qui donne le nombre d années passées dans le système scolaire. - WW (Wife s Wage) est une variable quantitative continue, le salaire horaire moyen de la femme, en dollars (1975). - FAMINC (FAMily INCome) est le revenu du ménage pour l année 1975. - UN (UNemployment) est une variable quantitative continue qui exprime le taux de chômage dans le pays de résidence de la femme. - CIT (CITy) est une variable indicatrice qui vaut 1 si la famille habite dans une grande ville, et 0 sinon. - AX est une variable quantitative discrète donnant le nombre d années passées dans les divers emplois occupés. Elle constitue une mesure du niveau d expérience professionnelle. Questions : Première partie. Examen des données (a) Il est parfois utile de vérifier que les données fournies correspondent bien à celles que l on souhaite étudier. Une façon de procéder est ici de calculer la moyenne et l écart type des observations pour chacune des 19 variables, en utilisant l échantillon complet des 753 observations. Les résultats que vous devriez obtenir sont les suivants: LFP (0.5684, 0.4956), WHRS (740.5764, 871,3142), KL6 (0.2377, 0.524), etc. 15
Vérifiez à l aide de SAS. Une façon de vérifier qu il n y a pas d erreur d encodage est de rechercher la plus petite valeur et la plus grande et de les comparer aux paramètres ci-dessus. Faites-le pour les variables LFP et WHRS Détectez-vous de cette façon des valeurs qui vous paraissent suspectes? Si oui, pourquoi vous paraissent-elles suspectes? (pour détecter rapidement les valeurs minimum et maximum prises par une variable, aidez-vous des graphiques) (b) Dans le modèle d'offre de travail estimé par Mroz, on suppose que les femmes qui décident de travailler prennent en compte d'une part le revenu du ménage qui ne provient pas du travail, et d'autre part le revenu de leur mari. Mroz appelle ces deux revenus cumulés "revenu propre de la femme", qu'on note PRIN (wife PRoperty INcome). Il le calcule pour les 753 observations de la façon suivante : PRIN = FAMINC - WW*WHRS (créer PRIN = FAMINC - WW*WHRS) Calculez la moyenne et la variance de PRIN. Vous obtenez normalement 20129 pour la moyenne. N'oubliez-pas de sauver la variable que vous venez de créer. (c) L'une des variables fréquemment utilisée dans des études empiriques de la force de travail est le salaire horaire WW. Pourtant, on ne dispose pas d'observations du salaire horaire chez les femmes qui ne travaillent pas. Une tentative pour résoudre ce problème est d'estimer une équation qui détermine le salaire horaire à partir des seules observations concernant les femmes qui travaillent, et ensuite d'utiliser les estimations des paramètres ainsi obtenus et les caractéristiques de l'échantillon des femmes qui ne travaillent pas pour construire les salaires horaires prédits ou ajustés pour chacune des femmes sans activité professionnelle rémunérée. En vous restreignant uniquement à l'échantillon des femmes qui travaillent, E1, passez au logarithme de WW. Notez la nouvelle variable LWW. Calculez la moyenne arithmétique et l'écart-type de LWW dans l'échantillon E1. Générez ensuite la variable AX2 = AX*AX. Estimez une équation de détermination du salaire horaire à partir de E1 en utilisant les MCO: LWW WA WE CIT AX AX 1 2 3 4 5 6 2 Cette équation a-t-elle un sens? Pourquoi? Pour chacune des femmes de l'échantillon E2, servez-vous des estimations des paramètres de cette équation et des valeurs des variables WA, WE, CIT, AX et AX2 pour déterminer les valeurs ajustées ou prédites de LWW. Notez LWWFIT la série ainsi obtenue. Comparez la moyenne et l'écart-type de LWWFIT dans E2 à la moyenne et à l'écart-type de LWW dans E1, respectivement. La différence vous paraît-elle importante? Comment interprétez-vous ce résultat? Générez en suite pour l'échantillon global E la variable LWW1, définie comme suit: LWW1 = LWW pour les observations de E1 et LWW1 = LWWFIT pour les observations de E2. Notez que la variable LWW1 contient soit le salaire actuel, soit le salaire prédit pour chaque individu de l'échantillon. Si vous n'avez pas fait d'erreur dans la manipulation des séries, vous devriez avoir pour moyenne et écart-type de LWW1 les nombres 1.1003 et 0.6067, respectivement. Vérifiez-le et sauvez la série LWW1. Deuxième partie. Estimation des modèles logit et probit. On demande d'estimer une équation relative à la participation des femmes à la force de travail (variable LFP), à l'aide de modèles logit et probit. On comparera ensuite les résultats. 16
(d) Estimez par le maximum de vraisemblance les paramètres d'un modèle logit où LFP est la variable dépendante et où les variables LWW1, KL6, K618, WA, WE, UN, CIT et PRIN sont les variables explicatives. Introduisez également une constante dans le modèle. Commentez les signes des estimations des paramètres. Quels paramètres de ce modèle sont significativement non nuls? Interprétez les résultats. Après combien d'itérations l'algorithme utilisé par SAS pour résoudre les équations de vraisemblance converge-t-il? Peut-on parler de convergence rapide? SAS fournit-il parmi les sorties une mesure de la qualité de l ajustement proposé? (e) On considère maintenant un modèle probit. Répondez aux mêmes questions qu'au point (d) et comparez la vitesse de convergence de l'algorithme de résolution par ces deux méthodes. 17
Exercice 2- Les prêts hypothécaires (supplémentaire) Considérons les données relatives à un échantillon de 750 prêts hypothécaires dans les villes des Etats de Columbia et de Carolyne du Sud. On observe 500 demandes de prêts hypothécaires acceptées et 250 demandes de prêts hypothécaires refusées. On définit si la demande de pret est acceptée y 1 0 si la demande de pret est refusée. On a estimé 2 modèles différents: le modèle logit et le modèle probit (le modèle de probabilité linéaire ne sera pas étudié au cours des séances de travaux pratiques, en raison de ses nombreux inconvénients). Les variables explicatives sont : AI = revenu du candidat à l hypothèque (en milliers de dollars) XMD = dette - hypothèque (en milliers de dollars) DF = variable indicatrice, 1 pour les hommes et 0 pour les femmes DR = variable indicatrice, 1 pour les non blancs et 0 pour les blancs DS = variable indicatrice, 1 pour les célibataires et 0 pour les autres DA = âge de la maison (en centaines d années) NNWP = pourcentage de non blancs dans le voisinage NMFI = revenus familiaux moyens du voisinage (en centaines de milliers de dollars) NA = âge moyen des maisons du voisinage (en centaines d années) Les résultats sont fournis dans le tableau ci-dessous. Questions : Logit Model Probit Model Variables coefficients standard error coefficients standard error AI 2,254 0,49 2,030 0,43 XMD -1,170 0,21-1,773 0,31 DF 0,563 0,65 0,206 0,22 DR -0,240 0,15-0,279 0,17 DS -0,222 0,15-0,274 0,16 DA -1,463 0,44-1,570 0,48 NNWP -2,028 2,54-2,360 2,78 NMFI 0,149 0,75 0,194 0,78 NA -0,386 0,31-0,425 0,34 Constante 0,363 0,488 (a) Ecrivez le modèle dichotomique simple relatif à cet exemple. (b) Quelles variables sont significatives? (c) Comment pourriez-vous comparer les deux modèles (comparez les deux ensembles de coefficients présentés dans le tableau ci-dessus). Sont-ils très différents les uns des autres? (d) Interprétez les signes et valeurs des estimations dans le modèle logit. Comparez la demande de prêt d une femme par rapport à celle dans les mêmes conditions d un homme. 18