Exercice 1 Méthodes statistiques appliquées aux sciences sociales (STAT-D-203) Titulaire : Catherine Vermandele Chapitre 4 : Régression linéaire Le diplôme de Master of Business Administration ou MBA est un programme qui vise à dispenser une formation à la gestion et au commerce à des jeunes cadres diplômés faisant déjà partie du monde du travail. Nous étudions un échantillon de 40 MBA européens. Les données proviennent de sources multiples telles que les sites des universités et celui de l Official MBA guide (http://officialmbaguide.org). Les économistes s intéressent énormément au prix des MBA car ces programmes ne sont pas régulés par une instance étatique. En effet, le seul organe jouant ce rôle est l AACSB (the Association to Advance Collegiate Schools of Business) qui n a pas pour rôle de faire appliquer des règles, mais seulement d informer le public de certains critères considérés comme essentiels. Il en résulte donc une grande diversité dans les méthodes, les cours et les objectifs des différents MBA. La question de recherche posée est la suivante : quels sont les facteurs qui permettent d expliquer les prix d inscription à un MBA (Prix)? Afin de répondre à cette question, nous avons fait usage d un modèle de régression linéaire qui nous permet d étudier quelques caractéristiques qui peuvent expliquer la formation des prix des MBA à travers l Europe sur un échantillon de 40 écoles. La variable dépendante sera le coût de l inscription en dollars à charge de l étudiant pour la totalité du MBA. Les variables explicatives seront le score minimum au GMAT 1 demandé comme critère d admission (Gmin), le pourcentage d étudiants de sexe féminin présents au programme par rapport au total des étudiants inscrits (Pfem) et l âge moyen des étudiants participant au programme (Age). Les données associées aux différents MBA sont reprises ci-après. Questions 1) Quelles sont les hypothèses du modèle de régression linéaire? 2) Quelle est l équation du modèle? 3) Quelles sont les estimations des paramètres du modèle de régression linéaire multiple? Ecrivez le modèle estimé. 4) Donnez l interprétation associée à chaque paramètre du modèle. 5) Donner l estimation du prix moyen d un MBA qui requiert un score minimal de 300 au GMAT, qui comporte 20 pourcents de femmes et dont la moyenne d âge est de 30 ans. 1 Le Graduate Management Admission Test (GMAT) est un examen en anglais qui mesure les compétences des candidats et qui sert à tester l aptitude à étudier le management. 1
6) Testez les hypothèses selon lesquelles les paramètres du modèle de régression sont différents de 0. Donnez également un intervalle de confiance (α = 5%) pour chacun des paramètres. Quelles sont vos conclusions? 7) Tester la validité globale du modèle. 8) Quelle est la qualité globale d ajustement du modèle? 9) Examinez les sorties graphiques concernant les résidus et détectez d éventuelles violations des hypothèses classiques. 2
dimens ion0 Exercice 1 - Output Statistiques descriptives Moyenne Ecart-type N Prix 22021.7750 13582.52875 40 Gmin 325.2500 284.76700 40 Pfem.3738.11220 40 Age 28.7750 3.08418 40 Corrélations Prix Gmin Pfem Age Prix 1.000 -.004 -.726.513 Gmin -.004 1.000 -.124.170 Pfem -.726 -.124 1.000 -.419 Age.513.170 -.419 1.000 Coefficients a Modèle Coefficients non standardisés Coefficients standardisés 95.0% % intervalles de confiance pour B A Erreur standard Bêta t Sig. Borne inférieure Limite supérieure 1 (Constante) 18006.257 17717.050 1.016.316-17925.585 53938.099 Gmin -6.115 5.136 -.128-1.191.242-16.531 4.301 Pfem -76043.267 14148.525 -.628-5.375.000-104737.805-47348.730 Age 1196.373 518.260.272 2.308.027 145.293 2247.454 a. Variable dépendante : Prix Récapitulatif des modèles Modèle R R-deux R-deux ajusté Erreur standard de l'estimation 1.772 a.596.562 8985.05610 a. Valeurs prédites : (constantes), Age, Gmin, Pfem 3
ANOVA b Modèle Somme des Moyenne des carrés ddl carrés F Sig. 1 Régression 4.289E9 3 1.430E9 17.707.000 a Résidu 2.906E9 36 8.073E7 Total 7.195E9 39 a. Valeurs prédites : (constantes), Age, Gmin, Pfem b. Variable dépendante : Prix 4
5
Exercice 2 (question d examen) Les données présentées en Annexe A ont été récoltées par J.C. Fisher et ont été utilisées dans son article : «Homicide in Detroit : The Role of Firearms», Criminology, vol.14, 387-400 (1976). Ces données portent sur le taux d homicides à Detroit durant les années 1961 à 1973. Les variables observées sont les suivantes : - HOM : nombre d homicides par 100 000 habitants ; - POLI : nombre de policiers à temps-plein par 100 000 habitants ; - SEMP : pourcentage de personnes sans emploi dans la population ; - OUVR : nombre d ouvriers (en milliers) ; - LIC : nombre de licences d armes à feu par 100 000 habitants ; - ARR : pourcentage d homicides élucidés par des arrestations ; - HBL : nombre d hommes de race blanche dans la population ; - NOUVR : nombre de travailleurs non ouvriers (en milliers) ; - FONCT : nombre de fonctionnaires (en milliers) ; - SHOR : salaire horaire moyen ; - SHEBD : salaire hebdomadaire moyen. La matrice de corrélation entre les variables est donnée en Annexe A. Deux modèles de régression linéaire dans lesquels on cherche à expliquer la variable HOM ont été estimés : - modèle 1 : modèle dans lequel toutes les variables autres que HOM sont utilisées comme variables explicatives ; - modèle 2 : modèle n incluant que les variables ARR, LIC et SHOR comme variables explicatives. Les résultats de l estimation de ces deux modèles de régression sont présentés en Annexe A. a) Au vu de ces résultats, lequel des deux modèles vous semble le plus approprié pour expliquer la variable HOM? Indiquez avec soin sur quels éléments vous fondez votre choix (soyez le plus complet possible). b) Dans le modèle 2, b.1) interprétez le signe et la valeur du coefficient associé à la variable ARR. b.2) calculez l intervalle de confiance au niveau de confiance de 95% pour le coefficient de régression associé à la variable SHOR. Interprétez le résultat obtenu. 6
ANNEXE A : REGRESSION LINEAIRE Exercice 2 DONNEES POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM AGR 260,35 11,00 455,50 538,10 133,90 178,15 93,40 558 724,00 2,98 117,18 8,60 306,18 269,80 7,00 480,20 547,60 137,60 156,41 88,50 538 584,00 3,09 134,02 8,90 315,16 272,04 5,20 506,10 562,80 143,60 198,02 94,40 519 171,00 3,23 141,68 8,52 277,53 272,96 4,30 535,80 591,00 150,30 222,10 92,00 500 457,00 3,33 147,98 8,89 234,07 272,51 3,50 576,00 626,10 164,30 301,92 91,00 482 418,00 3,46 159,85 13,07 230,84 261,34 3,20 601,70 659,80 179,50 391,22 87,40 465 029,00 3,60 157,19 14,57 217,99 268,89 4,10 577,30 686,20 187,50 665,56 88,30 448 267,00 3,73 155,29 21,36 286,11 295,99 3,90 596,90 699,60 195,40 1 131,21 86,10 432 109,00 2,91 131,75 28,03 291,59 319,87 3,60 613,50 729,90 210,30 837,60 79,00 416 533,00 4,25 178,74 31,49 320,39 341,43 7,10 569,30 757,80 223,80 794,90 73,90 401 518,00 4,47 178,30 37,39 323,03 356,59 8,40 548,80 755,30 227,70 817,74 63,40 387 046,00 5,04 209,54 46,26 357,38 376,69 7,70 563,40 787,00 230,90 583,17 62,50 373 095,00 5,47 240,05 47,24 422,07 390,19 6,30 609,30 819,80 230,20 709,59 58,90 359 647,00 5,76 258,05 52,33 473,01 MATRICE DE CORRELATION POLI SEMP OUVR NOUVR FONCT LIC ARR HBL SHOR SHEBD HOM POLI 1,293,418,882,879,569 -,974 -,884,937,922,964 SEMP 1 -,652 -,039,008 -,167 -,306,073,231,131,210 OUVR 1,750,710,698 -,429 -,753,454,502,546 NOUVR 1,990,785 -,892 -,994,870,856,956 FONCT 1,804 -,893 -,989,857,826,958 LIC 1 -,555 -,784,422,391,726 ARR 1,891 -,957 -,936 -,968 HBL 1 -,867 -,860 -,953 SHOR 1,983,913 SHEBD 1,888 HOM 1 MODELE 1 Variables explicatives : POLI, SEMP, OUVR, LIC, ARR, HBL, NOUVR, FONCT, SHOR, SHEBD Model Summary R R Square Adjusted F Sig. R Square 1,000 1,000,999 919,279,001 7
Coefficients Model B Std. Error t Sig. (Constant) -46,031 52,607 -,875,474 POLI,029,020 1,434,288 SEMP,693,369 1,876,201 OUVR -,033,025-1,286,327 NOUVR,035,032 1,087,391 FONCT,074,089,837,491 LIC,019,003 6,717,021 ARR -,168,103-1,626,245 HBL 3,72E-005,000,544,641 SHOR -2,360 2,438 -,968,435 SHEBD,206,071 2,892,102 MODELE 2 Variables explicatives : ARR, LIC, SHOR Model Summary Coefficients R R Square Adjusted F Sig. R Square,997,993,991 453,058,000 Model B Std. Error t Sig. (Constant) 59,406 19,522 3,043,014 ARR -,728,148-4,901,001 LIC,016,002 8,533,000 SHOR 4,132 1,784 2,316,046 8