REGRESSION SIMPLE :PRIX D UN APPARTEMENT EN FONCTION DE LA SUPERFICIE
Prix d appartements en fonction de la superficie 2
REGRESSION SIMPLE :PRIX D UN APPARTEMENT EN FONCTION DE LA SUPERFICIE On souhaite expliquer le prix d un appartement en fonction de la superficie. On fournira ensuite une prévision pour le prix d un appartement de 50 m 2 et d un appartement de 100 m 2 TABLEAU 3 Analyse de régression - Modèle linéaire: Y = a + b*x Variable à expliquer: PRIX Variable explicative: SURFACE Paramètre Estimation Erreur T Proba. type Ordonnée -147,329 206,228-0,7144 0,4813 Pente 26,7658 2,0699 12,931 0,0000 Analyse de variance Source Somme des carrés Ddl Carré moyen F Proba. Modèle 6,31802E7 1 6,31802E7 167,21 0,0000 Résidu 9,82408E6 26 377849,0 Total (Corr.) 7,30043E7 27 Coefficient de corrélation = 0,930286 R-carré = 86,5431 % R-carré (ajusté pour les ddl) = 86,0256 % Estimation de l'écart-type du résidu = 614,694 Erreur absolue moyenne = 396,195 Test de Durbin-Watson = 2,09496 (P=0,4082) Autocorrélation résiduelle d'ordre 1 = -0,0491914 Le StatAdvisor -------------- Ce rapport montre les résultats de l'ajustement d'un modèle linéaire pour décrire la relation entre PRIX et SURFACE. L'équation du modèle ajusté est : PRIX = -147,329 + 26,7658*SURFACE Comme la valeur de la probabilité dans le tableau de l'anova est inférieure à 0.01, il y a un ajustement statistiquement significatif entre PRIX et SURFACE au niveau de confiance de 99%. La statistique de R-carré indique que le modèle ajusté explique 86,5431% de la variabilité dans PRIX. Le coefficient de corrélation vaut 0,930286, ce qui indique une relation forte entre les variables. L'erreur-type d'estimation indique que l'écart-type des résidus est de 614,694. Cette valeur peut être utilisée pour construire des limites de prévision pour de nouvelles observations en sélectionnant l'option Prévisions dans le menu pour les tableaux. L'erreur absolue moyenne de 396,195 est la valeur moyenne des résidus.la statistique de Durbin-Watson (DW) teste les résidus pour déterminer s'il y a une corrélation significative basée sur l'ordre dans lequel ils apparaissent dans le fichier des données. Comme la valeur de la probabilité est supérieure à 0.05, il n'y a pas de corrélation sérielle dans les résidus. Prix d appartements en fonction de la superficie 3
GRAPHIQUE 1 Graphique du modèle ajusté 8000 6000 PRIX 4000 2000 0 0 50 100 150 200 250 300 SURFACE GRAPHIQUE 2 Graphique de PRIX 8000 observé 6000 4000 2000 0 0 2 4 6 8 (X 1000) prévu Prix d appartements en fonction de la superficie 4
GRAPHIQUE 3 Résidu studentisé 4,4 2,4 0,4-1,6-3,6 Graphique des résidus 0 50 100 150 200 250 300 SURFACE GRAPHIQUE 4 TEST DE NORMALITE DES RESIDUS: DROITE DE HENRY Graphique de normalité Pourcentages 99,9 99 95 80 50 20 5 1 0,1-1100 -600-100 400 900 1400 1900 RESIDUS Prix d appartements en fonction de la superficie 5
TABLEAU 4 Intervalles de confiance à 95,0% pour les coefficients estimés ----------------------------------------------------------------------------- Paramètre Estimation Erreur Limite inf. Limite sup. type ----------------------------------------------------------------------------- CONSTANTE -147,329 206,228-571,237 276,579 SURFACE 26,7658 2,0699 22,5111 31,0206 ----------------------------------------------------------------------------- Le StatAdvisor -------------- Ce tableau montre les intervalles de confiance à intervalles de confiance à 95,0% pour les coefficients du modèle. Les intervalles de confiance indiquent la précision de l'estimation des coefficients en prenant en compte la quantité des données et le bruit présent dans ces données. TABLEAU 5 Matrice des corrélations des coefficients estimés ----------------------------------------------------------------------------- CONSTANTE SURFACE CONSTANTE 1,0000-0,8263 SURFACE -0,8263 1,0000 ----------------------------------------------------------------------------- Le StatAdvisor -------------- Le tableau donne les corrélations estimées entre les coefficients du modèle ajusté. Ces corrélations peuvent être utilisées pour détecter la présence de sérieuses multicolinéarités, par exemple la corrélation entre les variables explicatives. Dans ce cas, il n'y a pas de corrélations en valeur absolue supérieure à 0.5 (sans inclure le terme constant). TABLEAU 6 Résidus non usuels -------------------------------------------------------------- Ligne Y Y Résidu Résidu prévu studentisé -------------------------------------------------------------- 4 4000,0 5098,77-1098,77-2,10 18 4750,0 2984,27 1765,73 3,54 25 4950,0 3599,89 1350,11 2,50 -------------------------------------------------------------- Le StatAdvisor -------------- Le tableau des résidus non usuels liste les observations qui ont des résidus studentisés supérieurs à 2.0 en valeur absolue. Les résidus studentisés mesurent de combien d'écarts-types chaque valeur observée de PRIX varie si on ajuste un modèle utilisant toutes les observations sauf cette observation. Dans ce cas, il y a 3 résidus studentisés supérieurs à 2.0, un supérieur à 3.0. Vous devez bien analyser les observations qui ont des résidus studentisés supérieurs à 3.0 pour déterminer si ce sont des points extrêmes qui doivent être retirés du modèle et traités séparément. Prix d appartements en fonction de la superficie 6
TABLEAU 7 Points influents ------------------------------------------------ Ligne Levier Distance de DFITS Mahalanobis ------------------------------------------------ 4 0,182248 4,83151-0,992666 6 0,167188 4,25657-0,824732 16 0,393687 15,9192 1,18419 18 0,0493508 0,386767 0,806463 25 0,0734375 1,09775 0,704372 ------------------------------------------------ Levier moyen pour une observation = 0,0714286 Le StatAdvisor -------------- Le tableau des points influents liste les observations qui ont des leviers supérieurs à 3 fois celui d'un point moyen ou qui ont des valeurs particulièrement élevées du DFITS. Le levier est une statistique qui mesure l'influence de chaque observation dans la détermination des coefficients du modèle estimé. La statistique DFITS mesure de combien les coefficients estimés changent si chaque observation était retirée du jeu des données. Dans ce cas, un point moyen a un levier égal à 0,0714286. Il y a un point ayant un levier 5 fois plus grand que le levier moyen. Vous devez bien analyser les points qui ont un levier 5 fois plus grand que le levier moyen pour déterminer de combien le modèle changerait si ces points n'étaient pasprésents. Il y a 5 points qui ont des valeurs particulièrement grandes du DFITS. TABLEAU 8 Résultats de la régression pour PRIX ---------------------------------------------------------------------- Observé Ajusté Studentisé Ligne Résidu Résidu ---------------------------------------------------------------------- 1 650,0 602,114 47,886 0,0791869 2 1400,0 1190,96 209,038 0,342489 3 3250,0 2689,85 560,152 0,928597 4 4000,0 5098,77-1098,77-2,10273 5 1340,0 1324,79 15,209 0,0248165 6 3950,0 4938,18-988,176-1,8407 7 2500,0 2796,91-296,911-0,486812 8 1600,0 1458,62 141,38 0,230593 9 1250,0 1137,43 112,57 0,184275 10 1250,0 789,475 460,525 0,767044 11 1750,0 2154,53-404,531-0,662968 12 1500,0 1592,45-92,4492-0,150518 13 775,0 709,177 65,8228 0,108584 14 1225,0 1244,49-19,4936-0,0318407 15 1000,0 923,304 76,6962 0,125967 16 7500,0 6811,78 688,216 1,46958 17 1625,0 1726,28-101,278-0,164764 18 4750,0 2984,27 1765,73 3,53955 19 1890,0 2261,59-371,595-0,60832 20 390,0 655,646-265,646-0,440359 21 1875,0 2663,08-788,082-1,3287 22 1000,0 1244,49-244,494-0,400626 23 1350,0 1993,94-643,936-1,06979 24 1475,0 1458,62 16,3799 0,0266879 25 4950,0 3599,89 1350,11 2,50196 26 425,0 387,987 37,0126 0,0615538 27 2475,0 2529,25-54,2529-0,0883102 28 425,0 602,114-177,114-0,293352 29 1190,96 30 1993,94 31 2529,25 32 2101,0 ---------------------------------------------------------------------- Prix d appartements en fonction de la superficie 7
Le StatAdvisor -------------- Ce tableau contient des informations concernant PRIX générées par le modèle ajusté. Ce tableau contient les informations suivantes: (1) valeurs observées de PRIX (si elles existent) (2) valeurs prévues de PRIX par le modèle ajusté (3) résidus (valeur observées - valeur prévues) (4) résidus studentisés Chaque élément correspond aux valeurs des variables explicatives pour une ligne donnée dans votre fichier de données. Pour générer des prévisions pour des lignes supplémentaires de données, ajouter des lignes additionnelles à la fin de votre fichier de données. Dans chacune de ces nouvelles lignes, entrer des valeurs pour les variables explicatives et laisser vide la cellule de la variable à expliquer. Lorsque vous revenez dans cette fenêtre, les prévisions seront ajoutées au tableau pour les nouvelles lignes, mais le modèle ne sera pas changé. TABLEAU 9 Valeurs prévues 95,00% 95,00% X Y Limites de prévision Limites de confiance prévu inf. sup. inf. sup. 50,0 1190,96-102,261 2484,18 915,409 1466,51 100,0 2529,25 1241,16 3817,34 2278,9 2779,6 Le StatAdvisor -------------- Ce tableau montre les valeurs prévues de PRIX en utilisant le modèle ajusté. En plus des meilleures prévisions, le tableau donne : (1) intervalles de prévision à 95,0% pour la prévision pour de nouvelles observations (2) intervalles de confiance à 95,0% pour la confiance pour la moyenne d'un ensemble d'observations Les intervalles de prévision et de confiance correspondent aux limites internes et externes dans le graphique du modèle ajusté. TABLEAU 10 Régression après suppression des points 16 18 et 25 Analyse de régression - Modèle linéaire: Y = a + b*x Variable à expliquer: PRIX Variable explicative: SURFACE Paramètre Estimation Erreur T Proba. type Ordonnée 140,436 111,078 1,2643 0,2188 Pente 20,6147 1,31992 15,6181 0,0000 Analyse de variance Source Somme des carrés Ddl Carré moyen F Proba. Modèle 2,08974E7 1 2,08974E7 243,93 0,0000 Résidu 1,97043E6 23 85671,1 Total (Corr.) 2,28678E7 24 Coefficient de corrélation = 0,955947 Prix d appartements en fonction de la superficie 8
R-carré = 91,3834 % R-carré (ajusté pour les ddl) = 91,0087 % Estimation de l'écart-type du résidu = 292,696 Erreur absolue moyenne = 201,697 Test de Durbin-Watson = 1,71465 (P=0,2255) Autocorrélation résiduelle d'ordre 1 = 0,119783 Nombre de lignes exclues: 3 TABLEAU 11 Prévisions après suppression des points 16 18 et 25 Valeurs prévues 95,00% 95,00% X Y Limites de prévision Limites de confiance prévu inf. sup. inf. sup. 50,0 1171,17 550,901 1791,44 1036,57 1305,77 100,0 2201,91 1579,55 2824,26 2057,99 2345,82 Prix d appartements en fonction de la superficie 9
PROGRAMME SAS APPARTEMENTS OPTIONS LS=80; data appart; INPUT PRIX SURFACE ; datalines; 650 28 1400 50 3250 106 4000 196 1340 55 3950 190 2500 110 1600 60 1250 48 1250 35 1750 86 1500 65 775 32 1225 52 1000 40 7500 260 1625 70 4750 117 1890 90 390 30 1875 105 1000 52 1350 80 1475 60 4950 140 425 20 2475 100 425 28. 50. 100 ; proc reg data= appart; model PRIX = SURFACE / COVB CORRB INFLUENCE R CLM CLI ; quit; APARTEMENTS SAS 1
TABLEAU 1 MODELE: Dependent Variable: PRIX Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 1 63180187.631 63180187.631 167.210 0.0001 Error 26 9824080.2264 377849.23948 C Total 27 73004267.857 Root MSE 614.69443 R-square 0.8654 Dep Mean 2056.07143 Adj R-sq 0.8603 C.V. 29.89655 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-147.328946 206.22752670-0.714 0.4813 SURFACE 1 26.765818 2.06989989 12.931 0.0001 TABLEAU 2 Covariance des estimations Variable Intercept SURFACE Intercept 42529.792769-352.704971 SURFACE -352.704971 4.2844855474 Corrélation des estimations Variable Intercept SURFACE Intercept 1.0000-0.8263 SURFACE -0.8263 1.0000 APARTEMENTS SAS 2
TABLEAU 3: Prévisions Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs PRIX Value Predict Mean Mean Predict Predict 1 650.0 602.1 161.671 269.8 934.4-704.4 1908.6 2 1400.0 1191.0 134.054 915.4 1466.5-102.3 2484.2 3 3250.0 2689.8 126.083 2430.7 2949.0 1400.0 3979.7 4 4000.0 5098.8 262.416 4559.4 5638.2 3724.9 6472.6 5 1340.0 1324.8 129.201 1059.2 1590.4 33.6599 2615.9 6 3950.0 4938.2 251.340 4421.5 5454.8 3573.1 6303.2 7 2500.0 2796.9 129.526 2530.7 3063.2 1505.6 4088.2 8 1600.0 1458.6 125.017 1201.6 1715.6 169.2 2748.0 9 1250.0 1137.4 136.167 857.5 1417.3-156.7 2431.6 10 1250.0 789.5 151.950 477.1 1101.8-512.1 2091.0 11 1750.0 2154.5 116.416 1915.2 2393.8 868.5 3440.5 12 1500.0 1592.4 121.573 1342.6 1842.3 304.5 2880.4 13 775.0 709.2 156.026 388.5 1029.9-594.4 2012.8 14 1225.0 1244.5 132.037 973.1 1515.9-47.8493 2536.8 15 1000.0 923.3 145.494 624.2 1222.4-375.1 2221.7 16 7500.0 6811.8 385.687 6019.0 7604.6 5320.1 8303.4 17 1625.0 1726.3 118.933 1481.8 1970.7 439.3 3013.2 18 4750.0 2984.3 136.555 2703.6 3265.0 1689.9 4278.6 19 1890.0 2261.6 117.249 2020.6 2502.6 975.3 3547.9 20 390.0 655.6 158.819 329.2 982.1-649.4 1960.7 21 1875.0 2663.1 125.292 2405.5 2920.6 1373.6 3952.6 22 1000.0 1244.5 132.037 973.1 1515.9-47.8493 2536.8 23 1350.0 1993.9 116.266 1754.9 2232.9 708.0 3279.9 24 1475.0 1458.6 125.017 1201.6 1715.6 169.2 2748.0 25 4950.0 3599.9 166.578 3257.5 3942.3 2290.8 4909.0 26 425.0 388.0 173.595 31.1568 744.8-925.0 1700.9 27 2475.0 2529.3 121.793 2278.9 2779.6 1241.2 3817.3 28 425.0 602.1 161.671 269.8 934.4-704.4 1908.6 29. 1191.0 134.054 915.4 1466.5-102.3 2484.2 30. 2529.3 121.793 2278.9 2779.6 1241.2 3817.3 APARTEMENTS SAS 3
TABLEAU 4: Etude des résidus et mesures d influence. Std Err Student Cook's Obs Residual Residual Residual -2-1-0 1 2 D Rstudent 1 47.8860 593.053 0.081 0.000 0.0792 2 209.0 599.899 0.348 0.003 0.3425 3 560.2 601.625 0.931 * 0.019 0.9286 4-1098.8 555.866-1.977 *** 0.435-2.1027 5 15.2090 600.963 0.025 0.000 0.0248 6-988.2 560.961-1.762 *** 0.311-1.8407 7-296.9 600.893-0.494 0.006-0.4868 8 141.4 601.847 0.235 0.001 0.2306 9 112.6 599.423 0.188 0.001 0.1843 10 460.5 595.618 0.773 * 0.019 0.7670 11-404.5 603.570-0.670 * 0.008-0.6630 12-92.4492 602.552-0.153 0.000-0.1505 13 65.8228 594.563 0.111 0.000 0.1086 14-19.4936 600.346-0.032 0.000-0.0318 15 76.6962 597.227 0.128 0.000 0.1260 16 688.2 478.638 1.438 ** 0.671 1.4696 17-101.3 603.079-0.168 0.001-0.1648 18 1765.7 599.335 2.946 ***** 0.225 3.5395 19-371.6 603.409-0.616 * 0.007-0.6083 20-265.6 593.823-0.447 0.007-0.4404 21-788.1 601.790-1.310 ** 0.037-1.3287 22-244.5 600.346-0.407 0.004-0.4006 23-643.9 603.599-1.067 ** 0.021-1.0698 24 16.3799 601.847 0.027 0.000 0.0267 25 1350.1 591.693 2.282 **** 0.206 2.5020 26 37.0126 589.673 0.063 0.000 0.0616 27-54.2529 602.508-0.090 0.000-0.0883 28-177.1 593.053-0.299 0.003-0.2934 29..... 30..... APARTEMENTS SAS 4
Hat Diag Cov INTERCEP SURFACE Obs H Ratio Dffits Dfbetas Dfbetas 1 0.0692 1.1614 0.0216 0.0211-0.0150 2 0.0476 1.1250 0.0765 0.0689-0.0382 3 0.0421 1.0551 0.1946 0.0385 0.0756 4 0.1822 0.9550-0.9927 0.4879-0.8901 5 0.0442 1.1315 0.0053 0.0046-0.0023 6 0.1672 1.0072-0.8247 0.3896-0.7314 7 0.0444 1.1107-0.1049-0.0147-0.0464 8 0.0414 1.1235 0.0479 0.0397-0.0177 9 0.0491 1.1343 0.0419 0.0382-0.0218 10 0.0611 1.0996 0.1957 0.1885-0.1261 11 0.0359 1.0834-0.1279-0.0650-0.0084 12 0.0391 1.1236-0.0304-0.0237 0.0090 13 0.0644 1.1550 0.0285 0.0277-0.0190 14 0.0461 1.1338-0.0070-0.0062 0.0033 15 0.0560 1.1443 0.0307 0.0291-0.0185 16 0.3937 1.5115 1.1842-0.7321 1.1292 17 0.0374 1.1212-0.0325-0.0236 0.0070 18 0.0494 0.5049 0.8065 0.0362 0.4239 19 0.0364 1.0899-0.1182-0.0527-0.0160 20 0.0668 1.1412-0.1178-0.1149 0.0803 21 0.0415 0.9845-0.2766-0.0588-0.1036 22 0.0461 1.1195-0.0881-0.0783 0.0419 23 0.0358 1.0257-0.2061-0.1230 0.0085 24 0.0414 1.1282 0.0055 0.0046-0.0020 25 0.0734 0.7466 0.7044-0.1404 0.5048 26 0.0798 1.1750 0.0181 0.0180-0.0135 27 0.0393 1.1251-0.0179-0.0052-0.0054 28 0.0692 1.1540-0.0800-0.0783 0.0556 29 0.0476.... 30 0.0393.... Sum of Residuals 0 Sum of Squared Residuals 9824080.2264 Predicted Resid SS (Press) 12507882.091 APARTEMENTS SAS 5