Evaluation de la performance prédictive de modèles robustes 1 olivier.schoeni@unifr.ch 1 Département d Informatique Université de Fribourg (Suisse)
Table des matières 1 2 Tests sur la performance prédictive 3 4 5
On note par P et X := (X 1,..., X K ) le prix et les K caractéristiques d un bien. Pour un échantillon aléatoire de n observations indépendantes (P i, X i ) := (P i, X i1,..., X ik ) on considère le modèle log-linéaire suivant : log(p i ) = β 0 + X i1 β 1 +... + X ik β K + ɛ i, (1) où ɛ i représente un terme d erreur stochastique avec E(ɛ i X i ) = 0 et V(ɛ i X i ) = σ 2, i. L expression (1) est un modèle de régression hédonique.
On note par P et X := (X 1,..., X K ) le prix et les K caractéristiques d un bien. Pour un échantillon aléatoire de n observations indépendantes (P i, X i ) := (P i, X i1,..., X ik ) on considère le modèle log-linéaire suivant : log(p i ) = β 0 + X i1 β 1 +... + X ik β K + ɛ i, (1) où ɛ i représente un terme d erreur stochastique avec E(ɛ i X i ) = 0 et V(ɛ i X i ) = σ 2, i. L expression (1) est un modèle de régression hédonique.
On note par P et X := (X 1,..., X K ) le prix et les K caractéristiques d un bien. Pour un échantillon aléatoire de n observations indépendantes (P i, X i ) := (P i, X i1,..., X ik ) on considère le modèle log-linéaire suivant : log(p i ) = β 0 + X i1 β 1 +... + X ik β K + ɛ i, (1) où ɛ i représente un terme d erreur stochastique avec E(ɛ i X i ) = 0 et V(ɛ i X i ) = σ 2, i. L expression (1) est un modèle de régression hédonique.
Prédiction et fonctions de perte Soit ˆPr, r = 1, 2 le prix estimé dans l échelle originale obtenu grâce à une technique de régression r. Dans notre cas r représente la méthode des moindres carrés ordinaires ou la technique de régression robuste proposée par Maronna et Yohai (2000). Le but de l analyse sera de comparer la distribution des variables aléatoire L(P, ˆPr (X)), r = 1, 2, où L : R 2 R + représente une fonction de perte liée à l erreur de prédiction. Les trois fonctions de perte suivantes ont été considérées : quadratique, valeur absolue, biquadratique.
Prédiction et fonctions de perte Soit ˆPr, r = 1, 2 le prix estimé dans l échelle originale obtenu grâce à une technique de régression r. Dans notre cas r représente la méthode des moindres carrés ordinaires ou la technique de régression robuste proposée par Maronna et Yohai (2000). Le but de l analyse sera de comparer la distribution des variables aléatoire L(P, ˆPr (X)), r = 1, 2, où L : R 2 R + représente une fonction de perte liée à l erreur de prédiction. Les trois fonctions de perte suivantes ont été considérées : quadratique, valeur absolue, biquadratique.
Prédiction et fonctions de perte Soit ˆPr, r = 1, 2 le prix estimé dans l échelle originale obtenu grâce à une technique de régression r. Dans notre cas r représente la méthode des moindres carrés ordinaires ou la technique de régression robuste proposée par Maronna et Yohai (2000). Le but de l analyse sera de comparer la distribution des variables aléatoire L(P, ˆPr (X)), r = 1, 2, où L : R 2 R + représente une fonction de perte liée à l erreur de prédiction. Les trois fonctions de perte suivantes ont été considérées : quadratique, valeur absolue, biquadratique.
Prédiction et fonctions de perte Soit ˆPr, r = 1, 2 le prix estimé dans l échelle originale obtenu grâce à une technique de régression r. Dans notre cas r représente la méthode des moindres carrés ordinaires ou la technique de régression robuste proposée par Maronna et Yohai (2000). Le but de l analyse sera de comparer la distribution des variables aléatoire L(P, ˆPr (X)), r = 1, 2, où L : R 2 R + représente une fonction de perte liée à l erreur de prédiction. Les trois fonctions de perte suivantes ont été considérées : quadratique, valeur absolue, biquadratique.
2.0 Loss functions 1.5 1.0 0.5 0.0 Square Absolute Bisquare 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Relative Residuals
Afin de mesurer la performance prédictive, on considère les valeurs attendues µ r := E(L(P, ˆPr (X))), r = 1, 2. La performance prédictive dans et hors échantillon est donc estimée par : ˆµ in r = 1 n n L(P i, ˆPr (X i )), r = 1, 2 i=1 et ˆµ out r = 1 n n L(P i, ˆPr, s(i) (X i )), r = 1, 2. i=1
Afin de mesurer la performance prédictive, on considère les valeurs attendues µ r := E(L(P, ˆPr (X))), r = 1, 2. La performance prédictive dans et hors échantillon est donc estimée par : ˆµ in r = 1 n n L(P i, ˆPr (X i )), r = 1, 2 i=1 et ˆµ out r = 1 n n L(P i, ˆPr, s(i) (X i )), r = 1, 2. i=1
Afin de mesurer la performance prédictive, on considère les valeurs attendues µ r := E(L(P, ˆPr (X))), r = 1, 2. La performance prédictive dans et hors échantillon est donc estimée par : ˆµ in r = 1 n n L(P i, ˆPr (X i )), r = 1, 2 i=1 et ˆµ out r = 1 n n L(P i, ˆPr, s(i) (X i )), r = 1, 2. i=1
Hennig et Kutlukaya (2007) soulignent le fait que le choix de l indicateur de tendance centrale est arbitraire mais pourrait être lié à la fonction de perte utilisée (et vice-versa). Le fait que l estimation de µ 1 soit plus petite que la valeur estimée de µ 2 n implique pas forcément la même relation pour les paramètres théoriques. La littérature hédonique, cependant, contient de nombreux exemples où la performance prédictive est évaluée sur la base des estimations ponctuelles de µ 1 et µ 2 (voir par exemple Laurice et Bhattacharya (2005) et Hannonen (2008)).
Hennig et Kutlukaya (2007) soulignent le fait que le choix de l indicateur de tendance centrale est arbitraire mais pourrait être lié à la fonction de perte utilisée (et vice-versa). Le fait que l estimation de µ 1 soit plus petite que la valeur estimée de µ 2 n implique pas forcément la même relation pour les paramètres théoriques. La littérature hédonique, cependant, contient de nombreux exemples où la performance prédictive est évaluée sur la base des estimations ponctuelles de µ 1 et µ 2 (voir par exemple Laurice et Bhattacharya (2005) et Hannonen (2008)).
Hennig et Kutlukaya (2007) soulignent le fait que le choix de l indicateur de tendance centrale est arbitraire mais pourrait être lié à la fonction de perte utilisée (et vice-versa). Le fait que l estimation de µ 1 soit plus petite que la valeur estimée de µ 2 n implique pas forcément la même relation pour les paramètres théoriques. La littérature hédonique, cependant, contient de nombreux exemples où la performance prédictive est évaluée sur la base des estimations ponctuelles de µ 1 et µ 2 (voir par exemple Laurice et Bhattacharya (2005) et Hannonen (2008)).
Tests sur la performance prédictive Pour voir si la performance prédictive des deux modèles est statistiquement différente pour une fonction de perte donnée, on considère les deux tests suivants : et H 0 : µ in 1 = µin 2 contre H 1 : µ in 1 µin 2 H 0 : µ out 1 = µ out 2 contre H 1 : µ out 1 µ out 2. Soient D i := L(P i, ˆP1 (X i )) L(P i, ˆP2 (X i )) et Dn := 1 n n i=1 D i la i-ème différence de perte de prédiction et sa moyenne. Comme on travaille avec des observations indépendantes, on suppose que les D i sont aussi indépendants.
Tests sur la performance prédictive Pour voir si la performance prédictive des deux modèles est statistiquement différente pour une fonction de perte donnée, on considère les deux tests suivants : et H 0 : µ in 1 = µin 2 contre H 1 : µ in 1 µin 2 H 0 : µ out 1 = µ out 2 contre H 1 : µ out 1 µ out 2. Soient D i := L(P i, ˆP1 (X i )) L(P i, ˆP2 (X i )) et Dn := 1 n n i=1 D i la i-ème différence de perte de prédiction et sa moyenne. Comme on travaille avec des observations indépendantes, on suppose que les D i sont aussi indépendants.
Tests sur la performance prédictive Pour voir si la performance prédictive des deux modèles est statistiquement différente pour une fonction de perte donnée, on considère les deux tests suivants : et H 0 : µ in 1 = µin 2 contre H 1 : µ in 1 µin 2 H 0 : µ out 1 = µ out 2 contre H 1 : µ out 1 µ out 2. Soient D i := L(P i, ˆP1 (X i )) L(P i, ˆP2 (X i )) et Dn := 1 n n i=1 D i la i-ème différence de perte de prédiction et sa moyenne. Comme on travaille avec des observations indépendantes, on suppose que les D i sont aussi indépendants.
Soit L := (L 1 1, L 1 2,..., L 2 n 1, L 2 n ) le vecteur contenant les pertes des deux méthodes de régression, où L r i := L(P i, ˆPr (X i )). On définit L = ((L 1, 1, L 2, 1, ),..., (L 1 n, L 2, n )) comme une permutation aléatoire de L. Récemment Konietschke et Pauly (2012) ont démontré à l aide d une simulation que la statistique t KP := n D n V n N(0, 1), améliore la puissance du t-test et que le niveau du test est plus proche à celui nominal (D représente les différences i des pertes permutées, Vn 2 la variance empirique).
Soit L := (L 1 1, L 1 2,..., L 2 n 1, L 2 n ) le vecteur contenant les pertes des deux méthodes de régression, où L r i := L(P i, ˆPr (X i )). On définit L = ((L 1, 1, L 2, 1, ),..., (L 1 n, L 2, n )) comme une permutation aléatoire de L. Récemment Konietschke et Pauly (2012) ont démontré à l aide d une simulation que la statistique t KP := n D n V n N(0, 1), améliore la puissance du t-test et que le niveau du test est plus proche à celui nominal (D représente les différences i des pertes permutées, Vn 2 la variance empirique).
Soit L := (L 1 1, L 1 2,..., L 2 n 1, L 2 n ) le vecteur contenant les pertes des deux méthodes de régression, où L r i := L(P i, ˆPr (X i )). On définit L = ((L 1, 1, L 2, 1, ),..., (L 1 n, L 2, n )) comme une permutation aléatoire de L. Récemment Konietschke et Pauly (2012) ont démontré à l aide d une simulation que la statistique t KP := n D n V n N(0, 1), améliore la puissance du t-test et que le niveau du test est plus proche à celui nominal (D représente les différences i des pertes permutées, Vn 2 la variance empirique).
Le test suivant est une version modifiée du test proposé par Diebold et Mariano (1995). Dans ce cas, on ne suppose pas que les variables D i possèdent la même variance. L hypothèse nulle d une performance prédictive égale est testée à l aide de la statistique t DM := D n N(0, 1). 1 ˆV( n n i=1 D i) La statistique t DM peut facilement être calculée en régressant les différences D i sur une constante et en calculant la déviation standard du coefficient à l aide d un estimateur HC (Heteroskedastic-Consistent).
Le test suivant est une version modifiée du test proposé par Diebold et Mariano (1995). Dans ce cas, on ne suppose pas que les variables D i possèdent la même variance. L hypothèse nulle d une performance prédictive égale est testée à l aide de la statistique t DM := D n N(0, 1). 1 ˆV( n n i=1 D i) La statistique t DM peut facilement être calculée en régressant les différences D i sur une constante et en calculant la déviation standard du coefficient à l aide d un estimateur HC (Heteroskedastic-Consistent).
Le test suivant est une version modifiée du test proposé par Diebold et Mariano (1995). Dans ce cas, on ne suppose pas que les variables D i possèdent la même variance. L hypothèse nulle d une performance prédictive égale est testée à l aide de la statistique t DM := D n N(0, 1). 1 ˆV( n n i=1 D i) La statistique t DM peut facilement être calculée en régressant les différences D i sur une constante et en calculant la déviation standard du coefficient à l aide d un estimateur HC (Heteroskedastic-Consistent).
Données Les données utilisées on été fournies par Wüest & Partner, une entreprise internationale d expertise immobilière. Les prix de transaction de maisons individuelles, ainsi que leurs caractéristiques, ont été collectés pour le canton de Zurich. On a considéré, en particulier, 411 transactions qui ont eu lieu le quatrième trimestre 2010 (pour ce trimestre l hypothèse d homoscédasticité n a pas pu être rejetée au niveau de 5%).
Données Les données utilisées on été fournies par Wüest & Partner, une entreprise internationale d expertise immobilière. Les prix de transaction de maisons individuelles, ainsi que leurs caractéristiques, ont été collectés pour le canton de Zurich. On a considéré, en particulier, 411 transactions qui ont eu lieu le quatrième trimestre 2010 (pour ce trimestre l hypothèse d homoscédasticité n a pas pu être rejetée au niveau de 5%).
Données Les données utilisées on été fournies par Wüest & Partner, une entreprise internationale d expertise immobilière. Les prix de transaction de maisons individuelles, ainsi que leurs caractéristiques, ont été collectés pour le canton de Zurich. On a considéré, en particulier, 411 transactions qui ont eu lieu le quatrième trimestre 2010 (pour ce trimestre l hypothèse d homoscédasticité n a pas pu être rejetée au niveau de 5%).
Variables kaufpr : prix de transaction age : âge vol : volume land : surface du terrain stand : standing zust : condition mikro : emplacement dans la commune frei : maison individuelle zimmer : nombre de chambres ms : emplacement dans le canton garage : nombre de places de parking
Variables kaufpr : prix de transaction age : âge vol : volume land : surface du terrain stand : standing zust : condition mikro : emplacement dans la commune frei : maison individuelle zimmer : nombre de chambres ms : emplacement dans le canton garage : nombre de places de parking
dans l échantillon Quadratique Absolue Biquadratique OLS 0.233 0.279 0.882 Robust 0.273 0.283 0.866 Table : Pertes moyennes. Quadratique Absolue Biquadratique D-M 0.201 0.446 0.042 K-P 0.392 0.469 0.038 Table : Valeurs p d égalité des moyennes.
dans l échantillon Quadratique Absolue Biquadratique OLS 0.233 0.279 0.882 Robust 0.273 0.283 0.866 Table : Pertes moyennes. Quadratique Absolue Biquadratique D-M 0.201 0.446 0.042 K-P 0.392 0.469 0.038 Table : Valeurs p d égalité des moyennes.
dans l échantillon Quadratique Absolue Biquadratique OLS 0.233 0.279 0.882 Robust 0.273 0.283 0.866 Table : Pertes moyennes. Quadratique Absolue Biquadratique D-M 0.201 0.446 0.042 K-P 0.392 0.469 0.038 Table : Valeurs p d égalité des moyennes.
hors échantillon Fold Quadratique Absolue Biquadratique 1 0.486 0.174 0.787 2 0.369 0.375 0.866 3 0.101 0.393 0.868 4 0.960 0.359 0.814 5 0.774 0.689 0.225 Tous 0.501 0.455 0.441 Table : Valeurs p d égalité des moyennes du K-P test.
hors échantillon Fold Quadratique Absolue Biquadratique 1 0.486 0.174 0.787 2 0.369 0.375 0.866 3 0.101 0.393 0.868 4 0.960 0.359 0.814 5 0.774 0.689 0.225 Tous 0.501 0.455 0.441 Table : Valeurs p d égalité des moyennes du K-P test.
En se basant que sur des estimations ponctuelles de la performance prédictive on peut tirer de fausses conclusions. La variance des pertes de prédiction doit aussi être considérée. La fonction de perte joue un rôle important dans le choix de la technique de régression. Les tests de la performance prédictive peuvent donner des résultats différents dans et hors échantillon.
En se basant que sur des estimations ponctuelles de la performance prédictive on peut tirer de fausses conclusions. La variance des pertes de prédiction doit aussi être considérée. La fonction de perte joue un rôle important dans le choix de la technique de régression. Les tests de la performance prédictive peuvent donner des résultats différents dans et hors échantillon.
En se basant que sur des estimations ponctuelles de la performance prédictive on peut tirer de fausses conclusions. La variance des pertes de prédiction doit aussi être considérée. La fonction de perte joue un rôle important dans le choix de la technique de régression. Les tests de la performance prédictive peuvent donner des résultats différents dans et hors échantillon.
En se basant que sur des estimations ponctuelles de la performance prédictive on peut tirer de fausses conclusions. La variance des pertes de prédiction doit aussi être considérée. La fonction de perte joue un rôle important dans le choix de la technique de régression. Les tests de la performance prédictive peuvent donner des résultats différents dans et hors échantillon.
En se basant que sur des estimations ponctuelles de la performance prédictive on peut tirer de fausses conclusions. La variance des pertes de prédiction doit aussi être considérée. La fonction de perte joue un rôle important dans le choix de la technique de régression. Les tests de la performance prédictive peuvent donner des résultats différents dans et hors échantillon.
Merci pour votre attention!
I Francis X. Diebold et Roberto S. Mariano : Comparing predictive accuracy. Journal of Business & Economic Statistics, 13(3):253 263, 1995. Marko Hannonen : Predicting urban land prices : A comparison of four approaches. International Journal of Strategic Property Management, 12(4):217 236, 2008. Christian Hennig et Mahmut Kutlukaya : Some thoughts about the design of loss functions. REVSTAT-Statistical Journal, 5(1):pp. 19 39, 2007.
II Frank Konietschke et Markus Pauly : Bootstrapping and permuting paired t-test type statistics. Statistics and Computing, pages 1 14, 2012. Jennifer Laurice et Radha Bhattacharya : Prediction performance of a hedonic pricing model for housing. The Appraisal Journal, 73(2):198 209, 2005. Ricardo A. Maronna et Víctor J. Yohai : Robust regression with both continuous and categorical predictors. Journal of Statistical Planning and Inference, 89(1-2):197 214, 2000.