Un modèle à risques proportionnels avec détection de ruptures pour l estimation de la demande initiale de tgv Abdullah Oueslati Université Pierre et Marie Curie - Paris VI SNCF, Innovation & Recherche Laboratoire de Statistique Théorique 40, avenue des Terroirs de France et Appliquée (LSTA, 4 place Jussieu 75611 Paris Cedex 12 75005 PARIS Résumé. Pour fixer au mieux les quotas de billets ouverts à la réservation, la SNCF doit connaître la demande des clients pour chaque produit tarifaire. Or, les données de réservation récoltées sont contraintes par les quotas imposés et intègrent les reports des clients d une classe tarifaire à une autre. Pour répondre à cette double problématique, nous définissons un modèle bicéphale pour l intensité du processus des réservations dans une classe tarifaire considérée : une partie détection de ruptures multiples représente la dynamique intrinsèque à la classe tarifaire et une partie régression paramétrique mesure l effet de la fermeture des classes environnantes. Un algorithme itératif incluant une phase de programmation dynamique permet l estimation simultanée des paramètres par maximum de vraisemblance. Validée par simulations, la procédure d estimation développée montre une bonne qualité d estimation, en particulier en présence d égalités. Une application sur jeu de données réelles de réservation est aussi présentée. Mots-clés. modèle de régression à risques proportionnels, modèle de durées, détection de ruptures, procédures itératives, revenue-management, évènements récurrents Abstract. In order to determinate the number of tickets open for booking in each fare class, the SNCF company must reckon the prior demand of customers for the different types of tickets. However, the registered booking data that allow to perform the estimation do not fully represent this demand since they are constrained by the booking limits. They also include reports from customers of other fare classes. A two-tier proportional hazard regression model for counting process is developed to modelize the booking process: a change-points detection part for the baseline stands for booking behaviour in the proper class while the regression parameter measures the influence of reports from the rival tariff classes. An iterative procedure including a dynamic programming phase allows to perform the estimation of the different parameters by likelihood maximization. Different simulations show the validity of the estimations, especially in the presence of tied event times. An application to real data of booking process will also be presented. Keywords. proportional hazards regression, lifetime data analysis, change-point detection, iterative procedures, dynamic programming, revenue-management, recurrent events 1
1 Revenue-Management et demande initiale Dans les entreprises fournissant des services périssables (transport ferroviaire et aérien, hôtellerie, spots publicitaires, la gestion des réservations, effectuée par le Yield-Management, consiste à imposer un tarif sur le billet (pricing ou un quota de nombre de places offertes à la réservations pour chaque type de billet (contingentement. Le Revenue-Management consiste à optimiser ces allocations sur l ensemble des produits proposés. Dans le cycle du Revenue-Management (cf. schéma ci-dessous, la question de l estimation de la demande initiale est cruciale. Elle permet de connaitre le souhait initial des clients et les volumes de réservation qui en découleraient si aucune contrainte n était imposée aux clients. La connaissance de ce potentiel de réservation permet par la suite d optimiser le taux de remplissage des trains (avions, chambres,... ou le revenu de l entreprise. 1. Prévision de la demande future 2. Optimisation : établissement des prix et/ou quotas 3. Commercialisation et réservations 5. Dé-contraindre la demande 4. Collecte des données historiques de la demande Figure 1: Cycle du Revenue Management Exposés par Zeni (2001, Talluri et Van Ryzin (2004, Lee (1990, les travaux effectués dans le domaine du Revenue-Management pour estimer la demande initiale se divisent en deux catégories Les méthodes s appuyant uniquement le niveau de réservation final atteint ainsi que l information d ouverture ou non de la classe tarifaire considérée : méthodes d imputation, modèles de durées, algorithmes de type EM. Les modèles considérant l ensemble des courbes de réservation et de contingentement entre le jour d ouverture à la réservation et le jour de départ du train (ou vol : lissage exponentiel, processus de naissances et de morts. 2
2 Un modèle de régression à risques proportionnels avec détection de ruptures S inscrivant dans la deuxième catégorie citée ci-dessus, le modèle présenté (cf. Oueslati et Lopez 2012 s appuie sur l approche d Andersen et Gill (1982 du modèle de Cox (1972 ( pour processus de comptage. Dans ce contexte, on observe m processus indépendants Nj (t d intensité de la forme suivante 1 j m λ j (t = Y j (tλ 0 (te βx j(t, (1 où Y j (t est le processus à risque correspondant valant 1 si le processus j peut potentiellement connaître un saut à la date t et 0 sinon, X j (t est une variable dépendant du temps et β est le paramètre de régression à estimer. Dans le contexte de notre étude en Revenue-Management, la variable X représente l ouverture ou la fermeture d une classe tarifaire environnante et le paramètre β mesure l influence de la fermeture à la réservation de cette classe sur l intensité de réservation dans la classe considérée. La fonction de risque de base λ 0 (t modélise le comportement de réservation des clients souhaitant initialement réserver dans la classe tarifaire visée. Il semble réaliste de supposer que la période de réservation des clients se décompose en plusieurs phases de comportement de réservation homogène. Cela se matérialise par une fonction de risque de base constante par morceaux, c est-à-dire : l λ 0 (t = µ s 1{t ks t < t ks+1 }, (2 s=0 où l + 1 est le nombre de périodes de comportement de réservation homogène, (µ s 0 s s sont les intensités de réservation dans chacune de ces périodes. Comme l expliquent Aalen et al. (2008, si les dates (t ks 1 s l où les ruptures interviennent sont connues, la maximisation de vraisemblance se réduit à un problème de maximum de vraisemblance dans le modèle de régression de Poisson. Nous supposons ici que ces dates sont inconnues parmi l ensemble des dates d observation (t i 1 i n. 3 Procédure d estimation, simulation et application Pour estimer le paramètre θ = ( β, (k, µ, nous développons une procédure itérative en deux phases pour maximiser la vraisemblance de l échantillon observé. L algorithme fait intervenir une phase de programmation dynamique (cf Bellman 1961 afin de détecter les ruptures au sein de la fonction de risque de base. De multiples tests ont été mis en œuvre pour mesurer la validité de la procédure et la qualité d estimation obtenue. Le graphique ci-dessous présente un exemple de résultats d estimation obtenus pour un échantillon de processus de Poisson non homogènes 3
simulés selon une intensité de la forme (1-(2 de paramètres connus θ = ( β, (k, µ = ( 2, (5, 7, 17, 22, (1, 4, 2, 0.2, 1. Les paramètres estimés dans ce cas sont : ( ˆβ, (ˆk, ˆµ = ( 2.045, (5, 7, 17, 22, (0.917, 4.11, 1.89, 0.199, 0.99. Processus cumulés 0 20 40 60 80 100 120 0 5 10 15 20 25 Temps Figure 2: Processus de Poisson simulé (cercles noirs, fonction de risque cumulée estimée (en vert et fonction de risque de base cumulée estimée (en rouge. Les performances d estimation validant la procédure, la méthode a été appliquée pour la problématique de l étude du processus des réservations et l estimation de la demande initiale de TGV. Un cas d application sur jeu de données réel SNCF sera présenté. Bibliographie [1] Aalen, O. O., Borgan, O. et Gjessing, H. K. (2008, Survival and Event History Analysis, Springer. [2] Andersen, P. K. et Gill, R. D. (1982, Cox s regression model for counting processes: a large sample study, The Annals of Statistics, 10, 1100 1120. [3] Bellman, R. (1961, On the approximation of curves by line segments using dynamic programming, Communications of the ACM, 4, 284. [4] Cox, D. R. (1972, Regression models and life-tables, Journal of the Royal Statistical Society, Series B, 34, 187 220. 4
[5] Lee, A. O. (1990, Airline reservations forecasting : probabilistic and statistical models of the booking process, PhD thesis, Massachusetts Institute of Technology. [6] Oueslati, A. et Lopez, O. (2012, A two-tier proportional hazards regression model with change-points in the baseline function, preprint : http://hal.archives-ouvertes.fr/hal- 00655891 [7] Talluri, K. T. et Van Ryzin, G. J. (2004, The theory and practice of revenue management, Kluwer Academic Publishers. [8] Zeni, R. H. (2001, Improved forecast accuracy in airline Revenue Management by unconstraining demand estimates from censored data, Dissertation. 5