GEA1 MATHÉMATIQUES POUR LA GESTION ET STATISTIQUES (M105) SÉRIES CHRONOLOGIQUES Une série chronologique est une série statistique dont la première des deux variables est le temps. Dans les exemples traités dans ce chapitre, les modalités de cette variable temporelle sont distribuées uniformément (autrement formulé : elles sont régulières) ; nous les noterons 1,,, etc. (valeurs qui correspondent aux instants où sont effectuées la 1 e mesure, la e mesure, la e mesure, etc.). Les séries chronologiques étudiées dans ce chapitre seront par conséquent notées(t ; y t ), avec 1 t N. Dans le terme y t, on met en évidence trois composantes : la tendance générale g t (on emploie souvent le terme anglo-saxon trend), qui correspond à l évolution à long terme de la série ; la composante saisonnière corrigée s, qui correspond à des fluctuations périodiques qui se reproduisent de façon plus t ou moins identique d une période à l autre en général, la période considérée dans les différentes situations est l année (d où le qualificatif «saisonnier»), plus rarement la semaine ; la composante aléatoire a t (ou résiduelle, ou encore irrégulière ; on parle aussi de variation accidentelle), qui correspond à des fluctuations irrégulières et imprévisibles ; elles sont censées être de faible amplitude. 1 Modèle additif On peut considérer que le terme général y t est la somme des trois composantes mentionnées ci-dessus : c est le modèle additif. On a alors : y t = g t + s t + a t. Dans ce modèle, le nuage de points a une enveloppe d épaisseur plus ou moins constante. Pour déterminer la tendance générale, plusieurs méthodes sont envisageables : un ajustement, affine ou non, en fonction de la forme générale du nuage de points (dans le cas d un ajustement affine, on peut déterminer la droite de Mayer du nuage ou appliquer la méthode des moindres carrés) ; effectuer un lissage (c est-à-dire éliminer certaines irrégularités) à l aide de la méthode des moyennes mobiles, présentée ci-après. Les moyennes mobiles d ordre k, k désignant un entier supérieur ou égal à, sont les moyennes (arithmétiques) : des cycles de k observations consécutives, lorsque k est impair ; des cycles de(k+ 1) observations consécutives, lorsque k est pair, avec une pondération moitié pour les valeurs extrêmes.
t y t moyenne mobile d ordre moyenne mobile d ordre moyenne mobile d ordre 4 1 y 1 1 y 1 y 1 4 y 4 1 5 y 5 6 y 6 y1 + y + y 1 y1 + y + y + y + y 4 1 1 y + y + y 4 4 + y 4 + y 5 1 1 y + y 4 + y 5 4 + y 5 + y 6 1 y4 + y 5 + y 6 y y y4 y1 + y + y + y 4 + y 5 + y + y 4 + y 5 + y 6 y Les différences y t g t permettent de déterminer les coefficients saisonniers : la moyenne de ces données sans tendance en donne une première estimation. EXEMPLE 1. Intéressons-nous au chiffre d affaires mensuel, exprimé en milliers d euros, d un magasin, relevé durant trois années consécutives. janv. fév. mars avr. mai juin juil. août sept. oct. nov. déc. 007 1 15 91 07 05 0 0 8 98 09 10 4 008 15 19 99 14 06 04 5 1 04 10 17 009 0 4 0 18 09 08 0 09 15 19 9 chiffre d affaires mensuel (en milliers d euros) 40 0 0 10 00 90 80 70 tendance générale g t = at+ b série CVS y t s t = g t + a t 01/007 04/007 07/007 10/007 01/008 04/008 07/008 10/008 01/009 04/009 07/009 10/009 La tendance générale est ici déterminée par la méthode des moindres carrés. La droite de régression (de y en t) a pour équation y= at+ b, avec a 0,414 et b 07,. Dans le tableau ci-dessous sont reportées les données sans tendance, c est-à-dire les nombres y t (0,414t+ 07,). janv. fév. mars avr. mai juin juil. août sept. oct. nov. déc. 007 4,410 6,996 17,418 1,8 4,46 6,660 9,97 17,51 1,901,15 1,79 1,857 008,44 6,09 14,85 0,01 8,1 10,66 9,960 15,546 11,868 6,8 0,04 14,890 009,476 6,06 16,51 0,765 10,179 11,59 9,99 1,579 11,85 6,49,66 16,9 s t,110 6,6 16,051 0,799 7,546 9,66 9,960 15,1 1,01 4,949 1,6 17,890
Pour déterminer les coefficients saisonniers, on calcule la moyenne des données sans tendance pour chacun des 1 mois (ou chaque jour de la semaine si les observations sont quotidiennes, ou chacun des 4 trimestres si elles sont trimestrielles, etc.) : on obtient ainsi 1 coefficients saisonniers s 1, s,..., s 1 : un pour chaque mois de l année. Ainsi, le coefficient s 1 est le même pour tous les mois de janvier des trois années, ce qui se traduit par les égalités s 1 = s 1 = s 5. On appelle série désaisonnalisée ou série corrigée des variations saisonnières (en abrégé : CVS) la série chronologique (t ; y t s t ), ou(t ; y t s ) si les coefficients saisonniers ne sont pas centrés. t [Extrait du site insee.fr] La correction des variations saisonnières est une technique que les statisticiens emploient pour éliminer l effet des fluctuations saisonnières normales sur les données, de manière à en faire ressortir les tendances fondamentales (tendance et composante irrégulière). Ainsi, par exemple, le taux de chômage désaisonnalisé supprime les variations dues au profil saisonnier habituel d embauche pendant l été et de mise à pied pendant l hiver dans des secteurs d activité comme l agriculture et la construction. La série ajustée(t ; y t a t ) s obtient en éliminant la composante aléatoire de la série brute ; c est donc la somme de la tendance générale et de la composante saisonnière. Elle correspond aux variations de la grandeur observée si les variations saisonnières étaient parfaitement périodiques. Sur le graphique suivant, on peut comparer, dans le cadre de l exemple 1, la série ajustée avec la série d origine : la différence entre les deux correspond à l action de la composante aléatoire. chiffre d affaires mensuel (en milliers d euros) 40 0 0 10 00 90 80 70 tendance générale g t = at+ b série ajustée y t a t = g t + s t 01/007 04/007 07/007 10/007 01/008 04/008 07/008 10/008 01/009 04/009 07/009 10/009
EXEMPLE. Reprenons les données de l exemple 1, et calculons, cette fois, la tendance générale à l aide de moyennes mobiles d ordre 4. Il est à noter que ces moyennes mobiles n existent pas pour les premiers mois ni pour les derniers. chiffre d affaires mensuel (en milliers d euros) 40 0 0 10 00 90 80 70 tendance générale g t série CVS(y t s t ) 01/007 04/007 07/007 10/007 01/008 04/008 07/008 10/008 01/009 04/009 07/009 10/009 Dans le tableau ci-dessous, on a indiqué les valeurs sans tendance, c est-à-dire les nombres y t 1 4 yt + y t 1 + y t + y t+1 + y t+. janv. fév. mars avr. mai juin juil. août sept. oct. nov. déc. 007 14,75 4 0,15 8,75 6,875 15 14,5 4,875 15,75 008,15 4,75 11,65 6,75 10,75 8,75 14,5 1,5 5,65 0,75 10,5 009 1,75 6,5 1,65 6,75,75 10,15 10 1,15 11,75 4,75 s t,5 5,5 1,875 5,708,9 9,65 8,54 1,79 1,79 4,458,81 1,15 s t,14 5,56 1,89 5,745,55 9,589 8,578 1,88 1,755 4,4,776 1,161 Chaque coefficient saisonnier est la moyenne des valeurs sans tendance figurant dans la même colonne. Ainsi, le coefficient s 1 est le même pour tous les mois de janvier des trois années. Ces coefficients ne sont pas centrés. Habituellement, on les corrige pour que leur influence globale soit nulle sur une année entière. Pour ce faire, on leur soustrait leur moyenne s : s t = s t s= s t 1 1 1 s i i=1 (ici, s 0,06). Dans l exemple 1, nous n avons pas corrigé les coefficients saisonniers obtenus. En effet, c était inutile : si la tendance a été obtenue par un ajustement affine (droite de Mayer ou droite des moindres carrés), alors les coefficients saisonniers non corrigés sont déjà centrés, donc s = s. Cette correction n est réellement pertinente que dans les autres cas de figure. t t 4
chiffre d affaires mensuel (en milliers d euros) 40 0 0 10 00 90 80 70 tendance générale g t série ajustée y t a t = g t + s t 01/007 04/007 07/007 10/007 01/008 04/008 07/008 10/008 01/009 04/009 07/009 10/009 Modèle multiplicatif On emploie le modèle multiplicatif lorsque l enveloppe du nuage de points «s élargit» au fur et à mesure que la tendance générale croît (et est de plus en plus «resserrée» au fur et à mesure que le trend diminue tout en restant positif!). Le terme y t est alors vu comme le produit de la tendance générale g t, de la composante saisonnière s et de la composante aléatoire a t t : y t = g t s a. t t EXEMPLE. Le tableau ci-dessous indique le nombre de naissances par trimestre d un Land allemand, au cours des dernières années. 004 005 006 007 008 009 010 011 trimestre 1 7 684 7 47 7 11 7 1 7 148 7 105 7 067 7 06 trimestre 7 899 7 705 7 616 7 471 7 6 7 189 7 146 7 18 trimestre 7 0 7 08 7 09 7 008 6 970 7 04 6 98 7 008 trimestre 4 7 68 7 450 7 98 7 184 7 1 7 06 7 185 7 088 nombre trimestriel de naissances 7 900 7 800 7 700 7 600 7 500 7 400 7 00 7 00 7 100 7 000 004 005 006 007 008 009 010 011 5
Au vu du nuage de points, la tendance est manifestement décroissante et l enveloppe du nuage de points (représentée, sur le graphique ci-dessus, en pointillés rouges) est de moins en moins «épaisse» au fur et à mesure que le temps augmente. Le modèle multiplicatif est ici tout à fait approprié. nombre trimestriel de naissances 7 900 7 800 7 700 7 600 7 500 7 400 7 00 7 00 7 100 7 000 tendance générale g t = a ln t+ b série CVS y t /s t = g t a t 004 005 006 007 008 009 010 011 Compte tenu de la forme du nuage (décroissance de plus en plus lente), un ajustement logarithmique peut être envisagé. On applique la méthode des moindres carrés à la série(ln t ; y t ), où t vaut 1 pour le premier trimestre de 004, pour le second trimestre de 004, etc., jusqu à t= pour le quatrième trimestre de 011. On prouve alors que la droite de régression de y en z= ln t a pour équation y=,4z+ 7 84,07 ; par conséquent, le nuage de points de coordonnées(t ; y t ) est réparti le long de la courbe d équation y =,4 ln t + 7 84,07. C est cette courbe qui nous donne la tendance générale de la série. Une fois le trend déterminé, on peut calculer les coefficients saisonniers. Il n y en a que 4 : un pour les premiers trimestres de chaque année, un pour les seconds trimestres, etc. Dans le tableau suivant sont reportées les valeurs sans tendance, autrement dit les quotients y t /g t (on rappelle qu ici g t =,4ln t+ 7 84,07) avec, en rouge, les valeurs de t : trimestre 1 trimestre trimestre trimestre 4 004 005 006 007 008 009 010 011 s t s t t= 1 t= 5 t= 9 t= 1 t= 17 t= 1 t= 5 t= 9 0,980844 0,994947 0,995567 0,99448 0,99561 0,99095 0,99187 0,99717 0,99708 0,99894 t= t= 6 t= 10 t= 14 t= 18 t= t= 6 t= 0 1,08606 1,06444 1,0404 1,0105 1,00474 1,00697 1,00557 1,0075 1,01977 1,0169 t= t= 7 t= 11 t= 15 t= 19 t= t= 7 t= 1 0,964578 0,974099 0,971809 0,96959 0,97119 0,9871 0,98757 0,991587 0,976661 0,97684 t= 4 t= 8 t= 1 t= 16 t= 0 t= 4 t= 8 t= 1,0105 1,010876 1,00565 0,995688 1,009170 1,01146 1,017 1,0091 1,00848 1,008671 Ces coefficients saisonniers s obtiennent en calculant la moyenne des valeurs sans tendance, mais, puisque les différentes composantes de la série se multiplient entre elles, on utilise une moyenne «multiplicative» : la moyenne géométrique moy g. De la même façon que la moyenne arithmétique des nombres x 1,..., x n est moy a (x 1 ;... ; x n )= x 1 + + x n n (c est ce que l on a noté x ), leur moyenne géométrique est définie par moy g (x 1 ;... ; x n )= n x 1 x n = x 1 x n 1/n (sous réserve que ceux-ci soient tous positifs). Dans le cas présent, le coefficient saisonnier associé aux premiers trimestres est la moyenne géométrique des données sans tendance (c est-à-dire des quotients y t /g t ) correspondant à t= 1, t= 5, t= 9, etc., 6
jusqu à t= 9 : s 1 = moy g y1 g 1 ; y 5 g 5 ; y 9 g 9 ; y 1 g 1 ; y 17 g 17 ; y 1 g 1 ; y 5 g 5 ; y 9 g 9 y1 = y 5 y 9 y 1 y 17 y 1 y 5 y 9 g 1 g 5 g 9 g 1 g 17 g 1 g 5 0,980844 0,994947 0,995567 0,99448 0,99561 99095 0,99187 0,99717 g 9 1 8 1 8 0,99708. Ce coefficient sera le même pour tous les premiers trimestres ; aurement dit, s 1 = s 5 = s 9 = s 1 = = s 9. On procède de même pour les autres coefficients saisonniers, correspondant aux deuxièmes, troisièmes et quatrièmes trimestres. Comme pour le modèle additif, on corrige habituellement ces coefficients pour que leur impact, sur une année, soit nul, autrement dit de telle sorte que leur produit soit égal à 1 ; pour ce faire, on les divise par leur moyenne géométrique : s t= s t moy g (s 1 ; s ; s ; s 4 ) = s t (s 1 s s s 4 ). 1/4 La série désaisonnalisée (CVS) est alors la série(t ; y t /s t ) et la série ajustée(t ; g t s t ). nombre trimestriel de naissances 7 900 7 800 7 700 7 600 7 500 7 400 7 00 7 00 7 100 7 000 tendance générale g t = a ln t+ b série ajustée y t /a t = g t s t 004 005 006 007 008 009 010 011 Exercices EXERCICE 1 Le tableau suivant indique le chiffre d affaires trimestriel (en millions d euros) d une entreprise. 008 009 010 011 Tr. 1 Tr. Tr. Tr. 4 Tr. 1 Tr. Tr. Tr. 4 Tr. 1 Tr. Tr. Tr. 4 Tr. 1 Tr. Tr. Tr. 4 10 181 71 119 18 190 7 14 140 196 84 1 145 06 96 14 On numérote les trimestres de 1 à 16. 1. Représenter graphiquement cette série ; on prendra comme unités 1 cm pour 1 trimestre, en abscisse, et, en ordonnée, 1 cm pour 10 millions d euros. Pourquoi le modèle additif semble-t-il le plus approprié pour la décomposition de cette série chronologique?. Déterminer la tendance générale de la série à l aide des moyennes mobiles d ordre 4.. Donner la série des valeurs sans tendance, puis calculer les coefficients saisonniers corrigés associés aux quatre trimestres de l année. 4. Représenter la série CVS sur le même graphique qu à la question 1. On arrondira les résultats au millier d euros le plus proche. 7
EXERCICE L exploitant d une autoroute a reporté, dans le tableau ci-dessous, le nombre quotidien de véhicules (exprimé en milliers d unités) qui ont franchi son péage durant les six dernières semaines. lundi mardi mercredi jeudi vendredi samedi dimanche semaine 1 18,47 0,1 18,16 19,55 19,48 14, 11,57 semaine 18,6 19,89 18,50 19,46 0,01 15,10 1,06 semaine 18,64 0,09 18,64 19,71 19,96 14,9 1,60 semaine 4 18,95 0,4 18,98 0,6 0,5 15,60 14,7 semaine 5 19,59 0,09 18,69 19,95 0,7 14,71 1,6 semaine 6 18,84 19,88 18,54 0,04 1,4 18, 16,8 On numérote les jours de 1 à 4. 1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm pour jours, en abscisse, et 1 cm pour 1000 véhicules, en ordonnée.. Déterminer la tendance générale g t par la méthode des moindres carrés ; on exprimera le résultat sous la forme g t = at+ b.. Déterminer les coefficients saisonniers corrigés apparaissant dans la décomposition additive de cette série chronologique (on commencera par calculer les valeurs sans tendance). 4. Déterminer la série ajustée correspondante, puis la représenter sur le même graphique qu à la question 1. 5. À l aide de cette série ajustée, donner une estimation de la recette totale perçue à ce poste de péage au cours de la semaine 7, sachant que chaque véhicule doit payer 1,80 pour le franchir. EXERCICE Le responsable d une plateforme de vente de musique en ligne a indiqué, dans la tableau ci-dessous, le nombre de milliers de ventes réalisés chaque trimestre entre 010 et 01. 010 011 01 Tr. 1 Tr. Tr. Tr. 4 Tr. 1 Tr. Tr. Tr. 4 Tr. 1 Tr. Tr. Tr. 4 76 905 178 1101 88 1054 178 19 140 165 7 1644 Les trimestres sont paramétrés par la variable t, qui prend toutes les valeurs entières entre 1 et 1. y t désignera le nombre de milliers de ventes réalisés au cours du trimestre t. 1. Représenter graphiquement cette série ; on prendra comme unités graphiques 1 cm par trimestre, en abscisse, et 1 cm pour 00 CD, en ordonnée. Pourquoi le modèle multiplicatif est-il plus approprié que le modèle additif à la décomposition de cette série chronologique?. a) Compte tenu de la forme du nuage de points, on choisit de procéder à un ajustement exponentiel, en posant z t = ln(y t ). Déterminer une équation de la droite de régression de z en t par la méthode des moindres carrés. b) En déduire une expression du trend sous la forme g t =αe βt, où les coefficientsαetβsont à préciser (on en donnera des arrondis à 10 4 près).. Lisser la série en calculant les valeurs sans tendance. 4. Déterminer les coefficients saisonniers. On admettra que leur moyenne (géométrique) est égale à 1 et qu ils ne nécessitent donc aucune correction. 5. Déterminer la série CVS, puis la représenter sur le même graphique qu à la question 1. 6. Déterminer la série ajustée correpondante et en déduire une prévision des ventes réalisées par le site pour chacun des trimestres de 01. 8