Méthodes basiques e statistiques sous R Master II Modélisatio Aléatoire - Paris VII Eseigat : Mme Picard Sébastie Le Berre 12 mai 2011
R est u logiciel de calcul largemet utilisé par la commuauté scietifique mais égalemet par certaies etreprises car il est à la fois très puissat et gratuit. L u de ses pricipaux atouts est la plateforme de téléchargemet de packages (esemble de foctios) qui lui est associée et qui est dispoible sur le site cra.r-project.org. Ces packages sot, tout comme le logiciel lui-même, mis à la dispositio de tous si bie que l utilisateur pourra mettre à jour l esemble des foctios dot il a besoi au gré des derières découvertes. E effet, beaucoup de papiers de recherche ou de thèses sot implémetés e R et les codes sot souvet redus publics. E revache, il coviedra de vérifier le coteu de ces-deriers car il peut s agir de codes foctioat pour u type de doées e particulier où les cas gééraux aurot pas été pris e compte. Fialemet pour le situer das le paysage des autres éditeurs, o pourra dire qu il est plus rapide et beaucoup mois lourd que VBA, mois puissat que C++ mais il a l avatage de e pas demader ue gestio de la mémoire aussi laborieuse, et tout à fait similaire à Matlab mais gratuit d où l évetuelle présece d erreurs das les packages cotrairemet aux librairies commerciales de Matlab. Le but de cette itroductio est de préseter les objets qui sot gééralemet utilisés das les codes de tests statistiques ou de méthodes fiacières, la faço dot o peut costruire u code foctioel, mais aussi l utilisatio de l iterface d aide et le téléchargemet de ouveaux packages qui permettet d améliorer les codes et de gager beaucoup de temps.
Première partie : présetatio du codage e R 1. Présetatio des objets Les objets que l o maipule sous R que ce soit das les calculs ou das les foctios sot décrits par leur structure et le type de doées qu ils cotieet. O aura par exemple des vecteurs de chaîe des caractères, des tableaux de valeurs umériques... ous préseteros ici les objets les plus foctioels que sot les vecteurs, les tableaux et les listes. - Les vecteurs : Ils peuvet coteir des doées de type valeurs umériques, chaîe de caractères ou idicateur logique (ou ecore des ombres complexes mais ils sot surtout utilisés e physique). Ce ou est exclusif : u vecteur e peut pas coteir plusieurs type de doées à la fois : s il y a ue valeur umérique, alors il y a que ça, les mélages chaîe de caractères valeurs umériques sot impossibles. Les vecteurs coteat des valeurs umériques sot les plus simples à maipuler et peuvet se costruire de la faço suivate :
Les vecteurs de type caractère se costruiset égalemet directemet ou par boucle mais e peuvet évidemmet pas faire d opératios umériques. Efi, les vecteurs de type logique, permettet de récupérer les doées d u objet qui vérifiet certaies coditios :
- Les tableaux : Les tableaux de doées gééraliset le cas des vecteurs das la mesure où si le tableau à qu ue dimesio il s agira d u vecteur avec les mêmes propriétés. Les tableaux sot doc de dimesio >0 et e cotieet qu u uique type de doées : umérique, caractère ou logique. O les crée de la même maière que les vecteurs puisque s itéresser à ue seule de ses dimesios (les autres état fixées) reviet à s itéresser à u vecteur :
Les tableaux de chaies de caractères ou d idicateur logique sot de la même maière à cosidérer comme u assemblage de vecteurs de ce type sur plusieurs dimesios. - Les listes : Leur avatage est de pouvoir receser des valeurs de types différets, utiles pour les outputs de foctios ou pour décrire des objets comme des Etats : populatio (type umérique), om des régios (type caractère), membre de l OTAN (type logical).
2. Sytaxe des boucles et des foctios - Les foctios : Elles permettet de retourer u résultat que ce soit u simple réel, u tableau ou ue liste e opérat des calculs et des modificatios sur les iputs spécifiés. E voici u exemple : - Les boucles : Les boucles itératives ou les coditios logiques de type «if» par exemple sot utiles pour créer des vecteurs de doées ou répéter des estimatios (cas des processus
d estimatio à feêtre glissate e fiace par exemple). Le script ci-dessous présete leur sytaxe.
x -4-2 0 2 4 3. Gestio des séries temporelles - Séries de doées : Les séries temporelles sot des séries de doées caractérisées par le fait que chacue des doées est associée à ue date e particulier ; l ordre de telles séries est doc capital. Nous motros commet travailler avec les foctios adaptées aux séries de doées e gééral avat de proposer ue représetatio possible des séries temporelles. Tracé de x 0 200 400 600 800 1000 Idex Ue fois que la série de doée est créée, il est possible de lui faire subir de multiples tests statistiques (statioarité, ormalité ) comme ous verros par la suite, ou ecore de faire des régressios simples ou multiples. Ces foctios état déjà implémetées (das les foctios par défaut de R ou das des packages que l o pourra télécharger) il est e gééral facile de les utiliser, par cotre il peut être délicat
de récupérer leurs outputs : R², T-stat, p-value, coefficiets Voila doc ue maière de procéder pour pouvoir récupérer les outputs des foctios : - Séries temporelles : Comme o l a vu plus haut lors du tracé de la variable x, les valeurs e abscisse sot les idices du vecteur (de 1 à 1000) ce qui est pas très explicite quad o cherche à observer le comportemet de la série sur ue période doée. O désirerait alors avoir e abscisse o plus les idices de x, mais les dates et ue maière de faire cela est d utiliser le package xts. Il s agit e premier lieu d istaller ce package das R. La méthode pour istaller importe quel package cosiste à le télécharger sur le site cra.r-project.org e format zip, o click esuite das la barre de meu de R sur «Packages» puis sur «Istaller le package depuis le fichier zip». U vecteur de type xts est u vecteur doc chaque valeur est attachée à ue date e idex. Voici u script détaillat ce type de vecteurs :
-2-1 0 1 2 3 x tracé e mode xts jav. 01 2000 juil. 01 2000 jav. 01 2001 juil. 01 2001 jav. 01 2002 juil. 01 2002
4. Structure géérale d u script Pour coclure cette rapide itroductio à la programmatio sous R, voila u exemple de la structure qu aura gééralemet u script faisat appel à des packages, importat des doées et appelat la plupart des objets décrits avat.
Secode partie : calculs statistiques R met à dispositio u certai ombre de foctios permettat de simuler des distributios suivat des lois aléatoires ou de calculer la foctio de répartitio, la desité et la foctio quatile associée à ue variable aléatoire pour u réel doé. Si ces foctios sot à la base de tests statistiques elles sot e pratique raremet utilisées pour les réaliser car cesderiers sot souvet déjà implémetés das des packages. A. Présetatio des foctios associées à la simulatio de lois aléatoires - Géératio d ue distributio aléatoire suivat : Ue loi ormale : rorm(taille_echatillo, mea=, sd= ) Ue loi expoetielle : rexp(taille_echatillo,rate= ) Ue loi gamma : rgamma(taille_echatillo,shape,scale) Ue loi du Chi-2 : rchisq(taille_echatillo,df) - Calcul de la desité de : Ue loi ormale : dorm(x, mea=, sd= ) Ue loi expoetielle : dexp(x, rate= ) Ue loi gamma : dgamma(x, shape, scale) Ue loi du Chi-2 : dchisq(x, df) - Calcul de la foctio de répartitio de : Ue loi ormale : porm(x, mea=, sd= ) Ue loi expoetielle : pexp(x, rate= ) Ue loi gamma : pgamma(x, shape, scale)
Ue loi du Chi-2 : pchisq(x, df) - Calcul du quatile de : (0<p<1) Ue loi ormale : qorm(p, mea=, sd= ) Ue loi expoetielle : qexp(p, rate= ) Ue loi gamma : qgamma(p, shape, scale) Ue loi du Chi-2 : qchisq(p, df) B. Variables aléatoires gaussiees Les théorèmes présetés ci-dessous permettet de caractériser les distributios résultat de trasformatios que l o peut appliquer à des variables aléatoires gaussiees. Le théorème de Studet permet de coaître les lois suivies par certaies trasformatios classiques de variables gaussiees que l o pourra retrouver das le cadre de calcul d estimateurs. A titre d exemple, le premier élémet du théorème de Studet doe la loi suivie par u estimateur ( X ) de la moyee des variables X i, et multiplicative près, u estimateur de la variace de ces variables. R est, à ue costate Le théorème de Cochra s iscrit égalemet das la démarche de caractériser les distributios issues de trasformatio sur des lois gaussiees mais il s applique à des vecteurs aléatoires. Aussi les coclusios du théorème portet-elles sur les distributios de projectios du vecteur gaussie par des matrices vérifiat certaies coditios. 1. Théorème de Studet Soit X,..., X 1, des variables idépedates idetiquemet distribuées de loi commue 2 ( m, ). Alors,
Frequecy 0 50 100 150 200 Frequecy 0 50 100 150 200 a) X i 1 X i 2 / suit ue loi ( m, / ) Histogram of tab[, 1] Histogram of X_bar 0 2 4 6 tab[, 1] 3.8 4.0 4.2 4.4 X_bar
Frequecy 0 50 100 150 200 250 O observe u écrasemet de la variace lorsque est grad comme e témoiget les deux histogrammes avec des valeurs plus proches de la moyee pour estimateur de l espérace des X. X i. Fialemet, X coverge vers m lorsque. X est aussi u b) R i 1 ( X X )² suit ue loi ² ²( 1) i Allure de la distributio de R : Histogram of R 60 80 100 120 140 160 R
Frequecy 0 50 100 150 200 c) X et R sot idépedats d) Si S R /( 1), alors T ( X S m) suit ue loi de Studet T ( 1) Allure de la distributio de T : Histogram of T -4-2 0 2 4 T
2. Théorème de Cochra Soit X de loi, I ). ( a) Soit P 1,..., Pk k matrices auto-adjoites, vérifiat k I P i i 1 et k i 1 rag( P i ) Alors les matrices P sot des projecteurs P P ²) et les variables X sot des variables i mutuellemet idépedates de loi N P i, P ). ( i ( i i P i b) Soit Q 1,...,Q k formes quadratiques sur vérifiat : x, x 2 k i 1 Q i ( x) et k i 1 rag( Q i ) '2 Alors les variables Q i (X ) sot mutuellemet idépedates de loi ( Q ( ), rag( )). i Q i C. Méthode de substitutio et de cotrastes Les deux méthodes présetées das ce paragraphe sot des méthodes classiques d estimatio. L avatage de la méthode de substitutio est d être assez simple à compredre et à mettre e œuvre, tadis que si la méthode de cotrastes est plus compliquée, elle est égalemet plus précise.
1. La méthode de substitutio La défiitio d u estimateur de substitutio est la suivate : Soit 1 f r, r foctios mesurables de, das ( ) f,...,, telles que pour tout das : E f j ( X ) f j ( X )( ) dp ( ), j 1,..., r Soit g foctio cotiue de r das E, telle que pour tout das : Soit efi la variable aléatoire : q r ( ) g( E f1( X ),..., E f ( X )) f 1,...,r fˆ j 1 i 1 f ( X ) j i O appelle estimateur de substitutio de la quatité q ( ) : T g fˆ,..., fˆ ) ( 1 r Das le cas où r 1, e preat pour foctio g l idetité, o voit que ˆf 1 est lui-même u estimateur de substitutio de la quatité E f 1 ( X ). De plus, si les X i sot des variables aléatoires réelles et si t u poit fixé de hypothèses sot vérifiées quel que soit l esemble e preat f ( u) I, t ( ), puisque f 1 est borée. Aisi, 1 i 1 I X i t est u estimateur de P ( X t). 1 u, les E voici u exemple :
p 0.5782 tadis que P(X 0.2) 0. 5792597 où X suit ue loi N (0,1 ). Cet estimateur de substitutio est doc assez proche de la valeur théorique pour u échatillo de taille 10000. 2. La méthode de cotrastes Le pricipe utilisé das la costructio d estimateurs par la méthode des cotrastes est la miimisatio d ue foctio de cotraste dot la défiitio est la suivate : O appelle foctio de cotraste sur toute foctio : telle que pour tout la foctio (, ) admet u uique miimum e. Cette foctio peut être trouvée par l itermédiaire d ue différece de processus de cotraste e étudiat sa covergece e probabilité. E effet : pour ( X,,, P, ) ue suite géérale d expérieces, o appelle processus de cotraste associé à la foctio de cotraste ue suite de foctios aléatoires adaptée à, o a : U (, X ) telle que U (, X ) U (, X ) P prob (, ) L idée est alors de remarquer que sous P, (, X ) U (, X ) U est proche d ue foctio de cotraste, et qu il s agit de miimiser cette expressio (et doc de miimiser U (, X ) ). Das ce cotexte, o appelle estimateur de cotraste associé l estimateur T existe, est uique, et qu il vérifie :, quad il, U ( T, X ) U (, X )
L u des cas particulier de cette méthode est l estimateur des moidres carrés, il est très fréquemmet utilisé comme techique d estimatio par défaut das les logiciels de calcul statistique. Les moidres carrés ordiaires s iscrivet das le modèle liéaire gééral suivat : Y M 1 1p Y., M., Y M,. Y 1 M 11... M... M p 1 où les i sot des variables idépedates de même loi g coue, cetrées, et qui possèdet u momet d ordre 2. O appelle estimateur des moidres carrées l estimateur vérifie pour (, Y) ( Y M )² : p i i 1 j 1 Fialemet, remarquos que la foctio das ij j p, ( T, Y) (, Y) i 1 (, Y) ( Y ( M ) )² mesure la distace etre Y et sa prévisio par M. O choisit doc comme estimateur de : i i ˆ p qui ˆ arg mi (, Y); p La méthode d estimatio par moidres carrés est celle qui est utilisée par défaut das R pour calculer les coefficiets das le cadre de modèles liéaire ; o fait pour cela appel à la foctio lm :
D. Tests statistiques La mise e œuvre des tests statistiques est souvet facilitée par le fait que les foctios sot dispoibles soit directemet das R soit e téléchargeat u package. 1. Tests de vraisemblace - test de la moyee d ue populatio gaussiee Soit la moyee du -échatillo étudié, il s agit de tester l hypothèse ulle : 0 cotre l hypothèse alterative 0. O peut procéder e réalisat u test de Studet dot le pricipe est le suivat. Il s agit d abord de calculer u estimateur ˆ de exemple, afi de costruire la statistique de test suivate Studet à 1 degrés de liberté., par la méthode des moidres carrés par ˆ t ˆ qui suit ue loi de sd( ˆ) O rejette l hypothèse ulle au iveau de cofiace si t ˆ c où c est tel que : P ( t c) / 2 ( t suivat la même loi que t ˆ ).
Le test de Studet implémeté ci-dessous permet de comparer ces deux hypothèses. La p-value est assez élevée, o peut doc accepter l hypothèse ulle au iveau de cofiace 5% selo laquelle la moyee de l échatillo est 0, ce qui est cohéret avec les caractéristiques de otre distributio. O remarquera égalemet que le paramètre de la loi de Studet est bie 99 100 1 1. - test d ue sous-hypothèse liéaire O cosidère u modèle de la forme suivate : Y X X... t 0 1 1 t 2 2 t k X k t Et l o désire savoir s il est possible de réduire le ombre de paramètres de ce modèle e testat H 0 : 1 3 0 par exemple cotre l hypothèse alterative H 0 est fausse. O appellera alors modèle o restreit le modèle iitial et modèle o-restreit le modèle réécrit e teat compte de H 0 :
Y X X... t 0 2 2 t 4 4 t k X k t O procède de la même maière que pour le test de Studet e costruisat ue statistique de test : F ( SSR restricted SSR urestricted SSR urestricted /( k 1) ) / q où SSR restricted est la somme des carrés des résidus du modèle restreit, SSRurestrict ed somme des carrés du modèle o restreit et q est le ombre de paramètres présets das H 0, soit 2 das otre cas. F suit ue loi de Fisher : F Fisher( q, k 1) O rejettera l hypothèse ulle au iveau de cofiace si F c où c est tel que P ( F c) la
Les outputs de la foctio lm cotieet par défaut les résultats du test de sigificativité de tous les paramètres ( H 0 ) et, au vu de la faible p-value, cette hypothèse ulle peut être rejetée. 0 : 1 2 3 4 Test de H 0 : 0 : 1 3
Fialemet F c, o peut doc rejeter H 0 ce qui est cohéret avec la maière dot la série x a été costruite : 1 et 3 étaiet pas uls. 2. Test d adéquatio o-paramétrique : test du Chi-2 Le test du Chi-2 permet de tester l hypothèse d adéquatio de la distributio du - échatillo étudié à ue loi de distributio choisie : H 0 : P P0 cotre P P0. O opère d abord u processus de mise e classe e cosidérat ue partitio mesurable de : A 1,..., Ak telle que P ( Aj ) 0, j 0. O ote esuite la statistique de comptage de l esemble la statistique de test ²(k 1). R j P0 ( Aj ))² i 1 P0 j A : N j j i 1 1 ( X ) et o fabrique N 1 ( qui coverge e loi vers ue variable Z ( A ) Aj i
O défiit alors (k 1) tel que P ( Z ( k 1)) et o peut utiliser la suite de tests x qui est asymptotiquemet de iveau pour tester H 0 : P P0 ( 1,..., x ) 1 R ( k 1) Il est possible de trouver ce test sous R, mais il est écessaire de calculer soi-même la proportio de l effectif associée à chacue des classes de l itervalle des valeurs de la distributio. E voici u exemple. Test d adéquatio à ue loi uiforme : O accepte doc l hypothèse ulle d adéquatio de l échatillo à ue loi uiforme e raiso de la p-value assez élevée du test. Test d adéquatio à ue loi ormale :
O accepte doc l hypothèse ulle d adéquatio de l échatillo à ue loi ormale au vu de la p-value élevée du test. E. Test de sphéricité et ACP 1. Test de sphéricité Les tests de sphéricité permettet de détermier si les composates d ue matrice qui e sot pas sur la diagoale sot ulles, c'est-à-dire s il y a des iteractios etre les variables. O teste alors l hypothèse ulle : H 0 : la matrice est proche de la matrice idetité à ue costate multiplicative près. Cepedat il serait pratique de pouvoir tester la présece de telles iteractios etre plusieurs échatillos, c'est-à-dire sur ue matrice 1000x3 par exemple et doc pas sur ue matrice carrée. La foctio présetée après permet de faire ceci e stadardisat la matrice des échatillos à ue taille adéquate avat le test.
2. Aalyse e composates pricipales Si le test de sphéricité a permis de rejeter l hypothèse ulle, il est possible de meer ue aalyse e composate pricipales sur les échatillos cosidérés. Celle-ci-permettra d idetifier les composates pricipales et la participatio de chacu des échatillos das la costructio de ces-derières.
Variaces 0 5000 10000 15000 20000 25000 model Comp.1 Comp.2 Comp.3 Comp.4