geffray@math.unistra.fr Outils pour la statistique avancée Année 2015/2016 TD 1 : Bootstrap

Université de Strasbourg Ségolen Geffray M2 - Statistique geffray@math.unistra.fr Outils pour la statistique avancée Année 2015/2016 TD 1 : Bootstrap Ces exercices seront effectués au moyen du logiciel R. Pour tous les exercices, il est demandé de programmer à la main tous les calculs. Dans l exercice 2, on retrouvera les résultats avec la fonction boot implémentée dans R. Exercice 1. Estimation d un écart-type. Soit X une variable aléatoire d écart-type σ(x). 1. Dans un premier temps, on souhaite construire un estimateur débiaisé du paramètre θ = σ(x). Pour cela, on dispose d un échantillon i.i.d. distribué comme X noté (X 1,..., X n ). (a) Proposer un estimateur θ = T (X 1,..., X n ) de θ. (b) Donner la construction d un estimateur bootstrap du biais de θ et en déduire un estimateur débiaisé de θ noté θ b. (c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. Dans un second temps, on souhaite construire un intervalle de confiance unilatéral qui borne supérieurement le paramètre θ = σ(x), ceci en utilisant la technique du bootstrap nonparamétrique. Pour cela, on dispose d un échantillon i.i.d. distribué comme X noté (X 1,..., X n ). (a) Donner la construction d un intervalle de confiance unilatéral bootstrap de base pour θ de niveau de confiance (1 α). (b) Ecrire un programme qui calcule les bornes de cet intervalle de confiance unilatéral bootstrap de base. (c) Donner la construction d un intervalle de confiance unilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). (d) Ecrire un programme qui calcule les bornes de cet intervalle de confiance unilatéral bootstrap studentisé. Exercice 2. Bootstrap paramétrique et bootstrap non-paramétrique. Soit X une variable aléatoire d espérance E[X]. On souhaite construire un intervalle de confiance pour E[X] au niveau de confiance (1 α). Pour cela, on dispose d un échantillon i.i.d. distribué comme X noté (X 1,..., X n ). 1. Ecriture des procédures statistiques. (a) En utilisant l approximation normale, donner la construction d un intervalle de confiance bilatéral asymptotique pour E[X] au niveau de confiance (1 α). (b) Ecrire un programme qui calcule cet intervalle de confiance bilatéral asymptotique.

(c) En supposant que X suit une loi normale de paramètres m et σ 2 inconnus, donner la construction d un intervalle de confiance bilatéral bootstrap paramétrique studentisé pour E[X] au niveau de confiance (1 α). (d) Ecrire un programme qui calcule cet intervalle de confiance bilatéral paramétrique studentisé. (e) En supposant que X suit une loi de Poisson de paramètre λ inconnu, donner la construction d un intervalle de confiance bilatéral bootstrap paramétrique studentisé pour E[X] au niveau de confiance (1 α). (f) Ecrire un programme qui calcule cet intervalle de confiance bilatéral bootstrap paramétrique studentisé. (g) Sans effectuer d hypothèse sur la distribution de X, donner la construction d un intervalle de confiance bilatéral bootstrap non-paramétrique studentisé pour E[X] au niveau de confiance (1 α). (h) Ecrire un programme qui calcule cet intervalle de confiance bilatéral bootstrap nonparamétrique studentisé. 2. Comparaison par simulations. Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 15 ) de loi de Poisson de paramètre λ = 1.2 et qui calcule sur chaque échantillon les bornes inférieures et supérieures des différents intervalles de confiance. Déterminer la largeur empirique moyenne de chaque type d intervalle de confiance ainsi que la probabilité de couverture empirique de chaque type d intervalle de confiance. Que constatez-vous? Recommencer avec une loi Gamma de paramètre de forme (shape) égal à 1.2 puis 0.8 pour un paramètre d échelle (scale) égal à chaque fois à 1. 3. Application sur des données. Mettre en oeuvre les résultats obtenus avec les différentes procédures sur les données suivantes : 1 4 1 0 2 1 1 1 2 0 1 1 1 1 5 Exercice 3. Estimation d un ratio. On souhaite estimer le ratio de l espérance de vie moyenne des non-fumeurs par rapport à l espérance de vie moyenne des fumeurs : θ := E[X] E[Y ] en notant X la variable aléatoire représentant la durée de vie des non-fumeurs et Y la variable aléatoire représentant la durée de vie des fumeurs. Soit (X 1,..., X n1 ) un échantillon i.i.d. distribué comme X et soit (Y 1,..., Y n2 ) un échantillon i.i.d. distribué comme Y, indépendant de (X 1,..., X n1 ). 1. Construction d un estimateur débiaisé du ratio. (a) Proposer un estimateur θ = T (X 1,..., X n1, Y 1,..., Y n2 ) de θ. (b) Donner la construction d un estimateur bootstrap du biais de θ et en déduire un estimateur débiaisé de θ noté θ b.

(c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. Evaluation de l estimateur débiaisé du ratio par simulations. Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 20 ) de loi exponentielle de paramètre λ = 1/80 et M=1000 échantillons (Y 1,..., Y 20 ) de loi exponentielle de paramètre λ = 1/70 et qui calcule, sur chaque échantillon, la valeur de θ et de θ b. Que constatezvous? 3. Application de l estimateur débiaisé du ratio sur des données. On a relevé dans les registres la durée de vie de 20 fumeurs et de 20 non-fumeurs. Les données sont les suivantes : Non-fumeurs 84 73 73 83 80 67 91 76 90 70 70 81 78 68 64 82 91 72 84 66 Fumeurs 94 65 71 83 47 55 96 57 57 64 77 97 51 50 48 41 71 59 86 71 Calculer la valeur de θ et de θ b. 4. Construction d intervalles de confiance asymptotique et bootstrappés. On rappelle que la delta-méthode affirme que si D n ((Un, V n ) (u, v)) (U, V ) alors, pour toute fonction Ψ continûment différentiable, ( ) D U n (Ψ(Un, V n ) Ψ(u, v)) DΨ(u, v). V (a) Utiliser la delta-méthode et l approximation normale pour déterminer la loi asymptotique de θ lorsque n 1 = n 2 = n. (b) En déduire la construction d un intervalle de confiance bilatéral asymptotique pour θ de niveau de confiance (1 α). (c) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral asymptotique. (d) Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ de niveau de confiance (1 α). (e) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. (f) Donner la construction d un intervalle de confiance bootstrap bilatéral percentile pour θ de niveau de confiance (1 α). (g) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap percentile. (h) Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). (i) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap studentisé. 5. Evaluation des différents intervalles de confiance pour le ratio par simulations. Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 20 ) de loi exponentielle de paramètre λ = 1/80 et M=1000 échantillons (Y 1,..., Y 20 ) de loi exponentielle de paramètre λ = 1/70 et qui calcule, sur chaque échantillon, les bornes inférieures et supérieures des différents intervalles de confiance en utilisant le niveau de confiance de 95%. Déterminer la largeur empirique moyenne ainsi que la couverture empirique pour chaque type d intervalle de confiance en choisissant un niveau de confiance nominal de 95%. Que constatez-vous?

6. Application de l estimateur débiaisé du ratio sur des données. En reprenant les données précédentes, déterminer les différents intervalles de confiance pour θ, tous au niveau de confiance 95%. Exercice 4. Estimation d un coefficient d asymétrie. Soit X une variable aléatoire de coefficient d asymétrie γ(x) dont la définition est rappelée ci-dessous : γ(x) = E [(X E[X])3 ] (E [(X E[X]) 2 ]) 3/2. 1. Dans un premier temps, on souhaite construire un estimateur débiaisé du paramètre θ = γ(x). Pour cela, on dispose d un échantillon i.i.d. distribué comme X noté (X 1,..., X n ). (a) Proposer un estimateur θ = T (X 1,..., X n ) de θ. (b) Donner la construction d un estimateur bootstrap du biais de θ et en déduire un estimateur débiaisé de θ noté θ b. (c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. Dans un second temps, on souhaite construire un intervalle de confiance bilatéral pour le paramètre θ = γ(x) en utilisant la technique du bootstrap nonparamétrique. Pour cela, on dispose d un échantillon i.i.d. distribué comme X noté (X 1,..., X n ). (a) Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ de niveau de confiance (1 α). (b) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. (c) Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). (d) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap studentisé. Exercice 5. Bootstrap et coefficient de corrélation. Soient X et Y deux variables aléatoires de coefficient de corrélation ρ(x, Y ). 1. Dans un premier temps, on souhaite construire un estimateur débiaisé du paramètre θ = ρ(x, Y ). Pour cela, on dispose d un échantillon i.i.d. distribué comme (X, Y ) noté ((X 1, Y 1 )..., (X n, Y n )). (a) Proposer un estimateur θ = T (X 1, Y 1..., X n, Y n ) de θ. (b) Donner la construction d un estimateur bootstrap du biais de θ et en déduire un estimateur débiaisé de θ noté θ b. (c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. Dans un second temps, on souhaite construire un intervalle de confiance bilatéral pour le paramètre θ = ρ(x, Y ) en utilisant la technique du bootstrap nonparamétrique. Pour cela, on dispose d un échantillon i.i.d. distribué comme (X, Y ) noté ((X 1, Y 1 )..., (X n, Y n )).

(a) Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ de niveau de confiance (1 α). (b) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. (c) Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). (d) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap studentisé. Exercice 6. Soient X et Y deux variables aléatoires de coefficient de corrélation ρ(x, Y ). On cherche à calculer un intervalle de confiance bootstrap bilatéral nonparamétrique de base (de Hall) au niveau de confiance (1 α) pour ρ(x, Y ). Pour cela, on dispose d un échantillon i.i.d. distribué comme (X, Y ) noté ((X 1, Y 1 )..., (X n, Y n )). Le programme ci-dessous est censé calculer un intervalle de confiance bootstrap bilatéral nonparamétrique de base (de Hall) au niveau de confiance (1 α) pour ρ(x, Y ) au moyen du logiciel R. Mais, en réalité, ce programme contient des erreurs. IC.boot.base.nonpar<-function(x,y,conf,B) { n<-length(x) alpha<-1-conf theta.hat<-cor(x,y) x.boot<-replicate(b,sample(x,replace=true)) y.boot<-replicate(b,sample(y,replace=true)) theta.hat.boot<- rep(0,b) for (b in 1:B) { theta.hat.boot[b]<- cor(x.boot[,b],y.boot[,b]) } q.boot.hat<-quantile(theta.hat.boot,c(alpha/2,1-alpha/2),names=false) borneinf<-theta.hat+q.boot.hat[1] bornesup<-theta.hat+q.boot.hat[2] c(borneinf,bornesup) } 1. Trouver les erreurs du programme et justifier en donnant la construction correcte de l algorithme correspondant à ce problème. 2. Corriger ces erreurs. Exercice 7. Bootstrap et coefficient de corrélation partielle. Soient X, Y et Z trois variables aléatoires que l on suspecte être liées. On s intéresse au coefficient de corrélation partielle entre X et Y conditionnellement à Z noté ρ Z (X, Y ). Il est défini par : ρ(x, Y ) ρ(x, Z)ρ(Y, Z) ρ Z (X, Y ) = 1 ρ(x, Z)2 1 ρ(y, Z) 2 où ρ(x, Y ) est le coefficient de corrélation linéaire (simple) entre X et Y.

1. Dans un premier temps, on souhaite construire un estimateur débiaisé du paramètre θ = ρ Z (X, Y ). Pour cela, on dispose d un échantillon i.i.d. distribué comme (X, Y, Z) noté ((X 1, Y 1, Z 1 )..., (X n, Y n, Z n )). (a) Proposer un estimateur θ de θ = ρ Z (X, Y ). (b) Donner la construction d un estimateur bootstrap du biais de θ et en déduire un estimateur débiaisé de θ = ρ Z (X, Y ) noté θ b. (c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. Dans un second temps, on souhaite construire un intervalle de confiance bilatéral pour le paramètre θ = ρ Z (X, Y ) en utilisant la technique du bootstrap nonparamétrique. Pour cela, on dispose d un échantillon i.i.d. distribué comme (X, Y, Z) noté ((X 1, Y 1, Z 1 )..., (X n, Y n, Z n )). (a) Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ de niveau de confiance (1 α). (b) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. (c) Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). (d) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap studentisé. Exercice 8. Bootstrap et régression linéaire. Considérons un couple de variables aléatoires (X, Y ) satisfaisant le modèle de régression linéaire simple gaussien défini par : Y = c + dx + ε de paramètres c et d à estimer et où ε est une variable aléatoire indépendante de X de loi N (0, σ 2 ). Soit (X i, Y i ) i=1,...,n un échantillon distribué comme (X, Y ) et satisfaisant donc pour i = 1,..., n le modèle suivant : Y i = c + dx i + ε i où ε i i.i.d. N (0, σ 2 ) et où ε i X i. 1. Quelle est la loi des Y i pour i = 1,..., n conditionnellement aux covariables X i pour i = 1,..., n? 2. Déterminer l estimateur du maximum de vraisemblance noté (ĉ, d, σ 2 ) de (c, d, σ 2 ). 3. En déduire l expression des erreurs prédites notées ε i pour i = 1,..., n. On nomme R la relation ainsi obtenue. 4. Calculer la variance de d conditionnellement aux covariables. En proposer ensuite un estimateur (toujours conditionnellement aux covariables). 5. Sur quels principes sont fondées la construction d un intervalle de confiance bootstrap nonparamétrique percentile ainsi que la construction d un intervalle de confiance bootstrap non-paramétrique studentizé pour d? 6. Donner la construction d un intervalle de confiance bilatéral bootstrap non-paramétrique percentile pour d de niveau de confiance (1 α). 7. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap non-paramétrique percentile en prenant α = 0.05.

8. Donner la construction d un intervalle de confiance bilatéral bootstrap non-paramétrique studentisé pour d de niveau de confiance (1 α). 9. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap non-paramétrique studentisé en prenant α = 0.05. Exercice 9. Bootstrap et odds-ratio. On constitue deux groupes de personnes susceptibles de contracter une maladie M. Le premier groupe rassemble des personnes exposées à un facteur de risque F tandis que le second groupe rassemble des personnes non-exposées à ce facteur de risque. Les deux groupes sont indépendants. Soit X i pour i = 1,..., n 1 la variable aléatoire binaire qui vaut 1 si la ième personne du premier groupe a contracté la maladie et 0 sinon. Soit Y i pour i = 1,..., n 2 la variable aléatoire binaire qui vaut 1 si la ième personne du deuxième groupe a contracté la maladie et 0 sinon. On souhaite estimer la quantité suivante qu on appelle odds-ratio : θ := p 1 1 p 1 p 2 1 p 2 où p 1 représente la probabilité de contracter la maladie M dans le groupe des exposés et p 2 représente la probabilité de contracter la maladie M dans le groupe des non-exposés. Pour cela, soit (X 1,..., X n1 ) un échantillon i.i.d. distribué comme X et soit (Y 1,..., Y n2 ) un échantillon i.i.d. distribué comme Y, indépendant de (X 1,..., X n1 ). 1. Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ de niveau de confiance (1 α). 2. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. 3. Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé pour θ de niveau de confiance (1 α). 4. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap studentisé. Exercice 10. Bootstrap et odds ratio conditionnel On souhaite comparer le risque d avoir une fonction respiratoire anormale chez les fumeurs par rapport au risque des non-fumeurs tout en prenant l âge des individus en compte. Pour cela, on fonde notre comparaison sur un odds-ratio conditionnel. Introduisons Y la variable aléatoire binaire représentant l issue d un test respiratoire (normal auquel cas Y = 0 / anormal auquel cas Y = 1) pour un fumeur et introduisons Ỹ la variable aléatoire binaire représentant l issue d un test respiratoire (normal auquel cas Y = 0 / anormal auquel cas Y = 1) pour un non-fumeur. Soit X la variable aléatoire représentant l âge de ce fumeur et soit X la variable

aléatoire représentant l âge de ce non-fumeur. L odds ratio conditionnel qui nous intéresse est alors donné pour un certain âge x par : θ(x) = P[Y = 1 X = x] P[Ỹ = 0 X = x] P[Y = 0 X = x] P[Ỹ = 1 X = x] ( ) On dispose de (Y 1, X 1 ),..., (Y n1, X n1 ) un échantillon i.i.d. distribué comme (Y, X) ainsi que ( de (Ỹ1, X 1 ),..., (Ỹn 2, X ) n2 ) un échantillon i.i.d. distribué comme (Ỹ, X) et indépendant de ( ) (Y 1, X 1 ),..., (Y n1, X n1 ). 1. (a) Proposer un estimateur θ(x) de θ(x) en supposant que (Y, X) et (Ỹ, X) satisfont chacun un modèle de régression logistique. (b) Donner la construction d un estimateur bootstrap du biais de θ(x) et en déduire un estimateur débiaisé de θ(x) noté θ d (x). (c) Ecrire un programme qui calcule cet estimateur débiaisé. 2. (a) Donner la construction d un intervalle de confiance bilatéral bootstrap de base pour θ(x) de niveau de confiance (1 α). (b) Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap de base. Exercice 11. Bootstrap et régression linéaire généralisée. On souhaite évaluer l influence de la taille d une tumeur à la prostate ôtée par ablation chirurgicale sur le risque de présenter une atteinte des ganglions lymphatiques. Dans ce but, une étude clinique est réalisée chez des patients nouvellement opérés qui subissent un examen supplémentaire afin de déterminer s il y a atteinte des ganglions lymphatiques (Collet, 1991). Soit X la variable aléatoire représentant la taille de la tumeur et soit Y la variable aléatoire représentant l état des ganglions lymphatiques du patient (atteints ou non). 1. Déterminer une estimation de l odds-ratio. 2. Ecrire un programme qui calcule cet odds-ratio. 3. Donner la construction d un intervalle de confiance bilatéral bootstrap pour l odds-ratio au niveau de confiance (1 α). 4. Ecrire un programme qui calcule cet intervalle de confiance. Exercice 12. Bootstrap et analyse de la variance. 1. (a) Donner la construction d un intervalle de confiance bilatéral bootstrap studentisé de niveau de confiance (1 α) pour les paramètres d intérêt d un modèle d ANOVA équilibré à un facteur à partir d un échantillon indépendant de taille n. (b) Ecrire un programme qui calcule les bornes de ces intervalles de confiance. 2. (a) Donner la construction d une version bootstrappée de la p-valeur du test de Fisher de nécessité de l ANOVA dans le modèle précédent.

(b) Ecrire un programme qui calcule cette p-valeur. Exercice 13. Problème de test de moyenne à deux échantillons. On souhaite tester l efficacité d un nouveau traitement prescrit pour réduire les problèmes d hypertension artérielle. Pour cela, deux échantillons de patients sont constitués : l un auquel on administre le nouveau traitement, l autre auquel on administre un placebo. Soit X la variable aléatoire représentant la tension artérielle systolique d un patient traité avec le nouveau médicament et soit Y la variable aléatoire représentant la tension artérielle systolique d un patient traité avec le placebo. On souhaite tester au niveau de risque de première espèce α l hypothèse H 0 : E[X] = E[Y ] contre l hypothèse H 1 : E[X] E[Y ]. Soit (X 1,..., X n1 ) un échantillon i.i.d. de loi F distribué comme X et soit (Y 1,..., Y n2 ) un échantillon i.i.d. de loi G distribué comme Y, indépendant de (X 1,..., X n1 ). 1. Ecriture de la procédure statistique. (a) Donner l expression de la p-value obtenue en mettant en oeuvre un test fondé sur l approximation normale. (b) Ecrire un programme qui calcule cette p-value. (c) Donner la construction de l estimateur bootstrap de la p-value. (d) Ecrire un programme qui calcule cette p-value bootstrappée. 2. Comparaison des méthodes asymptotique et bootstrap par simulations. (a) Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 11 ) de loi gamma de paramètre de forme (shape) égal à 2 et de paramètre d échelle (scale) égal à 0.5 et M=1000 échantillons (Y 1,..., Y 10 ) de loi gamma de paramètre de forme (shape) égal à 2 et de paramètre d échelle (scale) égal à 0.5 et qui calcule sur chaque échantillon la valeur de la p-value obtenue par l approximation normale ainsi que la valeur de la p-value bootstrappée. En déduire le risque empirique de première espèce observé avec le test fondé sur l approximation normale et avec le test bootstrappé en choisissant un risque de première espèce nominal de 5%. (b) Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 11 ) de loi gamma de paramètre de forme (shape) égal à 1 et de paramètre d échelle (scale) égal à 0.5 et M=1000 échantillons (Y 1,..., Y 10 ) de loi gamma de paramètre de forme (shape) égal à 4 et de paramètre d échelle (scale) égal à 0.5 puis qui calcule, sur chaque échantillon, la valeur de la p-value obtenue par l approximation normale ainsi que la valeur de la p-value bootstrappée. En déduire la puissance empirique observée avec le test fondé sur l approximation normale et avec le test fondé sur le bootstrap en choisissant un risque de première espèce nominal de 5%. 3. Application sur des données. On a relevé la pression artérielle systolique au bout d un mois de traitement chez 11 patients traités avec le nouveau médicament et chez 10 patients traités avec le placebo. Les données exprimées en mmhg sont les suivantes : Médicament 136 129 132 160 140 134 140 138 140 134 130 Placebo 145 140 150 152 132 126 170 135 132 160

Comparer les résultats obtenus avec la procédure de test asymptotique et avec la procédure de test bootstrap en choisissant un risque de première espèce nominal de 5%. Exercice 14. Problème de test de proportion à deux échantillons. On souhaite tester l efficacité d un nouvel antibiotique prescrit pour guérir les infections à staphylocoques. Dans ce but, deux échantillons de patients sont constitués : l un auquel on administre le nouveau traitement, l autre auquel on administre un antibiotique usuel. Soit X la variable aléatoire représentant l état de santé d un patient traité avec le nouveau médicament (guéri ou non) et soit Y la variable aléatoire représentant l état de santé d un patient traité avec l antibiotique usuel. On souhaite tester au niveau de risque de première espèce α l hypothèse H 0 : E[X] = E[Y ] contre l hypothèse H 1 : E[X] E[Y ], ce qui revient à mettre en oeuvre un test d égalité de deux proportions à partir de deux échantillons indépendants. Pour cela, soit (X 1,..., X n1 ) un échantillon i.i.d. distribué comme X et soit (Y 1,..., Y n2 ) un échantillon i.i.d. distribué comme Y, indépendant de (X 1,..., X n1 ). 1. Donner l expression de la p-value obtenue en mettant en oeuvre le test asymptotique usuel (fondé sur l approximation normale). 2. Ecrire un programme qui calcule cette p-value. 3. Donner la construction de l estimateur bootstrap de la p-value. 4. Ecrire un programme qui calcule cette p-value bootstrappée. Exercice 15. Bootstrap et séries temporelles stationnaires Soit (X t ) t une série satisfaisant pour tout t le modèle suivant : X t = ax t 1 + ε t où (ε t ) t est une suite de variables aléatoires indépendantes et identiquement distribuées de loi N (0, σ 2 ) et où a vérifie a < 1. On dispose d observations de (X t ) t réalisées aux instants t = 1,..., n. 1. Déterminer un estimateur de a noté â. 2. Donner la construction d un intervalle de confiance bilatéral bootstrap non-paramétrique de base (de Hall) pour a de niveau de confiance (1 α). 3. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilatéral bootstrap non-paramétrique de base (de Hall) en prenant α = 0.05. Exercice 16. Problème de test à un échantillon. La concentration naturelle en nitrates (NO 3 ) des eaux souterraines en l absence de fertilisation des sols varie de 5 à 15 mg/l. Cependant, l apport d engrais azotés agricoles dans les sols contribue à fortement augmenter cette teneur. Le décret 2001-1220 du 20 décembre 2001 limite à 50 milligrammes par litre la teneur maximale en nitrates de l eau destinée à la consommation humaine. Un chimiste chargé du contrôle de l eau de ville effectue des prélèvements en différents points du réseau.

1. Ecriture de la procédure statistique. Soit X la variable aléatoire représentant la teneur en nitrates dans l eau de ville exprimé en mg/l en un endroit du réseau aléatoirement sélectionné. Soit (X 1,..., X n ) un échantillon i.i.d. distribué comme X. On souhaite tester au niveau de risque de première espèce α l hypothèse H 0 : E[X] = m 0 contre H 1 : E[X] > m 0. (a) Ecrire l expression de la p-value du test lorsqu on fonde ce test sur une approximation normale. (b) Ecrire un programme qui calcule cette p-value. (c) Donner la construction de la p-value du test lorsqu on fonde ce test sur le bootstrap. (d) Ecrire un programme qui calcule cette p-value bootstrappée. 2. Comparaison des tests asymptotique et bootstrappé par simulations. (a) Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 15 ) de loi gamma de paramètre de forme (shape) égal à 30 et de paramètre d échelle (scale) égal à 1 et qui calcule, sur chaque échantillon, la valeur de la p-value obtenue par l approximation normale ainsi que la valeur de la p-value bootstrappée. En déduire le risque de 1ère espèce empirique pour le test fondé sur l approximation normale et avec le test fondé sur le bootstrap en choisissant un risque de première espèce nominal de 5%. (b) Ecrire un programme qui génère M=1000 échantillons (X 1,..., X 15 ) de loi gamma de paramètre de forme (shape) égal à 60 et de paramètre d échelle (scale) égal à 1 et qui calcule, sur chaque échantillon, la valeur de la p-value obtenue par l approximation normale ainsi que la valeur de la p-value bootstrappée. En déduire la puissance empirique pour le test fondé sur l approximation normale et avec le test fondé sur le bootstrap en choisissant un risque de première espèce nominal de 5%. 3. Application sur des données. Un échantillon de 15 prélèvements est analysé ce qui fournit les valeurs suivantes (en mg/l) : 41.85 43.32 32.98 22.95 11.87 11.66 41.96 31.47 31.45 21.60 02.92 11.07 23.04 52.90 51.27 Comparer les résultats obtenus avec la procédure de test asymptotique et avec la procédure de test bootstrap en choisissant un risque de première espèce nominal de 5%.

Quelques fonctions utiles et quelques recommandations Le logiciel R peut être très long lorsqu il lui est demandé d effectuer de nombreuses boucles. Il faut donc éviter de le lui demander dans la mesure du possible. Les fonctions suivantes permettent parfois d éviter d écrire une boucle : ifelse(test,yes,no) permet de coder les indicatrices, test est un test logique, yes est la valeur asociée à un test positif, no est la valeur associée à un test négatif apply(x,marge,foo) applique la fonction foo à la matrice x, en ligne si marge=1, en colonne si marge=2 Ces fonctions sont mises en oeuvre sur le petit exemple ci-dessous : x <- cbind(x1 = 3, x2 = c(4:1, 2:5)) x col.sums <- apply(x, 2, sum) col.sums row.sums <- apply(x, 1, sum) row.sums ind<-ifelse(x[1]<=x[2],1,0) ind renvoie 1 si x[1] est inférieur ou égal à x[2] et 0 sinon Pour programmer des estimateurs bootstrap à la main, deux fonctions sont utiles : sample(x,n,replace=true) tire un vecteur de n valeurs avec remise dans le vecteur x replicate(b,operation) répète B fois l opération demandée et renvoit un vecteur de longueur B ou une matrice à B colonnes Citons aussi à toutes fins utiles : quantile(x,c(val1,val2,etc..)) calcule les quantiles empiriques associés aux données stockées dans le vecteur x d ordre val1, val2, etc... shapiro.test(x) effectue le test de normalité de Shapiro-Wilk sur les données x Pour pouvoir utiliser la fonction boot, il est nécessaire de charger le package qui la contient par l instruction suivante : library(boot) Voici un exemple simple d utilisation de la fonction boot. La statistique d intérêt est θ = X n et le vecteur de données est appelé mydata : # préliminaire obligatoire : créer une fonction qui calcule la statistique d intérêt mystat<-function(x,idx) { boot.sample<-x[idx] theta.hat.star<-mean(boot.sample) theta.hat.star } # appeler la fonction boot: boot.results<-boot(data=mydata,statistic=mystat,r=5000)

A partir des résultats obtenus, on peut alors utiliser la fonction boot.ci pour obtenir des intervalles de confiance : boot.icperc<-boot.ci(boot.out=boot.results,type="perc") détermine l intervalle de confiance bootstrap percentile boot.icbasic<-boot.ci(boot.out=boot.results,type="basic") détermine l intervalle de confiance bootstrap de base boot.icbca<-boot.ci(boot.out=boot.results,type="bca") détermine l intervalle de confiance bootstrap biais corrigé accéléré Pour obtenir un intervalle de confiance studentisé, il faut modifier la fonction donnant la statistique à bootstrapper de façon à ce qu elle renvoit aussi la variance de la statistique en question. mystat2<-function(x,idx) { boot.sample<-x[idx] theta.hat.star<-mean(boot.sample) thevariance<-var(boot.sample)/length(x) theresults<-c(theta.hat.star,thevariance) theresults } boot.results2<-boot(data=mydata,statistic=mystat2,r=5000) boot.icstud<-boot.ci(boot.out=boot.results2,type="stud") La méthode de bootstrap utilisée par défaut dans R est le bootstrap non-paramétrique. Voyons maintenant un exemple simple de bootstrap paramétrique sous l hypothèse que les données sont normales : # 2ème préliminaire obligatoire pour faire du bootstrap parametrique : créer une fonction qui génère les échantillons bootstrap rg.norm<-function(x,mle) { boot.sample<-rnorm(length(x),mean=mle[1],sd=sqrt(mle[2])) boot.sample } # appeler la fonction boot boot.par.norm<-boot(data=mydata, statistic=mystat, R=5000, sim="parametric", ran.gen=rg.norm, mle=c(mean(mydata),var(mydata)) )