Une méthode de rééchantillonnage: le bootstrap. C. Huber

Documents pareils
TSTI 2D CH X : Exemples de lois à densité 1

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

MODELES DE DUREE DE VIE

Les indices à surplus constant

Annexe commune aux séries ES, L et S : boîtes et quantiles

Probabilités sur un univers fini

Méthodes de Simulation

Travaux dirigés d introduction aux Probabilités

Probabilités Loi binomiale Exercices corrigés

I. Cas de l équiprobabilité

Hedging delta et gamma neutre d un option digitale

Fonctions de plusieurs variables

Moments des variables aléatoires réelles

Chaînes de Markov au lycée

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

4 Distributions particulières de probabilités

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Simulation de variables aléatoires

Probabilités sur un univers fini

Exercices de dénombrement

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Programmes des classes préparatoires aux Grandes Ecoles

Limites finies en un point

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Les probabilités. Chapitre 18. Tester ses connaissances

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Introduction à l approche bootstrap

Théorème du point fixe - Théorème de l inversion locale

Feuille d exercices 2 : Espaces probabilisés

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Continuité et dérivabilité d une fonction

Image d un intervalle par une fonction continue

Variables Aléatoires. Chapitre 2

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

3. Caractéristiques et fonctions d une v.a.

Couples de variables aléatoires discrètes

Probabilités III Introduction à l évaluation d options

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

NOTIONS DE PROBABILITÉS

4. Martingales à temps discret

TD1 Signaux, énergie et puissance, signaux aléatoires

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Chp. 4. Minimisation d une fonction d une variable

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Texte Agrégation limitée par diffusion interne

Correction du baccalauréat ES/L Métropole 20 juin 2014

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Leçon N 4 : Statistiques à deux variables

Programmation linéaire

Continuité en un point

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Cours 02 : Problème général de la programmation linéaire

Chapitre 3. Les distributions à deux variables

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Modélisation aléatoire en fiabilité des logiciels

Intégration et probabilités TD1 Espaces mesurés Corrigé

Fluctuation d une fréquence selon les échantillons - Probabilités

Le calcul du barème d impôt à Genève

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Probabilités. C. Charignon. I Cours 3

Modélisation et simulation

Comparaison de fonctions Développements limités. Chapitre 10

Les devoirs en Première STMG

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

DCG 6. Finance d entreprise. L essentiel en fiches

Introduction à la Statistique Inférentielle

Calculs de probabilités conditionelles

Chapitre 2 Le problème de l unicité des solutions

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Les mathématiques du XXe siècle

Dérivation : Résumé de cours et méthodes

Probabilités conditionnelles Loi binomiale

Chapitre 1 Régime transitoire dans les systèmes physiques

Table des matières. I Mise à niveau 11. Préface

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

TD1 PROPAGATION DANS UN MILIEU PRESENTANT UN GRADIENT D'INDICE

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

La nouvelle planification de l échantillonnage

TP N 57. Déploiement et renouvellement d une constellation de satellites

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Représentation d une distribution

Peut-on imiter le hasard?

Exercices sur le chapitre «Probabilités»

Suites numériques 4. 1 Autres recettes pour calculer les limites

Statistique : Résumé de cours et méthodes

LES DECIMALES DE π BERNARD EGGER

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

Estimation et tests statistiques, TD 5. Solutions

Transcription:

Une méthode de rééchantillonnage: le bootstrap. C. Huber September 11, 2006 1

1 LE PRINCIPE Bootstrap 2 Une Méthode de Rééchantillonnage: Le Bootstrap. Le terme de rééchantillonnage, ou, en anglais, bootstrap, qui évoque l action de se hisser en tirant sur ses propres lacets, désigne un ensemble de méthodes qui consistent à faire de l inférence statistique sur de nouveaux échantillons tirés à partir d un échantillon initial. Disposant d un échantillon destiné à donner une certaine information sur une population, on tire au sort, parmi la sous-population réduite à cet échantillon, un nouvel échantillon de même taille n. Et on répète cette opération B fois, où B est grand. On analyse ensuite les nouvelles observations ainsi obtenues pour affiner l inférence faite sur les observations initiales. A priori, on peut avoir des doutes sur l efficacité d une telle méthode et penser qu il n y a aucune amélioration à espérer en rééchantillonnant à partir du même échantillon. En effet, aucune information supplémentaire ne peut être espérée, toute l information étant contenue dans l échantillon initial. Cependant, comme on va le voir, ce rééchantillonnage, s il ne rajoute aucune information, permet, dans certains cas, d extraire de l échantillon de base l information souhaitée. 1 Le principe Le principe qui sous-tend le bootstrap est très simple et très ancien, et il peut être illustré par un système d emboîtement (P. Hall, 1992) tel que celui des poupées russes: il s agit d une poupée qui, lorsqu on l ouvre, laisse apparaître une poupée identique mais plus petite ( homothétique ), qui à son tour contient une poupée plus petite, etc.... Imaginons que l on veuille estimer le nombre r des taches de rousseur de la première de ces poupées, qui est aussi la plus grande, et que l on ne puisse pas l observer. On suppose qu on dispose seulement de la seconde, contenue dans la première, et qui contient toutes les autres. Soit r o le nombre des taches de rousseur de la seconde. On peut, en première approximation, estimer r par r o. On appelle Poupée la plus grande poupée, non observée, poupée 0 celle qui est observée, poupée 1 celle qu on trouve dans la poupée 0, et ainsi de suite pour toutes les poupées plus petites que la poupée 1, qui sont toutes observables puisque contenues dans la poupée 1. Comme la Poupée initiale est plus grande que la poupée numéro 0, on s attend à ce que r soit plus grand que r o et dans le rapport de leurs tailles. Cependant, on ne peut pas observer la première poupée et on ne connaît donc pas sa taille. En revanche, on peut observer le nombre des taches de rousseur r 1 de la troisième poupée. Donc, si le rapport du nombre des taches de rousseur d une poupée à la suivante est toujours le même, le rapport r o /r 1, qui, lui, est observable, fournira une estimation du rapport C.Huber 2

1 LE PRINCIPE Bootstrap 3 r/r o. Cela donne comme estimateur de r : ˆr = r 0 r 0 r 1. Mais il se peut que le rapport de ces nombres ne soit pas constant, ce que l on peut vérifier en comparant r o /r 1 à r 1 /r 2 par exemple, puisque ces deux quantités sont observables. Si ces deux quantités ne sont pas égales, r o /r 1 ne constitue qu une approximation pour la valeur de r/r 0. Pour effectuer une correction supplémentaire, si on peut supposer que le rapport des tailles d une poupée à la suivante, bien que n étant plus constant, varie régulièrement, par exemple les rapports de taille d une poupée à la suivante sont dans un rapport constant, c est à dire que r/r 0 r 0 /r 1 = r i 1/r i r i /r i+1, alors, on peut effectuer une correction supplémentaire en observant r 2 sur la poupée suivante et en prenant pour estimateur de r la valeur précédente multipliée par ce qui donne : (r 0 /r 1 )/(r 1 /r 2 ), ˆr = r 0 ( r 0 ) 2 r 2 r 1 r 1 On peut à nouveau vérifier si l hypothèse faite sur la variation des rapports est exacte en considérant la poupée suivante, et, dans le cas contraire, effectuer une nouvelle correction. L un des emplois les plus fréquents du bootstrap est d éliminer le biais d un estimateur de la manière suivante : Soit T un estimateur de θ, paramètre de la loi F commune aux X i constituant l observation X = (X 1,, X n )). Son biais est b(t ) = E(T F ) θ en notant E( F ) la moyenne (l espérance) pour la loi F, car cette notation sera commode dans la suite. On estime ce biais par b (T ) = E(T X) T où T est calculé sur un échantillon bootstrap X issu de l échantillon initial X, et E(T X) signifie la moyenne de T pour la loi empirique déterminée par X, c est à dire la loi qui attribue la probabilité 1/n à chacune des valeurs observées x i, i = 1,, n. L estimateur T est ensuite corrigé de son biais et donc remplacé par : T b (T ) = 2T E(T X) C.Huber 3

1 LE PRINCIPE Bootstrap 4 Comme T b(t ) est sans biais pour θ, T b (T ) sera presque sans biais. Prenons un exemple. Supposons que l on veuille estimer la moyenne µ d une population pour une variable aléatoire dont la fonction de répartition est F, inconnue, soit : µ = xdf (x) et que l on dispose pour cela d un échantillon X = (X 1,, X n ) de n observations indépendantes et équidistribuées selon F. Comme on l a dit, la loi empirique est celle qui attribue la probabilité 1/n à chacune des n observations. Désignons par F 0 sa fonction de répartition, appelée fonction de répartition empirique: n i=1 F 0 (x) = 1{x i x} n On peut, pour estimer µ, utiliser la même quantité (on dit la même fonctionnelle ) que ci-dessus, en remplaçant F, qui est inconnue, par la fonction de répartition empirique F 0 qui, elle, est connue. On estime donc µ par ˆµ = X i = xdf 0 (x) = X i n qui est la moyenne observée sur l échantillon ou moyenne empirique. Dans l exemple considéré, on sait que l estimateur ainsi obtenu est sans biais. Mais supposons maintenant que l on veuille estimer un autre paramètre, c est à dire une autre fonctionnelle de la loi F, par exemple µ r = ( xdf (x)) r. On pourra vérifier que l estimateur correspondant µ r = ( X) r i = ( X i n )r n est pas sans biais en général, sauf si r = 1. Comment peut on le corriger pour qu il devienne sans biais? Pour cela, il faudrait calculer le biais pour le lui retrancher, ou, si ce n est pas possible, estimer ce biais. Le biais b vaut b = E( µ r ) µ r = E{[ xdf 0 (x)] r [ xdf (x)] r F } Comme dans le calcul du biais intervient F qui est inconnue, on peut appliquer à nouveau le principe initial et remplacer dans cette expression F par F 0 et donc F 0 par F 1 obtenu par un nouvel échantillonnage à partir de F 0, c est à dire par échantillonnage à partir de l échantillon. C.Huber 4

2 NOTATIONS : Bootstrap 5 L analogie avec les poupées russes est la suivante : la population initiale, non observable, de distribution F correspond à la grande Poupée, et l échantillon observé, de distribution F 0, à la plus grande des poupées observées, la poupée numéro 0. Mais alors à quoi correspond la poupée numéro 1, que l on découvre en ouvrant la poupée numéro 0? Eh bien, et c est là le principe du bootstrap, on l obtient en effectuant, à partir de l échantillon, de loi F 0, considéré maintenant comme nouvelle population initiale, un nouvel échantillon, de même taille n, appelé échantillon bootstrap et noté X. Comme on aura en général B échantillons bootstrap, on les notera Xb, avec b variant de 1 à B quand on aura besoin de les distinguer. On dit que on rééchantillonne. 2 Notations : L échantillon initial est noté X = (X 1,..., X n ) et F 0 la loi empirique associée. Les échantillons obtenus par rééchantillonnage ou rééchantillons, ou échantillons bootstrap sont notés X = (X 1,..., X n). Les échantillons X sont des échantillons fondés sur F 0. On notera indifféremment: ou P (X j = X i X) = 1/n, 1 i, j n. P (X j = X i F 0 ) = 1/n, 1 i, j n. car dès qu on connaît X on peut en déduire F 0 et réciproquement. Remarques: 1. Problèmes paramétriques et non paramétriques: La loi F 0 associée à l échantillon peut être, comme dans l exemple ci-dessus de l estimation d une moyenne, la loi empirique. C est le cas lorsqu on a affaire à un problème non paramétrique. Mais la loi F 0 peut être une loi issue d un modèle paramétrique: les paramètres, qu on notera λ dans la suite, sont alors estimés en employant le modèle, en principe par maximum de vraisemblance, et alors F 0 est la loi appartenant au modèle, dont les paramètres sont ceux estimés à partir de l échantillon. C.Huber 5

3 SIMULATIONS: Bootstrap 6 2. Paramètres et fonctionnelles : On a vu que pour estimer une fonctionnelle T(F) de la distribution inconnue F on remplaçait F, dans le cas non paramétrique, par la loi empirique F 0 associée à l échantillon. Mais si par exemple on veut estimer un paramètre comme le centre de symétrie d une loi symétrique, ce centre de symétrie peut correspondre à plusieurs fonctionnelles différentes: la moyenne, la médiane de F et beaucoup d autres encore; par exemple les moyennes α-tronquées. Ces dernières sont obtenues en prenant la moyenne des observations qui restent lorsqu on a ôté les plus grandes et les plus petites, en proportion α. Il est donc nécessaire de dire précisément quelle est la fonctionnelle que l on veut estimer. 3. Approximation d une statistique bootstrap : Il faut bien distinguer deux éléments différents dans les méthodes bootstrap : Le principe lui-même, illustré par les poupées emboîtées, et qui consiste à remplacer la loi initiale inconnue par une loi associée à l échantillon observé, et toutes les lois dérivées nécessaires. Le (ou les) paramètre(s) d intérêt est (sont) ainsi remplacé(s) par une statistique bootstrap, en principe complètement calculable(s). Le calcul proprement dit de la statistique bootstrap : bien que la statistique bootstrap soit en principe complètement calculable, souvent son calcul effectif serait trop long. Il s agit en général d espérances fondées sur la loi F 0 et des dérivées de cette loi. Aussi, Efron a-t-il suggéré de le faire par une méthode de type Monte-Carlo qui consiste à rééchantillonner à partir de l échantillon initial, obtenant des échantillons de même taille n. Si le nombre des rééchantillonnages est assez grand, on aura une bonne approximation de l espérance cherchée à cause de la loi des grands nombres. 3 Simulations: Etant donnée une loi de probabilité sur IR de fonction de répartition F, on peut inventer un échantillon de n observations d une variable aléatoire réelle X de loi F en faisant n tirages indépendants issus de la loi F. En principe, la loi de base que l on simule est la loi uniforme sur [0 ; 1], qu on note U [01], à partir d un générateur de nombres au hasard. Un tel générateur est inclus dans tous les langages de programmation et dans tous les logiciels. A partir de cet échantillon uniforme simulé (U 1,..., U n ), on peut ensuite construire un échantillon simulé pour n importe quelle loi F en remarquant que: X = F 1 (U) C.Huber 6

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 7 a F pour fonction de répartition, comme on pourra aisément le vérifier, en particulier dans le cas où F est continue et strictement monotone. On forme la suite: (X 1, X 2,..., X n ) = (F 1 (U 1 ), F 1 (U 2 ),..., F 1 (U n )) qui est alors un échantillon de la loi F. Exercice 1 Comment générer un échantillon de taille n = 10 d une variable exponentielle de paramètre 1? Remarque: Certaines lois ont des inverses F 1 qui ne sont pas explicites. C est vrai en particulier de la loi normale qu on a souvent besoin de simuler. Dans ce cas, on procède autrement. On a remarqué en effet, que, si U et V sont deux variables uniformes sur [0; 1] et indépendantes, la variable : suit une loi normale standard, N (0, 1). X = cos(2πu) ( 2 log(v )) Exercice 2 Comment simulerait on une loi normale quelconque de moyenne µ et de variance σ 2? Le bootstrap consiste donc à faire une simulation à partir, non pas de la loi vraie F, qui n est en général pas connue, mais de la loi empirique F n qui a été observée. 4 Deux applications fondamentales du bootstrap: Les deux applications fondamentales du bootstrap sont la réduction du biais et la détermination d intervalles de confiance. Nous allons commencer par présenter un exemple donné par Efron, qui est celui qui a le premier mis en valeur les possibilités de cette méthode, connue depuis longtemps mais non exploitée, notamment à cause du temps de calcul qu elle implique. Evaluation de la précision d une estimation: un exemple proposé par Efron: A l origine, le bootstrap a été employé pour évaluer la précision d un estimateur. Par exemple, lors d un petite expérimentation sur des souris, on a tiré au sort parmi 16 souris, 7 qui reçoivent le nouveau traitement alors que les 9 autres sont des contrôles C.Huber 7

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 8 les qui reçoivent un placebo. Leurs durées de vie sont mesurées, en jours, et donnent les résultats suivants : moyenne écart-type Traitées X 94 197 16 38 99 141 23 86,86 25,24 Contrôles Y 52 104 146 10 51 30 40 27 46 56,22 14,14 On a l impression que le traitement assure une meilleure survie que le placebo, car les durées moyennes observées sont respectivement : 86,86 et 56,22. Mais les deux échantillons sont petits et la précision de ces deux estimateurs des deux vraies moyennes certainement très mauvaise. Comment mesurer cette précision? Si l on disposait d une taille d échantillon suffisamment grande pour pouvoir appliquer l approximation normale, on utiliserait le fait que: L(X F ) N (µ, s2 n ) Mais les tailles d échantillon sont trop faibles pour cela. De plus, si au lieu de comparer les moyennes, on comparait les médianes, qui sont ici respectivement 94 et 46, que faire pour en estimer la précision et savoir à quel point elles sont effectivement différentes? Commençons par considérer le cas des souris traitées. Eh bien, si le principe du bootstrap est valable, c est à dire si on peut remplacer la loi inconnue F de X par la loi observée F 0 ( sur le 7-échantillon) et l échantillon initial X lié à F 0 par l échantillon bootstrap X et la loi associée F 1, on a l identification suivante : L(X F ) L(X F 0 ) Comme F 0 est connue, la loi de X s en déduit complètement, et donc aussi la loi de la moyenne de X. Si on prend les quantiles 0,025 et 0,975 de cette loi, on sait qu avec une probabilité de 0,95 cette moyenne va rester entre ces deux valeurs. De même pour la médiane ou n importe quelle autre statistique. On peut remarquer aussi qu au lieu de s intéresser aux deux quantiles 0,025 et 0,975 de la moyenne pour voir à quel point elle est précise, on peut vouloir estimer l écart-type de la moyenne, ( ou de la médiane, d ailleurs). On procèdera de la même façon : par remplacement de l écart-type cherché par l écart-type de la statistique bootstrap. Dans l équation (*), le membre de droite est en principe complètement calculable mais en pratique il est en général beaucoup plus simple de rééchantillonner un grand nombre de fois : X 1, X 2,..., X B On rééchantillonne B fois. Pour chaque échantillon X b, on calcule la statistique qui nous intéresse: soit la moyenne, soit la médiane, dans les cas envisagés ici. On obtient ainsi une loi empirique pour cette statistique, qui, si B est assez grand, est une C.Huber 8

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 9 bonne approximation de la vraie loi. L estimateur bootstrap de l écart-type est donné par B ŝ b=1 = { ( X b X b ) 2 } B 1 et voici ce que donne cette statistique pour différents nombres B de rééchantillonnages. B 50 100 250 500 1000 infini ŝ (moyenne) 19,72 23,63 22,32 23,79 23,02 23,36 ŝ (médiane) 32,21 36,35 34,46 36,72 36,48 37,83 En ce qui concerne la moyenne, on voit que l écart-type bootstrap est proche de l estimateur usuel. Pour la médiane, on constate qu elle est plus dispersée. 1. Réduction du biais: Dans l exemple précédent, on estimait une moyenne par la moyenne observée, et on sait bien que dans ce cas on n a aucun problème de biais. Par contre dans beaucoup de cas, même l estimateur du maximum de vraisemblance a un biais. On peut utiliser le bootstrap pour réduire ce biais. Supposons que l on veuille estimer θ(f ) = [ r xdf (x)] à partir d un échantillon auquel est associé F 0. On choisit l estimateur Quel est son biais? Par définition θ(f ) = θ(f 0 ) = [ r xdf 0 (x)] Biais = E{θ(F ) θ(f 0 ) F } Comme on ne connaît pas F, on utilise le principe du bootstrap en remplaçant dans cette équation F par F 0 et F 0 par F 1, où F 1 est la loi associée à un n- échantillon d une variable de loi F 0 : Biais = E{θ(F 0 ) θ(f 1 ) F 0 } C.Huber 9

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 10 Donc l estimateur sans biais de θ s obtient en retranchant à θ(f 0 ) cet estimateur de son biais, soit: Estimateur sans biais de θ = θ(f 0 ) Biais Pour obtenir un estimateur sans biais, on doit donc ajouter t à θ(f 0 ) où t est défini par E(θ(F 0 ) θ(f ) + t) = 0 (1) On a donc remplacé l équation initiale qui donne la correction t que l on devrait faire pour supprimer le biais de l estimateur θ(f0 ) par une équation bootstrap qui donne une correction t, en principe calculable, et dont on espère qu elle est une bonne estimation de t. On remarque que t est un paramètre qui dépend de F alors que t est une statistique dépendant de F 0. De cette équation se déduit la correction t = θ(f 0 ) E(θ(F 1 ) F 0 ). On doit donc calculer la quantité: E(θ(F 1 ) F 0 ), et l estimateur sans biais est alors égal à: θ(f 0 ) + t = 2θ(F 0 ) E(θ(F 1 ) F 0 ). Prenons un exemple concret : On n a aucun renseignement sur F, on veut estimer E(X) 2 et on dispose de 3 observations : x 1 = 1, 2; x 2 = 2, 5; x 3 = 1, 1. Donc θ(f ) = 2 xdf (x) On est dans un cas non paramétrique. F 0 est donc la f.r. empirique qui donne à chacune des trois valeurs ci-dessus la probabilité 1/3 et donc θ(f 0 ) = [(1.2 + 2.5 + 1.1)/3] 2 = 2, 560. F 1 peut prendre 10 valeurs différentes: en effet, quand on tire un échantillon de taille n = 3 de la loi F 0, tout se passe comme si on tirait trois fois avec remise dans une urne à trois boules numérotées 1.1 1.2 et 2.5. Chaque tirage peut être C.Huber 10

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 11 résumé par le nombre de fois qu on a tiré chacune des trois boules: Fréquences probabilité θ 1.1 1.2 2.5 3 0 0 (1/3) 3 1.210 2 1 0 (1/3) 2 1.284 2 0 1 (1/3) 2 2.454 1 1 1 2/9 2.560 1 2 0 (1/3) 2 1.361 1 0 2 (1/3) 2 4.134 0 2 1 (1/3) 2 2.667 0 1 2 (1/3) 2 4.271 0 3 0 (1/3) 3 1.440 0 0 3 (1/3) 3 6.250 On en déduit E(θ(F 1 ) F 0 ) = 1.21/27+1.44/9+2.56/9+... = 2.6955. L estimateur sans biais est donc égal à 2 2.56 2.695 = 2.42(4). On voit clairement sur cet exemple comment effectuer le calcul explicite d une statistique bootstrap. Mais on voit aussi que, même pour un cas aussi simple où la taille n de l échantillon est égale à 3, il y a un grand nombre de tirages possibles pour F 1. Exercice 3: (a) Si au lieu de 3 valeurs, on avait observé un échantillon de taille n = 4, combien de tirages F 1 distincts peut on faire? (b) Même question pour n = 5. (c) Même question pour n quelconque lorsque l échantillon initial consiste en m valeurs distinctes. Indication: Le nombre des configurations distinctes de F 1 est égal au nombre de manières distinctes de répartir n boules dans m cases. Remarque: Comme F 0 est une loi discrète, la loi de θ(f 1 ) est, elle aussi, discrète. On remarque cependant que, même avec seulement 3 observations, on obtient pour θ(f 1 ) une loi beaucoup plus étalée. Ce phénomène ne fait que s accentuer quand on augmente n. En particulier, on pourra constater, après C.Huber 11

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 12 avoir fait l exercice précédent, que le nombre des tirages F 1 possibles lorsqu on a 10 observations distinctes pour l échantillon initial, est déjà très grand : 92 378. Et le mode a pour probabilité 0,00036, ce qui est très faible. Donc, la loi, sous F 0 d une fonctionnelle θ(f 1 ), bien qu elle soit en principe discrète, est en général très proche d une loi continue. On se sert de cette remarque quand on veut construire des intervalles de confiance. Exercice 4: On considère un n-échantillon (X 1,..., X n ) d une loi uniforme sur [0, θ] et on estime θ par maximum de vraisemblance. (a) Quel est l estimateur du maximum de vraisemblance de θ? (b) Cet estimateur est il sans biais? (c) Comment utiliser la méthode du bootstrap pour réduire le biais? Indication: La loi initiale est F = U [0θ]. F 0 = U [0,max(Xi )] et F 1 = U [0,max(Xi )] 2. Intervalle de confiance: Soit F la loi inconnue, dont on veut estimer le paramètre θ(f ) par un intervalle de confiance à 0,95 et F 0 la loi associée à l échantillon observé. θ(f 0 ) est l estimateur de θ(f ). Soit F la loi inconnue, dont on veut estimer le paramètre θ(f ) par un intervalle de confiance à 0,95 et F 0 la loi associée à l échantillon observé. θ(f 0 ) est un estimateur de θ(f ). Pour obtenir, à partir de θ(f 0 ), un intervalle de confiance (en général asymétrique) pour θ(f ), on a besoin de connaître la loi de θ(f ) θ(f 0 ), sous F (alors que F est inconnue) ou une approximation pour cette loi. Si c est le cas, on prend pour bornes de l intervalle, en notant t 1 = t 0.025 et t 2 = t 0.975 les quantiles 0.025 et 0.975 de cette loi: [θ(f 0 ) + t1 ; θ(f 0 ) + t 2 ]. En effet: P (θ(f ) θ(f 0 ) < t 1 ) = 0.025 P (θ(f ) θ(f 0 ) > t 2 ) = 0.025 P (θ(f 0 ) + t 1 θ(f ) θ(f 0 ) + t 2 ) = 0.975. C.Huber 12

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 13 Si on ne connaît pas cette loi, et si on n a pas d approximation pour celle-ci, ou, tout simplement si on en dispose mais que les calculs sont très compliqués, le bootstrap permet de lui substituer la loi de θ(f 0 ) θ(f 1 ) sous F 0. Comme F 0 est cette fois connue, cette loi est, en principe, une loi discrète complètement calculable. Alors apparaissent les deux points essentiels du bootstrap: La validation du bootstrap : il faut en effet valider cette substitution. La loi bootstrap n est calculable qu en principe. En réalité, pour les tailles d échantillon usuelles, le calcul exact serait trop long (voir ci-dessus ce que cela donne dans le cas n = 3) et on doit donc procéder par simulation pour évaluer cette loi bootstrap, ou pour évaluer ses paramètres d intérêt pour le problème considéré. Supposons que l on cherche maintenant un intervalle symétrique par rapport à θ(f 0 ), qui est par exemple la moyenne observée s il s agit de la moyenne, la médiane observée s il s agit de la médiane, etc... En utilisant toujours le même principe du bootstrap, au lieu de t tel que on va chercher t tel que P (θ(f 0 ) t θ(f ) θ(f 0 ) + t F ) = 0, 95 P (θ(f 1 ) t θ(f 0 ) θ(f 1 ) + t F 0 ) = 0, 95 Dans cette dernière expression, F 0 étant connu, θ(f 0 ) est connu. Il s agit donc de déterminer la loi de θ(f 1 ) où F 1 est échantillonné à partir de F 0. On pourra par exemple penser à l échantillon ci-dessus, θ étant la médiane ou le carré de la moyenne, etc... On trouve dans ce cas très facilement la loi de θ(f 1 ) car la taille de l échantillon est très faible : n = 3. Lorsque n est plus grand, cela devient compliqué et on utilise la loi des grands nombres: On rééchantillonne B fois, en faisant chaque fois n tirages sans remise dans l échantillon initial. On obtient ainsi B nouveaux échantillons de taille n: X 1, X 2,..., X B et B valeurs de la statistique bootstrap θ(f 1 ): (θ(x 1 ), θ(x 2 ),..., θ(x B )) Ces valeurs dessinent progressivement la loi de θ(f 1 ) et si on pouvait faire tendre B vers l infini, on aurait exactement la loi de θ(f 1 ). En général, on choisit des valeurs de B de l ordre de 50 à 200 (voir Efron, 1993). C.Huber 13

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 14 Remarque : Nous avons vu que, dans le cas non paramétrique, θ(f 1 ) a une loi discrète, et, par conséquent, une valeur exactement égale à 0,95 n est généralement pas atteignable. Nous avons cependant aussi remarqué que, très vite quand n croît, la loi F 1 se diversifie et les atomes ne portent pas beaucoup de probabilté chacun. Par contre, dans le cas d une loi paramétrique continue, l équation ci-dessus peut se résoudre exactement : il n y a pas de saut de la probabilité qui régit θ(f 1 ). Exemple: Prenons la loi exponentielle F = E(λ) de fonction de répartition F (x) = exp ( x/λ) et θ(f ) = λ. L estimateur du maximum de vraisemblance de λ est la moyenne empirique (on pourra le vérifier à titre d exercice): Donc ˆλ = X F 0 = E(ˆλ) = E( X) Notons la moyenne empirique Y/n : la loi de Y est la loi de la somme de n variables exponentielles de même paramètre λ et donc c est une loi gamma Γ(n, λ)(on pourra le vérifier ). L équation qui donne l intervalle de confiance bootstrap s écrit ici: P (θ(f 1) t θ(f 0 ) θ(f 1 ) + t F 0 ) = 0, 95 P (Y/n t X Y/n + t Γ(n, X)) = 0.95 Le deuxième paramètre de la loi gamma est un paramètre d échelle. En divisant tout par ce paramètre, qui est connu puisqu il est égal à la moyenne observée, on obtient: P ( Y /n 1 t /X Γ(n, 1)) = 0, 95 où Y suit la loi gamma Γ(n, 1). Une table de la loi gamma suffit donc maintenant pour calculer t. Notons g 0,95 le quantile vérifiant: P ( Y /n 1 g 0,95 ) = 0, 95. Alors, t = X 0,95 et l intervalle de confiance bootstrapé pour la moyenne d une loi exponentielle est finalement: [ X g 0,95 X; X g 0,95 X] C.Huber 14

4 DEUX APPLICATIONS FONDAMENTALES DU BOOTSTRAP: Bootstrap 15 Exercice 5: Faire le même calcul dans le cas où la loi exponentielle est remplacée par la loi normale N (µ, σ 2 ). On note λ = (µ, σ 2 ) et on veut un intervalle de confiance pour la moyenne, c est à dire que θ(f ) = µ. Exercice 6: Bootstrap pour des durées censurées Lorsqu on a affaire à des durées de survie censurées, les observations se présentent sous la forme de couples (T i, D i ), T étant la durée observée et D l indicateur de censure. Deux types de bootstrap peuvent alors être envisagés: le bootstrap simple et le bootstrap évident. Le premier consiste à faire un tirage au hasard dans les couples, le second à faire un tirage selon les fonctions de survie de Kaplan-Meier pour la durée de vie et pour la censure. On essaiera les deux méthodes sur un exemple. C.Huber 15