Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1
Plan du cours Qu est-ce que le bootstrap? Bootstrap pour l estimation d erreurs standard Bootstrap de données structurées Bootstrap pour l estimation de biais Bootstrap et jackknife Bootstrap pour la construction d intervalles de confiance Bootstrap et tests d hypothèses Bilan Référence Introduction à l approche bootstrap - Irène Buvat - 21/9/00-2
Qu est-ce que le bootstrap? Technique permettant d effectuer de l inférence statistique Technique récente (1979) car reposant sur l usage de calculateurs puissants Technique reposant sur la simulation de données à partir d un nombre limité d observations Technique destinée à faciliter l inférence dans les situations complexes où les méthodes analytiques ne suffisent pas to pull oneself up by one s bootstrap = se tirer d un mauvais pas Introduction à l approche bootstrap - Irène Buvat - 21/9/00-3
Problématique : exemple d inférence statistique La différence entre deux valeurs moyenne est-elle statistiquement significative? durée de survie groupe 1 (placébo) n 1 = 9 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 erreur standard se 1 = var 1 /n 1 = 1414 groupe 2 (traitement) n 2 = 7 mesures 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 erreur standard se 2 = var 2 /n 2 = 2524 différence des moyennes = 3063 erreur standard associée à la différence se = se 1 2 + se 2 2 = 1414 2 + 2524 2 = 2893 m 1 - m 2 se = 105 non significatif pas besoin de bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-4
Problématique : intérêt du bootstrap La différence entre deux valeurs médianes est-elle statistiquement significative? groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 médiane m 1 = 46 erreur standard? 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 94 erreur standard? différence des moyennes = 48 erreur standard associée à la différence? différence significative? pas de formule analytique simple pour estimer la fiabilité des grandeurs autres que les valeurs moyennes  intérêt du bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-5
Bootstrap pour l estimation d une erreur standard 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap S [s(x *b )- s * ] 2 b B-1 avec s * = S s(x *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-6
Calcul d un échantillon bootstrap 1 échantillon observé de N valeurs x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise x *1 = (69, 53, 80, 69, 73, 53, 44, 58, 75, 53) 1 échantillon bootstrap :  autant de valeurs que dans l échantillon original  valeurs issues de l échantillon original, mais avec des fréquences potentiellement différentes Introduction à l approche bootstrap - Irène Buvat - 21/9/00-7
Exemple : erreur standard de la moyenne durée de survie groupe 1 (placebo) n 1 = 9 mesures x = (52, 10, 40, 104, 50, 27, 146, 31, 46) statistique d intérêt : moyenne m 1 = 5622 B échantillons bootstrap x *1 =(50, 10, 40, 50, 46, 10,146, 40, 50) calcul de la moyenne réplications bootstrap de la moyenne 4911 x *b =(10, 52, 104, 40, 104, 46, 50, 146, 27) 6433 x *B =(146, 31, 31, 10, 27, 40, 104, 46, 50) 5389 Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap de la moyenne S [m 1 (x *b )- m 1* ] 2 SE (m 1 ) = b = 1332 B-1 avec m 1 * = S m 1 (x *b )/B b = 5573 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-8
Exemples d estimation d erreurs standard groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 médiane m 1 = 46 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 médiane m 2 = 94 erreur standard sur m 1 :  classique : se 1 = 1414  bootstrap : se 1 * = 1332 erreur standard sur m 1 :  classique :?  bootstrap : se 1 * = 1154 erreur standard sur m 1 :  classique : se 2 = 2524  bootstrap : se 2 * = 2381 erreur standard sur m 2 :  classique :?  bootstrap : se 2 * = 3635 erreur standard sur n importe quelle statistique  classique :?  bootstrap : TOUJOURS UNE SOLUTION au prix d un peu de calcul Introduction à l approche bootstrap - Irène Buvat - 21/9/00-9
Erreur standard d un coefficient de corrélation (1) performances à des tests de contrôle de connaissance test national précédent la scolarisation 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 34 32 3 28 26 500 600 700 r=0776 fiabilité de cette valeur? Â bootstrap note moyenne dans l année qui suit 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-10
Erreur standard d un coefficient de corrélation (2) échantillon observé 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 x=( 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296 ) statistique d intérêt : corrélation r=0776 B échantillons bootstrap x *1 661 558 666 651 594 =( 343 281 344 336 296) x =( ) *b 651 575 605 575 575 336 274 313 274 274 x =( ) *B 572 572 545 653 575 288 288 276 312 274 calcul de la corrélation r réplications bootstrap de la corrélation r 0927 0900 0793 S [r(x *b )- r * ] 2 SE (r) = b = 0775 B-1 avec r * = S r(x *b )/B b = 0134 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-11
Erreurs standard en ACP (1) élève notes par matière math phys litt angl mus 1 17 14 18 14 12 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 19 15 09 12 06 Matrice 5x5 de covariance empirique G : G jk = 1 N S i [x ij - moy i (x ij )] [x ik - moy i (x ik )] j,k=15 Calcul des valeurs propres et vecteurs propres de G : l 1, l 2, l 3, l 4, l 5 et v 1, v 2, v 3, v 4, v 5 fiabilité du pourcentage d inertie l 1 / S k l k? fiabilité des v k? Â bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-12
Erreurs standard en ACP (2) B échantillons bootstrap échantillon observé X = élève notes par matière math phys litt angl mus 1 17 14 18 14 12 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 19 15 09 12 06 statistiques d intérêt : %age d inertie PI = l 1 /S k l k vecteurs propres v k X *1 = X *B = élève notes par matière math phys litt angl mus 1 08 11 19 17 15 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 17 14 18 14 12 élève notes par matière math phys litt angl mus 1 09 13 15 16 18 2 i x i1 x i2 x ij x i5 calcul de G *b, valeurs propres et vecteurs propres de G réplications bootstrap l 1 *1 /S k l k *1 v 1 *1,v 2 *1,v 3 *1,v 4 *1,v 5 *1 l 1 *B /S k l k *B v 1 *B,v 2 *B,v 3 *B,v 4 *B,v 5 *B N 08 11 19 17 15 SE (PI) = S [PI(X *b )- PI * ] 2 b B-1 avec PI * = S PI(x *b )/B b SE (v k ) = S [v k (X *b )- v k * ] 2 b B-1 avec v * k =S v k (X *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-13
Erreur standard dans l ajustement de courbes (1) Diminution du taux de cholestérol (y) en fonction du pourcentage de la dose prescrite effectivement absorbée (x) x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 Modèle y i = b 0 + b 1 x i + b 2 x 2 i Ajustement des moindres carrés  ( b 0, b 1, b 2 ) Diminution prédite par le modèle ^ ^ ^ ^ ^ ^ ^ y i = b 0 + b 1 x i + b 2 x i 2 fiabilité des valeurs prédites, ie, erreur standard autour d une valeur prédite pour le modèle considéré? eg, erreur standard autour de y 60%?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-14
Erreur standard dans l ajustement de courbes (2) 1ère approche échantillon observé x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 statistiques d intérêt : valeurs prédites ^y i B échantillons bootstrap x *1 0 54 43 2 16 y *1 115 4725 3325 575 2975 x *b 33 95 7 43 72 y *b 2775 7700-105 3325 6300 x *B 100 72 43 28 7 y *B 8675 6300 3325 235-105 réplications calcul de ( b 0,b 1,b 2 ) bootstrap de ^ ^ ^ ^ y i y *1 i y *b i y i *B SE (y ^ i ) = S [y i *b - y i* ] 2 b B-1 avec y * i = S y *b i /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-15
Erreur standard dans l ajustement de courbes (3) 2ème approche échantillon observé x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 ajustement du modèle : y i = b 0 +b 1 x i +b 2 x i 2 statistiques d intérêt : valeurs prédites ^y i ^ ^ ^ b 0, b 1, b 2 1 échantillon de résidus : ^e i = y i -b ^ 0 +b ^ 1 x i +b ^ 2 x 2 i ^e i = 12 24-13 -08 B échantillons bootstrap de résidus e i *1 24-13 07 06 e i *b -13-08 16 12 e i *B 24 12 05-01 modèle : y *b i =b ^ 0 +b ^ 1 x i +b ^ 2 x i2 +e *b i y i *1 y i *b y i *B B réplications bootstrap de y i erreur standard de y^ i ^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-16
Ajustement de courbes : résumé 2 possibilités : Bootstrap des paires (x i, y i )  pas de modèle nécessaire  suppose que les paires sont des réalisations aléatoires de la population Bootstrap des résidus  sensible au modèle Si modèle incertain, adopter plutôt le bootstrap des paires Introduction à l approche bootstrap - Irène Buvat - 21/9/00-17
Nombre B de réplications bootstrap nécessaire REGLES EMPIRIQUES Même un petit nombre de réplications fournit déjà des informations très utiles B=50 est souvent suffisant pour une estimation fiable de l erreur standard Il est rare que plus de 200 réplications soient nécessaires pour estimer les erreurs standard Exemples : erreur standard de la moyenne m 2 SE(m 2 ) 25 24 23 22 21 20 19 10 100 1000 10000 B erreur standard du coefficient de corrélation r SE(r) 0146 0142 0138 0134 013 10 100 1000 10000 B Introduction à l approche bootstrap - Irène Buvat - 21/9/00-18
Type de données : structurées vs non structurées Données non structurées  les valeurs de l échantillon observé sont indépendantes  une modification de l ordre des valeurs ne modifie pas l échantillon  exemples : durée de survie des animaux notes des étudiants aux tests notes des étudiants dans les différentes disciplines Données structurées  les valeurs de l échantillon observé ne sont pas indépendantes  l ordre des valeurs dans l échantillon est important  exemples : série temporelle ou chronologique spectre en énergie image ATTENTION Dans le cas de données structurées, la procédure de calcul d échantillons bootstrap ne doit pas détruire la structure! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-19
Bootstrap d une série temporelle : problème Evolution de la concentration d une hormone au cours du temps t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 c t 25 2 15 1 05 0 1 3 5 7 9 11 t Modèle centrage des mesures : y t = c t - moy(c t ) modèle AR1 : y t = b y t-1 + e t Ajustement des moindres carrés  b^ ^ Fiabilité de b?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-20
Bootstrap d une série temporelle : 1 ère approche échantillon observé t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t statistiques d intérêt : paramètre du modèle b^ b^ 1 échantillon de résidus : ^e t = y t - b ^ y t-1 e t 02 04-01 02 ^ résidus non structurés B échantillons bootstrap de résidus e t *1 02 03 02-01 modèle : y *b 2 =b ^ y 1 +e *b 2 y *b t =b ^ y *b t-1 +e *b t y t *1 ajustement du modèle ^ b *1 e t *b - 01 06-05 -03 e t *B 04 04-01 02 y t *b y t *B ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-21
Bootstrap d une série temporelle : 2 ème approche échantillon observé t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 décomposition en blocs indépendants statistiques d intérêt : paramètre du modèle b^ 1 2 3 4 5 6 7 8 9 10 11 12 24 24 24 22 21 15 23 23 25 20 19 17 B échantillons bootstrap des blocs t 1 2 3 4 5 6 7 8 9 10 11 12 c t *1 22 21 15 25 20 19 24 24 22 24 22 21 t 1 2 3 4 5 6 7 8 9 10 11 12 c t *b 24 24 24 25 20 19 15 23 23 24 24 22 t 1 2 3 4 5 6 7 8 9 10 11 12 c t *B 24 22 21 22 21 15 24 24 22 23 25 20 ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t b *1 ^ ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-22
Bootstrap d une série temporelle : résumé 2 possibilités : Modèle et bootstrap des résidus  modèle tel que les résidus soient non structurés  bootstrap des résidus  reconstitution de données structurées bootstrap à partir du modèle et des réplications bootstrap des résidus  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée Bootstrap par blocs  décomposition de la série en blocs indépendants  reconstitution de séries bootstrap en joignant les blocs tirés aléatoirement avec remise  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée  moins dépendant d un modèle, mais problème du choix de la longueur des blocs Introduction à l approche bootstrap - Irène Buvat - 21/9/00-23
Bootstrap pour l estimation du biais : 1 ère approche biais = valeur estimée - valeur vraie 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap du biais biais = s * - s(x) avec s * = S s(x *b ) /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-24
Vecteur de rééchantillonnage 1 échantillon observé x = (x 1, x 2,, x N ) 1 échantillon 1 échantillon bootstrap bootstrap x *b 1 vecteur de rééchantillonnage P *b x *b = (x 1*, x 2*,, x N * ) P *b j = #(x * j = x j )/N j=1,,n = nb d occurrences de x j dans l échantillon bootstrap Exemple : x = (x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8 ) x *1 = (x 3, x 2, x 7, x 7, x 4, x 3, x 3, x 7 ) P *1 = (0, 1/7, 3/7, 1/7, 0, 0, 3/7, 0) 1 réplication bootstrap de la statistique s(x *b ) 1 fonction S(P *b ) du vecteur de rééchantillonnage P *b Exemple : s(x *b ) = moyenne de l échantillon = S x *b j /N S(P *b ) = S x j P j *b j j Introduction à l approche bootstrap - Irène Buvat - 21/9/00-25
Bootstrap pour l estimation du biais : 2 ème approche 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap et 1 statistique d intérêt s(x) : moyenne, médiane, x *1 = (x 1*, x 2*,, x N * ) calcul du vecteur de rééchantillonnage et calcul de la statistique d intérêt P *1, s(x *1 ) x *b = (x 1*, x 2*,, x N* ) P *b, s(x *b ) x *B = (x 1*, x 2*,, x N* ) P *B, s(x *B )  moyenne du vecteur d échantillonnage P * = S P *b /B b  moyenne des réalisations bootstrap de la statistique s * = S s(x *b ) /B b  estimée bootstrap du biais biais = s * - S(P * ) Introduction à l approche bootstrap - Irène Buvat - 21/9/00-26
Bootstrap pour l estimation du biais : exemple échantillon observé x = (26, 27, 29, 36, 35, 33, 35, 24, 31, 34, 42, 28, 35, 35, 27) statistique d intérêt : moyenne m = 3180 valeur vraie = 30 biais estimé 01 0 10 100 1000 10000-01 B -02-03 1 ère approche 2 ème approche -04  convergence des deux approches  convergence beaucoup plus rapide de la 2 ème approche  à la convergence, possible écart par rapport à la valeur vraie, inhérent à l estimation à partir d un échantillon fini Introduction à l approche bootstrap - Irène Buvat - 21/9/00-27
Correction du biais par l approche bootstrap biais = valeur estimée - valeur vraie s corr = s(x) - biais estimé = 2s(x) - s * (1 ère approche) = s(x) - s * + S(P * ) (2 ère approche) ATTENTION  l estimation corrigée du biais n est pas s *  la correction de biais peut être dangereuse en pratique car s corr peut avoir une grande erreur standard RECOMMANDATIONS  si biais faible par rapport à l erreur standard, mieux vaut utiliser s(x) plutôt que s corr  si biais grand par rapport à l erreur standard, s(x) n est probablement pas une bonne approximation de la statistique d intérêt pour la population Introduction à l approche bootstrap - Irène Buvat - 21/9/00-28
Bootstrap ou Jackknife? Introduction à l approche bootstrap - Irène Buvat - 21/9/00-29
Définition d un échantillon jackknife 1 échantillon observé de N valeurs x = (x 1, x 2, x 3, x i x N ) x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) échantillon jackknife x i : échantillon original sans l observation i x i = (x 1, x 2, x 3, x i-1, x i+1, x N ) x 3 = (50, 53, 80, 75, 69, 77, 44, 63, 73) à partir d un échantillon observé contenant N valeurs  N échantillons jackknife seulement Introduction à l approche bootstrap - Irène Buvat - 21/9/00-30
Estimation jackknife de l erreur standard et du biais Statistique d intérêt s Estimation jackknife de l erreur standard de s SE jackknife (s) = N-1S [ s(x i ) - s ] 2 N i à comparer à : avec s = S s(x i )/N i SE bootstrap (s) = S [s(x *b )- s * ] 2 b B-1 Â facteur d inflation (N-1)/N requis car les échantillons jackknife sont moins dissemblables de l échantillon initial que les échantillons bootstrap Estimation jackknife du biais biais jackknife (s) = (N-1) [s - s(x) ] Introduction à l approche bootstrap - Irène Buvat - 21/9/00-31
Jackknife versus bootstrap Travaux jackknife préalables aux travaux bootstrap Jackknife = approximation du bootstrap - statistique linéaire s(x) = constante + S fonction(x i )  pas de perte d information par l approche i jackknife - statistique non linéaire s(x)  perte d informations par l approche jackknife  jackknife = approximation linéaire du bootstrap Jackknife = moins efficace que le bootstrap en général  écart entre estimées bootstrap et jackknife fonction de l écart de la statistique d intérêt à la linéarité Echec du jackknife si la statistique d intérêt n est pas une fonction différentiable de x (par exemple, médiane) RECOMMANDATION :  préférer l approche bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-32
Bootstrap et estimation d intervalles de confiance Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a Plusieurs approches possibles : - construction de tables bootstrap  non recommandée pour les problèmes non paramétriques - utilisation des percentiles bootstrap  juste au premier ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N - méthode BC a : Bias-Corrected and accelerated  juste au second ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N  plus qu un avantage théorique  méthode recommandée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-33
Méthode des percentiles bootstrap 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) et 1 statistique d intérêt s(x) : moyenne, médiane, calcul de la statistique d intérêt B réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Classement des B valeurs de s(x *b ) par ordre croissant Intervalle de confiance [s 1 ; s 2 ] couvrant 1-2a, ie, Prob(sŒ[s 1 ;s 2 ])=1-2a intervalle contenant 100* (1-2a)% des valeurs avec : s 1 = 100a ième percentile des s(x *b ) calculés, ie, Ba ième valeur de la liste classée par ordre croissant s 2 = 100(1-a) ième percentile des s(x *b ) calculés, ie, B(1-a) ième valeur de la liste classée par ordre croissant Exemple : B = 2000 et a = 5% s 1 = 100 ème valeur de la liste classée s 2 = 1900 ème valeur de la liste classée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-34
Méthode BC a Bornes s 1 et s 2 également exprimées à partir des percentiles de la distribution bootstrap Bornes s 1 et s 2 différentes de celles de la méthode des percentiles : s 1 = 100a ième 1 percentile des s(x *b ) calculés, ie, Ba ième 1 valeur de la liste classée par ordre croissant s 2 = 100a ième 2 percentile des s(x *b ) calculés, ie, Ba ième 2 valeur de la liste classée par ordre croissant avec : z a 1 = F (z 0 + 0 + z (a) ) 1 - a (z 0 + z (a) ) z a 2 = F (z 0 + 0 + z (1-a) ) 1 - a (z 0 + z (1-a) ) où : F est la fonction de distribution cumulée de la loi normale centrée réduite, eg, F(1645) =095 z (a) est le 100 a ième percentile de la loi normale centrée réduite, eg, z (095) =1645 z 0 = F -1 [ (nb de valeurs s(x *b ) < s(x))/b] F -1 est l inverse de la fonction de distribution cumulée de la loi normale centrée réduite, eg, F -1 (095) =1645 a 0 = Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a S [s - s(x i )] 3 i 6 {S [s - s(x i )] 2 } 3/2 i Introduction à l approche bootstrap - Irène Buvat - 21/9/00-35
Nombre d échantillons bootstrap nécessaires ATTENTION Â plus de 1000 échantillons bootstrap sont nécessaires pour une estimation robuste des intervalles de confiance Introduction à l approche bootstrap - Irène Buvat - 21/9/00-36
Bootstrap et tests d hypothèse Les 2 échantillons observés émanent t-il de la même distribution de probabilité? Les moyennes des deux populations sousjacentes à deux échantillons observés sont-elles identiques? La moyenne des observations est-elle significativement différente d une valeur théorique? Â l approche bootstrap peut répondre! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-37
Notion de niveau de signification atteint (ASL) Niveau de signification atteint = Achieved Significance Level ASL Probabilité d observer une valeur de test au moins aussi grande que la valeur observée quand l hypothèse H0 est vraie ASL = Prob H0 (t* t obs ) Plus ASL est faible, plus il y a d évidence pour rejeter H0 Si ASL < a, rejeter H0 La valeur t obs est fixe et correspond à la valeur de test calculée à partir de ou des échantillons effectivement observés La valeur t* correspond à la valeur de test sous l hypothèse H0, estimé par le bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-38
Tests d hypothèse : principe général Nécessité de définir 2 quantités :  une statistique de test t  la distribution des données F 0 sous l hypothèse H0 Générer B échantillons bootstrap de t(x * ) à partir de la distribution F 0 Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-39
Tests d hypothèse : exemple 1 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de la même distribution de probabilité F 0? H0 : y et z sont des échantillons issus d une même population de distribution F 0 Former x = (y, z) Tirer B échantillons bootstrap de taille N+M à partir de x Pour chaque échantillon, les N premières observations sont notées y *b et les M suivantes z *b Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(y) - moy(z ) Si ASL < a, rejeter H0 Rq : une autre statistique de test peut être utilisée à la place de t(x *b ) = moy(y *b )-moy (z *b ), par exemple une statistique de Student Introduction à l approche bootstrap - Irène Buvat - 21/9/00-40
Tests d hypothèse : exemple 2 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de populations présentant la même moyenne? H0 : moy(y) = moy(z) Former x = (y, z) et calculer moy(x) = S i y i /N Calculer y i = y i - moy(y) + moy(x) et z i = z i - moy(z) + moy(x) Tirer B échantillons bootstrap y *b de taille N à partir de y, B échantillons bootstrap z *b de taille M à partir de z En déduire B vecteurs x *b = (y *b, z *b ) Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) s y 2*b /N + s z 2*b /M avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M s y 2*b = S i (y i *b -moy(y *b )) 2 /(N-1) s z 2*b = S i (z i *b -moy(z *b )) 2 /(M-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B moy(y) - moy(z ) où t obs = s y2 /N + s z2 /M Introduction à l approche bootstrap - Irène Buvat - 21/9/00-41
Tests d hypothèse : exemple 3 1 échantillon observé x = (x 1, x 2,, x N ), moy(x) = S i x i /N La moyenne de l échantillon observé vaut-elle m? H0 : moy(x) = m Tirer B échantillons bootstrap x *b de taille N à partir de x Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(x *b ) - moy(x) s 2*b /N avec moy(x *b ) = S i x i *b /N s 2*b = S i (x i *b -moy(x *b )) 2 /(N-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(x) - m s 2 /N Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-42
Bootstrap paramétrique 1 échantillon observé de N valeurs x = (50 ; 53 ; 58 ; 80 ; 75 ; 69 ; 77 ; 44 ; 63 ; 73) non paramétrique paramétrique estimation de la loi de la population 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs à partir de la loi de la population Bootstrap non paramétrique  aucune hypothèse de loi de la population sousjacente nécessaire Bootstrap paramétrique  moins biaisé que les expressions analytiques  fournit des solutions aux problèmes pour lesquels il n existe pas de formule analytique Introduction à l approche bootstrap - Irène Buvat - 21/9/00-43
Bilan Bootstrap = méthode d inférence statistique adaptée au contexte non paramétrique 1 seul échantillon d observations nécessaire Permet d estimer la distribution sous-jacente à une population Permet d associer des erreurs standard à virtuellement n importe quelle statistique :  moyenne, médiane  coefficient de corrélation  paramètres issus d une modélisation des données  analyse multidimensionnelle (ACP) Permet d étudier le biais associé à une statistique calculée à partir d un seul échantillon Permet de calculer des intervalles de confiance et de réaliser des tests d hypothèse Estimateurs bootstrap = estimateurs non biaisés Introduction à l approche bootstrap - Irène Buvat - 21/9/00-44
Sujets plus avancés relatifs au bootstrap Estimation de la puissance d un test à partir du bootstrap Erreurs associées aux estimations bootstrap Prédiction d erreurs par l approche bootstrap Bootstrap et images : Â détermination des propriétés statistiques (eg, variance) d images issues de traitements Introduction à l approche bootstrap - Irène Buvat - 21/9/00-45
Référence recommandée An Introduction to the Bootstrap Monographs on Statistics and Applied Probability 57 Bradley Efron Robert J Tibshirani Chapman & Hall 1993 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-46