Introduction à l approche bootstrap



Documents pareils
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Validation probabiliste d un Système de Prévision d Ensemble

TABLE DES MATIERES. C Exercices complémentaires 42

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Principe d un test statistique

1 Complément sur la projection du nuage des individus

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Estimation et tests statistiques, TD 5. Solutions

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Évaluation de la régression bornée

VI. Tests non paramétriques sur un échantillon

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

NON-LINEARITE ET RESEAUX NEURONAUX

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Le risque Idiosyncrasique

Chapitre 3. Les distributions à deux variables

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistiques Descriptives à une dimension

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

FORMULAIRE DE STATISTIQUES

STATISTIQUES. UE Modélisation pour la biologie

Annexe commune aux séries ES, L et S : boîtes et quantiles

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Régression linéaire. Nicolas Turenne INRA

Biostatistiques : Petits effectifs

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Le modèle de régression linéaire

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Intérêt du découpage en sous-bandes pour l analyse spectrale

Développements récents de la méthode des scores de la Banque de France

Précision d un résultat et calculs d incertitudes

CNAM léments de cours Bonus-malus et Crédibilité

3. Caractéristiques et fonctions d une v.a.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Introduction à la statistique non paramétrique

LES GENERATEURS DE NOMBRES ALEATOIRES

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Exercice : la frontière des portefeuilles optimaux sans actif certain

INF6304 Interfaces Intelligentes

Table des matières. I Mise à niveau 11. Préface

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exemples d application

Théorie des sondages : cours 5

Cours de Tests paramétriques

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Apprentissage par renforcement (1a/3)

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Quantification Scalaire et Prédictive

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

CAPTEURS - CHAINES DE MESURES

Analyse de la variance Comparaison de plusieurs moyennes

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Programmes des classes préparatoires aux Grandes Ecoles

Quelques éléments de statistique multidimensionnelle

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chapitre 3 : INFERENCE

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

La classification automatique de données quantitatives

Modélisation aléatoire en fiabilité des logiciels

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

Statistique : Résumé de cours et méthodes

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Logiciel XLSTAT version rue Damrémont PARIS

Aide-mémoire de statistique appliquée à la biologie

Docteur José LABARERE

TD1 Signaux, énergie et puissance, signaux aléatoires

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Statistique Descriptive Élémentaire

Introduction aux Statistiques et à l utilisation du logiciel R

Chapitre I La fonction transmission

Bureau N301 (Nautile)

Le théorème des deux fonds et la gestion indicielle

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Enjeux mathématiques et Statistiques du Big Data

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Le suivi de la qualité. Méthode MSP : généralités

Méthodologie du calcul de la VaR de marché : revue de l approche basée sur des simulations historiques

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Correction du baccalauréat STMG Polynésie 17 juin 2014

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

LES MODELES DE SCORE

Chapitre 4 : Régression linéaire

Cours de méthodes de scoring

La nouvelle planification de l échantillonnage

Transcription:

Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1

Plan du cours Qu est-ce que le bootstrap? Bootstrap pour l estimation d erreurs standard Bootstrap de données structurées Bootstrap pour l estimation de biais Bootstrap et jackknife Bootstrap pour la construction d intervalles de confiance Bootstrap et tests d hypothèses Bilan Référence Introduction à l approche bootstrap - Irène Buvat - 21/9/00-2

Qu est-ce que le bootstrap? Technique permettant d effectuer de l inférence statistique Technique récente (1979) car reposant sur l usage de calculateurs puissants Technique reposant sur la simulation de données à partir d un nombre limité d observations Technique destinée à faciliter l inférence dans les situations complexes où les méthodes analytiques ne suffisent pas to pull oneself up by one s bootstrap = se tirer d un mauvais pas Introduction à l approche bootstrap - Irène Buvat - 21/9/00-3

Problématique : exemple d inférence statistique La différence entre deux valeurs moyenne est-elle statistiquement significative? durée de survie groupe 1 (placébo) n 1 = 9 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 erreur standard se 1 = var 1 /n 1 = 1414 groupe 2 (traitement) n 2 = 7 mesures 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 erreur standard se 2 = var 2 /n 2 = 2524 différence des moyennes = 3063 erreur standard associée à la différence se = se 1 2 + se 2 2 = 1414 2 + 2524 2 = 2893 m 1 - m 2 se = 105 non significatif pas besoin de bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-4

Problématique : intérêt du bootstrap La différence entre deux valeurs médianes est-elle statistiquement significative? groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 médiane m 1 = 46 erreur standard? 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 94 erreur standard? différence des moyennes = 48 erreur standard associée à la différence? différence significative? pas de formule analytique simple pour estimer la fiabilité des grandeurs autres que les valeurs moyennes  intérêt du bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-5

Bootstrap pour l estimation d une erreur standard 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap S [s(x *b )- s * ] 2 b B-1 avec s * = S s(x *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-6

Calcul d un échantillon bootstrap 1 échantillon observé de N valeurs x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise x *1 = (69, 53, 80, 69, 73, 53, 44, 58, 75, 53) 1 échantillon bootstrap :  autant de valeurs que dans l échantillon original  valeurs issues de l échantillon original, mais avec des fréquences potentiellement différentes Introduction à l approche bootstrap - Irène Buvat - 21/9/00-7

Exemple : erreur standard de la moyenne durée de survie groupe 1 (placebo) n 1 = 9 mesures x = (52, 10, 40, 104, 50, 27, 146, 31, 46) statistique d intérêt : moyenne m 1 = 5622 B échantillons bootstrap x *1 =(50, 10, 40, 50, 46, 10,146, 40, 50) calcul de la moyenne réplications bootstrap de la moyenne 4911 x *b =(10, 52, 104, 40, 104, 46, 50, 146, 27) 6433 x *B =(146, 31, 31, 10, 27, 40, 104, 46, 50) 5389 Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap de la moyenne S [m 1 (x *b )- m 1* ] 2 SE (m 1 ) = b = 1332 B-1 avec m 1 * = S m 1 (x *b )/B b = 5573 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-8

Exemples d estimation d erreurs standard groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 médiane m 1 = 46 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 médiane m 2 = 94 erreur standard sur m 1 :  classique : se 1 = 1414  bootstrap : se 1 * = 1332 erreur standard sur m 1 :  classique :?  bootstrap : se 1 * = 1154 erreur standard sur m 1 :  classique : se 2 = 2524  bootstrap : se 2 * = 2381 erreur standard sur m 2 :  classique :?  bootstrap : se 2 * = 3635 erreur standard sur n importe quelle statistique  classique :?  bootstrap : TOUJOURS UNE SOLUTION au prix d un peu de calcul Introduction à l approche bootstrap - Irène Buvat - 21/9/00-9

Erreur standard d un coefficient de corrélation (1) performances à des tests de contrôle de connaissance test national précédent la scolarisation 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 34 32 3 28 26 500 600 700 r=0776 fiabilité de cette valeur? Â bootstrap note moyenne dans l année qui suit 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-10

Erreur standard d un coefficient de corrélation (2) échantillon observé 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 x=( 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296 ) statistique d intérêt : corrélation r=0776 B échantillons bootstrap x *1 661 558 666 651 594 =( 343 281 344 336 296) x =( ) *b 651 575 605 575 575 336 274 313 274 274 x =( ) *B 572 572 545 653 575 288 288 276 312 274 calcul de la corrélation r réplications bootstrap de la corrélation r 0927 0900 0793 S [r(x *b )- r * ] 2 SE (r) = b = 0775 B-1 avec r * = S r(x *b )/B b = 0134 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-11

Erreurs standard en ACP (1) élève notes par matière math phys litt angl mus 1 17 14 18 14 12 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 19 15 09 12 06 Matrice 5x5 de covariance empirique G : G jk = 1 N S i [x ij - moy i (x ij )] [x ik - moy i (x ik )] j,k=15 Calcul des valeurs propres et vecteurs propres de G : l 1, l 2, l 3, l 4, l 5 et v 1, v 2, v 3, v 4, v 5 fiabilité du pourcentage d inertie l 1 / S k l k? fiabilité des v k? Â bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-12

Erreurs standard en ACP (2) B échantillons bootstrap échantillon observé X = élève notes par matière math phys litt angl mus 1 17 14 18 14 12 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 19 15 09 12 06 statistiques d intérêt : %age d inertie PI = l 1 /S k l k vecteurs propres v k X *1 = X *B = élève notes par matière math phys litt angl mus 1 08 11 19 17 15 2 09 13 15 16 18 i x i1 x i2 x ij x i5 N 17 14 18 14 12 élève notes par matière math phys litt angl mus 1 09 13 15 16 18 2 i x i1 x i2 x ij x i5 calcul de G *b, valeurs propres et vecteurs propres de G réplications bootstrap l 1 *1 /S k l k *1 v 1 *1,v 2 *1,v 3 *1,v 4 *1,v 5 *1 l 1 *B /S k l k *B v 1 *B,v 2 *B,v 3 *B,v 4 *B,v 5 *B N 08 11 19 17 15 SE (PI) = S [PI(X *b )- PI * ] 2 b B-1 avec PI * = S PI(x *b )/B b SE (v k ) = S [v k (X *b )- v k * ] 2 b B-1 avec v * k =S v k (X *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-13

Erreur standard dans l ajustement de courbes (1) Diminution du taux de cholestérol (y) en fonction du pourcentage de la dose prescrite effectivement absorbée (x) x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 Modèle y i = b 0 + b 1 x i + b 2 x 2 i Ajustement des moindres carrés  ( b 0, b 1, b 2 ) Diminution prédite par le modèle ^ ^ ^ ^ ^ ^ ^ y i = b 0 + b 1 x i + b 2 x i 2 fiabilité des valeurs prédites, ie, erreur standard autour d une valeur prédite pour le modèle considéré? eg, erreur standard autour de y 60%?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-14

Erreur standard dans l ajustement de courbes (2) 1ère approche échantillon observé x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 statistiques d intérêt : valeurs prédites ^y i B échantillons bootstrap x *1 0 54 43 2 16 y *1 115 4725 3325 575 2975 x *b 33 95 7 43 72 y *b 2775 7700-105 3325 6300 x *B 100 72 43 28 7 y *B 8675 6300 3325 235-105 réplications calcul de ( b 0,b 1,b 2 ) bootstrap de ^ ^ ^ ^ y i y *1 i y *b i y i *B SE (y ^ i ) = S [y i *b - y i* ] 2 b B-1 avec y * i = S y *b i /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-15

Erreur standard dans l ajustement de courbes (3) 2ème approche échantillon observé x i (%) 0 2 7 8 16 33 43 100 y i 115 575-105 3625 2975 2775 3325 8675 ajustement du modèle : y i = b 0 +b 1 x i +b 2 x i 2 statistiques d intérêt : valeurs prédites ^y i ^ ^ ^ b 0, b 1, b 2 1 échantillon de résidus : ^e i = y i -b ^ 0 +b ^ 1 x i +b ^ 2 x 2 i ^e i = 12 24-13 -08 B échantillons bootstrap de résidus e i *1 24-13 07 06 e i *b -13-08 16 12 e i *B 24 12 05-01 modèle : y *b i =b ^ 0 +b ^ 1 x i +b ^ 2 x i2 +e *b i y i *1 y i *b y i *B B réplications bootstrap de y i erreur standard de y^ i ^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-16

Ajustement de courbes : résumé 2 possibilités : Bootstrap des paires (x i, y i )  pas de modèle nécessaire  suppose que les paires sont des réalisations aléatoires de la population Bootstrap des résidus  sensible au modèle Si modèle incertain, adopter plutôt le bootstrap des paires Introduction à l approche bootstrap - Irène Buvat - 21/9/00-17

Nombre B de réplications bootstrap nécessaire REGLES EMPIRIQUES Même un petit nombre de réplications fournit déjà des informations très utiles B=50 est souvent suffisant pour une estimation fiable de l erreur standard Il est rare que plus de 200 réplications soient nécessaires pour estimer les erreurs standard Exemples : erreur standard de la moyenne m 2 SE(m 2 ) 25 24 23 22 21 20 19 10 100 1000 10000 B erreur standard du coefficient de corrélation r SE(r) 0146 0142 0138 0134 013 10 100 1000 10000 B Introduction à l approche bootstrap - Irène Buvat - 21/9/00-18

Type de données : structurées vs non structurées Données non structurées  les valeurs de l échantillon observé sont indépendantes  une modification de l ordre des valeurs ne modifie pas l échantillon  exemples : durée de survie des animaux notes des étudiants aux tests notes des étudiants dans les différentes disciplines Données structurées  les valeurs de l échantillon observé ne sont pas indépendantes  l ordre des valeurs dans l échantillon est important  exemples : série temporelle ou chronologique spectre en énergie image ATTENTION Dans le cas de données structurées, la procédure de calcul d échantillons bootstrap ne doit pas détruire la structure! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-19

Bootstrap d une série temporelle : problème Evolution de la concentration d une hormone au cours du temps t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 c t 25 2 15 1 05 0 1 3 5 7 9 11 t Modèle centrage des mesures : y t = c t - moy(c t ) modèle AR1 : y t = b y t-1 + e t Ajustement des moindres carrés  b^ ^ Fiabilité de b?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-20

Bootstrap d une série temporelle : 1 ère approche échantillon observé t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t statistiques d intérêt : paramètre du modèle b^ b^ 1 échantillon de résidus : ^e t = y t - b ^ y t-1 e t 02 04-01 02 ^ résidus non structurés B échantillons bootstrap de résidus e t *1 02 03 02-01 modèle : y *b 2 =b ^ y 1 +e *b 2 y *b t =b ^ y *b t-1 +e *b t y t *1 ajustement du modèle ^ b *1 e t *b - 01 06-05 -03 e t *B 04 04-01 02 y t *b y t *B ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-21

Bootstrap d une série temporelle : 2 ème approche échantillon observé t 1 2 3 4 5 6 7 8 9 10 11 12 c t 24 24 24 22 21 15 23 23 25 20 19 17 décomposition en blocs indépendants statistiques d intérêt : paramètre du modèle b^ 1 2 3 4 5 6 7 8 9 10 11 12 24 24 24 22 21 15 23 23 25 20 19 17 B échantillons bootstrap des blocs t 1 2 3 4 5 6 7 8 9 10 11 12 c t *1 22 21 15 25 20 19 24 24 22 24 22 21 t 1 2 3 4 5 6 7 8 9 10 11 12 c t *b 24 24 24 25 20 19 15 23 23 24 24 22 t 1 2 3 4 5 6 7 8 9 10 11 12 c t *B 24 22 21 22 21 15 24 24 22 23 25 20 ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t b *1 ^ ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-22

Bootstrap d une série temporelle : résumé 2 possibilités : Modèle et bootstrap des résidus  modèle tel que les résidus soient non structurés  bootstrap des résidus  reconstitution de données structurées bootstrap à partir du modèle et des réplications bootstrap des résidus  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée Bootstrap par blocs  décomposition de la série en blocs indépendants  reconstitution de séries bootstrap en joignant les blocs tirés aléatoirement avec remise  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée  moins dépendant d un modèle, mais problème du choix de la longueur des blocs Introduction à l approche bootstrap - Irène Buvat - 21/9/00-23

Bootstrap pour l estimation du biais : 1 ère approche biais = valeur estimée - valeur vraie 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap du biais biais = s * - s(x) avec s * = S s(x *b ) /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-24

Vecteur de rééchantillonnage 1 échantillon observé x = (x 1, x 2,, x N ) 1 échantillon 1 échantillon bootstrap bootstrap x *b 1 vecteur de rééchantillonnage P *b x *b = (x 1*, x 2*,, x N * ) P *b j = #(x * j = x j )/N j=1,,n = nb d occurrences de x j dans l échantillon bootstrap Exemple : x = (x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8 ) x *1 = (x 3, x 2, x 7, x 7, x 4, x 3, x 3, x 7 ) P *1 = (0, 1/7, 3/7, 1/7, 0, 0, 3/7, 0) 1 réplication bootstrap de la statistique s(x *b ) 1 fonction S(P *b ) du vecteur de rééchantillonnage P *b Exemple : s(x *b ) = moyenne de l échantillon = S x *b j /N S(P *b ) = S x j P j *b j j Introduction à l approche bootstrap - Irène Buvat - 21/9/00-25

Bootstrap pour l estimation du biais : 2 ème approche 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap et 1 statistique d intérêt s(x) : moyenne, médiane, x *1 = (x 1*, x 2*,, x N * ) calcul du vecteur de rééchantillonnage et calcul de la statistique d intérêt P *1, s(x *1 ) x *b = (x 1*, x 2*,, x N* ) P *b, s(x *b ) x *B = (x 1*, x 2*,, x N* ) P *B, s(x *B )  moyenne du vecteur d échantillonnage P * = S P *b /B b  moyenne des réalisations bootstrap de la statistique s * = S s(x *b ) /B b  estimée bootstrap du biais biais = s * - S(P * ) Introduction à l approche bootstrap - Irène Buvat - 21/9/00-26

Bootstrap pour l estimation du biais : exemple échantillon observé x = (26, 27, 29, 36, 35, 33, 35, 24, 31, 34, 42, 28, 35, 35, 27) statistique d intérêt : moyenne m = 3180 valeur vraie = 30 biais estimé 01 0 10 100 1000 10000-01 B -02-03 1 ère approche 2 ème approche -04  convergence des deux approches  convergence beaucoup plus rapide de la 2 ème approche  à la convergence, possible écart par rapport à la valeur vraie, inhérent à l estimation à partir d un échantillon fini Introduction à l approche bootstrap - Irène Buvat - 21/9/00-27

Correction du biais par l approche bootstrap biais = valeur estimée - valeur vraie s corr = s(x) - biais estimé = 2s(x) - s * (1 ère approche) = s(x) - s * + S(P * ) (2 ère approche) ATTENTION  l estimation corrigée du biais n est pas s *  la correction de biais peut être dangereuse en pratique car s corr peut avoir une grande erreur standard RECOMMANDATIONS  si biais faible par rapport à l erreur standard, mieux vaut utiliser s(x) plutôt que s corr  si biais grand par rapport à l erreur standard, s(x) n est probablement pas une bonne approximation de la statistique d intérêt pour la population Introduction à l approche bootstrap - Irène Buvat - 21/9/00-28

Bootstrap ou Jackknife? Introduction à l approche bootstrap - Irène Buvat - 21/9/00-29

Définition d un échantillon jackknife 1 échantillon observé de N valeurs x = (x 1, x 2, x 3, x i x N ) x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) échantillon jackknife x i : échantillon original sans l observation i x i = (x 1, x 2, x 3, x i-1, x i+1, x N ) x 3 = (50, 53, 80, 75, 69, 77, 44, 63, 73) à partir d un échantillon observé contenant N valeurs  N échantillons jackknife seulement Introduction à l approche bootstrap - Irène Buvat - 21/9/00-30

Estimation jackknife de l erreur standard et du biais Statistique d intérêt s Estimation jackknife de l erreur standard de s SE jackknife (s) = N-1S [ s(x i ) - s ] 2 N i à comparer à : avec s = S s(x i )/N i SE bootstrap (s) = S [s(x *b )- s * ] 2 b B-1 Â facteur d inflation (N-1)/N requis car les échantillons jackknife sont moins dissemblables de l échantillon initial que les échantillons bootstrap Estimation jackknife du biais biais jackknife (s) = (N-1) [s - s(x) ] Introduction à l approche bootstrap - Irène Buvat - 21/9/00-31

Jackknife versus bootstrap Travaux jackknife préalables aux travaux bootstrap Jackknife = approximation du bootstrap - statistique linéaire s(x) = constante + S fonction(x i )  pas de perte d information par l approche i jackknife - statistique non linéaire s(x)  perte d informations par l approche jackknife  jackknife = approximation linéaire du bootstrap Jackknife = moins efficace que le bootstrap en général  écart entre estimées bootstrap et jackknife fonction de l écart de la statistique d intérêt à la linéarité Echec du jackknife si la statistique d intérêt n est pas une fonction différentiable de x (par exemple, médiane) RECOMMANDATION :  préférer l approche bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-32

Bootstrap et estimation d intervalles de confiance Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a Plusieurs approches possibles : - construction de tables bootstrap  non recommandée pour les problèmes non paramétriques - utilisation des percentiles bootstrap  juste au premier ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N - méthode BC a : Bias-Corrected and accelerated  juste au second ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N  plus qu un avantage théorique  méthode recommandée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-33

Méthode des percentiles bootstrap 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) et 1 statistique d intérêt s(x) : moyenne, médiane, calcul de la statistique d intérêt B réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Classement des B valeurs de s(x *b ) par ordre croissant Intervalle de confiance [s 1 ; s 2 ] couvrant 1-2a, ie, Prob(sŒ[s 1 ;s 2 ])=1-2a intervalle contenant 100* (1-2a)% des valeurs avec : s 1 = 100a ième percentile des s(x *b ) calculés, ie, Ba ième valeur de la liste classée par ordre croissant s 2 = 100(1-a) ième percentile des s(x *b ) calculés, ie, B(1-a) ième valeur de la liste classée par ordre croissant Exemple : B = 2000 et a = 5% s 1 = 100 ème valeur de la liste classée s 2 = 1900 ème valeur de la liste classée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-34

Méthode BC a Bornes s 1 et s 2 également exprimées à partir des percentiles de la distribution bootstrap Bornes s 1 et s 2 différentes de celles de la méthode des percentiles : s 1 = 100a ième 1 percentile des s(x *b ) calculés, ie, Ba ième 1 valeur de la liste classée par ordre croissant s 2 = 100a ième 2 percentile des s(x *b ) calculés, ie, Ba ième 2 valeur de la liste classée par ordre croissant avec : z a 1 = F (z 0 + 0 + z (a) ) 1 - a (z 0 + z (a) ) z a 2 = F (z 0 + 0 + z (1-a) ) 1 - a (z 0 + z (1-a) ) où : F est la fonction de distribution cumulée de la loi normale centrée réduite, eg, F(1645) =095 z (a) est le 100 a ième percentile de la loi normale centrée réduite, eg, z (095) =1645 z 0 = F -1 [ (nb de valeurs s(x *b ) < s(x))/b] F -1 est l inverse de la fonction de distribution cumulée de la loi normale centrée réduite, eg, F -1 (095) =1645 a 0 = Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a S [s - s(x i )] 3 i 6 {S [s - s(x i )] 2 } 3/2 i Introduction à l approche bootstrap - Irène Buvat - 21/9/00-35

Nombre d échantillons bootstrap nécessaires ATTENTION Â plus de 1000 échantillons bootstrap sont nécessaires pour une estimation robuste des intervalles de confiance Introduction à l approche bootstrap - Irène Buvat - 21/9/00-36

Bootstrap et tests d hypothèse Les 2 échantillons observés émanent t-il de la même distribution de probabilité? Les moyennes des deux populations sousjacentes à deux échantillons observés sont-elles identiques? La moyenne des observations est-elle significativement différente d une valeur théorique? Â l approche bootstrap peut répondre! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-37

Notion de niveau de signification atteint (ASL) Niveau de signification atteint = Achieved Significance Level ASL Probabilité d observer une valeur de test au moins aussi grande que la valeur observée quand l hypothèse H0 est vraie ASL = Prob H0 (t* t obs ) Plus ASL est faible, plus il y a d évidence pour rejeter H0 Si ASL < a, rejeter H0 La valeur t obs est fixe et correspond à la valeur de test calculée à partir de ou des échantillons effectivement observés La valeur t* correspond à la valeur de test sous l hypothèse H0, estimé par le bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-38

Tests d hypothèse : principe général Nécessité de définir 2 quantités :  une statistique de test t  la distribution des données F 0 sous l hypothèse H0 Générer B échantillons bootstrap de t(x * ) à partir de la distribution F 0 Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-39

Tests d hypothèse : exemple 1 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de la même distribution de probabilité F 0? H0 : y et z sont des échantillons issus d une même population de distribution F 0 Former x = (y, z) Tirer B échantillons bootstrap de taille N+M à partir de x Pour chaque échantillon, les N premières observations sont notées y *b et les M suivantes z *b Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(y) - moy(z ) Si ASL < a, rejeter H0 Rq : une autre statistique de test peut être utilisée à la place de t(x *b ) = moy(y *b )-moy (z *b ), par exemple une statistique de Student Introduction à l approche bootstrap - Irène Buvat - 21/9/00-40

Tests d hypothèse : exemple 2 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de populations présentant la même moyenne? H0 : moy(y) = moy(z) Former x = (y, z) et calculer moy(x) = S i y i /N Calculer y i = y i - moy(y) + moy(x) et z i = z i - moy(z) + moy(x) Tirer B échantillons bootstrap y *b de taille N à partir de y, B échantillons bootstrap z *b de taille M à partir de z En déduire B vecteurs x *b = (y *b, z *b ) Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) s y 2*b /N + s z 2*b /M avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M s y 2*b = S i (y i *b -moy(y *b )) 2 /(N-1) s z 2*b = S i (z i *b -moy(z *b )) 2 /(M-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B moy(y) - moy(z ) où t obs = s y2 /N + s z2 /M Introduction à l approche bootstrap - Irène Buvat - 21/9/00-41

Tests d hypothèse : exemple 3 1 échantillon observé x = (x 1, x 2,, x N ), moy(x) = S i x i /N La moyenne de l échantillon observé vaut-elle m? H0 : moy(x) = m Tirer B échantillons bootstrap x *b de taille N à partir de x Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(x *b ) - moy(x) s 2*b /N avec moy(x *b ) = S i x i *b /N s 2*b = S i (x i *b -moy(x *b )) 2 /(N-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(x) - m s 2 /N Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-42

Bootstrap paramétrique 1 échantillon observé de N valeurs x = (50 ; 53 ; 58 ; 80 ; 75 ; 69 ; 77 ; 44 ; 63 ; 73) non paramétrique paramétrique estimation de la loi de la population 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs à partir de la loi de la population Bootstrap non paramétrique  aucune hypothèse de loi de la population sousjacente nécessaire Bootstrap paramétrique  moins biaisé que les expressions analytiques  fournit des solutions aux problèmes pour lesquels il n existe pas de formule analytique Introduction à l approche bootstrap - Irène Buvat - 21/9/00-43

Bilan Bootstrap = méthode d inférence statistique adaptée au contexte non paramétrique 1 seul échantillon d observations nécessaire Permet d estimer la distribution sous-jacente à une population Permet d associer des erreurs standard à virtuellement n importe quelle statistique :  moyenne, médiane  coefficient de corrélation  paramètres issus d une modélisation des données  analyse multidimensionnelle (ACP) Permet d étudier le biais associé à une statistique calculée à partir d un seul échantillon Permet de calculer des intervalles de confiance et de réaliser des tests d hypothèse Estimateurs bootstrap = estimateurs non biaisés Introduction à l approche bootstrap - Irène Buvat - 21/9/00-44

Sujets plus avancés relatifs au bootstrap Estimation de la puissance d un test à partir du bootstrap Erreurs associées aux estimations bootstrap Prédiction d erreurs par l approche bootstrap Bootstrap et images : Â détermination des propriétés statistiques (eg, variance) d images issues de traitements Introduction à l approche bootstrap - Irène Buvat - 21/9/00-45

Référence recommandée An Introduction to the Bootstrap Monographs on Statistics and Applied Probability 57 Bradley Efron Robert J Tibshirani Chapman & Hall 1993 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-46