Bootstrap et procédures de rééchantillonnage Alain MORINEAU www.deenov.com L'analyse des données au XXI ème siècle Alain Morineau 1
Notions utiles (en bref) Population, échantillon, variabilité Estimation, distribution d échantillonnage Intervalle de confiance, test d hypothèse Seuil alpha, p-value Intervalle de confiance pour la moyenne Intervalle de confiance pour une régression: Monte Carlo pour la pente Alain Morineau 2
Echantillon Une population (ou population-mère) Un échantillon (au hasard) Une certaine variabilité apparaît de façon naturelle quand on effectue plusieurs observations (échantillon) L'échantillon sert à mieux connaître la population (par inférence) Pas de statistique (pas d'inférence) sans un échantillon Pas d'inférence sans risques d erreurs Car on passe d observations particulières à une conjecture plus générale sur ce qu on n a pas observé Ex: il y a une majorité de brun dans l échantillon, donc une majorité de brun dans la population Alain Morineau 3
Principe de l inférence statistique 1 Population totale des observations possibles 2 Echantillon aléatoire de taille n 4 Cette valeur est une estimation pour la population 3 Calcul de la statistique dans l échantillon Alain Morineau 4
Inférence statistique : deux approches Estimation Estimer un paramètre permettant de préciser la loi de la variable étudiée La réponse est numérique Combien vaut la moyenne de la population (loi)? Quelle est la précision de l'estimation du paramètre? Test Valider ou non une hypothèse portant sur un paramètre, sur une loi de probabilité ou sur une liaison entre variables La réponse est en oui/non Oui, l hypothèse peut être rejetée Non, elle ne peut pas Alain Morineau 5
Théorème de la limite centrale La moyenne de n variables aléatoires ayant la même distribution (moyenne m et variance s 2 ) tend, quand n augmente, vers une loi normale de moyenne m et de variance s 2 /n Un des plus importants théorèmes de la statistique De Moivre-Laplace (XVIII ème ) pour la distribution binomiale Lindeberg-Lévy (1922) sous cette forme Généralisations nombreuses depuis (très mathématique) Utilisation constante pour approcher les lois inconnues de paramètres utilisés par les statisticiens Les méthodes de rééchantillonnage tentent d'approcher la distribution des statistiques sans recours au théorème de la limite centrale, mais en s'appuyant seulement sur les données Alain Morineau 6
Estimation Estimation ponctuelle Estimation par intervalle de confiance Exemples Moyennes : test de Student Estimer la moyenne dans une population à partir de la moyenne dans un échantillon Proportions : test du Khi-2 Estimer la proportion dans une population à partir de la proportion dans un échantillon Alain Morineau 7
Moyenne et écart-type Exemple de valeur centrale : la moyenne Exemple de dispersion : l'écart-type empirique (en n) s n i 1 2 x x i n Alain Morineau 8
Interprétation d'un intervalle de confiance échantillon x = 50 Echantillon La moyenne vaut 50 Je suis sûr à 95% que m est compris entre 40 et 60 Population La moyenne m est inconnue Si je faisais 1000 échantillons ou plus, dans 95% des cas l intervalle contiendrait m (qui reste inconnu) Alain Morineau 9
Notion d intervalle de confiance Graphique des 100 premiers intervalles à 95% Après 10 000 tirages : couverture 93,6% Alain Morineau 10
Tests: deux types d hypothèses Les hypothèses à tester Hypothèse nulle, hypothèse alternative H 0 identité de 2 distributions H 0 nullité d'un coefficient de corrélation, etc. Les hypothèses de commodité Pour rendre les calculs simples, possibles Hypothèses techniques admises comme vraies loi normale variances égales observations indépendantes, etc. Alain Morineau 11
p-value et seuil a test unilatéral) Distribution de la statistique sous H0 Rejet de H 0 Non rejet de H 0 a 0,0 Alain Morineau 12
Que signifie une différence entre moyennes? variabilité moyenne variabilité forte La différence numérique est la même dans les 3 cas variabilité faible Quel cas montre la différence la plus grande? Alain Morineau 13
Comment évaluer une différence? Une différence statistique est fonction de la différence entre les moyennes évaluée en fonction de la variabilité Une petite différence entre moyennes avec une grande variabilité peut être dûe au hasard Si on accepte les hypothèses de commodité, la différence entre moyennes suit approximativement une loi de Student t x1 x2 s( x x ) 1 2 On s'appuie sur cette loi approchée pour construire un intervalle de confiance ou tester l'égalité des moyennes (nullité de la différence) Alain Morineau 14
Seuil a On parle en terme de fréquence : la fréquence tend vers la probabilité Pour un intervalle de confiance autour d'une estimation Seuil 95% : si on répétait un grand nombre de fois la collecte d'un échantillon, 95% des intervalles contiendraient la vraie valeur (inconnue) du paramètre à estimer Pour un test d'hypothèse Seuil 95% (ou seuil 0,05) : si on répétait la procédure de test un grand nombre de fois, on rejetterait à tort l'hypothèse nulle dans 5% des cas Mais en général on a un seul échantillon Equivalence intervalle et test au même seuil alpha Rejeter l'hypothèse nulle du paramètre égal à 0 si et seulement si l'intervalle ne contient pas le 0 Alain Morineau 15
La convention de seuil a La valeur du seuil a (intervalle ou test) est pure convention a = 0,05 ou a = 0,01 ou a = 0,001 Mais le seuil doit être décidé avant la procédure statistique Si tous les statisticiens du monde adoptaient en permanence le même seuil a... les décisions de rejet des hypothèses nulles seraient erronées avec la probabilité a Alain Morineau 16
Bootstrap Alain Morineau 17
Quelques dates clés du rééchantillonnage 1949, 1956 M. H. Quenouille propose une technique pour estimer le biais (précurseur du «Jackknife») 1958 John Tukey appelle Jackknife cette technique et l'utilise pour calculer un écart-type 1979 Bradley Efron rédige de nombreuses publications sur le "Boostrap" Alain Morineau 18
Présentation du Bootstrap Méthode introduite par Bradley Efron (1979) pour estimer la variance des distributions d'échantillonnage pour construire des intervalles de confiance pour réaliser des tests d'hypothèses Particularités du Bootstrap Laureate of the 2005 National Medal of Science application du calcul intensif aux méthodes traditionnelles de l'inférence statistique s'applique quelle que soit la complexité de l'estimateur sans nécessiter de considérations théoriques (probabilistes) Alain Morineau 19
Bootstrap? drôle de nom «The use of the term bootstrap derives from the phrase to pull oneself up by one s bootstrap» (Efron & Tibshirani, 1993, p. 5). «to pull oneself up by one s bootstrap» L'origine de cette expression semble être le livre Singular Travels, Campaigns and Adventures of Baron Munchausen de Rudolph Erich Raspe (1786). Le baron, tombé au fond d'un lac profond, réussit à s'extraire en tirant sur les "straps" (attaches?) de ses bottes Alain Morineau 20
Le contexte de l'époque Développement des méthodes statistiques entre 1850 et 1950, époque où le calcul est lent et coûteux Elles s'appuyent sur des mesures statistiques dont les distributions sont facilement calculables par des solutions mathématiques (probabilistes) Rééchantillonnage: méthodes nouvelles, sans analyse mathématique, mettant à profit le calcul sur ordinateur Le Bootstrap, introduit par B. Efron en 1979 "The most important new idea in statistics in the last 20 years, and probably the last 50. Eventually, it will take over the field, I think." Jérome H. Friedman, statisticien à Stanford Alain Morineau 21
À méditer In a world in which the price of calculation continues to decrease rapidly, but the price of theorem proving continues to hold steady or increase, elementary economics indicates that we ought to spend a larger and larger fraction of our time on calculation. J. W. Tukey John W. Tukey 1915-2000 Alain Morineau 22
Le contexte Bootstrap Etudier la variabilité empirique à partir des données Recourir à des formules et à des distributions théoriques Le Bootstrap est utilisé principalement Faire des hypothèses incontrôlables sur la variabilité Utiliser les données et rien que les données pour analyser la variabilité de paramètres statistiques pour produire des intervalles de confiance de ces paramètres L intervalle de confiance construit par Bootstrap est généralement de même amplitude que celui de la distribution réelle quand on la connaît Alain Morineau 23
Position du problème On possède un échantillon issu d une population caractérisée par un certain paramètre. On a choisi un estimateur de ce paramètre (c'est une certaine fonction des observations). Exemples: la corrélation empirique pour estimer une corrélation le quotient empirique pour estimer un quotient les paramètres de la droite des moindres carrés pour estimer une liaison linéaire, etc. Le Bootstrap est une méthode qui peut : Essentiellement: fournir une estimation sans biais du paramètre évaluer la précision de cette estimation construire un intervalle de confiance autour de cette estimation Mais aussi: tester une hypothèse "nulle" (calcul d'une p-value) Alain Morineau 24
Principe du rééchantillonnage Bootstrap On crée des échantillons «artificiels» à partir de l échantillon réel : appelés "répliques Bootstrap" ou "répliques" On calcule la statistique sur chacun des échantillons artificiels On construit la loi de distribution empirique de la statistique On l'appelle "distribution Bootstrap" On réalise toute inférence statistique à partir de cette loi: Biais, écart-type, quantiles, intervalles de confiance La variabilité réelle de la statistique dans la population est évaluée par la variabilité observée sur l ensemble des échantillons artificiels obtenus par rééchantillonnage Alain Morineau 25
Procédure Bootstrap Obtenir un échantillon des observations et choisir la statistique pertinente pour le problème Utiliser cet échantillon comme si c'était la population-mère: en extraire des échantillons de même taille par tirage avec remise (rééchantillonnage): réplique 1 réplique 2 réplique k Pour chaque réplique, calculer la statistique Utiliser la "distribution Bootstrap" de la statistique pour estimer les propriétés de l'échantillon (donc de la population-mère) Remarque: il s'agit du Bootstrap dit "non paramétrique" (le plus pratiqué) pour le distinguer des variantes : "paramétrique" ou "semi-paramétrique". Alain Morineau 26
Répliques Bootstrap et statistique estimée Echantillon observé (n = 5) On s'intéresse à sa moyenne {23, 28, 30, 50, 61} x = 38,4 Répliques Bootstrap 1 2 3.. k {28, 50, 30, 23, 23} {30, 50, 50, 61, 28} {61, 23, 30, 23, 28}.. {28, 50, 30, 61, 30} x = 30,8 x = 43,8 x = 33,0 x = 39,8 Alain Morineau 27
"Bootstraper" Tout échantillon est tiré d une population ou "population-mère" (essentiellement mal connue) dont on ne voit qu un extrait L échantillon peut lui-même jouer le rôle de population: on en tire un nouvel échantillon; c est le rééchantillonnage Dans le cas du bootstrap, il s effectue avec remise, de manière à avoir toujours la même taille des données Selon la taille n de l'échantillon, on peut créer : 10 répliques différentes pour un jeu de 3 individus, 35 répliques différentes pour 4 individus 16 796 répliques pour 10 352 716 répliques pour 11; etc. "Bootstraper" c'est tirer au hasard parmi toutes les répliques possibles (sans construire tous les possibles!) Alain Morineau 28
Changement de point-de-vue De quoi parle souvent le statisticien? des distributions plutôt que des données mais ce sont les données que l'on connait Le Bootstrap cherche à connaître les distributions en n'utilisant que les données sans hypothèses de travail sans recours au théorème de la limite centrale Le Bootstrap n'est pas une méthode pour réduire l'incertitude c'est une méthode pour l'estimer Attention : le Booststrap n'est pas un remède pour pallier aux "mauvais" échantillons Alain Morineau 29
Rôle de l'échantillon Les rôles Population/Echantillon sont échangés : population-mère <=> échantillon valeur vraie <=> estimation sur l'échantillon échantillon <=> réplique Bootstrap distribution de la statistique <=> distribution Bootstrap Le bootstrap fournit une distribution de valeurs et pas seulement une valeur de la statistique l intérêt n est pas d avoir une nouvelle estimation (en effet elle n est pas plus fiable) mais on peut calculer un écart-type et/ou un intervalle de confiance pour cette nouvelle estimation (moyenne des estimations sur les répliques) ou toute autre propriété utile de la distribution Alain Morineau 30
Rééchantillonnage et distribution Bootstrap Une distribution d'échantillonnage est construite sur l'infinité des échantillons tirés de la population On dispose d'un seul échantillon Faute d'échantillons nombreux, on crée des rééchantillons (ou répliques) en tirant avec remise dans l'échantillon observé (mettre les n valeurs dans un chapeau; tirer n fois avec remise pour créer une réplique de même taille n) La distribution Bootstrap d'une statistique est la distribution de la statistique construite sur les répliques La distribution Bootstrap fournit des informations sur la distribution d'échantillonnage de la statistique Alain Morineau 31
Les 3 contextes Contexte généralement utopique On peut tirer n échantillons indépendants dans la population quand elle est connue (simulations Monte Carlo) On construit la distribution d'échantillonnage réelle de la statistique Statistique mathématique On fait certaines hypothèses de commodité sur la population, convenables pour que la statistique choisie ait une distribution connue (dont les paramètres dépendent de l'échantillon) Cette distribution théorique connue est une approximation de la distribution d'échantillonnage réelle Rééchantillonnage On connaît un échantillon On rééchantillonne (répliques de l'échantillon) La distribution d'échantillonnage dans les répliques est une approximation de la distribution d'échantillonnage inconnue Alain Morineau 32
Réflexions sur le Bootstrap On pourrait croire qu'on crée des données à partir de rien Mais les répliques ne sont pas utilisées comme si c'étaient de nouvelles données La distribution Bootstrap de la statistique est utilisée seulement pour étudier comment la statistique varierait en fonction de l'échantillonnage Avec le Bootstrap, l'échantillon observé est en fait utilisée pour deux tâches 1. Estimer un paramètre 2. Estimer la variabilité de cette estimation (écart-type) Remarque: même double utilisation de l'échantillon dans le cas d'une distribution théorique d'échantillonnage Pour la moyenne, l'échantillon est utilisé (1) d abord pour estimer la moyenne et (2) puis pour estimer son écart-type Alain Morineau 33
A quoi sert la distribution Bootstrap? La distribution Bootstrap approche le centre, la forme et le biais de la distribution d'échantillonnage (inconnue) de la statistique Forme d'une distribution d'échantillonnage inconnue Par exemple, examiner si elle est proche de la normalité Valeur centrale et biais Le biais est l'écart entre la moyenne de la distribution d'échantillonnage et la vraie valeur du paramètre L'estimation Bootstrap du biais est l'écart entre la moyenne de la distribution Bootstrap et la valeur de la statistique sur l'échantillon observé Dispersion L'écart-type Bootstrap est une estimation de l'écart-type de la vraie distribution d'échantillonnage de la statistique Un cas particulier favorable Si la distribution Bootstrap est proche d'une loi normale et si le biais Bootstrap est faible, on peut estimer un intervalle de confiance de type "t de Student" pour la statistique Alain Morineau 34
Le Bootstrap en formules Estimateur ˆ (,,..., ) f x x x 1 2 n b-ème réplique Bootstrap, pour les k répliques (b = 1,k) Les propriétés statistiques de l'estimation seront calculées sur la distribution des répliques (dite distribution Bootstrap). En particulier: Estimation Bootstrap du paramètre Variance Bootstrap de la distribution du paramètre ˆ f ( x, x,..., x ) ( b) 1* 2* n* Var Boot ( ˆ ) Alain Morineau 35 ˆ k b 1 Boot ˆ k ( b) k b 1 ( ˆ ˆ ) ( b) k 1 Boot 2
Estimation Bootstrap sans biais Définition du biais d'un estimateur Estimation Bootstrap du biais (définition par analogie de formule) Biais( ˆ ) E( ˆ ) Biais ( ˆ ) ˆ ˆ Boot Boot Par définition du biais: Estimation Bootstrap sans biais E( ˆ ) Biais( ˆ ) Définition (par analogie) Calcul Résultat ˆ* ˆ ˆ Boot BiaisBoot ( ) ˆ* ˆ ˆ ˆ Boot Boot ( ) ˆ* 2 ˆ ˆ Boot Boot Alain Morineau 36
Le Bootstrap en bref On a un échantillon de taille n On considère la statistique qui nous intéresse c'est l'estimation du paramètre inconnu qui nous intéresse quotient, corrélation, pente d'une droite, etc. On calcule la statistique sur l'échantillon initial On calcule cette statistique sur les k répliques (j = 1 à k) La distribution empirique obtenue est la distribution Bootstrap de la statistique La distribution Bootstrap est le support de toute inférence concernant la statistique L'estimation Bootstrap du paramètre est la moyenne des k valeurs calculées sur les répliques On calcule de même son écart-type, etc. On corrige le biais éventuel de l'estimation Alain Morineau 37
Corriger ou non le biais? Connaître le biais n implique pas qu on le corrige nécessairement Dilemme "biais/variance": la correction de biais accroît la variance de la statistique Il est donc important de connaître le biais pour avoir un élément de réflexion dans le dilemme biais/variance Le bootstrap peut effectivement conduire à une correction de biais Alain Morineau 38
Les intervalles Bootstrap Intervalle "Percentile" Ré-échantillonnage Bootstrap de l échantillon réel Calcul de l estimation Bootstrap du paramètre étudié On utilise la distribution Bootstrap du paramètre Les 2,5 ème et 97,5 ème percentiles de la distribution des estimations fournissent les bornes de l'intervalle à 95%. Le nombre de répliques doit être grand Intervalle "Bootstrap t" (ou "Standard") Ré-échantillonnage Bootstrap de l échantillon réel Calcul de l estimation Bootstrap du paramètre étudié Calcul Bootstrap de l écart type du paramètre étudié Lecture dans la table de la loi Normale (ex: 1,96) ou Student à k-1 ddl Exemple pour un intervalle au seuil 95% : Student (suivant ddl) ou Normal {- 1.96 ; + 1,96} Utiliser seulement si la distribution Bootstrap semble assez normale, et avec un biais faible Autres variétés d'intervalles dans la littérature Alain Morineau 39
Intervalle Bootstrap "Percentile" La procédure la plus utilisée On calcule le paramètre pour toutes les répliques Bootstrap On sélectionne le seuil a (ex. 0,05) On définit les bornes par les percentiles: Inf = a /2 ème percentile. Sup = (1 - a /2) ème percentile. Remarque. Il existe une fonction Excel appropriée: "= QUARTILE (zone des données; 0,025)" Alain Morineau 40
Intervalle "Bootstrap t" ou standard Calcul direct sur la distribution des valeurs Bootstrap moyenne de la distribution écart-type de la distribution Formule «habituelle» pour l intervalle de confiance, avec les quantiles d'une loi normale ou d une loi de Student à k-1 ddl [ Inf, Sup ] ˆ m t s ; ˆ t s n 1,1 a B m n 1,1 a 2 2 Avantages : simple et intuitif : construction classique d un IC Ne pas utiliser si la distribution Bootstrap ne semble pas normal présente un biais important Inconvénients : Statistiques asymétriques? Plages de valeurs licites (cf. r²)? Ne respecte pas les transformations (par exemple la transformée pour le R²) Alain Morineau 41 B
Intervalle "Bootstrap t" ou standard Variance de l'estimation Var Boot ( ˆ ) k j 1 ( ˆ ˆ ) ( j) k 1 Boot 2 Ecart-type s Boot ( ˆ ) Var ( ˆ ) Boot Intervalle de confiance "t" (ou standard) [ Inf, Sup ] ˆ ( ˆ); ˆ ( ˆ Boot t s t s ) n 1,1 a Boot Boot n 1,1 a Boot 2 2 Alain Morineau 42
Limitations du Bootstrap Mauvais résultats si la distribution empirique construite sur l'échantillon n'est pas une bonne représentation de la vraie distribution Exemple: le cas du maximum d'un échantillon; d'une manière générale, cas des distributions à extrémités très dispersées Cas d'un échantillon de taille très faible: sa fonction de répartition n'est pas toujours une image correcte de la fonction de répartition de la population dont il est issu Le Bootstrap s'accommode bien des violations de certaines hypothèses classiques de travail (comme la normalité) mais souffre d'autres limitations (comme la non-indépendance; ex. les séries chronologiques) Petit inconvénient du rééchantillonnage: deux statisticiens travaillant sur les mêmes données, avec les mêmes méthodes, vont obtenir des résultats non identiques (selon le tirage ) Alain Morineau 43
Pour et contre "k fois sur le métier tu répliqueras ton ouvrage!" Attention : Ce n est pas parce que le Bootstrap sert dans beaucoup de cas qu il faut toujours faire du Bootstrap. "l abus de bootstrap peut être dangereux pour la statistique" Deux affirmations imprudentes: On ne fait aucune hypothèse sur les données On peut travailler sur des petits échantillons Cas où on n'a rien à gagner: estimation d'une moyenne et de son intervalle de confiance (sauf si non normalité forte et/ou taille faible de l'échantillon Cas où on a tout à perdre: estimations pour le maximum (ou toute distribution très asymétrique) Alain Morineau 44
NB. Conditions de convergence du Bootstrap Observations "iid" Convergence uniforme certaine (avec la probabilité 1) de la fonction de répartition empirique vers la fonction de répartition vraie quand la taille tend vers l'infini (théorème de Glivenko-Cantelli) Si le paramètre à estimer est une certaine fonction de la répartition vraie, l'estimateur doit être la même fonction de la répartition empirique Cette condition est satisfaite pour les moyennes, les écartstypes, les variancees, la médianes et autres quantiles Condition de continuité de l'estimateur Ce n'est pas le cas pour les statistiques d'ordre extrême comme le Min ou le Max Alain Morineau 45
Glivenko-Cantelli Fonction de répartition empirique (échantillon): croissante de 0 à 1, par n sauts de hauteur 1/n Elle approche la fonction de répartition théorique (inconnue) quand la taille de l échantillon augmente Alain Morineau 46
Le Bootstrap: quand? En cas de complexité analytique En cas de validité douteuse des conditions d application des méthodes classiques En complément de l approche classique Nombreuses applications du Bootstrap dans la bibliographie Nombreuses variantes du Bootstrap (tests et intervalles) Alain Morineau 47
Ce qu on a déjà dit Notre univers n'étant pas toujours "normal" (Laplace-Gauss), certaines méthodes classiques ne peuvent pas être utilisées La puissance de calcul des ordinateurs a rendu les techniques de ré-échantillonnage accessibles La philosophie de ces méthodes est l extraction du maximum d information à partir des données Les données sont utilisées pour révéler la variabilité dans la population en s'appuyant sur la variabilité intrinsèque de l échantillon (obtenue à partir des répliques) Ces méthodes ont séduit de nombreux statisticiens et praticiens par leur potentiel et leur efficacité par la simplicité de leur mise en œuvre NB. Le Bootstrap ne fait pas de miracle avec les "mauvais" échantillons (garbage in, garbage out!) Alain Morineau 48
Exemples et exercices du Bootstrap Corrélation Droite de régression Quotient, rapport ou taux Différence entre 2 médianes Alain Morineau 49
Coefficient de Corrélation (linéaire) r ( x x)( y y) i ( x x) ( y y) i i 2 2 i r = 0.85 r = 0.4 r = 1.0 Alain Morineau 50
y Si la population était connue Population connue connue Corrélation r = 0.801 connue r = 0,801 Alain Morineau 51 x
Y Echantillon observé Echantillonnage de dans taille n P= 15 Alain Morineau 52 X
Y Corrélation empirique Echantillon Corrélation E r = 0.840 empirique r = 0,840 Alain Morineau 53 X
Appréciation de l'écart-type Bootstrap Ecart-type "vrai" du coefficient de corrélation empirique Méthode de Monte Carlo dans la population finie connue: Construction de 5000 échantillons de taille n=15 extraits de la population connue Estimation de l'écart-type vrai à partir de la distribution des 2500 valeurs : 0,1133 Estimation "classique" par approximation normale: 0,0837 Estimation Bootstrap avec k = 500 répliques : 0,1108 Quelle est la meilleure des deux estimations? L'estimation Bootstrap est plus proche de la valeur vraie (connue ici) Alain Morineau 54
En bref, Bootstrap pour corrélation Problème de la corrélation : sa distribution d'échantillonnage dépend de r inconnu L'écart-type d'une moyenne ne dépend pas de m L'écart-type d'une corrélation dépend de r Problème supplémentaire : la distribution d'échantillonnage n'est absolument pas normale asymétrique, bornée par 1 et -1, Les transformations (de Fisher et les autres) constituent un certain palliatif mais restent des approximations souvent grossières Alain Morineau 55
Formules Bootstrap pour la corrélation Les formules sont simples mais l'écriture est fastidieuse Estimation Bootstrap ˆ r Boot 1 k k b 1 ˆ r ( b) Ecart-type Bootstrap Biais k 2 ˆ ˆ ˆ k ˆ s r r r / 1 Boot ( b) Boot b 1 Biais ˆ r ˆ r ˆ r Boot Boot Alain Morineau 56
Fréquence relative (%) Distributions Bootstrap (1000 répliques) Corrélation des températures en A et en B 10 Corrélation observée 0.717 9 8 7 6 5 4 3 2 1 0 0.4 0.5 0.6 0.7 0.8 Corrélation Alain Morineau 57
Fréquence relative Intervalles percentiles (5000 répliques) Corrélation des températures en A et en B 10 9 8 7 6 5 4 3 Corrélation 0.717 Biais 0.001 Ecart-type 0.051 Intervalles percentiles: direct 2 1 0 0.4 0.5 0.6 0.7 0.8 correction du biais Corrélations Bootstrap Alain Morineau 58
Régression linéaire Modèle de la régression linéaire classique: Données : (x,y) i=1, n Modèle : y = a + bx + e i Les e i sont indépendants Les e i suivent des lois normales N(0,s²) s² : variance inconnue (pour toutes les observations) Les x i sont fixés et indépendants des e i On s'intéresse souvent à la pente : b Estimation classique Critère des Moindres carrés : choisir la droite qui minimise la somme des carrés des écarts verticaux Questions Linéarité? Effets des écarts aux hypothèses de commodité? (variances égales, indépendances, normalité, points aberrants, ) Alain Morineau 59
Bootstrap et régression : 2 méthodes Le Bootstrap peut être défini de 2 façons, selon que les variables "x" sont considérées aléatoires ou fixes 1. Bootstrap des couples On rééchantillonne les observations par couple ("Bootstraping pairs" de Efron, ou "Bootstrap à x aléatoire") ; C'est la méthode usuelle 2. Bootstrap des résidus On fait un ajustement initial et on calcule les résidus; on recalcule les y i pour chaque x i en ajoutant un résidu qui est bootstrapé dans l'ensemble des résidus ("Bootstrap à x fixés") e (boot.) Les deux méthodes sont utilisables (quelle que soit la distribution des résidus) mais ne sont pas équivalentes Alain Morineau 60
Deux méthodes de Bootstrap : détails Bootstrap à «x aléatoires» : la procédure usuelle Les x sont considérés comme aléatoires On réplique les couples (x,y) pour avoir une réplique Bootstrap des données On recalcule la régression sur chaque réplique Bootstrap des données Bootstrap à «x fixes» (procédure moins fréquente) Les x sont considérés comme fixes Les y ajustés (valeurs sur la droite) sont considérés comme les espérances des valeurs y Bootstrap On réaffecte les résidus de l ajustement initial aux y ajustés du modèle initial; l ensemble des nouveau couples (x,y) est la réplique Bootstrap des données On régresse les x (toujours les mêmes) sur les nouveaux y pour obtenir les répliques Bootstrap des coefficients d intérêt Alain Morineau 61
Régression : quel est le "bon" Bootstrap? Bootstrap des couples (procédure usuelle) Bootstrap des résidus (les x fixes) Données avec un point "bizarre" Le Bootstrap des couples, très différent du Bootstrap des résidus, suggère l'existence d'un problème D'une façon générale, les distributions Bootstrap sont toujours "informatives" Alain Morineau 62
Bootstrap à x fixés (cas exceptionnel) Cette procédure implique que l ajustement du modèle linéaire aux données est correct (on Bootstrap autour de la 1 ère droite) Il faut supposer que les aléas autour des y sont correctement simulés par le rééchantillonnage dans une distribution commune Donc problème si le modèle n est pas correct (non linéarité, hétéroscédasticité, points aberrant, ) : ces défauts ne sont pas répliqués dans les répliques Bootstrap Le rééchantillonnage des résidus est plus sensible aux hypothèses sur le modèle : il faut supposer que les erreurs sont indépendantes et identiquement distribuées et que la «forme» linéaire du modèle d ajustement est pertinente Alain Morineau 63
Bootstrap à x aléatoires (Bootstrap des couples) Tirage aléatoire des couples avec remise Estimation des coefficients sur couples répliqués Distribution Bootstrap des coefficients Procédure valable même si les hypothèses de travail du modèle linéaire ne sont pas bien vérifiées Le processus ayant généré les données n est pas nécessairement linéaire (on observe cependant une liaison de dépendance linéaire) Alain Morineau 64
Régression : problèmes possibles Données manquantes Il faut supposer que les données manquantes ne sont pas un problème Il n'est pas recommandé de faire du Bootstrap après des "imputations multiples" Données dépendantes Le Bootstrap suppose que les distributions des y i sont mutuellement indépendantes (exclut les séries temporelles) Observations éloignées, influentes S'il y a des "outliers", ils ont une influence perturbatrice sur les ajustements successifs (on peut les éliminer car les répliques peuvent être très sensibles à leur présence) Alain Morineau 65
Bootstrap des coefficients a et b de la régression Alain Morineau 66
Bootstrap du R 2 et écart-type résiduel Alain Morineau 67
Bootstrap pour une analyse de variance Hypothèse de travail: l'échantillon reflète la population Hypothèse nulle: les traitements n'affectent pas les scores Statistique utilisée fonction de la différence entre les groupes SCE des moyennes à la moyenne générale F de Fisher (équivalent SCE) Procédure Bootstrap Mettre les 45 valeurs dans un chapeau Pour une réplique, tirer 45 fois avec remise (sous H0, chaque réplique est tirée de la même pop.mère) Affecter les 14 premières valeurs à A, les 10 suivantes à B, Calculer F et comparer à la valeur initiale pour chaque réplique Calculer la p-value sur la distribution Bootstrap Alain Morineau 68
Exemples de Bootstrap 5 000 répliques p-value = 0,040 50 000 répliques p-value = 0,041 La distribution approche la loi de Fisher (pas toujours ) Alain Morineau 69
Autre procédure Bootstrap Sous l'hypothèse nulle d'une même population pour les 4 traitements: la moyenne dans chaque groupe est égale à la moyenne générale donc dans chaque groupe, les écarts à la moyenne du groupe suivent tous la même loi, quelque soit le groupe Traduction Bootstrap On calcule les 45 écarts entre la valeur et la moyenne de son groupe On fait le Bootstrap sur ces écarts (et non sur les observations) Alain Morineau 70
Bootstrap sur les écarts 5 000 répliques p-value = 0,039 50 000 répliques p-value = 0,040 Ici: peu de différence avec le Bootstrap sur les valeurs Alain Morineau 71
Retour sur les hypothèses nulles du Bootstrap Ici on a les mêmes résultats pour les 2 procédures Mais si un des groupes a une moyenne très différente des autres, la distribution Bootstrap sur les valeurs: sera certainement bimodale sur les écarts: sera certainement unimodale La non-ressemblance de la distribution Bootstrap avec une distribution F apporte de l'information: les hypothèses "classiques" (qui assurent une distribution de Fisher) ne sont certainement pas vérifiées! Les 2 hypothèses nulles d'absence d'effet des médicaments ne sont pas équivalentes Bootstrap sur les valeurs: on s'intéresse d'abord à des différences de moyennes Bootstrap sur les écarts: on ignore les différences éventuelles de moyennes mais on veut tester l'effet des médicaments par une modification des dispersions On voit que le Bootstrap peut révéler une différence de moyennes, mais aussi une différence de dispersion ou même de forme Alain Morineau 72
Conclusion Les problèmes de coûts de calcul ont conduit la statistique dans ses débuts vers les méthodes avec peu de calcul et plus de mathématique Cette statistique classique doit s'appuyer sur des hypothèses souvent peu réalistes (liaisons linéaires, observations indépendantes "iid", distributions normales ) Les progrès extraordinaires dans le calcul rendent possibles des solutions alternatives L'analyse mathématique compliquée avec des hypothèses pourtant simplificatrices est remplaçable par des méthodes simples mais de calculs intensifs Dans ce contexte les techniques de rééchantillonnage rencontrent un succès considérable Alain Morineau 73
Les méthodes statistiques de calcul intensif Les méthodes statistiques de calcul intensif nécessitent beaucoup de calculs (presques identiques) sur les données Elles sont automatiques et souvent faciles à mettre en oeuvre Elles nécessitent très peu d'hypothèses sur la forme des modèles et sur les composantes aléatoires La puissance actuelle des ordinateurs les rendent possibles et faciles à utiliser Attention: les méthodes de calcul intensif ne sont pas meilleures que les méthodes classiques quand les hypothèses classiques sont satisfaites Mais elles sont plus puissantes quand ces hypothèses ne sont pas satisfaites En bref, ces méthodes peuvent résoudre de nombreux problèmes qu'on ne savait pas traiter auparavant Alain Morineau 74
Des dangers à prévenir Attention: le volume des calculs ne garantit pas que les données ont été bien utilisées La mise à disposition généralisée des outils de calculs et des logiciels augmente considérablement les risques d'utilisation abusive Il est important de savoir analyser dans quelles circonstances les méthodes de calcul intensif ont un apport décisif sur les méthodes classiques Important : les notions qu'il faut connaitre Estimation Variance et biais d'un estimateur Intervalle de confiance Tests usuels (t de Student) Choix et validation de modèles Alain Morineau 75
Bibliographie succincte Chernick, M. R. (1999) Bootstrap Methods: A Practitioner s Guide. New York: John Wiley & Sons. Davison, A. C. and D. V. Hinkley (1997). Bootstrap Methods and their Application. Cambridge Univ. Press. Diaconis, P. and B. Efron (1983). Computer intensive methods in statistics. Scientific American, 248:5, 116-30. Efron, B. (1979). Computers and the theory of statistics: thinking the unthinkable. Siam Review, 21, 460-80. Efron, B. and Gong, G. 1983. A leisurely look at the Bootstrap, the Jackknife, and cross-validation. The American Statistician 37(1) : p.36-48. Efron, B. and Tibshirani, R. J. 1986. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical Science 1(1) : p.54-77. Efron, B. and Tibshirani, R. J. 1993. An introduction to the Bootstrap. Chapman & Hall, New York. Hjorth, 1994. Computer intensive method, statistical methods. Chapman & Hall, New York. Shao, J. and Tu, D. 1995. The Jackknife and Bootstrap. Springer Young, 1994. Bootstrap : More than a stab in the dark? (with discussion) Statistical Science 9:382-415. Alain Morineau 76
Une référence incontournable Alain Morineau 77
Notre autre référence Pour son chapitre sur toutes les procédures de rééchantillonnage Pour l'utilisation d'excel Voir aussi l'onglet "Excel'Ense" sur le site de la revue MODULAD: www.modulad.fr Alain Morineau 78
Compléments possibles Bootstrap et analyses factorielles Bootstrap paramétrique (et semi-paramétrique) Autres intervalles de confiance Bootstrap Bootstrap et tests d'hypothèses Bootstrap et validation de modèles (Bootstrap "0.632") etc. Alain Morineau 79
Le rééchantillonnage : c est maintenant! Questions? Commentaires? Alain Morineau 80