SEMIN- Rééchantillonnage sous R : bootstrap et jackknife. Loïc PONGER. MNHN USM 503 Régulation et Dynamique des Génomes ponger@mnhn.



Documents pareils
Introduction à l approche bootstrap

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

Validation probabiliste d un Système de Prévision d Ensemble

La classification automatique de données quantitatives

Introduction à la statistique non paramétrique

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Lire ; Compter ; Tester... avec R

Introduction aux Statistiques et à l utilisation du logiciel R

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

de calibration Master 2: Calibration de modèles: présentation et simulation d

Statistique : Résumé de cours et méthodes

Principe de symétrisation pour la construction d un test adaptatif

Statistiques Descriptives à une dimension

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

PROBABILITES ET STATISTIQUE I&II

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Évaluation de la régression bornée

Initiation à l analyse en composantes principales

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Définitions. Numéro à préciser. (Durée : )

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Table des matières. I Mise à niveau 11. Préface

Architecture des Systèmes d Information Architecture des Systèmes d Information

1. Structure d un programme C. 2. Commentaire: /*..texte */ On utilise aussi le commentaire du C++ qui est valable pour C: 3.

INTRODUCTION AU LOGICIEL R

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Température corporelle d un castor (une petite introduction aux séries temporelles)

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Annexe commune aux séries ES, L et S : boîtes et quantiles

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Cours d Analyse. Fonctions de plusieurs variables

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Gestion des données avec R

Chapitre 3 : INFERENCE

Probabilités sur un univers fini

Ricco Rakotomalala R.R. Université Lyon 2

SECURIT GSM Version 2

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Package TestsFaciles

Le risque Idiosyncrasique

Ensimag 1ère année Algorithmique 1 Examen 2ième session 24 juin Algorithmique 1

FORMULAIRE DE STATISTIQUES

MAP 553 Apprentissage statistique

Méthodologie du calcul de la VaR de marché : revue de l approche basée sur des simulations historiques

Probabilités III Introduction à l évaluation d options

Package Java.util Classe générique

Analyse des durées de vie avec le logiciel R

Probabilités sur un univers fini

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Le traitement de données comportementales un tour d horizon avec des exemples traités par R

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Séries Statistiques Simples

1 Complément sur la projection du nuage des individus

1 Installer des packages

Application des courbes ROC à l analyse des facteurs pronostiques binaires

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Perl Orienté Objet BioPerl There is more than one way to do it

Relation entre deux variables : estimation de la corrélation linéaire

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

ESIEA PARIS

Analyse exploratoire des données

Apprentissage par renforcement (1a/3)

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

MÉTHODE DE MONTE CARLO.

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Comment monter un projet et rédiger une proposition compétitive?

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Introduction à la Programmation Parallèle: MPI

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

: seul le dossier dossier sera cherché, tous les sousdomaines

1. Structure d'un programme FORTRAN 95

Aide-mémoire de statistique appliquée à la biologie

Jean-Baptiste AUBIN Maître de Conférence en Statistique

Compte-rendu re union Campus AAR 3 mars 2015

1 Recherche en table par balayage

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

TP : Gestion d une image au format PGM

R00 Installation du logiciel R sous Windows

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Représentation des Nombres

Laboratoire 4 Développement d un système intelligent

Chap III : Les tableaux

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

Transcription:

SEMIN- Rééchantillonnage sous R : bootstrap et jackknife Loïc PONGER MNHN USM 503 Régulation et Dynamique des Génomes ponger@mnhn.fr SEMIN-R du MNHN 06 Mai 2008

Rééchantillonnage sous R bootstrap et jackknife Ponger Loic MNHN-USM503 43 ru Cuvier 75005 Paris 6 mai 2008 Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 1 / 31

Bootstrap et Jackknife Méthodes statistiques basées sur un rééchantillonnage des données à partir d une distribution estimée de la population réelle (inconnue). Cette distribution est souvent construire à partir de l échantillon observé. Objectifs Propriétés estimer un intervalle de confiance autour d un paramètre, construire un test d hypothèse, identifier des valeurs abérrantes (jackknife). simple, paramétrique vs. non-paramétrique, computer intensive Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 2 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 3 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 4 / 31

Le bootstrap On calcule une statistique (moyenne, médiane, r 2,...) à partir d un échantillon de n individus issues de la pop. d étude. La distribution de la population est inconnue ou non-normale. Le bootstrap permet de construire une distribution proche de la distribution inconnue. Algorithme Calcul de la statistique observée Pour i allant de 1 à n b échantillonnage aléatoire avec remise de n individus parmis l échantillon observé calcul de la statistique sur le i ieme échantillon de bootstrap Calcul la fonction de distribution à partir des n b valeurs de la statistique intervalle de confiance ou autre Hyp de travail : les individus sont indépendants et identiquement distribués (i.i.d.) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 5 / 31

Le bootstrap : principe... population étudiée (µ) échantillon observé ( x) B échantillons de bootstrap ( x ) distribution des (moyenne des x ) x Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 6 / 31

Le bootstrap : manuellement Algorithme ### Les données goudron=c(0.45,0.77,1.07,1.03,1.34,1.14,1.15,0.9,0.55,1.15) nicotine=c(11,13,14,15,17,18,14.5,13.5,8.5,16.5) tabac=cbind(goudron,nicotine) l=length(nicotine) tabac goudron nicotine [1,] 0.45 11.0 [2,] 0.77 13.0 [3,] 1.07 14.0 [4,] 1.03 15.0 [5,] 1.34 17.0 [6,] 1.14 18.0 [7,] 1.15 14.5 [8,] 0.90 13.5 [9,] 0.55 8.5 [10,] 1.15 16.5 Example issu de Tomassone R., Charles-Bajard S. et Bellanger L. (1998) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 7 / 31

Le bootstrap : manuellement Algorithme ### La fonction pour calculer la statistique à ### partir des indices functioncor=function(val, ii){ cor( val[ii,1], val[ ii,2] ) } ### Corrélation observée functioncor(tabac,1 :l) 0.8901696 Example issu de Tomassone R., Charles-Bajard S. et Bellanger L. (1998) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 7 / 31

Le bootstrap : manuellement Algorithme ### Bootstrap NB=1000 bootcor=vector(length=nb) for (ind in 1 :NB) { bootindice=sample(1 :l, replace=t) bootcor[ind]=functioncor(tabac, bootindice) } ### calcul de l IC à 95% quantile(bootcor, c(0.025, 0.975)) 2.5% 97.5% 0.7175133 0.9731658 Example issu de Tomassone R., Charles-Bajard S. et Bellanger L. (1998) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 7 / 31

R : biliothèques de bootstrap Deux bibliothèques bootstrap permet également de faire du jackknife, (d après Efron et Tibshirani, 1994), maintenue par K. Halvorsen boot plus de fonctionnalités (d après Davison et Hinkley, 1997), maintenue par B. Ripley Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 8 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 9 / 31

R : le bootstrap facile Algorithme library(boot) ### Les donnéesgoudron=c(0.45,0.77,1.07,1.03,1.34,1.14,1.15,0.9,0.55,1.15) nicotine=c(11,13,14,15,17,18,14.5,13.5,8.5,16.5) tabac=cbind(goudron,nicotine) l=length(nicotine) ### Définition de la fonction pour le calcul de la statistique mycor <- function(data, indice){ cor(data[indice,1],data[indice,2]) } b=boot(tabac, statistic=mycor, R=1000, sim="ordinary", stype="i") On utilise ici la fonction boot de la bibliothèque boot. On pourrait également utiliser la fonction bootstrap (bibliothèque bootstrap) mais l utilisation de la fonction pour le calcul de la statistique est différent. Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 10 / 31

R : le bootstrap facile Algorithme summary(b) Length Class Mode t0 1 -none- numeric t 1000 -none- numeric R 1 -none- numeric data 20 -none- numeric seed 626 -none- numeric statistic 1 -none- function sim 1 -none- character call 6 -none- call stype 1 -none- character strata 10 -none- numeric weights 10 -none- numeric On utilise ici la fonction boot de la bibliothèque boot. On pourrait également utiliser la fonction bootstrap (bibliothèque bootstrap) mais l utilisation de la fonction pour le calcul de la statistique est différent. Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 10 / 31

R : le bootstrap facile Algorithme summary(b$t) V1 Min. :0.4840 1st Qu. :0.8774 Median :0.9061 Mean :0.8947 3rd Qu. :0.9302 Max. :0.9939 On utilise ici la fonction boot de la bibliothèque boot. On pourrait également utiliser la fonction bootstrap (bibliothèque bootstrap) mais l utilisation de la fonction pour le calcul de la statistique est différent. Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 10 / 31

R : la fonction boot boot(data, statistic, R, sim= ordinary, stype= i,...) les arguments data vecteur ou table (observations sur les lignes) statistic fonction retournant la valeur de la statistique R nombre de réplicats sim type de bootstrap (ordinary, parametric,...) stype dépend de la fonction utilisée indices : i, numéros des lignes sélectionnées (certains numéros apparaissent plusieurs fois) fréquences (absolues) : f, un entier correspondant au nombre de sélection de chaque ligne (somme est égale au nombre d observations initiales) poids : w, un réel compris entre 0 et 1 (somme est égale à 1) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 11 / 31

R : la fonction boot les sorties t0 la statistique calculée sur les données... t les valeurs de la statistiques calculées sur les réplicats (R valeurs) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 12 / 31

R : la fonction boot la fonction statistique Elle est calculée par une fonction prenant au moins 2 arguments : le premier les données le second un vecteur avec les indices/poids/fréquences des valeurs sélectionnées (par la fonction boot). Si les données sont sous la forme de tableau, les indices représentent les numéros de lignes. option des arguments qui seront passés via boot Une fonction calculant la moyenne à partir des indices : statistic=function(valeurs,indices){ sum(valeurs[indices])/length(indices) } boot(data, stat=statistic, R=1000, stype="i") Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 13 / 31

R : la fonction boot la fonction statistique Elle est calculée par une fonction prenant au moins 2 arguments : le premier les données le second un vecteur avec les indices/poids/fréquences des valeurs sélectionnées (par la fonction boot). Si les données sont sous la forme de tableau, les indices représentent les numéros de lignes. option des arguments qui seront passés via boot Une fonction calculant la moyenne à partir des fréquences : statistic=function(valeurs,frequences){ sum(valeurs*frequences)/sum(frequences)) } boot(data, stat=statistic, R=1000, stype="f") Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 13 / 31

R : la fonction boot la fonction statistique Elle est calculée par une fonction prenant au moins 2 arguments : le premier les données le second un vecteur avec les indices/poids/fréquences des valeurs sélectionnées (par la fonction boot). Si les données sont sous la forme de tableau, les indices représentent les numéros de lignes. option des arguments qui seront passés via boot Une fonction calculant une moyenne à partir de poids (sens?) : statistic=function(valeurs,poids){ sum(valeurs*poids)/1 } boot(data, stat=statistic, R=1000, stype="w") Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 13 / 31

R : la fonction boot la fonction statistique Elle est calculée par une fonction prenant au moins 2 arguments : le premier les données le second un vecteur avec les indices/poids/fréquences des valeurs sélectionnées (par la fonction boot). Si les données sont sous la forme de tableau, les indices représentent les numéros de lignes. option des arguments qui seront passés via boot Une fonction calculant la moyenne en utilisant mean (et un troisième arg.) : statistic=function(valeurs, indices, t){ mean(valeurs[indices], trim=t) } boot(data, stat=statistic, R=1000, stype="i", t=0.25) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 13 / 31

R : la fonction boot les différents type de ré-échantillonnage ordinary bootstrap Chaque échantillon de bootstrap est issu d un tirage alétoire. Les échantillons sont indépendants des précédents. parametric bootstrap Les n b échantillons sont construits à partir d une distribution théorique dont les paramètres de position et variabilité sont estimés à partir de l échantillon. balanced bootstrap Chaque valeur apparait n b fois parmis tous les n b rééchantillonnages. Augmente la précision de SE. antithetic resampling Chaque échantillon de bootstrap est construit en utilisant les couples (i, n-i). Réduit la variance de la statistique. permutation Chaque échantillon de bootstrap est composé par une permutation aléatoire des n valeurs. Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 14 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 15 / 31

R : la fonction boot.ci les 5 types d estimation des CI normal Utilisation d une loi normale dont les paramètres (moyenne et variance) sont estimés à partir de la distribution empirique. basic Utilisation la distribution des ˆθ i ˆθ. student Utilisation de la distribution des t i = ˆθ i ˆθ s ˆθi. percent Utilisation de la distribution enmpirique des ˆθ i bca Bias Corrected and Accelerated. Transformation de la distribution empirique en une loi normale centrée réduite. Correction pour l asymmétrie. Voir : Carpenter and Bithell (2000) (papier relativement simple et clair) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 16 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 17 / 31

R : les autres fonctions censboot fonction de bootstrap pour données right-censored tsboot fonction de bootstrap pour des séries temporelles (découpage en blocs) tilt.boot fonction de bootstrap basée sur un importance resampling empinf retourne l influence empirique des valeurs sur la statistique étudiée à partir d un objet boot boot.array retourne un tableau n n b avec les fréq. de chaque individu à partir d un objet boot jack.after.boot effectue un jackknife sur un objet boot. Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 18 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 19 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 20 / 31

Le jackknife On calcule une statistique (moyenne, médiane, r 2,...) à partir d un échantillon de n individus issues de la pop. d étude. La distribution de la population est inconnue ou non-normale. Le jackknife permet de construire une distribution proche de la distribution inconnue. Algorithme Calcul de la statistique observée Pour i allant de 1 à n échantillonnage de tous les individus, sauf le i ieme calcul de la statistique sur le i ieme échantillon de bootstrap Calcul la fonction de distribution à partir des n valeurs de la statistique intervalle de confiance ou autre Analyse des n valeurs de la statistique à la recherche de valeurs abérrantes Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 21 / 31

Le Jackknife : manuellement Algorithme ### Les données goudron=c(0.45,0.77,1.07,1.03,1.34,1.14,1.15,0.9,0.55,1.15) nicotine=c(11,13,14,15,17,18,14.5,13.5,8.5,16.5) tabac=cbind(goudron,nicotine) l=length(nicotine) tabac goudron nicotine [1,] 0.45 11.0 [2,] 0.77 13.0 [3,] 1.07 14.0 [4,] 1.03 15.0 [5,] 1.34 17.0 [6,] 1.14 18.0 [7,] 1.15 14.5 [8,] 0.90 13.5 [9,] 0.55 8.5 [10,] 1.15 16.5 Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 22 / 31

Le Jackknife : manuellement Algorithme ### La fonction pour calculer la statistique à ### partir des indices functioncor=function(val, removed){ cor( val[ -removed,1], val[ -removed,2] ) } ### Corrélation observée functioncor(tabac,1 :l) 0.8901696 Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 22 / 31

Le Jackknife : manuellement Algorithme ### Jackknife jackcor=vector(length=l) for (ind in 1 :l) { jackcor[ind]=functioncor(tabac, ind) } ### calcul de l IC à 95% quantile(jackcor, c(0.025, 0.975)) 2.5% 97.5% 0.8722099 0.9126298 Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 22 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 23 / 31

R : le jackknife facile Algorithme library(bootstrap) ### Les donnéesgoudron=c(0.45,0.77,1.07,1.03,1.34,1.14,1.15,0.9,0.55,1.15) nicotine=c(11,13,14,15,17,18,14.5,13.5,8.5,16.5) tabac=cbind(goudron,nicotine) l=length(nicotine) ### Définition de la fonction pour le calcul de la statistique mycor <- function(indice, data){ cor(data[indice,1],data[indice,2]) } j=jackknife( 1 :l, mycor, data=tabac) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 24 / 31

R : le jackknife facile Algorithme summary(j) Length Class Mode jack.se 1 -none- numeric jack.bias 1 -none- numeric jack.values 10 -none- numeric call 4 -none- call summary(j$jack.values) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.8710 0.8848 0.8902 0.8923 0.9012 0.9146 Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 24 / 31

R : La fonction jackknife Utiliser le package bootstrap : les arguments x le vecteur de valeurs theta la fonction calculant la statistique La fonction theta reçoit le vecteur x privé du i ieme élément comme argument. Attention : la fonction theta du package bootstrap ne fonctionne pas comme celle du package boot. les sorties jack.se : déviation standard de la statistique jack.bias : biais de la statistique jack.values : les n valeurs obtenues en retirant successivement les n individus Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 25 / 31

Le jackknife pour identifier les valeurs abérrantes j=jackknife( 1:l, mycor, data=tabac)}\only<2>{ plot(j$jack.values) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 26 / 31

R : comment écrire la fonction theta Données simples : on peut fournir la liste des valeurs x. La fonction jackknife élimine le i ieme individu de x et lance la fonction theta avec les valeur restantes. jackknife sur les valeurs x i x <- rnorm(20) theta <- function(x)mean(x) results <- jackknife(x,theta) Données complexes : il faut stocker les données dans un tableau et fournir la liste des lignes à traiter. La fonction jackknife élimine la i ieme ligne de x et lance la fonction theta avec les numéros de lignes restantes. Le tableau doit être passé en argument supplémentaire. jackknife sur les indices i xdata <- matrix(rnorm(30),ncol=2) n <- 15 theta <- function(x,xdata) cor(xdata[x,1],xdata[x,2]) results <- jackknife(1 :n,theta,xdata) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 27 / 31

1 Bootstrap présentation la fonction boot la fonction boot.ci les autres fonctions 2 Jackknife présentation la fonction jackknife la fonction jack.after.boot Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 28 / 31

Le jackknife après le bootstrap Objectif : identifier des valeurs abérrantes parmis les n b bootstraps library(boot) jack.after.boot(b) Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 29 / 31

Références approche générale P. Hall (2003) A Short Prehistory of the Bootstrap. Statist. Sci., 18 :158-167. approche générale P. M. Dixon (2002) Bootstrap resampling. Encyclopedia of Environmetrics, 1 :212-220 calcul des CI J. carpenter and J. Bithell (2000) Bootstrap confidence intervals : when, which, what? A practical guide for medical statisticians. Statistics in Medicine. 19 :1141-1164. exemples http ://www.stat.umn.edu/geyer/old03/5601/examp Ponger Loic (ponger@mnhn.fr) bootstrap et jakknife 6 mai 2008 30 / 31