Introduction à l approche bootstrap

Dimension: px
Commencer à balayer dès la page:

Download "Introduction à l approche bootstrap"

Transcription

1 Introduction à l approche bootstrap Irène Buvat U494 INSERM 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1

2 Plan du cours Qu est-ce que le bootstrap? Bootstrap pour l estimation d erreurs standard Bootstrap de données structurées Bootstrap pour l estimation de biais Bootstrap et jackknife Bootstrap pour la construction d intervalles de confiance Bootstrap et tests d hypothèses Bilan Référence Introduction à l approche bootstrap - Irène Buvat - 21/9/00-2

3 Qu est-ce que le bootstrap? Technique permettant d effectuer de l inférence statistique Technique récente (1979) car reposant sur l usage de calculateurs puissants Technique reposant sur la simulation de données à partir d un nombre limité d observations Technique destinée à faciliter l inférence dans les situations complexes où les méthodes analytiques ne suffisent pas to pull oneself up by one s bootstrap = se tirer d un mauvais pas Introduction à l approche bootstrap - Irène Buvat - 21/9/00-3

4 Problématique : exemple d inférence statistique La différence entre deux valeurs moyenne est-elle statistiquement significative? durée de survie groupe 1 (placébo) n 1 = 9 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 erreur standard se 1 = var 1 /n 1 = 1414 groupe 2 (traitement) n 2 = 7 mesures 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 erreur standard se 2 = var 2 /n 2 = 2524 différence des moyennes = 3063 erreur standard associée à la différence se = se se 2 2 = = 2893 m 1 - m 2 se = 105 non significatif pas besoin de bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-4

5 Problématique : intérêt du bootstrap La différence entre deux valeurs médianes est-elle statistiquement significative? groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 médiane m 1 = 46 erreur standard? 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 94 erreur standard? différence des moyennes = 48 erreur standard associée à la différence? différence significative? pas de formule analytique simple pour estimer la fiabilité des grandeurs autres que les valeurs moyennes  intérêt du bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-5

6 Bootstrap pour l estimation d une erreur standard 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap S [s(x *b )- s * ] 2 b B-1 avec s * = S s(x *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-6

7 Calcul d un échantillon bootstrap 1 échantillon observé de N valeurs x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise x *1 = (69, 53, 80, 69, 73, 53, 44, 58, 75, 53) 1 échantillon bootstrap :  autant de valeurs que dans l échantillon original  valeurs issues de l échantillon original, mais avec des fréquences potentiellement différentes Introduction à l approche bootstrap - Irène Buvat - 21/9/00-7

8 Exemple : erreur standard de la moyenne durée de survie groupe 1 (placebo) n 1 = 9 mesures x = (52, 10, 40, 104, 50, 27, 146, 31, 46) statistique d intérêt : moyenne m 1 = 5622 B échantillons bootstrap x *1 =(50, 10, 40, 50, 46, 10,146, 40, 50) calcul de la moyenne réplications bootstrap de la moyenne 4911 x *b =(10, 52, 104, 40, 104, 46, 50, 146, 27) 6433 x *B =(146, 31, 31, 10, 27, 40, 104, 46, 50) 5389 Â estimée bootstrap de l erreur standard = écart-type des réplications bootstrap de la moyenne S [m 1 (x *b )- m 1* ] 2 SE (m 1 ) = b = 1332 B-1 avec m 1 * = S m 1 (x *b )/B b = 5573 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-8

9 Exemples d estimation d erreurs standard groupe 1 (placébo) n 1 = 9 mesures durée de survie groupe 2 (traitement) n 2 = 7 mesures 52, 10, 40, 104, 50, 27, 146, 31, 46 moyenne m 1 = 5622 médiane m 1 = 46 94, 38, 23, 197, 99, 16, 141 moyenne m 2 = 8686 médiane m 2 = 94 erreur standard sur m 1 :  classique : se 1 = 1414  bootstrap : se 1 * = 1332 erreur standard sur m 1 :  classique :?  bootstrap : se 1 * = 1154 erreur standard sur m 1 :  classique : se 2 = 2524  bootstrap : se 2 * = 2381 erreur standard sur m 2 :  classique :?  bootstrap : se 2 * = 3635 erreur standard sur n importe quelle statistique  classique :?  bootstrap : TOUJOURS UNE SOLUTION au prix d un peu de calcul Introduction à l approche bootstrap - Irène Buvat - 21/9/00-9

10 Erreur standard d un coefficient de corrélation (1) performances à des tests de contrôle de connaissance test national précédent la scolarisation r=0776 fiabilité de cette valeur? Â bootstrap note moyenne dans l année qui suit Introduction à l approche bootstrap - Irène Buvat - 21/9/00-10

11 Erreur standard d un coefficient de corrélation (2) échantillon observé x=( ) statistique d intérêt : corrélation r=0776 B échantillons bootstrap x * =( ) x =( ) *b x =( ) *B calcul de la corrélation r réplications bootstrap de la corrélation r S [r(x *b )- r * ] 2 SE (r) = b = 0775 B-1 avec r * = S r(x *b )/B b = 0134 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-11

12 Erreurs standard en ACP (1) élève notes par matière math phys litt angl mus i x i1 x i2 x ij x i5 N Matrice 5x5 de covariance empirique G : G jk = 1 N S i [x ij - moy i (x ij )] [x ik - moy i (x ik )] j,k=15 Calcul des valeurs propres et vecteurs propres de G : l 1, l 2, l 3, l 4, l 5 et v 1, v 2, v 3, v 4, v 5 fiabilité du pourcentage d inertie l 1 / S k l k? fiabilité des v k? Â bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-12

13 Erreurs standard en ACP (2) B échantillons bootstrap échantillon observé X = élève notes par matière math phys litt angl mus i x i1 x i2 x ij x i5 N statistiques d intérêt : %age d inertie PI = l 1 /S k l k vecteurs propres v k X *1 = X *B = élève notes par matière math phys litt angl mus i x i1 x i2 x ij x i5 N élève notes par matière math phys litt angl mus i x i1 x i2 x ij x i5 calcul de G *b, valeurs propres et vecteurs propres de G réplications bootstrap l 1 *1 /S k l k *1 v 1 *1,v 2 *1,v 3 *1,v 4 *1,v 5 *1 l 1 *B /S k l k *B v 1 *B,v 2 *B,v 3 *B,v 4 *B,v 5 *B N SE (PI) = S [PI(X *b )- PI * ] 2 b B-1 avec PI * = S PI(x *b )/B b SE (v k ) = S [v k (X *b )- v k * ] 2 b B-1 avec v * k =S v k (X *b )/B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-13

14 Erreur standard dans l ajustement de courbes (1) Diminution du taux de cholestérol (y) en fonction du pourcentage de la dose prescrite effectivement absorbée (x) x i (%) y i Modèle y i = b 0 + b 1 x i + b 2 x 2 i Ajustement des moindres carrés  ( b 0, b 1, b 2 ) Diminution prédite par le modèle ^ ^ ^ ^ ^ ^ ^ y i = b 0 + b 1 x i + b 2 x i 2 fiabilité des valeurs prédites, ie, erreur standard autour d une valeur prédite pour le modèle considéré? eg, erreur standard autour de y 60%?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-14

15 Erreur standard dans l ajustement de courbes (2) 1ère approche échantillon observé x i (%) y i statistiques d intérêt : valeurs prédites ^y i B échantillons bootstrap x * y * x *b y *b x *B y *B réplications calcul de ( b 0,b 1,b 2 ) bootstrap de ^ ^ ^ ^ y i y *1 i y *b i y i *B SE (y ^ i ) = S [y i *b - y i* ] 2 b B-1 avec y * i = S y *b i /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-15

16 Erreur standard dans l ajustement de courbes (3) 2ème approche échantillon observé x i (%) y i ajustement du modèle : y i = b 0 +b 1 x i +b 2 x i 2 statistiques d intérêt : valeurs prédites ^y i ^ ^ ^ b 0, b 1, b 2 1 échantillon de résidus : ^e i = y i -b ^ 0 +b ^ 1 x i +b ^ 2 x 2 i ^e i = B échantillons bootstrap de résidus e i * e i *b e i *B modèle : y *b i =b ^ 0 +b ^ 1 x i +b ^ 2 x i2 +e *b i y i *1 y i *b y i *B B réplications bootstrap de y i erreur standard de y^ i ^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-16

17 Ajustement de courbes : résumé 2 possibilités : Bootstrap des paires (x i, y i )  pas de modèle nécessaire  suppose que les paires sont des réalisations aléatoires de la population Bootstrap des résidus  sensible au modèle Si modèle incertain, adopter plutôt le bootstrap des paires Introduction à l approche bootstrap - Irène Buvat - 21/9/00-17

18 Nombre B de réplications bootstrap nécessaire REGLES EMPIRIQUES Même un petit nombre de réplications fournit déjà des informations très utiles B=50 est souvent suffisant pour une estimation fiable de l erreur standard Il est rare que plus de 200 réplications soient nécessaires pour estimer les erreurs standard Exemples : erreur standard de la moyenne m 2 SE(m 2 ) B erreur standard du coefficient de corrélation r SE(r) B Introduction à l approche bootstrap - Irène Buvat - 21/9/00-18

19 Type de données : structurées vs non structurées Données non structurées  les valeurs de l échantillon observé sont indépendantes  une modification de l ordre des valeurs ne modifie pas l échantillon  exemples : durée de survie des animaux notes des étudiants aux tests notes des étudiants dans les différentes disciplines Données structurées  les valeurs de l échantillon observé ne sont pas indépendantes  l ordre des valeurs dans l échantillon est important  exemples : série temporelle ou chronologique spectre en énergie image ATTENTION Dans le cas de données structurées, la procédure de calcul d échantillons bootstrap ne doit pas détruire la structure! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-19

20 Bootstrap d une série temporelle : problème Evolution de la concentration d une hormone au cours du temps t c t c t t Modèle centrage des mesures : y t = c t - moy(c t ) modèle AR1 : y t = b y t-1 + e t Ajustement des moindres carrés  b^ ^ Fiabilité de b?  bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-20

21 Bootstrap d une série temporelle : 1 ère approche échantillon observé t c t ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t statistiques d intérêt : paramètre du modèle b^ b^ 1 échantillon de résidus : ^e t = y t - b ^ y t-1 e t ^ résidus non structurés B échantillons bootstrap de résidus e t * modèle : y *b 2 =b ^ y 1 +e *b 2 y *b t =b ^ y *b t-1 +e *b t y t *1 ajustement du modèle ^ b *1 e t *b e t *B y t *b y t *B ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-21

22 Bootstrap d une série temporelle : 2 ème approche échantillon observé t c t décomposition en blocs indépendants statistiques d intérêt : paramètre du modèle b^ B échantillons bootstrap des blocs t c t * t c t *b t c t *B ajustement du modèle : y t = c t - moy(c t ) y t = b y t-1 + e t b *1 ^ ^ b *b ^ b *B B réplications bootstrap de b^ erreur standard de b^ Introduction à l approche bootstrap - Irène Buvat - 21/9/00-22

23 Bootstrap d une série temporelle : résumé 2 possibilités : Modèle et bootstrap des résidus  modèle tel que les résidus soient non structurés  bootstrap des résidus  reconstitution de données structurées bootstrap à partir du modèle et des réplications bootstrap des résidus  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée Bootstrap par blocs  décomposition de la série en blocs indépendants  reconstitution de séries bootstrap en joignant les blocs tirés aléatoirement avec remise  estimation de la statistique d intérêt sur chaque série temporelle bootstrap reconstituée  moins dépendant d un modèle, mais problème du choix de la longueur des blocs Introduction à l approche bootstrap - Irène Buvat - 21/9/00-23

24 Bootstrap pour l estimation du biais : 1 ère approche biais = valeur estimée - valeur vraie 1 échantillon observé x = (x 1, x 2,, x N ) et 1 statistique d intérêt s(x) : moyenne, médiane, B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) calcul de la statistique d intérêt réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Â estimée bootstrap du biais biais = s * - s(x) avec s * = S s(x *b ) /B b Introduction à l approche bootstrap - Irène Buvat - 21/9/00-24

25 Vecteur de rééchantillonnage 1 échantillon observé x = (x 1, x 2,, x N ) 1 échantillon 1 échantillon bootstrap bootstrap x *b 1 vecteur de rééchantillonnage P *b x *b = (x 1*, x 2*,, x N * ) P *b j = #(x * j = x j )/N j=1,,n = nb d occurrences de x j dans l échantillon bootstrap Exemple : x = (x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8 ) x *1 = (x 3, x 2, x 7, x 7, x 4, x 3, x 3, x 7 ) P *1 = (0, 1/7, 3/7, 1/7, 0, 0, 3/7, 0) 1 réplication bootstrap de la statistique s(x *b ) 1 fonction S(P *b ) du vecteur de rééchantillonnage P *b Exemple : s(x *b ) = moyenne de l échantillon = S x *b j /N S(P *b ) = S x j P j *b j j Introduction à l approche bootstrap - Irène Buvat - 21/9/00-25

26 Bootstrap pour l estimation du biais : 2 ème approche 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap et 1 statistique d intérêt s(x) : moyenne, médiane, x *1 = (x 1*, x 2*,, x N * ) calcul du vecteur de rééchantillonnage et calcul de la statistique d intérêt P *1, s(x *1 ) x *b = (x 1*, x 2*,, x N* ) P *b, s(x *b ) x *B = (x 1*, x 2*,, x N* ) P *B, s(x *B )  moyenne du vecteur d échantillonnage P * = S P *b /B b  moyenne des réalisations bootstrap de la statistique s * = S s(x *b ) /B b  estimée bootstrap du biais biais = s * - S(P * ) Introduction à l approche bootstrap - Irène Buvat - 21/9/00-26

27 Bootstrap pour l estimation du biais : exemple échantillon observé x = (26, 27, 29, 36, 35, 33, 35, 24, 31, 34, 42, 28, 35, 35, 27) statistique d intérêt : moyenne m = 3180 valeur vraie = 30 biais estimé B ère approche 2 ème approche -04  convergence des deux approches  convergence beaucoup plus rapide de la 2 ème approche  à la convergence, possible écart par rapport à la valeur vraie, inhérent à l estimation à partir d un échantillon fini Introduction à l approche bootstrap - Irène Buvat - 21/9/00-27

28 Correction du biais par l approche bootstrap biais = valeur estimée - valeur vraie s corr = s(x) - biais estimé = 2s(x) - s * (1 ère approche) = s(x) - s * + S(P * ) (2 ère approche) ATTENTION  l estimation corrigée du biais n est pas s *  la correction de biais peut être dangereuse en pratique car s corr peut avoir une grande erreur standard RECOMMANDATIONS  si biais faible par rapport à l erreur standard, mieux vaut utiliser s(x) plutôt que s corr  si biais grand par rapport à l erreur standard, s(x) n est probablement pas une bonne approximation de la statistique d intérêt pour la population Introduction à l approche bootstrap - Irène Buvat - 21/9/00-28

29 Bootstrap ou Jackknife? Introduction à l approche bootstrap - Irène Buvat - 21/9/00-29

30 Définition d un échantillon jackknife 1 échantillon observé de N valeurs x = (x 1, x 2, x 3, x i x N ) x = (50, 53, 58, 80, 75, 69, 77, 44, 63, 73) échantillon jackknife x i : échantillon original sans l observation i x i = (x 1, x 2, x 3, x i-1, x i+1, x N ) x 3 = (50, 53, 80, 75, 69, 77, 44, 63, 73) à partir d un échantillon observé contenant N valeurs  N échantillons jackknife seulement Introduction à l approche bootstrap - Irène Buvat - 21/9/00-30

31 Estimation jackknife de l erreur standard et du biais Statistique d intérêt s Estimation jackknife de l erreur standard de s SE jackknife (s) = N-1S [ s(x i ) - s ] 2 N i à comparer à : avec s = S s(x i )/N i SE bootstrap (s) = S [s(x *b )- s * ] 2 b B-1 Â facteur d inflation (N-1)/N requis car les échantillons jackknife sont moins dissemblables de l échantillon initial que les échantillons bootstrap Estimation jackknife du biais biais jackknife (s) = (N-1) [s - s(x) ] Introduction à l approche bootstrap - Irène Buvat - 21/9/00-31

32 Jackknife versus bootstrap Travaux jackknife préalables aux travaux bootstrap Jackknife = approximation du bootstrap - statistique linéaire s(x) = constante + S fonction(x i )  pas de perte d information par l approche i jackknife - statistique non linéaire s(x)  perte d informations par l approche jackknife  jackknife = approximation linéaire du bootstrap Jackknife = moins efficace que le bootstrap en général  écart entre estimées bootstrap et jackknife fonction de l écart de la statistique d intérêt à la linéarité Echec du jackknife si la statistique d intérêt n est pas une fonction différentiable de x (par exemple, médiane) RECOMMANDATION :  préférer l approche bootstrap! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-32

33 Bootstrap et estimation d intervalles de confiance Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a Plusieurs approches possibles : - construction de tables bootstrap  non recommandée pour les problèmes non paramétriques - utilisation des percentiles bootstrap  juste au premier ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N - méthode BC a : Bias-Corrected and accelerated  juste au second ordre : prob(s<s 1 ) = a+c 1 / N et prob(s>s 2 ) = a c 2 / N  plus qu un avantage théorique  méthode recommandée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-33

34 Méthode des percentiles bootstrap 1 échantillon observé x = (x 1, x 2,, x N ) B échantillons bootstrap x *1 = (x 1*, x 2*,, x N * ) et 1 statistique d intérêt s(x) : moyenne, médiane, calcul de la statistique d intérêt B réplications bootstrap de s s(x *1 ) x *b = (x 1*, x 2*,, x N* ) s(x *b ) x *B = (x 1*, x 2*,, x N* ) s(x *B ) Classement des B valeurs de s(x *b ) par ordre croissant Intervalle de confiance [s 1 ; s 2 ] couvrant 1-2a, ie, Prob(sŒ[s 1 ;s 2 ])=1-2a intervalle contenant 100* (1-2a)% des valeurs avec : s 1 = 100a ième percentile des s(x *b ) calculés, ie, Ba ième valeur de la liste classée par ordre croissant s 2 = 100(1-a) ième percentile des s(x *b ) calculés, ie, B(1-a) ième valeur de la liste classée par ordre croissant Exemple : B = 2000 et a = 5% s 1 = 100 ème valeur de la liste classée s 2 = 1900 ème valeur de la liste classée Introduction à l approche bootstrap - Irène Buvat - 21/9/00-34

35 Méthode BC a Bornes s 1 et s 2 également exprimées à partir des percentiles de la distribution bootstrap Bornes s 1 et s 2 différentes de celles de la méthode des percentiles : s 1 = 100a ième 1 percentile des s(x *b ) calculés, ie, Ba ième 1 valeur de la liste classée par ordre croissant s 2 = 100a ième 2 percentile des s(x *b ) calculés, ie, Ba ième 2 valeur de la liste classée par ordre croissant avec : z a 1 = F (z z (a) ) 1 - a (z 0 + z (a) ) z a 2 = F (z z (1-a) ) 1 - a (z 0 + z (1-a) ) où : F est la fonction de distribution cumulée de la loi normale centrée réduite, eg, F(1645) =095 z (a) est le 100 a ième percentile de la loi normale centrée réduite, eg, z (095) =1645 z 0 = F -1 [ (nb de valeurs s(x *b ) < s(x))/b] F -1 est l inverse de la fonction de distribution cumulée de la loi normale centrée réduite, eg, F -1 (095) =1645 a 0 = Prob ( s Œ [s 1 ; s 2 ] ) = 1-2a S [s - s(x i )] 3 i 6 {S [s - s(x i )] 2 } 3/2 i Introduction à l approche bootstrap - Irène Buvat - 21/9/00-35

36 Nombre d échantillons bootstrap nécessaires ATTENTION Â plus de 1000 échantillons bootstrap sont nécessaires pour une estimation robuste des intervalles de confiance Introduction à l approche bootstrap - Irène Buvat - 21/9/00-36

37 Bootstrap et tests d hypothèse Les 2 échantillons observés émanent t-il de la même distribution de probabilité? Les moyennes des deux populations sousjacentes à deux échantillons observés sont-elles identiques? La moyenne des observations est-elle significativement différente d une valeur théorique? Â l approche bootstrap peut répondre! Introduction à l approche bootstrap - Irène Buvat - 21/9/00-37

38 Notion de niveau de signification atteint (ASL) Niveau de signification atteint = Achieved Significance Level ASL Probabilité d observer une valeur de test au moins aussi grande que la valeur observée quand l hypothèse H0 est vraie ASL = Prob H0 (t* t obs ) Plus ASL est faible, plus il y a d évidence pour rejeter H0 Si ASL < a, rejeter H0 La valeur t obs est fixe et correspond à la valeur de test calculée à partir de ou des échantillons effectivement observés La valeur t* correspond à la valeur de test sous l hypothèse H0, estimé par le bootstrap Introduction à l approche bootstrap - Irène Buvat - 21/9/00-38

39 Tests d hypothèse : principe général Nécessité de définir 2 quantités :  une statistique de test t  la distribution des données F 0 sous l hypothèse H0 Générer B échantillons bootstrap de t(x * ) à partir de la distribution F 0 Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-39

40 Tests d hypothèse : exemple 1 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de la même distribution de probabilité F 0? H0 : y et z sont des échantillons issus d une même population de distribution F 0 Former x = (y, z) Tirer B échantillons bootstrap de taille N+M à partir de x Pour chaque échantillon, les N premières observations sont notées y *b et les M suivantes z *b Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(y) - moy(z ) Si ASL < a, rejeter H0 Rq : une autre statistique de test peut être utilisée à la place de t(x *b ) = moy(y *b )-moy (z *b ), par exemple une statistique de Student Introduction à l approche bootstrap - Irène Buvat - 21/9/00-40

41 Tests d hypothèse : exemple 2 2 échantillons observés y = (y 1, y 2,, y N ), moy(y) = S i y i /N z = (z 1, z 2,, z M ), moy(z) = S i z i /M Les 2 échantillons y et z observés émanent t-il de populations présentant la même moyenne? H0 : moy(y) = moy(z) Former x = (y, z) et calculer moy(x) = S i y i /N Calculer y i = y i - moy(y) + moy(x) et z i = z i - moy(z) + moy(x) Tirer B échantillons bootstrap y *b de taille N à partir de y, B échantillons bootstrap z *b de taille M à partir de z En déduire B vecteurs x *b = (y *b, z *b ) Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(y *b ) - moy(z *b ) s y 2*b /N + s z 2*b /M avec moy(y *b ) = S i y i *b /N et moy(z *b ) = S i z i *b /M s y 2*b = S i (y i *b -moy(y *b )) 2 /(N-1) s z 2*b = S i (z i *b -moy(z *b )) 2 /(M-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B moy(y) - moy(z ) où t obs = s y2 /N + s z2 /M Introduction à l approche bootstrap - Irène Buvat - 21/9/00-41

42 Tests d hypothèse : exemple 3 1 échantillon observé x = (x 1, x 2,, x N ), moy(x) = S i x i /N La moyenne de l échantillon observé vaut-elle m? H0 : moy(x) = m Tirer B échantillons bootstrap x *b de taille N à partir de x Pour chaque échantillon bootstrap, calculer : t(x *b ) = moy(x *b ) - moy(x) s 2*b /N avec moy(x *b ) = S i x i *b /N s 2*b = S i (x i *b -moy(x *b )) 2 /(N-1) Calculer le niveau de signification atteint par ASL = (nb de valeurs t(x *b ) t obs )/B où t obs = moy(x) - m s 2 /N Si ASL < a, rejeter H0 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-42

43 Bootstrap paramétrique 1 échantillon observé de N valeurs x = (50 ; 53 ; 58 ; 80 ; 75 ; 69 ; 77 ; 44 ; 63 ; 73) non paramétrique paramétrique estimation de la loi de la population 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs parmi l échantillon original, avec remise 1 échantillon bootstrap : 1 tirage aléatoire de N valeurs à partir de la loi de la population Bootstrap non paramétrique  aucune hypothèse de loi de la population sousjacente nécessaire Bootstrap paramétrique  moins biaisé que les expressions analytiques  fournit des solutions aux problèmes pour lesquels il n existe pas de formule analytique Introduction à l approche bootstrap - Irène Buvat - 21/9/00-43

44 Bilan Bootstrap = méthode d inférence statistique adaptée au contexte non paramétrique 1 seul échantillon d observations nécessaire Permet d estimer la distribution sous-jacente à une population Permet d associer des erreurs standard à virtuellement n importe quelle statistique :  moyenne, médiane  coefficient de corrélation  paramètres issus d une modélisation des données  analyse multidimensionnelle (ACP) Permet d étudier le biais associé à une statistique calculée à partir d un seul échantillon Permet de calculer des intervalles de confiance et de réaliser des tests d hypothèse Estimateurs bootstrap = estimateurs non biaisés Introduction à l approche bootstrap - Irène Buvat - 21/9/00-44

45 Sujets plus avancés relatifs au bootstrap Estimation de la puissance d un test à partir du bootstrap Erreurs associées aux estimations bootstrap Prédiction d erreurs par l approche bootstrap Bootstrap et images : Â détermination des propriétés statistiques (eg, variance) d images issues de traitements Introduction à l approche bootstrap - Irène Buvat - 21/9/00-45

46 Référence recommandée An Introduction to the Bootstrap Monographs on Statistics and Applied Probability 57 Bradley Efron Robert J Tibshirani Chapman & Hall 1993 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-46

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Validation probabiliste d un Système de Prévision d Ensemble

Validation probabiliste d un Système de Prévision d Ensemble Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIE PAR MATHIEU SISTO NOVEMBRE

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité

CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité 1 CNAM 2002-2003 2léments de cours Bonus-malus et Crédibilité Une situation fréquente en pratique est de disposer non pas d un résultat mais de plusieurs. Le cas se présente en assurance, par exemple :

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Développements récents de la méthode des scores de la Banque de France

Développements récents de la méthode des scores de la Banque de France Développements récents de la méthode des scores de la Banque de France Au cours de la décennie quatre-vingt et au début des années quatre-vingt-dix, devant la multiplication des défaillances d entreprises,

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Le modèle de régression linéaire

Le modèle de régression linéaire Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Tests de comparaison pour l augmentation du volume de précipitation 13 février 2007 (dernière date de mise à jour) Table

Plus en détail

Prévention et gestion des risques naturels et environnementaux

Prévention et gestion des risques naturels et environnementaux Prévention et gestion des risques naturels et environnementaux Risque et assurance : quelques éléments théoriques Ecole des Ponts - Le 6 Avril 01 Jacques Pelletan 1 Théorie du risque et pérennité de l

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Cours de mathématiques - Alternance Gea

Cours de mathématiques - Alternance Gea Cours de mathématiques - Alternance Gea Anne Fredet 11 décembre 005 1 Calcul matriciel Une matrice n m est un tableau de nombres à n lignes( et m colonnes. 1 0 Par exemple, avec n = et m =, on peut considérer

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007 Université de Montréal 14 mars 2007 Christian FRANCQ GREMARS-EQUIPPE, Université Lille 3 Propriétés statistiques des modèles GARCH Outline 1 Identification 2 Test de bruit blanc faible Test d homoscédaticité

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

Espérance, variance, quantiles

Espérance, variance, quantiles Espérance, variance, quantiles Mathématiques Générales B Université de Genève Sylvain Sardy 22 mai 2008 0. Motivation Mesures de centralité (ex. espérance) et de dispersion (ex. variance) 1 f(x) 0.0 0.1

Plus en détail

Les échanges bilatéraux entre les nations : Une approche linéaire mixte des modèles gravitationnels* Kamel Ghaddab 1

Les échanges bilatéraux entre les nations : Une approche linéaire mixte des modèles gravitationnels* Kamel Ghaddab 1 Les échanges bilatéraux entre les nations : Une approche linéaire mixte des modèles gravitationnels* Kamel Ghaddab 1 Ahmed Silem 2 Introduction Dans le cadre de la détermination empirique de la composition

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Apprentissage par renforcement (1a/3)

Apprentissage par renforcement (1a/3) Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours

Plus en détail

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)

(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01) (19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Approche bayésienne des modèles à équations structurelles

Approche bayésienne des modèles à équations structurelles Manuscrit auteur, publié dans "42èmes Journées de Statistique (2010)" Approche bayésienne des modèles à équations structurelles Séverine Demeyer 1,2 & Nicolas Fischer 1 & Gilbert Saporta 2 1 LNE, Laboratoire

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes DIOGENE Un logiciel de Génétique & Amélioration des Plantes Utilisateurs Etudiants (DEA, thèse) Chercheurs confirmés (INRA, CIRAD, Universités Laval et Lyon 1) Gestionnaires de programmes d Amélioration,

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

Econométrie Appliquée Séries Temporelles

Econométrie Appliquée Séries Temporelles Chapitre 1. UFR Economie Appliquée. Cours de C. Hurlin 1 U.F.R. Economie Appliquée Maîtrise d Economie Appliquée Cours de Tronc Commun Econométrie Appliquée Séries Temporelles Christophe HURLIN Chapitre

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse Table des matières 1 Préambule 1 1.1 Démarche statistique...................................

Plus en détail

Simulations et Méthodes de Monte Carlo

Simulations et Méthodes de Monte Carlo Simulations et Méthodes de Monte Carlo Kam Yuen CHU Ezzoubir KODAD Responsable : Thierry RONCALLI 1 EXO 1 : Risque de marché library pgraph; @Exo1: Risque de marché@ let So=100 150 ; let theta = 1 1; let

Plus en détail

Modèle classique Extensions Modèle multi-branches. Théorie de la ruine. Esterina Masiello (ISFA)

Modèle classique Extensions Modèle multi-branches. Théorie de la ruine. Esterina Masiello (ISFA) Esterina Masiello Institut de Science Financière et d Assurances Université Lyon 1 Premières Journées Actuarielles de Strasbourg 6-7 octobre 2010 En résumé... Modèle classique de la théorie de la ruine

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base M.A. Knefati 1 & A. Oulidi 2 & P.Chauvet 1 & M. Delecroix 3 1 LUNAM Université, Université Catholique de l Ouest,

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Cours STAT 2150. "Statistique non paramétrique: Méthodes de lissage"

Cours STAT 2150. Statistique non paramétrique: Méthodes de lissage Cours STAT 2150 "Statistique non paramétrique: Méthodes de lissage" Année académique 2008-2009 Séance 1 1 Table de matière du cours 1. Introduction (Fonction de répartition, histogramme, propriétés d un

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Le calcul numérique : pourquoi et comment?

Le calcul numérique : pourquoi et comment? Le calcul numérique : pourquoi et comment? 16 juin 2009 Claude Gomez Directeur du consortium Scilab Plan Le calcul symbolique Le calcul numérique Le logiciel Scilab Scilab au lycée Le calcul symbolique

Plus en détail