Introduction à la statistique non paramétrique

Dimension: px
Commencer à balayer dès la page:

Download "Introduction à la statistique non paramétrique"

Transcription

1 Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry cmatias ENSIIE /2014

2 Première partie I Introduction à la statistique non paramétrique

3 Statistique non paramétrique : c est quoi? La statistique paramétrique est le cadre classique de la statistique. Le modèle statistique y est décrit par un nombre fini de paramètres. Typiquement M = {P θ, θ R p } est le modèle statistique qui décrit la distribution des variables aléatoires observées. Exemples Observations réelles avec un seul mode : M = {N (µ, σ 2 ), µ R, σ 2 R + }, modèle Gaussien. Observations réelles avec plusieurs modes : M K = { K i=1 p in (µ i, σ 2 ), (p 1,..., p K ) (0, 1) K, i p i = 1, (µ 1,..., µ K ) R K, σ 2 R + }, modèle de mélange Gaussien. Observations de comptage : M = {P(λ); λ R + }, modèle loi Poisson. M = {P à support dans S fini} [0, 1] S 1.

4 Statistique non paramétrique : c est quoi? Par opposition, en statistique non paramétrique, le modèle n est pas décrit par un nombre fini de paramètres. Divers cas de figures peuvent se présenter, comme par exemple : On s autorise toutes les distributions possibles, i.e. on ne fait aucune hypothèse sur la forme/nature/type de la distribution des variables aléatoires. On travaille sur des espaces fonctionnels, de dimension infinie. Exemple : les densités continues sur [0, 1], ou les densités monotones sur R. Le nombre de paramètres du modèle n est pas fixé et varie (augmente) avec le nombre d observations. Le support de la distribution est discret et varie (augmente) avec le nombre d observations.

5 Motivations I Observations rangées Situation : On dispose des résultats de questionnaires où des échantillons de consommateurs ont classé un ensemble de produits par ordre de préférence, Les questionnaires proviennent de supermarchés situés dans des zones socio-économiques différentes, On se demande si un produit P obtient un classement significativement différent d un supermarché à l autre. Questions : Comment modéliser la distribution des observations? Quel test utiliser? Réponse : Tests de rang.

6 Motivations II Observations mesurées Situation : On observe des données quantitatives. Questions : Peut-on raisonnablement supposer que les observations suivent une loi normale? (par exemple pour faire des tests sur la moyenne). Rép : Tests de normalité. Combien de modes possède cette distribution? Rép : Estimation de densité.

7 Statistique non paramétrique : Quand l utiliser? Exemples de contextes d utilisation Quand on n arrive pas à ajuster correctement les observations avec une distribution paramétrique, Quand on n a aucune idée de modèle, ou qu on ne veut pas avoir un a priori sur le modèle, Quand on ne sait pas combien de composantes on veut mettre dans un mélange, Quand le nombre de variables est trop grand (problème de grande dimension) et qu un modèle paramétrique est non utilisable car il aurait de toutes façons trop de paramètres,...

8 Avantages/Inconvénients Avantages Moins d a priori sur les observations, Modèles plus généraux, donc plus robustes au modèle. Inconvénients Vitesses de convergence plus lentes = il faut plus de données pour obtenir une précision équivalente.

9 Quelques références bibliographiques pour ce cours L. Wasserman. All of nonparametric statistics. Springer Texts in Statistics. Springer-Verlag, E.L. Lehmann. Elements of large sample theory. Springer Texts in Statistics. Springer-Verlag, A. B. Tsybakov. Introduction à l estimation non-paramétrique, volume 41 of Mathématiques & Applications (Berlin) [Mathematics & Applications]. Springer-Verlag, Berlin, D. Bosq. Nonparametric statistics for stochastic processes, Springer-Verlag, 1996.

10 Deuxième partie II Fonctions de répartition et fonctionnelles de la distribution

11 Sommaire Deuxième partie Fonction de répartition empirique Fonctionnelles de la distribution Fonction d influence

12 Estimer une fonction de répartition On observe X 1,..., X n variables aléatoires (v.a.) réelles, i.i.d. de fonction de répartition (fdr) F : x F (x) = P(X 1 x). L estimateur naturel de la fdr F est la fdr empirique ˆF n définie par ˆF n (x) = 1 n n i=1 1 X i x. C est un estimateur non paramétrique de la fdr F. Fonction de répartition empirique empirical cdf ( ( ( 3/n ( ( ( 2/n ( ( ( 1/n ( x[3] x[1] x[5] x[2] x[4] observations Figure : Fonction de répartition empirique. Qualité de cet estimateur?

13 Propriétés ponctuelles de ˆF n (x) (i.e. x fixé) I Biais E ˆF n (x) = 1 n i.e. estimateur sans biais. Variance n P(X i x) = F (x), i=1 Var( ˆF n (x)) = 1 n 2 n Var(1 Xi x ) = 1 n Var(1 X 1 x ) i=1 = F (x)(1 F (x)) n n 0. Erreur en moyenne quadratique (ou MSE pour mean square error ) E[( ˆF n (x) F (x)) 2 ] = biais 2 +variance = Var( ˆF n (x)) n 0.

14 Propriétés ponctuelles de ˆF n (x) (i.e. x fixé) II Convergence en probabilité ˆF n (x) proba F (x). n En effet, d après l inégalité de Markov, la convergence en moyenne quadratique implique la convergence en probabilité. ɛ > 0, LGN : TCL : P( ˆF n (x) F (x) ɛ) Var( ˆF n (x)) ɛ 2 ˆF n (x) p.s. F (x). n n 0. n( ˆF n (x) F (x)) L n N (0, F (x)(1 F (x))).

15 Propriétés ponctuelles de ˆF n (x) (i.e. x fixé) III Loi du logarithme itéré LIL. Rappel : si {X i } i 0 suite de v.a. i.i.d., centrées, de variance σ 2 < + et S n = n i=1 X i. Alors lim sup n S n σ 2n log log n = 1 p.s. En particulier lim sup n n ˆF n (x) F (x) F (x)(1 F (x))2 log log n = 1 p.s.

16 Propriétés uniformes de ˆF n Théorème de Glivenko Cantelli p.s. sup ˆF n (x) F (x) 0. x R n Inégalité de Dvoretzky-Kiefer-Wolfowitz (DKW) n N, ɛ > 0, P(sup ˆF n (x) F (x) > ɛ) 2e 2nɛ2. x R

17 Exemple d application de l inégalité de DKW I Construction d intervalles de confiance (IC) exacts sur F (x) x R, on a P(F (x) [ ˆF n (x) ɛ; ˆF n (x) + ɛ]) = 1 P( ˆF n (x) F (x) > ɛ) 1 P(sup ˆF n (x) F (x) > ɛ) 1 2e 2nɛ2. x Pour tout α > 0, on choisit alors ɛ > 0 tel que 2e 2nɛ2 = α, i.e. on prend ɛ = log(2/α)/(2n) et on obtient P(F (x) [ ˆF n (x) log(2/α)/(2n); ˆF n (x)+ log(2/α)/(2n)]) 1 α, donc [ ˆF n (x) log(2/α)/(2n); ˆF n (x) + log(2/α)/(2n)] est un IC au niveau 1 α pour F (x).

18 Exemple d application de l inégalité de DKW II Remarques Comme F (x) [0, 1], si n est petit on peut souvent raffiner cet IC en prenant plutôt [ ˆF n (x) log(2/α)/(2n); ˆF n (x) + log(2/α)/(2n)] [0, 1]. Le TCL permet également d obtenir un IC pour F (x), à condition d estimer la variance F (x)(1 F (x)). Mais cet intervalle est asymptotique uniquement. Il peut s avérer meilleur que l intervalle exact ci-dessus car ce dernier est fondé sur une borne uniforme qui peut être mauvaise pour certaines valeurs de x.

19 Sommaire Deuxième partie Fonction de répartition empirique Fonctionnelles de la distribution Fonction d influence

20 Notations I On note F l ensemble des fonctions de répartitions (fdr) F = {F : R [0, 1]; F croissante, càdlàg, lim F (t) = 0, lim F (t) = 1}. t t + Si F F, on note df l unique mesure de proba associée et on peut définir ainsi la notation h(x)df (x) = E F (h(x )) pour toute fonction h : R R. Exemples : si F continue (i.e. si df est une mesure absolument continue) alors en notant f = F la densité on obtient h(x)df (x) = h(x)f (x)dx si F constante par morceaux (i.e. si df est une mesure discrète) alors h(x)df (x) = a A h(a)w a où A est le support de la mesure et {w a } a A l ensemble des poids associés à chaque point du support.

21 Notations II FDR empirique ˆF n Soient X 1,..., X n v.a.i.i.d. réelles ˆF n (t) = 1 n n i=1 1 X i t, t R. Constante par morceaux (croissante, càd-làg) Associée à la mesure empirique P n ( ) = 1 n n δ Xi ( ) i=1 où δ x est la masse de Dirac au point x, i.e. P n est une mesure discrète qui associe le poids 1/n à chacune des observations X i. Pour toute fonction h, on a h(x)d ˆF n (x) = 1 n n i=1 h(x i).

22 Fonctionnelles de la distribution Une fonctionnelle est une application T : F R. Exemples Moyenne : F µ(f ) = xdf (x), Variance : F σ 2 (F ) = (x µ(f )) 2 df (x) = x 2 df (x) ( xdf (x)) 2, Médiane : F m(f ) = F 1 (1/2) et Quantiles : F q α (F ) = F 1 (α), Skewness (ou coefficient d asymétrie) : F { (x µ(f )) 3 df (x)}/σ(f ) 3/2. E( X 1 X 2 ), P((X 1, X 2 ) S),...

23 Cas particuliers : fonctionnelles linéaires et fonctionnelles de moment Définitions Une fonctionnelle T est dite linéaire s il existe a : R R telle que T : F T (F ) = a(x)df (x). Une fonctionnelle T est dite de moment s il existe un entier k 1 et une fonction φ : R k R telle que T : F T (F ) = E F (φ(x 1,..., X k )) = φ(x 1,..., x k )df (x 1 )... df (x k ). Exemples Les fonctionnelles linéaires sont des fonctionnelles de moment. Moyenne : linéaire et de moment E( X 1 X 2 ), P((X 1, X 2 ) S) : fonctionnelles de moment. Variance, médiane, quantiles, skewness : NON

24 Estimateurs par substitution I Principe des estimateurs par substitution (ou plug-in ) Si T : F T (F ) est une fonctionnelle alors un estimateur naturel de T (F ) est obtenu en substituant l estimateur ˆF n de F dans l expression de T, i.e. ˆT n = T ( ˆF n ) est un estimateur naturel de T (F ). Exemples Moyenne empirique : X n = xd ˆF n (x) = 1 n n i=1 X i, Variance empirique : ˆσ n 2 = x 2 d ˆF n (x) ( xd ˆF n (x) ) 2 = 1 n n i=1 X 2 i ( 1 n ) 2 n X i = 1 n i=1 n (X i X n ) 2. i=1

25 Estimateurs par substitution II Variance empirique (suite) : Estimateur biaisé auquel on peut préférer Sn 2 = 1 n (X i X n ) 2, n 1 qui est sans biais. i=1 Médiane empirique ˆm = ˆF n 1 (1/2), Quantile empirique ˆq α = ˆF n 1 (α). Statistiques d adéquation Kolmogorov : sup x R ˆF n (x) F 0 (x), Cramer von Mises : ( ˆF n (x) F 0 (x)) 2 df 0 (x), Pearson : r j =1 (ˆp j p 0 j )2 p 0 j où p 0 j ˆp j = ˆF n ((a j ; a j +1 ]). Correspond à T (F ) = r j =1 (F (a j +1) F(a j ) p 0 j ). pj 0 = F 0 ((a j ; a j +1 ]) et

26 U et V statistiques I Estimateurs des fonctionnelles de moment

27 U et V statistiques II Soit T = E(φ(X 1,..., X k )) une fonctionnelle de moment. (On peut supposer φ symétrique en les coordonnées). Son estimateur de substitution est la V -statistique V = T ( ˆF n ) = 1 n k n... i 1 =1 n φ(x i1,..., X ik ). i k =1 Un autre estimateur sans biais de T est la U -statistique U = ( ) n 1... φ(x i1,..., X ik ). k 1 i 1 <i 2 < <i k n La U -stat et la V -stat correspondante ont le même comportement asymptotique et ne diffèrent que par des extra-termes dans la V -stat et des facteurs de normalisations différents.

28 U et V statistiques III Exemples Ex : k = 2, U = 2 n(n 1) i<j φ(x i, X j ) = 1 n(n 1) i j φ(x i, X j ) et V = 1 n 2 i j φ(x i, X j ) + 1 n n 2 i=1 φ(x i, X i ). Différence en moyenne de Gini : U = ( ) n 1 2 i<j X i X j, (mesure la dispersion de la distribution). Propriétés des U -statistiques Estimateurs sans biais. Variance : Var( nu ) k 2 σ1 2 où σ1 2 = Cov(φ(X, X 2,..., X k ); φ(x, X 2,..., X k )) et X, X 2,..., X k, X 2,..., X k i.i.d. de loi F. Si σ1 2 ]0, + [, alors n(u T (F )) L n N (0, k 2 σ 1 2) et n(v T (F )) L n N (0, k 2 σ1 2 ), i.e. asympt. gaussiens.

29 Consistance des estimateurs par substitution I Principe On a vu que ˆF n converge (de diverses façons) vers F. Si T est assez régulière, les propriétés de ˆF n se transmettent à ˆT n = T ( ˆF n ). Attention : T est définie sur F : notion de régularité à préciser. Rappel : Lemme de Slutsky Soit (X n ) n 0 suite de v.a. dans R d qui converge en loi vers X et h : R d R s continue. Alors (h(x n )) n 0 suite de v.a. dans R s qui converge en loi vers h(x ). Continuité d une fonctionnelle Un fonctionnelle T est continue au point F si sup F n (x) F (x) 0 T (F n ) T (F ) 0. x R

30 Consistance des estimateurs par substitution II Exemples de fonctionnelles continues Fdr en un point T : F F (x 0 ) Cramer von Mises T : F (F F 0 ) 2 df 0 Quantiles T : F F 1 (α) Contre-exemple : La moyenne n est pas continue. En général, les fonctionnelles de moment ne sont pas continues. Convergence de l estimateur plug-in (Condition suffisante) Si T : F R est continue alors ˆT n = T ( ˆF n ) converge en proba vers T (F ).

31 Consistance des estimateurs par substitution III Exemples d estimateurs par substitution consistants Moyenne empirique : T : F xdf (x) n est pas continue en tout point mais on a quand même X n P E(X ), Variance empirique : ˆσ 2 n P Var(X ) Médiane empirique ˆm = ˆF n 1 (1/2) P F 1 (1/2), Quantile empirique ˆq α = ˆF n 1 (α) P F 1 (α).

32 Normalité asymptotique des estimateurs par substitution I Rappel : Méthode Delta Si (X n ) n 0 suite de v.a. dans R d telles qu il existe µ R d et (a n ) n 0 suite de réelles avec a n (X n µ) L n N d (0, Σ) et si g : R d R s est différentiable au voisinage de µ, alors L a n (g(x n ) g(µ)) N s(0, g(µ).σ. g(µ)). n Exemple d application directe : variance empirique n(ˆσ 2 L n m 2 ) N (0, m 4 m 2 n 2), où m i = E[(X 1 EX 1 ) i ]. (Indication : écrire un TCL sur le vecteur ( X n, X 2 n )). Dérivabilité d une fonctionnelle C est la notion de fonction d influence.

33 Sommaire Deuxième partie Fonction de répartition empirique Fonctionnelles de la distribution Fonction d influence

34 Fonction d influence I Principe C est une dérivée de la fonctionnelle T. Pour définir une dérivée, il faut définir un taux d accroissement. Comme une fonctionnelle T a pour argument F F, il faut définir un accroissement élémentaire dans F. Accroissement élémentaire x 0 R, on note δ x0 la masse de Dirac en x 0 et G δx0 la f.d.r. associée à δ x0. Plus précisément, on a G δx0 (t) = 1 x0 t pour tout t R.

35 Fonction d influence II FDR de la masse de Dirac en x[0] ( ( x[0] Figure : Fonction de répartition G δx0 de la masse de Dirac en x 0.

36 Fonction d influence III Définition Soit T : F T (F ) une fonctionnelle. La fonction d influence de T en F au point x 0 est définie par la limite suivante, si elle existe pour tout x R, IF T,F (x 0 ) = lim ɛ 0 T ((1 ɛ)f +ɛg δx0 ) T (F ) ɛ. Remarque Si F F alors pour tout ɛ > 0, on a (1 ɛ)f + ɛg δx0 F. En effet, c est une fonction croissante, càdlàg, qui tend vers 0 en et vers 1 en +. Heuristique IF T,F (x 0 ) mesure la variation limite subie par la fonctionnelle T en la distribution F lors d une perturbation infinitésimale. Notion de contamination, liée à la robustesse statistique.

37 Fonction d influence IV Exemple de la moyenne (fonctionnelle linéaire) Moyenne µ : F µ(f ) = xdf (x). ɛ > 0, x 0 R, on a µ((1 ɛ)f + ɛg δx0 ) = (1 ɛ)µ(f ) + ɛµ(g δx0 ) car µ est linéaire! De plus, µ(g δx0 ) = x 0. Donc on obtient µ((1 ɛ)f + ɛg δx0 ) µ(f ) ɛ = (1 ɛ)µ(f ) + ɛx 0 µ(f ) ɛ = x 0 µ(f ). Ainsi, IF µ,f (x 0 ) = x 0 µ(f ). Plus généralement, on peut facilement voir que pour une fonctionnelle linéaire T (F ) = a(x)df (x) on a IF T,F (x) = a(x) T (F ).

38 Fonction d influence empirique Définition Soit T : F T (F ) une fonctionnelle. La fonction d influence empirique de T en F au point x 0 est ˆ IF n (x 0 ) = IF T, ˆF n (x 0 ). Exemple (suite) La fonction d influence empirique associée à la moyenne µ en F au point x 0 est IF ˆ n (x 0 ) = x 0 X n. Heuristique La quantité IF ˆ n (X i ) mesure la contribution de l observation X i à la variation de la statistique ˆT n.

39 Calcul de fonctions d influence Proposition 1. Si T, S : F R sont deux fonctionnelles de fonctions d influence respectives IF T,F et IF S,F au point F F et si λ R alors λt + S est une fonctionnelle de fonction d influence λif T,F + IF S,F au point F et T S est une fonctionnelle de fonction d influence T (F ) IF S,F + S(F ) IF T,F au point F. 2. Si ψ : R R est une fonction dérivable et si T est une fonctionnelle de fonction d influence IF T,F au point F alors la fonctionnelle S = ψ T a pour fonction d influence au point F la fonction IF S,F = ψ T IF T,F.

40 Application : calcul de la fonction d influence de la variance On a σ 2 (F ) = (x µ(f )) 2 df (x) = x 2 df (x) µ(f ) 2. D après la prop. précédente IF σ 2,F = IF T,F 2µ(F )IF µ,f où T : F T (F ) = x 2 df (x). Or IF µ,f (x) = x µ(f ) et T est aussi une fonctionnelle linéaire donc IF T,F (x) = x 2 T (F ) = x 2 u 2 df (u). Donc on obtient IF σ 2,F (x) = x 2 u 2 df (u) 2µ(F )(x µ(f )) = (x µ(f )) 2 σ 2 (F ). NB : On retrouve la forme IF σ 2,F (x) = a F (x) σ 2 (F ) avec σ 2 (F ) = a F (x)df (x) et a F (x) = (x µ(f )) 2, pourtant, σ 2 n est pas une fonctionnelle linéaire car la fonction a dépend de F.

41 Normalité asymptotique de ˆT n et construction d IC. I Exemple de la moyenne µ(f ) = xdf (x) D après le TCL n (µ(f ) X n ) σ(f ) L N (0, 1), n On remarque que comme IF µ,f (X ) = X µ(f ), on a σ 2 (F ) = Var(X ) = Var(IF µ,f (X )). Mais σ 2 (F ) est inconnue. On l estime par ˆσ n 2 = σ 2 ( ˆF n ), ce qui revient à estimer σ 2 (F ) par Var( IF ˆ n (X )). Au final, le Lemme de Slutsky combiné au TCL donne (µ(f ) X n ) L n N (0, 1). n Var( IF ˆ n )

42 Normalité asymptotique de ˆT n et construction d IC. II Théorème (Cas des fonctionnelles linéaires). Si T : F T (F ) est une fonctionnelle linéaire, i.e. de la forme T (F ) = a(x)df (x), alors i) La fonction d influence s obtient simplement via IF T,F (x 0 ) = a(x 0 ) T (F ) et s estime par IF ˆ n (x 0 ) = a(x 0 ) T ( ˆF n ) = a(x 0 ) 1 n n i=1 a(x i), ii) On a E(IF T,F (X )) = IF T,F (x)df (x) = 0, et Var(IF T,F (X )) = E(IF T,F (X ) 2 ) := τ 2 s obtient via τ 2 = (a(x) T (F )) 2 df (x) = a 2 (x)df (x) T (F ) 2. De plus, si τ 2 < +, alors L n(t (F ) T ( ˆF n )) N (0, τ 2 ). n

43 Normalité asymptotique de ˆT n et construction d IC. III iii) On estime τ 2 via ˆτ n 2 = 1 n ˆ n i=1 IF 2 n(x i ) = 1 n n i=1 [a(x i) T ( ˆF n )] 2, alors on a la convergence ˆτ n 2 P τ 2, n et par conséquent n (T (F ) T ( ˆF n )) ˆτ n L n N (0, 1).

44 Normalité asymptotique de ˆT n et construction d IC. IV Autres cas Pour les fonctionnelles de moment, on a vu la normalité asymptotique des V -statistiques (estimateurs plug-in) mais aussi des U -statistiques. En général (fonctionnelles ni linéaires, ni de moment), il faut démontrer la normalité asymptotique à la main. Conclusion Souvent, la variance asymptotique de l estimateur T ( ˆF n ) vaut l espérance du carré de la fonction d influence (c est le cas pour les fonctionnelles de moment). Calculer la fonction d influence permet donc d avoir la variance de l estimateur par substitution T ( ˆF n ).

45 Liens avec les statistiques robustes [Hampel 74] I Statistiques résumées de la fonction d influence Estimateur par substitution ˆT n = T ( ˆF n ). Variance asymptotique : E(IF T,F (X ) 2 ), Gross-error sensitivity : γ = sup x R IF T,F (x). Mesure la pire influence approchée qu un niveau de contamination fixé peut avoir sur la valeur de l estimateur. On peut le voir comme une borne approchée du biais de l estimateur. Si γ est borné, alors la fonctionnelle T est robuste aux valeurs aberrantes. Ex : la médiane, mais pas la moyenne. Rem : Les méthodes de robustification d un estimateur cherchent souvent à mettre une borne sur γ. Le prix à payer est une augmentation de la variance limite.

46 Liens avec les statistiques robustes [Hampel 74] II Local shift sensitivity λ IF T,F (x) IF T,F (y) = sup x y x y Mesure par exemple les effets locaux de l arrondi ou du regroupement de valeurs sur la fonctionnelle T.

47 Liens avec estimateur Jackknife I Principe du Jackknife On observe un n-échantillon. Estimateur initial ˆθ 0 n de θ. ˆθ (i) Pour 1 i n, on construit n 1 le même estimateur de θ sur les observations privées de la ième. On forme les pseudo-valeurs ˆθ,i = n ˆθ n 0 (n 1)ˆθ (i) n 1. Estimateur Jackknife ˆθ = n 1 n i=1 ˆθ,i a un biais en général réduit. Le jackknife fait plus globalement partie des méthodes de ré-échantillonnage, comme le bootstrap. On peut le généraliser au cas où au lieu d enlever une valeur, on en retire k.

48 Liens avec estimateur Jackknife II Exemples Si θ = E(X ) et on applique cette stratégie sur ˆθ 0 n = X n moyenne empirique, alors la procédure ne change pas l estimateur. Si θ = Var(X ) et on applique cette stratégie sur ˆθ 0 n = n 1 i (X i X n ) 2 variance empirique, alors on obtient ˆθ = 1 n 1 n (X i X n ) 2. i=1

49 Liens avec estimateur Jackknife III Jackknife et fonction d influence empirique En prenant ɛ = 1/(n 1) on a IF ˆ n (X i ) = IF T, ˆF n (X i ) T ((1 ɛ) ˆF n + ɛg δxi ) T ( ˆF n ) ɛ = (n 1)[T ( ˆF n ) T ( ˆF (i) n 1 )] = ˆT,i T ( ˆF n ). Le Jackknife peut-être vu comme une version à taille d échantillon finie d une fonction d influence empirique [Quenouille 56, Huber 72, Miller 64].

50 Références partie fdr [Hampel 74] Frank R. Hampel. The influence curve and its role in robust estimation. J. Amer. Statist. Assoc., 69 : , [Huber 72] P. J. Huber. The 1972 Wald lecture. Robust statistics : A review. Ann. Math. Statist., 43 : , Miller, [Miller 64] Miller. A trustworthy jackknife. Ann. Math. Statist, 35 : , [Quenouille 56] M.H. Quenouille. Notes on bias in estimation. Biometrika, 43 : , 1956.

51 Troisième partie III Tests non paramétriques

52 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

53 Introduction I Contexte Dans la suite, on observe soit un échantillon X 1,..., X n de v.a. réelles i.i.d de même loi que X ou bien deux échantillons X 1,..., X n de même loi que X et Y 1,..., Y m de même loi que Y. Les tests sont non paramétriques lorsque la distribution des variables aléatoires n est pas spécifiée sous au moins une des deux hypothèses (nulle ou alternative).

54 Introduction II Exemples Tests d adéquation à une loi : H 0 : X suit la loi F 0 contre H 1 : X ne suit pas la loi F 0. Tests d adéquation à une famille de lois : H 0 : X est gaussienne (paramètres non spécifiés) contre H 1 : X n est pas gaussienne. Tests de comparaison (ou homogénéité) : H 0 : X et Y ont la même loi contre H 1 : X et Y n ont pas la même loi. Tests d indépendance : H 0 : {X i } {Y i } contre H 1 : {X i } ne sont pas indépendants des {Y i }.

55 Principe Principe général des tests Trouver une statistique (de test) T (X 1,..., X n ) (ou bien T (X 1,... X n, Y 1,..., Y m )) dont la distribution sous H 0 ne dépend pas de la distribution des v.a. observées. On parle de statistique libre en loi. Deux types de tests bilatères : lorsque sous l alternative H 1, la statistique T n est ni systématiquement plus grande ni plus petite que sous H 0. unilatères : lorsque sous l alternative H 1, la statistique T est soit systématiquement plus grande, soit plus petite que sous H 0. Donner un sens à plus grande ou plus petite pour des variables aléatoires : notion d ordre stochastique.

56 Ordre stochastique I Définition Si X v.a. réelle de fdr F et Y v.a. réelle de fdr G et si x R, on a G(x) F (x) avec inégalité stricte pour au moins un x R, alors on dit que Y est stochastiquement plus grande que X et on note Y X. En particulier, si T est une v.a.r. de fdr F 0 sous l hypothèse H 0 et de fdr F 1 sous l hypothèse H 1 et si x R, F 0 (x) F 1 (x) avec inégalité stricte en au moins un point, alors T est stochastiquement plus grande sous H 0 que sous H 1.

57 Ordre stochastique II Exemple T N (θ, 1), H 0 : θ = 0 et H 1 : θ = 1. T est stochastiquement plus petite sous H 0 que sous H 1. En effet, F 1 (x) = P H1 (T x) = P H1 (T 1 x 1) = P(Z x 1) où Z N (0, 1). De même F 0 (x) = P H0 (T x) = P(Z x). Donc on obtient F 1 (x) = F 0 (x 1) < F 0 (x), car F 0 strictement croissante. Propriété Si X 1 Y 1, X 2 Y 2 et X 1 X 2, Y 1 Y 2 alors X 1 + X 2 Y 1 + Y 2.

58 Choix de la région de rejet I C est l hypothèse alternative H 1 qui détermine si le test est bilatère ou unilatère. C est aussi l alternative H 1 qui détermine la région de rejet de l hypothèse nulle H 0 : R H0 choisie t.q. la densité de la stat. de test T sur R H0 est plus grande sous H 1 que sous H 0. Deux approches sont possibles : 1) On fixe un niveau α (erreur maximale de première espèce) et on cherche le seuil (donc la zone de rejet) tel que P H0 (Rejeter H 0 ) α. Ce test pourra être appliqué à tout jeu de données observées ultérieurement, et l hypothèse testée au niveau α.

59 Choix de la région de rejet II 2) On observe une réalisation x 1,..., x n et on calcule le degré de significativité (ou p-value) correspondant à cette réalisation, i.e. le plus petit niveau γ tel qu on rejette le test à ce niveau avec les valeurs observées. Ce test est spécifique à l observation mais permet de répondre au test pour toutes les valeurs de α, sur ce jeu de données. Exemple (degré de significativité) R H0 = {S n s} On observe la valeur de la statistique s obs, alors γ = P H0 (S n s obs ) est le degré de significativité du test pour la valeur observée. Tout test de niveau α < γ accepte H 0 et tout test de niveau α γ rejette H 0.

60 Choix de la région de rejet III Cas des tests bilatères R H0 = {T n b} {T n a}, avec a b, seuils à déterminer. En pratique, si on se fixe un niveau α positif, alors on choisira a, b tels que P H0 (T n b) = P H0 (T n a) α/2. Si T n a une distribution symétrique par rapport à m 0 sous l hypothèse nulle H 0, on peut écrire de façon équivalente R H0 = { T n m 0 s}. Le degré de significativité n a pas de sens pour un test bilatère. Une fois que les données sont observées, le test rejette pour une des deux alternatives, jamais les deux en même temps!

61 Puissance de test La fonction puissance est difficile à évaluer pour un test non paramétrique car l ensemble des alternatives est très grand et contient des distributions très différentes. En particulier, il est difficile de comparer des tests de même niveau. On pourra plutôt en considérer plusieurs. Certains tests sont mieux adaptés à certaines alternatives que d autres. Par construction, ces tests ne dépendent pas de la distribution des v.a. et ont les mêmes qualités quelle que soit cette distribution. En ce sens, ils sont dits robustes.

62 Correction du continu I Contexte Stat. de test T n discrète dont la loi approchée est continue. Ex : cadre asymptotique avec T n E H0 (T n ) VarH0 (T n ) L n N (0; 1) sous H 0. Si R H0 = {T n t} et α > 0 on cherche le seuil t tel que P H0 (T n t) α. Or, u [0, 1[, comme T n est discrète, P H0 (T n t) = P H0 (T n t u). De même, si R H0 = {T n t}, alors u [0; 1[ on a P H0 (T n t) = P H0 (T n t + u).

63 Correction du continu II Mise en œuvre La correction du continu consiste à remplacer la valeur par défaut u = 0 par u = 1/2. Ex : si R H0 = {T n t}, on cherche le seuil t tel que P H0 (T n t 0.5) α ( ) T n E H0 (T n ) P H0 VarH0 (T n ) t 0.5 E H 0 (T n ) α. VarH0 (T n )

64 Test d une hypothèse induite Remarques Il arrive que pour tester H 0, on teste en fait H 0 telle que H 0 H 0. Exemple : H 0 : Les variables sont gaussiennes et H 0 : le moment recentré d ordre 3 est nul. Si on rejette H 0 alors on rejette nécessairement H 0. Par contre, si on accepte H 0, on n accepte pas nécessairement H 0! N.B. Lorsque H 0 est une hypothèse paramétrique, on sort du cadre des tests non paramétriques. Exemple : voir plus loin le test du signe.

65 Tests de permutation Pincipe Il s agit d une technique générale pour échantillonner la loi de la statistique de test sous H 0. Requiert que les individus soient i.i.d (ou plus généralement échangeables). Permet d obtenir un test exact (par opposition à asymptotique) ; Peut être difficile à mettre en œuvre d un point de vue puissance de calcul (si trop de catégories par exemple). Exemple Pour tester que 2 échantillons ont la même loi, on peut permuter les individus entre les échantillons pour échantillonner les valeurs de la stat de test (différence entre moyennes) sous H 0.

66 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

67 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

68 Cas discret fini : Test d adéquation du χ 2 de Pearson I Description Pour un échantillon de v.a. discrètes avec r modalités (qualitatives ou quantitatives) X 1,..., X n et une distribution p 0 fixée, on teste H 0 : p = p 0 contre H 1 : p p 0. Statistique de Pearson χ 2 = n r (ˆp k p 0 (k)) 2, (1) p 0 (k) k=1 où ˆp k = n i=1 1{X i = k}/n. On rejette H 0 pour les grandes valeurs de χ 2.

69 Cas discret fini : Test d adéquation du χ 2 de Pearson II Propriétés Test asymptotique, fondé sur la loi limite de la statistique de test qui suit un χ 2 (r 1). C est un test consistant : pour toute alternative p p 0, la puissance β n (p) 1. Remarque : C est en fait un test paramétrique! puisque la loi discrète des X i dépend d un nombre fini de paramètres.

70 Cas continu : test d adéquation du χ 2 de Pearson avec catégories I Description Pour un échantillon de v.a. continues X 1,..., X n et une fdr F 0 fixée, on veut tester H 0 : F = F 0 contre H 1 : F F 0. On découpe R = (, a 1 ) (a 1, a 2 )... (a r 2, a r 1 ) (a r 1, + ) en intervalles fixés pour obtenir r modalités : ˆp k = n i=1 1{X i (a k 1, a k )}/n et p 0 (k) = F 0 (a k ) F 0 (a k 1 ). On teste alors l hypothèse induite H 0 : Les versions discrétisées de F et F 0 sont identiques. Même statistique qu en (1) et même type de zone de rejet.

71 Cas continu : test d adéquation du χ 2 de Pearson avec catégories II Propriétés Test asymptotique, fondé sur la loi limite de la statistique de test qui suit un χ 2 (r 1). Sous certaines hyps, utilisable lorsque F 0 est définie à un paramètre près θ 0 R s qui est estimé (loi limite χ 2 (r s 1)). Ce test n est pas consistant pour toute alternative F F 0 (en fait H 1 est plus petite que H 1). Peut-être généralisé au cas où les a k sont aléatoires et tels que le nombre de points dans chaque intervalle est fixé. Le test induit est en fait encore paramétrique.

72 Cas continu : test de Kolmogorov Smirnov (KS) Description Pour un échantillon de v.a. continues X 1,..., X n et une fdr F 0 fixée, on teste H 0 : F = F 0 contre H 1 : F F 0. Statistique de KS D n = sup ˆF n (x) F 0 (x) x R = max { F 0(X (i) ) i/n, F 0 (X (i) ) (i 1)/n }. 1 i n On rejette H 0 pour les grandes valeurs de D n. Propriétés Statistique libre en loi sous H 0. Cette loi est tabulée. Approximation pour n grand P H0 ( nd n > z) 2 ( 1) j 1 exp( 2j 2 z 2 ). n j 1

73 Autres tests : Cramér von Mises et Anderson-Darling Dans le même contexte que KS, on peut utiliser Statistiques de test CVM n = n ( ˆF n (x) F 0 (x)) 2 df 0 (x) A n = n ( ˆF n (x) F 0 (x)) 2 F 0 (x)(1 F 0 (x)) df 0(x) On rejette H 0 pour les grandes valeurs de CVM n ou A n. Propriétés Statistiques libres en loi sous H 0. Statistiques plus sensibles à l ensemble des valeurs (pas seulement le sup). En particulier, A n sensible aux écarts à F 0 dans la queue de distribution. CVM et AD considérés comme plus puissants que KS (mais pas de preuve théorique).

74 Conclusions sur tests d adéquation à une loi fixée Adéquation à une famille de lois χ 2 se généralise au cas de H 0 : F = F 0(θ 1,..., θ s ) où θ 1,..., θ s inconnus. Les tests KS, CVM et AD ne s appliquent pas directement à ce cadre. En effet, leurs statistiques ne sont plus libres en loi (même asymptotiquement) sous H 0. Il faut adapter ces tests pour chaque famille de loi considérée.

75 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

76 Tests d adéquation à une famille de lois Le test du χ 2 se généralise au cas H 0 : F = F 0(θ 1,..., θ s ) où θ 1,..., θ s inconnus. Les tests KS, CVM et AD doivent être modifiés dans ce cadre. Voir [De Wet and Randles 87] pour plus de détails. Cas particulier : famille gaussienne Les tests de normalité permettent de tester H 0 : F suit une loi gaussienne (de paramètres non spécifiés) contre H 1 : F n est pas gaussienne. En pratique, on teste H 0 : F = N (ˆθ n, ˆσ 2 n) (paramètres estimés). Il existe des généralisations de KS (test de Lilliefors) et CVM à ce cadre, implémentées sous R (Paquet nortest, fonctions lillie.test et cvm.test. Contient également Pearson.test).

77 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

78 Rappel : test de signe I Contexte On observe un échantillon X 1,..., X n de v.a. réelles i.i.d. On teste H 0 : P(X 0) = 1/2 i.e. la médiane de la distribution est nulle contre H 1 : P(X 0) > 1/2 i.e. la médiane de la distribution est négative ou H 1 : P(X 0) < 1/2 i.e. la médiane de la distribution est positive. Statistique de signe S n = n 1{X i 0} B(n, m), i=1 où m = P(X 0). Sous H 0 : m = 1/2, on a S n B(n, 1/2) et sous H 1 : P(X 0) > 1/2, la statistique S n est stochastiquement plus grande que sous H 0. On rejette donc H 0 pour les grandes valeurs de S n.

79 Rappel : test de signe II Propriétés Pour les petites valeurs de n, la distribution B(n; 1/2) est tabulée. Pour les grandes valeurs de n, on a recours à une approximation Gaussienne. Ce test est très général, mais il utilise très peu d information sur les variables (uniquement leur signe, pas leurs valeurs relatives). C est donc un test peu puissant. Le test de signe et rang utilise plus d information sur les variables. Remarque : c est en fait un test paramétrique! puisque la loi de S n sous H 0 et sous l alternative est paramétrique (B(n, m)).

80 Statistiques d ordre et de rang I Définitions Soient X 1,... X n v.a. réelles. i) La statistique d ordre X = (X (1),..., X (n) ) est obtenue par réarrangement croissant des X i. Ainsi : X (1) X (2)... X (n) et a R, {i; X i = a} = {i; X (i) = a}. ii) Le vecteur des rangs R X est une permutation de {1,..., n} telle que i {1,..., n}, on a X i = X R X (i) = X (R X (i)).

81 Statistiques d ordre et de rang II Exemple n = 7, x = (4, 2, 1, 1, 2, 0, 1). Alors x = (0, 1, 1, 1, 2, 2, 4) et par exemple X R X Ici on a x 1 = 4 = x (7) et R x (1) = 7. Remarques Cette notion est dépendante de n qui doit être fixé. S il y a des ex-æquos, le vecteur des rangs n est pas unique.

82 Test de signe et rang (ou Wilcoxon signed rank test) I Contexte Soit X 1,... X n un échantillon de v.a. réelles de loi supposée diffuse et symétrique par rapport à (la médiane) m. On veut tester H 0 : m = 0 contre H 1 : m 0. Statistique de Wilcoxon W + n = n R X (i)1{x i > 0}, i=1 où R X le vecteur des rangs associé à l échantillon.

83 Test de signe et rang (ou Wilcoxon signed rank test) II Exemple n = 5 et on observe { 0.15; 0.42; 0.22; 0.6; 0.1}. Alors, X i X i R X (i) X i > et W + 5 = = 8 tandis que W 5 = = 7.

84 Test de signe et rang (ou Wilcoxon signed rank test) III Remarques W n + + Wn = n(n + 1)/2 p.s. En effet, comme X est diffuse, on a X i 0 p.s. et donc W n + + Wn = n i=1 R X (i) = n i=1 i = n(n + 1)/2. 0 W n + n(n + 1)/2 p.s. Le cas W n + = 0 correspond à tous les X i < 0 et le cas W n + = n(n + 1)/2 à tous les X i > 0. Cas des ex-æquos Normalement le test s applique à des variables diffuses, donc pas d ex-æquos en théorie. En pratique, on affecte des rangs moyens en cas d égalité et il existe des corrections des lois limites dans ce cas.

85 Test de signe et rang (ou Wilcoxon signed rank test) IV Théorème Sous l hypothèse H 0 : La loi de X est symétrique par rapport à 0, les statistiques W + n et W n ont la même distribution et sont des statistiques libres en loi. De plus, on a E H0 (W n + n(n + 1) ) =, Var H0 (W n + ) = 4 W n + E H0 (W n + ) et Var H0 (W n + ) Conséquences n(n + 1)(2n + 1) 24 L n N (0, 1) sous H 0. Test de H 0 : m = 0 contre H 1 : m 0 en rejetant H 0 pour les grandes valeurs de W + n n(n + 1)/4. Test exact via table pour n 20, asymptotique (via l approximation gaussienne) sinon.

86 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

87 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

88 Tests de comparaison de deux populations Dans la suite, on distinguera : Le cas de deux populations appariées, qui se ramène au cas des tests sur une population. Le cas de deux populations non appariées : il s agit là vraiment de tests sur deux populations.

89 Échantillons appariés I On considère X 1,..., X n et Y 1,..., Y n deux échantillons indépendants de v.a. diffuses de lois respectives F et G. Appariement Soit il s agit des mêmes individus, par exemple sur lesquels on applique des traitements à 2 temps différents, Soit les individus sont différents et alors pour que l appariement soit valable, il faut avoir collecté puis regroupé les individus en fonction de covariables (sexe, âge, etc).

90 Échantillons appariés II Tests d homogénéité On veut tester H 0 : F = G contre H 1 : F G. Après appariement des variables, on construit Z i = X i Y i. Sous l hypothèse H 0, la loi de Z est symétrique par rapport à sa médiane m, qui vaut 0. D où le test induit H 0 : m = 0 contre H 1 : m 0. On applique le test de signe et rang de Wilcoxon.

91 Échantillons non appariés I Contexte On considère X 1,..., X n et Y 1,..., Y m deux échantillons indépendants de v.a. diffuses de lois respectives F et G. On veut tester H 0 : F = G contre H 1 : F G. Remarque : Les échantillons n ont a priori pas la même taille et il n existe pas d appariement naturel entre les variables.

92 Échantillons non appariés II Exemple Population de N individus sur lesquels on veut tester un nouveau traitement. On forme un groupe de n individus qui reçoivent le nouveau traitement et m = N n forment le groupe contrôle, recevant un placebo. On mesure une quantité relative au traitement. L hypothèse nulle H 0 : F = G est privilégiée : si on la rejette, le nouveau traitement est déclaré efficace. On ne veut pas d un nouveau médicament si on n est pas sûrs qu il a un effet.

93 Échantillons non appariés III Approches possibles Test de Kolmogorov Smirnov de comparaison de 2 échantillons. Test de la somme des rangs de Wilcoxon (ou test de Mann-Whitney).

94 Test de Kolmogorov Smirnov de comparaison de 2 échantillons Statistique de KS pour deux échantillons D n,m = sup x R ˆF n (x) Ĝ m (x). On rejette H 0 pour les grandes valeurs de D n,m. Propriétés Statistique libre en loi sous H 0. Cette loi est tabulée.

95 Test de la somme des rangs de Wilcoxon (ou test de Mann-Whitney) I Procédure On classe les variables {X i, Y j } par leur rang global (i.e. on considère le vecteur des rangs R X,Y ) et on note R 1, R 2,..., R n les rangs associés au premier échantillon (i.e. les X i ) et N = n + m. Exemple X 1 = 3.5; X 2 = 4.7; X 3 = 1.2; Y 1 = 0.7; Y 2 = 3.9 alors Y 1 X 3 X 1 Y 2 X 2 et les rangs associés à l échantillon des X i sont R 1 = 3, R 2 = 5, R 3 = 2. Remarque Suivant le contexte, X et Y peuvent mesurer des choses très différentes. Par contre, le rang relatif de ces variables est une quantité qui ne dépend pas de la nature (de la loi) des variables de départ.

96 Test de la somme des rangs de Wilcoxon (ou test de Mann-Whitney) II Statistique de Mann-Whitney W YX On note Σ 1 = R R n la somme des rangs du premier échantillon. On a p.s. n(n + 1) 2 Σ 1 (n + m)(n + m + 1) m(m + 1) n(n + 1) = nm+, On définit n(n + 1) W YX = Σ 1, 2 On a 0 W YX nm p.s.. On définit de façon symétrique W XY = Σ 2 m(m + 1)/2 où Σ 2 est la somme des rangs du second échantillon.

97 Test de la somme des rangs de Wilcoxon (ou test de Mann-Whitney) III Proposition Sous l hypothèse que les variables sont diffuses, on a les résultats suivants : i) W XY est égal au nombre de paires (X i, Y j ) (parmi les nm paires possibles) telles que X i < Y j. ii) W XY + W YX = nm, p.s.. iii) Sous l hypothèse H 0 : F = G, la loi de Σ 1 est symétrique par rapport à n(n + 1)/2. Autrement dit, sous H 0, la loi de W YX est symétrique par rapport à nm/2. iv) Sous l hypothèse H 0 : F = G, les variables W XY et W YX ont la même loi.

98 Test de la somme des rangs de Wilcoxon (ou test de Mann-Whitney) IV Théorème La loi de W XY (ou W YX ) est libre sous H 0. Cette loi ne dépend que de n et m. De plus, E H0 (W XY ) = nm 2, Var H 0 (W XY ) = et W XY E H0 (W XY ) VarH0 (W XY ) nm(n + 1) 12 L n,m N (0, 1) sous H 0. Test exact ou test asymptotique Le test rejette H 0 : F = G pour les grandes valeurs de W YX nm/2. Loi tabulée pour les petites valeurs de n et m ( 10). Pour les grandes valeurs, on utilise l approximation gaussienne.

99 Lien entre Mann-Whitney et Wilcoxon La stat. signe et rang de Wilcoxon peut être vue comme un cas particulier de la stat. somme des rangs de Wilcoxon. En effet, Soit Z 1..., Z N un échantillon, U 1,..., U n sous-échantillon correspondant aux valeurs de Z i telles que Z i > 0, V 1,..., V m sous-échantilon correspondant aux valeurs Z i pour les Z i < 0. Ordonner les {U i, V j } revient à ordonner { Z i }. La somme des rangs de l échantillon des U i est donc égale à la somme des rangs des Z i > 0. Sous H 0, chacun des deux échantillons devrait être de taille environ N /2, mais il faut tenir compte de l aléa dans la répartition des signes pour pouvoir faire un parallèle exact.

100 Remarques sur les tests de comparaison Remarques Le test de Mann-Whitney est très général et n utilise que les valeurs relatives des variables entre elles. Le test d homogénéité de KS pour 2 échantillons est assez différent car il prend en compte la forme des distributions et pas seulement des phénomènes de translation.

101 Sommaire Troisième partie Introduction, rappels et généralités Tests sur une population Tests d adéquation à une distribution fixée Tests d adéquation à une famille de distributions Tests de médiane (ou de symétrie) Tests sur deux populations Tests de comparaison (ou homogénéité) de deux populations Tests de corrélation sur variables appariées

102 Contexte des tests de corrélation Contexte On dispose de deux échantillons X 1,..., X n et Y 1,..., Y n de v.a. réelles et appariées. Exemple : on mesure deux quantités X et Y sur un ensemble d individus. On veut tester H 0 : X et Y sont non corrélées contre H 1 : X et Y sont corrélées. NB : si les variables ne sont pas gaussiennes, non corrélation indépendance. NB : Un test de permutation va tester H 0 : X et Y sont indépendantes et pas H 0 : X et Y sont non corrélées. Remarque Le test du χ 2 d indépendance pour variables discrètes est un test paramétrique car les supports des variables sont finis!

103 Corrélation de Pearson I Rappels Le coefficient de corrélation de Pearson mesure la dépendance linéaire entre deux variables réelles. 5 4 r=0.029 (a) 5 4 r=0.027 (b) r=0.87 (c) 10 8 r= (d)

104 Corrélation de Pearson II 8 (a) 8 (b) 8 (d) r=0.02 r= r= (d) 14 (e) 14 (f) 12 r= r= r=

105 Corrélation de Pearson III Coefficient de corrélation n i=1 r = (X i X n )(Y i Ȳ n ) i (X i X n ) 2 i (Y i Ȳ n ). 2 Propriétés 1 r 1 avec égalité lorsque la relation entre X et Y est linéaire. La distribution exacte de r sous H 0 dépend des distributions de X et Y. Ce n est pas une statistique libre en loi sous H 0. On peut utiliser un test de permutation dans le cas de H 0 : X et Y sont indépendantes. Asymptotiquement, sous H 0, r suit une loi gaussienne centrée.

106 Corrélation de Pearson IV Remarques La fonction cor.test de R implémente différents calculs et tests de corrélation. La méthode pearson de cette fonction implémente le test du coefficient de corrélation de Pearson lorsque les variables sont gaussiennes uniquement. À manipuler avec précaution dans le cas de petits échantillons! Pour obtenir une statistique libre en loi sous H 0, il faut se débarrasser des valeurs prises par les variables. Une possibilité est de passer par les rangs des variables.

107 Test de corrélation des rangs de Spearman I Contexte Le coefficient de corrélation des rangs de Spearman mesure la dépendance monotone entre deux variables réelles et diffuses. C est le coefficient de corrélation de Pearson entre les rangs des variables de deux échantillons. Soient X 1,..., X n et Y 1,..., Y n deux échantillons appariés et R 1,..., R n, S 1,..., S n les rangs respectifs des variables. On teste donc H 0 X, Y non corrélées contre H 1 : X, Y sont en relation monotone. Statistique de corrélation des rangs de Spearman ρ = i (r i r n )(s i s n ) i (r i r n ) 2 i (s i s n ) 2. On rejette H 0 pour des grandes valeurs de ρ.

108 Test de corrélation des rangs de Spearman II Propriétés 1 ρ 1 et si X = f (Y ) avec f croissante (resp. décroissante) alors ρ = +1 (resp. 1). Sous H 0, la stat ρ est libre en loi. Test exact : en utilisant un test de permutation pour l hyp H 0 (et pas H 0 ). Possible si n pas trop grand. Tests asymptotiques de H 0 : à partir de transformations de ρ.

109 Test de corrélation des rangs de Spearman III Cas des ex-æquos Normalement le test s applique à des variables diffuses, donc pas d ex-æquos en théorie. En pratique, on affecte des rangs moyens en cas d égalité. S il n y a pas d ex-æquos, l expression de ρ se simplifie et devient ρ = 1 6 i d i 2 n(n 2 1), où d i = r i s i est la différence des rangs de l individu i.

110 Test de corrélation des rangs de Kendall I Contexte Le coefficient de corrélation des rangs de Kendall mesure la dépendance entre deux variables réelles et diffuses. Pour tout couple d individus (i, j ), on dit que les paires (x i, y i ) et (x j, y j ) sont concordantes si soit xi < x j et y i < y j, soit x i > x j et y i > y j, et discordante sinon. Cette fois encore, on teste H 0 X, Y non corrélées contre H 1 : X, Y sont en relation monotone.

111 Test de corrélation des rangs de Kendall II Statistique de corrélation des rangs de Kendall τ n = (Nb de paires concordantes) (Nb de paires discordantes). n(n 1)/2 Cas des ex-æquos Normalement le test s applique à des variables diffuses, donc pas d ex-æquos en théorie. Il existe des variantes de la définition de τ n qui prennent en compte le cas des ex-æquos.

112 Test de corrélation des rangs de Kendall III Propriétés 1 τ n 1, et τ n = 1 lorsque la concordance entre les paires est parfaite, 1 lorsque la discordance est parfaite. Sous H 0, τ est une stat libre en loi, de moyenne nulle (E H0 (τ n ) = 0). Loi tabulée pour n petit, qui donne un test exact. Test asymptotique pour n grand, fondé sur l approximation gaussienne E H0 (τ n ) = 0, Var H0 (τ n ) = τ n E H0 (τ n ) Var(τn ) 2(2n + 5) 9n(n 1) L n N (0; 1) sous H 0.

113 Références partie tests [De Wet and Randles 87] T. De Wet and R. Randles. On the effect of substituting parameter estimators in limiting χ 2, u and v statistics. Annals of Statistics, 15 : , [Morris 75] C. Morris. Central limit theorems for multinomial sums. The Annals of Statistics, 3 : , 1975.

114 Quatrième partie IV Estimation de densité : histogrammes, noyaux, projections et estimateurs sous contraintes

115 Sommaire Quatrième partie Introduction Estimateur par histogramme Construction et risque quadratique Choix de la partition par validation croisée Estimateur à noyau Construction et risque quadratique Choix de la fenêtre par validation croisée Estimateur à noyau des k plus proches voisins Estimateur par projection Construction Propriétés Cas des densités multivariées Fléau de la dimension Généralisations des estimateurs précédents Cas des densités monotones ou unimodales ou convexes... Densités monotones Densités unimodales Autres contraintes

116 Contexte de l estimation de densité (univariée) Observations : X 1,..., X n v.a. i.i.d. réelles de fdr F et admettant une densité f = F. But : estimer (à partir des observations) f en faisant le moins d hypothèses possibles sur cette densité. Typiquement, on supposera que f F espace fonctionnel et on notera ˆf n un estimateur de f. Objectifs Obtenir des informations de nature géométrique sur la distribution des variables. Ex : Combien de modes? Zones peu denses? très denses? Notation On notera E f l espérance quand la densité des X i vaut f.

117 Mesure de la qualité d un estimateur : risque I Ingrédients de la définition du risque 1) Distance sur F pour mesurer l écart entre ˆf n et f. Ex : d(f, g) = f g p = [ f g p ] 1/p, pour p 1. Par exemple p = 1 ou 2. d(f, g) = f g = supess x f (x) g(x). d(f, g) = f (x0 ) g(x 0 ) où x 0 fixé. 2) Définition d une fonction de perte ω : R R + convexe, telle que ω(0) = 0. Ex : ω : u u 2 fonction de perte quadratique. 3) L erreur w(d(ˆf n, f )) (par ex d(ˆf n, f ) 2 ) dépend de l échantillon observé. On définit donc une fonction de risque R(ˆf n, f ) = E f (ω(d(ˆf n, f ))). C est en moyenne, l erreur que l on commet en estimant f par ˆf n, pour la distance d et la perte ω.

118 Mesure de la qualité d un estimateur : risque II Exemples de fonctions de risque En prenant la distance L 2 et la perte quadratique, on obtient le risque quadratique intégré : MISE = mean integrated squared error R(ˆf n, f ) = E f ˆf n f 2 2 = E f (ˆf n (x) f (x)) 2 dx. En prenant la distance ponctuelle en x 0 et la perte quadratique, on obtient le risque quadratique ponctuel en x 0 : MSE = mean squared error R x0 (ˆf n, f ) = E f ˆf n (x 0 ) f (x 0 ) 2. x

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

Sur certaines séries entières particulières

Sur certaines séries entières particulières ACTA ARITHMETICA XCII. 2) Sur certaines séries entières particulières par Hubert Delange Orsay). Introduction. Dans un exposé à la Conférence Internationale de Théorie des Nombres organisée à Zakopane

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Maitine.Bergounioux@labomath.univ-orleans.fr Plan 1. Un peu de

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Cours Fonctions de deux variables

Cours Fonctions de deux variables Cours Fonctions de deux variables par Pierre Veuillez 1 Support théorique 1.1 Représentation Plan et espace : Grâce à un repère cartésien ( ) O, i, j du plan, les couples (x, y) de R 2 peuvent être représenté

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

FIMA, 7 juillet 2005

FIMA, 7 juillet 2005 F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers

Plus en détail

Algorithmes pour la planification de mouvements en robotique non-holonome

Algorithmes pour la planification de mouvements en robotique non-holonome Algorithmes pour la planification de mouvements en robotique non-holonome Frédéric Jean Unité de Mathématiques Appliquées ENSTA Le 02 février 2006 Outline 1 2 3 Modélisation Géométrique d un Robot Robot

Plus en détail

INTRODUCTION. 1 k 2. k=1

INTRODUCTION. 1 k 2. k=1 Capes externe de mathématiques : session 7 Première composition INTRODUCTION L objet du problème est l étude de la suite (s n n définie par : n, s n = Dans une première partie, nous nous attacherons à

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

Polynômes à plusieurs variables. Résultant

Polynômes à plusieurs variables. Résultant Polynômes à plusieurs variables. Résultant Christophe Ritzenthaler 1 Relations coefficients-racines. Polynômes symétriques Issu de [MS] et de [Goz]. Soit A un anneau intègre. Définition 1.1. Soit a A \

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Module 7: Chaînes de Markov à temps continu

Module 7: Chaînes de Markov à temps continu Module 7: Chaînes de Markov à temps continu Patrick Thiran 1 Introduction aux chaînes de Markov à temps continu 1.1 (Première) définition Ce module est consacré aux processus à temps continu {X(t), t R

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Équation de Langevin avec petites perturbations browniennes ou

Équation de Langevin avec petites perturbations browniennes ou Équation de Langevin avec petites perturbations browniennes ou alpha-stables Richard Eon sous la direction de Mihai Gradinaru Institut de Recherche Mathématique de Rennes Journées de probabilités 215,

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Coefficients binomiaux

Coefficients binomiaux Probabilités L2 Exercices Chapitre 2 Coefficients binomiaux 1 ( ) On appelle chemin une suite de segments de longueur 1, dirigés soit vers le haut, soit vers la droite 1 Dénombrer tous les chemins allant

Plus en détail

Comparaison de fonctions Développements limités. Chapitre 10

Comparaison de fonctions Développements limités. Chapitre 10 PCSI - 4/5 www.ericreynaud.fr Chapitre Points importants 3 Questions de cours 6 Eercices corrigés Plan du cours 4 Eercices types 7 Devoir maison 5 Eercices Chap Et s il ne fallait retenir que si points?

Plus en détail

Tests semi-paramétriques d indépendance

Tests semi-paramétriques d indépendance Tests semi-paramétriques d indépendance Bernard Colin et Ernest Monga Département de Mathématiques Université de Sherbrooke Sherbrooke J1K-2R1 (Québec) Canada Rapport de recherche N o 139 Abstract Let

Plus en détail

Différentiabilité ; Fonctions de plusieurs variables réelles

Différentiabilité ; Fonctions de plusieurs variables réelles Différentiabilité ; Fonctions de plusieurs variables réelles Denis Vekemans R n est muni de l une des trois normes usuelles. 1,. 2 ou.. x 1 = i i n Toutes les normes de R n sont équivalentes. x i ; x 2

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos olivier.bos@u-paris2.fr

Plus en détail

Capes 2002 - Première épreuve

Capes 2002 - Première épreuve Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série

Plus en détail

MODELES DE DUREE DE VIE

MODELES DE DUREE DE VIE MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions

Plus en détail

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008) Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut

Plus en détail

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Guy Desaulniers Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2014 Table des matières

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Dualité dans les espaces de Lebesgue et mesures de Radon finies Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention

Plus en détail

Sujet 4: Programmation stochastique propriétés de fonction de recours

Sujet 4: Programmation stochastique propriétés de fonction de recours Sujet 4: Programmation stochastique propriétés de fonction de recours MSE3313: Optimisation Stochastiqe Andrew J. Miller Dernière mise au jour: October 19, 2011 Dans ce sujet... 1 Propriétés de la fonction

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce

Plus en détail

Optimisation des fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables Optimisation des fonctions de plusieurs variables Hervé Hocquard Université de Bordeaux, France 8 avril 2013 Extrema locaux et globaux Définition On étudie le comportement d une fonction de plusieurs variables

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions. Problèmes mathématiques de la mécanique/mathematical problems in Mechanics Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions. Cristinel Mardare Laboratoire

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12 Probabilités. I - Rappel : trois exemples. Exemple 1 : Dans une classe de 25 élèves, il y a 16 filles. Tous les élèves sont blonds ou bruns. Parmi les filles, 6 sont blondes. Parmi les garçons, 3 sont

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail