Tests non-paramétriques de comparaison de distribution

Documents pareils
Introduction à la statistique non paramétrique

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Analyse de la variance Comparaison de plusieurs moyennes

Principe de symétrisation pour la construction d un test adaptatif

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Keywords: Probability of catastrophic events, Bivariate extreme value theory, Heavy tailed distributions, ALS methods.

Limites finies en un point

Introduction aux Statistiques et à l utilisation du logiciel R

Probabilités III Introduction à l évaluation d options

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Lire ; Compter ; Tester... avec R

Chapitre 5 : Flot maximal dans un graphe

Finance, Navier-Stokes, et la calibration

MCMC et approximations en champ moyen pour les modèles de Markov

Principe d un test statistique

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Cours de Tests paramétriques

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Imputation du salaire d ego dans TeO

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Exemples d application

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Econométrie et applications

Modèles pour données répétées

Comparaison de fonctions Développements limités. Chapitre 10

Un exemple de régression logistique sous

Mesure et gestion des risques d assurance

Amphi 3: Espaces complets - Applications linéaires continues

Modélisation du risque opérationnel Approche Bâle avancée

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Texte Agrégation limitée par diffusion interne

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

De la mesure à l analyse des risques

IFT3245. Simulation et modèles

Modèle GARCH Application à la prévision de la volatilité

Leçon 01 Exercices d'entraînement

aux différences est appelé équation aux différences d ordre n en forme normale.

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Méthodes de Simulation

Chapitre 3 : INFERENCE

TABLE DES MATIERES. C Exercices complémentaires 42

Chap 4. La fonction exponentielle Terminale S. Lemme : Si est une fonction dérivable sur R telle que : = et 0! = 1 alors ne s annule pas sur R.

Pilotage de la masse salariale Déploiement de l outil de budgétisation

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Compléments de documentation Scilab : affichage de texte et formatage de nombres

Données longitudinales et modèles de survie

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Probabilités conditionnelles Loi binomiale

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

FORMULAIRE DE STATISTIQUES

La nouvelle planification de l échantillonnage

Notes de cours Statistique avec le logiciel R

Biostatistiques : Petits effectifs

Chapitre 3. Les distributions à deux variables

Précision d un résultat et calculs d incertitudes

La simulation probabiliste avec Excel

Compression Compression par dictionnaires

Tests semi-paramétriques d indépendance

Résultats CIM RADIO Vague 13 & Planning Radio V Var Research

Introduction à l approche bootstrap

Projet évaluation : précipitation et

I. Polynômes de Tchebychev

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 5. Équilibre concurrentiel et bien-être

Module 7: Chaînes de Markov à temps continu

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Condtions de Banques 2012 BANQUE ISLAMIQUE DU NIGER CONDITIONS D'OUVERTURE ET DE CLOTURE DE COMPTES

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Estimation du coût de l incessibilité des BSA

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Suites numériques 3. 1 Convergence et limite d une suite

3 Approximation de solutions d équations

Economie de l Incertain et des Incitations

Echantillonnage Non uniforme

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Soutenance de stage Laboratoire des Signaux et Systèmes

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

DOMOVEILLE MANUEL D UTILISATION

Évaluation de la régression bornée

FIMA, 7 juillet 2005

Suites numériques 4. 1 Autres recettes pour calculer les limites

Exercices sur SQL server 2000

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Atelier C TIA Portal CTIA04 : Programmation des automates S7-300 Opérations numériques

Les arbres binaires de recherche

1.1 Codage de source et test d hypothèse

Directive AIFM Le régime dépositaire 4 février 2013

Programmation Linéaire - Cours 1

Quels liens entre les modèles et la réalité? Mathilde Jung Université d été / Lundi 9 Juillet 2012 AG2R LA MONDIALE

Transcription:

Tests non-paramétriques de comparaison de distribution Laurent Ferrara M1 Modélisation Appliquée Univ. Paris Ouest février 2012

Test du χ 2 Objectifs Tester si une réalisation observée (x 1,..., x n ) provient d un n-échantillon (X 1,..., X n ) ayant une loi spécifique Hypothèses H0: (x 1,..., x n ) provient d une certaine loi de distribution (N, t, LogN,...) H1: (x 1,..., x n ) ne provient pas de cette loi de distribution

Statistique de test On range par ordre croissant (x (1),..., x (n) ) On regroupe les données rangées en K classes équidistantes B j, j = 1,..., K, de largeur k, telles que B j =]b j 1, b j ] La statistique de test est donnée par: T = n K (O j E j ) 2 j=1 E j (1) où O j = 1/n n i=1 1 x i B j est la fréquence observée pour B j où E j = F X (b j ) F X (b j 1 ) est la fréquence attendue théorique de la loi où F x (u) = u f (z)dz est la cdf de X

Loi de la statistique sous H0 Sous l hypothèse nulle H0 que X suit une certaine loi, on montre que: T χ 2 (K c) (2) où c est le nombre de paramètres de la loi de distribution (position, dispersion, forme, symétrie, kurtosis...) Mise en oeuvre Le choix du nombre de classes K, càd le choix de la largeur k Choix standard empirique : k = 0, 3 ŝ n où ŝ n est l écart-type empirique Les classes ne doivent pas être vides sinon T χ 2 (K c) où K K est le nombre de classes non-vides

Généralisation Soit (x 1,..., x n ) et (y 1,..., y n ) deux réalisations issues de 2 va X et Y H0: L (X ) = L (Y ) H1: L (X ) L (Y )

Test de Kolmogorov-Smirnov Objectifs Tester si une réalisation observée (x 1,..., x n ) provient d un n-échantillon (X 1,..., X n ) ayant une loi spécifique par comparaison des cdf empirique F n et théorique F X Hypothèses H0: (x 1,..., x n ) provient d une certaine loi de distribution L (N, t, LogN,...) H1: (x 1,..., x n ) ne provient pas de cette loi de distribution L

Statistique de test T n = Sup x F n (x) F X (x) Théorème de Kolmogorov La suite nt n converge en loi de la manière suivante: P( nt n < y) n 1 + 2 ( 1) k exp( 2k 2 y 2 ) k=1 Mise en oeuvre On choisit T = max F n (x (i) ) F X (x (i) ) 1 i n

Sous H0, la loi de la statistique de test est tabulée. On simule B réplications de la loi sous l hypothèse H0. On calcule les quantiles de la loi de T sous H0. Exemple On tabule avec B = 1000 la statistique pour une loi N (0, 1) sur un échantillon de n = 500 observations. ksstat=numeric(1000) for(i in 1:1000) ksstat[i]=ks.gof(rnorm(500),distribution="normal")$statistic plot(density(ksstat)) quantile(ksstat, probs = c(0.9, 0.95, 0.99)) 90% 95% 99% 0.0364 0.0394 0.0444

Test de Normalité de Jarque-Bera Objectifs Tester si une réalisation observée (x 1,..., x n ) provient d un n-échantillon Gaussien (X 1,..., X n ) à partir des moments d ordre 3 et 4. Moment théorique d ordre k est donné par : m k = E(X k ) E(X 2 ) k/2 Hypothèses H0: (x 1,..., x n ) provient d une loi normale N H1: (x 1,..., x n ) ne provient pas de cette loi normale N

Sous H0, on a les résultats asymptotiques suivants: Statistique de test : n ˆm3 n ˆm4 L N (0, 6) (3) L N (3, 24) (4) ˆm 3 ind ˆm 4 (5) ( ˆm 2 T = n 3 6 + ( ˆm 4 3) 2 ) 24

Sous H0, T χ 2 (2) Les quantiles usuels sont : P(T 4, 60) = 0, 10 P(T 5, 99) = 0, 05 P(T 9, 21) = 0, 01 Exemples Si ˆT > 9, 21, on rejette H0 au risque α = 0, 01 Si ˆT [6; 9], on rejette H0 au risque α = 0, 05, mais on accepte H0 au risque α = 0, 01

Série des rendements journaliers du CAC40 ksstat=numeric(1000) > ks.gof(cac40.rdt, distribution = "normal") One sample Kolmogorov-Smirnov Test of Composite Normality data: cac40.rdt ks = 0.0482, p-value = 0 alternative hypothesis: True cdf is not the normal distn. with estimated parameters sample estimates: mean of x standard deviation of x 0.03246579 1.327288

Série des rendements journaliers du CAC40 ksstat=numeric(1000) > ks.gof(cac40.rdt, distribution = "t", df = 6) One-sample Kolmogorov-Smirnov Test Hypothesized distribution = t data: cac40.rdt ks = 0.026, p-value = 0.0057 alternative hypothesis: True cdf is not the t distn. with the specified parameters

P-value according to df of Student 0.0 0.01 pval 0.02 0.03 0.04 0.05 5 10 15 20 df