Master 1 Informatique Éléments de statistique inférentielle

Documents pareils
La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Introduction à la Statistique Inférentielle

TESTS D'HYPOTHESES Etude d'un exemple

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Cours de Tests paramétriques

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

choisir H 1 quand H 0 est vraie - fausse alarme

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Probabilités III Introduction à l évaluation d options

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Cours d introduction à la théorie de la détection

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Principe de symétrisation pour la construction d un test adaptatif

Principe d un test statistique

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Méthodes de Simulation

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction à la statistique non paramétrique

PROBABILITES ET STATISTIQUE I&II

Soutenance de stage Laboratoire des Signaux et Systèmes

Théorie de l estimation et de la décision statistique

Programmation linéaire

M2 IAD UE MODE Notes de cours (3)

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Précision d un résultat et calculs d incertitudes

Économetrie non paramétrique I. Estimation d une densité

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Estimation et tests statistiques, TD 5. Solutions

3. Caractéristiques et fonctions d une v.a.

Chapitre 3 : INFERENCE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

I La théorie de l arbitrage fiscal de la dette (8 points)

Quantification Scalaire et Prédictive

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Le modèle de Black et Scholes

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

4 Distributions particulières de probabilités

Calculs de probabilités

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Statistique inférentielle TD 1 : Estimation

Moments des variables aléatoires réelles

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

MÉTHODE DE MONTE CARLO.

Les indices à surplus constant

Econométrie et applications

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Interception des signaux issus de communications MIMO

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

DCG 6. Finance d entreprise. L essentiel en fiches

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

1 Définition de la non stationnarité

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Tests semi-paramétriques d indépendance

Température corporelle d un castor (une petite introduction aux séries temporelles)

NON-LINEARITE ET RESEAUX NEURONAUX

MAP 553 Apprentissage statistique

Pierre Thérond Année universitaire

Le Modèle Linéaire par l exemple :

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

CAPTEURS - CHAINES DE MESURES

Suites numériques 3. 1 Convergence et limite d une suite

Relation entre deux variables : estimation de la corrélation linéaire

VI. Tests non paramétriques sur un échantillon

IFT3245. Simulation et modèles

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Le modèle de régression linéaire

Arbres binaires de décision

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Apprentissage par renforcement (1a/3)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Intégration et probabilités TD1 Espaces mesurés

Probabilités sur un univers fini

Comparaison de fonctions Développements limités. Chapitre 10

La fonction exponentielle

23. Interprétation clinique des mesures de l effet traitement

Équivalence et Non-infériorité

Texte Agrégation limitée par diffusion interne

Chapitre 2 Le problème de l unicité des solutions

Couples de variables aléatoires discrètes

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Programmation linéaire et Optimisation. Didier Smets

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Canevas théoriques du projet sur le poker Partie A

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Table des matières. I Mise à niveau 11. Préface

Transcription:

Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 1 / 18

Plan I 1 Tests d hypothèses Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 2 / 18

Tests d hypothèses Région de rejet d un test Erreurs associées à un test Statistiques de test Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 3 / 18

Tests d hypothèses Un test statistique est un procédé qui permet de décider entre deux ou plusieurs hypothèses sur une population selon les résultats obtenus à partir d un échantillon de cette population. Généralement, on teste une hypothèse sur laquelle on se demande si les données observées fournissent une évidence suffisante pour la rejeter, sinon elle est retenue. Cette hypothèse s appelle l hypothèse nulle et se note H 0. Par exemple, si le test concerne la valeur d un paramètre θ, cette hypothèse nulle peut s écrire H 0 : θ Θ 0 (1) où Θ 0 est l ensemble de valeurs supposée du paramètre θ selon H 0. Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 4 / 18

Tests d hypothèses Toute autre hypothèse qui diffère de l hypothèse nulle s appelle l hypothèse alternative (ou contre-hypothèse) qui se note H 1. L hypothèse nulle est donc testée contre l hypothèse alternative. Une hypothèse est dite simple si elle ne contient qu un seul élément, ce qui est généralement le cas pour H 0 : θ = θ 0 ; sinon elle est composite. L hypothèse alternative est généralement composite H 1 : θ Θ 1 (2) avec Θ 1 un sous ensemble de l ensemble des paramètres disjoint de θ 0. Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 5 / 18

Tests d hypothèses H 1 se ramène souvent aux trois cas suivants 1 H 1 : θ < θ 0, 2 H 1 : θ > θ 0, 3 H 1 : θ θ 0. Dans les deux premiers cas, le test est dit unilatéral et dans le dernier le test est dit bilatéral. Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 6 / 18

Région de rejet d un test et erreurs Région de rejet d un test Soit X une variable aléatoire et X l ensemble de ses valeurs. Le test s effectue en trouvant un sous-ensemble R X appelé la région de rejet. Ainsi, si X R, l hypothèse nulle (H 0 ) est rejetée, sinon, elle est retenue. Cette région se définit sou la forme suivante où T est une statistique de test et s un seuil. R = {x : T (x) > s} (3) Le problème en test d hypothèse est donc de trouver une statistique de test convenable et une valeur convenable pour le seuil de rejet s Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 7 / 18

Région de rejet d un test et erreurs Bien sur, en effectuant un test d hypothèses, on peut se tromper en rejetant l hypothèse nulle ou en l acceptant. Il existe donc deux types d erreur : l erreur de première espèce (dite aussi erreur de type I) et l erreur de deuxième espèce (dite aussi erreur de type II). Erreur de première espèce L erreur de première espèce correspond au cas où l on rejette H 0 (décider H 1 ) alors que celle-ci est vraie. Erreur de deuxième espèce L erreur de deuxième espèce correspond quant à elle au cas où l on rejette H 1 (décider H 0 ) alors que celle-ci est vraie. Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 8 / 18

Erreurs et risques suite à un test Les décisions possibles sont récapitulées par le tableau suivant. Décision\ Vérité H 0 H 1 H 0 décision correcte erreur de deuxième espèce H 1 erreur de première espèce décision correcte Table : Récapitulatif des décisions en test d hypothèse Pour chacune des deux erreurs, on associe un une probabilité (un risque). Définition : risque de première espèce Le risque de première espèce est notée α. Il représente le risque de rejeter H 0 à tort. Des valeurs de ce risque sont 1%, 5%, 10% qui correspondent aux niveaux de confiance 99%, 95% et 90%. Définition : risque de deuxième espèce Le risque de deuxième espèce représente quant à lui le risque de retenir H 0 à tort. Il est noté β. Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 9 / 18

Erreurs et risques suite à un test Définition : niveau de confiance du test Le niveau de confiance du test est donc 1 α qui correspond à retenir H 0 à raison. Définition : puissance d un test La puissance d un test est la probabilité de rejeter l hypothèse nulle à raison. La puissance du test est donc le complément de l erreur de deuxième espèce et est donc égale à 1 β. On peut résumer cela par le tableau suivant : Décision\ Vérité H 0 H 1 H 0 niveau de confiance 1 α risque β H 1 risque α puissance de test 1 β Table : Récapitulatif sur les risques associés à un test d hypothèses Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 10 / 18

0.25 0.2 0.15 0.1 0.05 β α m 0 k m 1 0 10 5 0 5 10 Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 11 / 18

Statistiques de test Le choix de la statistique de test et de la région de rejet s effectue de façon à maximiser la puissance du test 1 β pour un risque de première espèce α fixé. Test du rapport de vraisemblance (ou Test de Neyman-Pearson) Si l on se place dans le cadre d un test entre deux hypothèses simples H 0 : θ = θ 0 versus H 1 : θ = θ 1, Le théorème de Neyman et Pearson montre que le test du rapport de vraisemblance est le test le plus puissant avec un risque α. Selon ce test, la région critique (de rejet) optimale est définie par R = {x : L(θ 1; x) L(θ 0 ; x) > s α} avec L(θ k ; x) étant la vraisemblance de θ k pour x. Le seuil de rejet s α, qui dépend de α, est déterminé par α = P θ0 (X R). Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 12 / 18

Test du rapport de vraisemblance (ou Test de Neyman-Pearson) I Exemple : Soit un échantillon d observations i.i.d. (x 1,..., x n ) où X i N (x i ; µ, σ 2 ) supposons que la variance σ 2 est connue et que l espérance µ est inconnue Considérons le test H 0 : µ = µ 0 versus H 1 : µ = µ 1, avec µ < µ 1 Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 13 / 18

Test du rapport de vraisemblance (ou Test de Neyman-Pearson) II On la vraisemblance de µ pour l échantillon x = (x 1,..., x n ) est [ n 1 L(µ; x) = σ 2 π exp 1 ( ) ] xi µ 2 2 σ i=1 [ ] 1 n = (σ 2 2 π) exp 1 n 2σ (x i µ) 2 i=1 (4) le rapport de vraisemblance est don donné par [ L(µ 1 ; x) 1 n = exp L(µ 0 ; x) 2σ 2 2 (µ 1 µ 0 ) x i n ( µ 2 2σ 2 1 µ 2 ) ] 0 (5) Donc, en prenant le logarithme, L(µ 1;x) L(µ 0 ;x) > s α est équivalent à σ 2 i=1 x > log(s α ) n(µ 1 µ 0 ) + (µ 1 + µ 0 ) = cste 2 Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 14 / 18

Test du rapport de vraisemblance (ou Test de Neyman-Pearson) III On a vu que cette cste qui dépende α est déterminé par α = P µ0 (X R) qui vaut dans ce cas α = P µ0 ( x > cste) La région de rejet du test est donc donnée par σ R = {x : x > µ 0 + u α } (6) 2 n Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 15 / 18

Test de Wald I Soit θ un paramètre et soit ˆΘ un estimateur de ce paramètre et soit ˆσ l écart type de cet estimateur ˆΘ. Considérons le test H 0 : θ = θ 0 versus H 1 : θ θ 0, Supposons que ˆΘ est asymptotiquement normal : n( Θ θ0 ) var( ˆΘ) Dans le test de Wald, la statistique de test est donnée par loi n N ( 0, 1 ). Θ θ 0 var( ˆΘ) où var( ˆΘ) représente l écart type de l estimateur. Le test de Wald consiste à comparer cette statistique à la loi normale centrée réduite. Il (7) consiste alors à rejeter H 0 si ( Θ θ 0 ) var( ˆΘ) > u α 2 Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 16 / 18

Test de Wald II où u α/2 est le quantile d ordre α/2 de la loi normale centrée réduite. Exemple : Cas d un grand échantillon Gaussien lorsque σ est connue H 0 : µ = µ 0 versus H 1 : µ µ 0, la statistique de test sous H 0 dans ce cas est donnée par U = X µ 0 σ n (8) On sait que U N (0, 1) Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 17 / 18

Test de Wald III On rejette donc H 0 si X µ 0 σ n > u α 2 où u α 2 est le quantile d ordre α/2 de la loi normale centrée réduite ou par équivalence : rejeter H 0 si X µ 0 σ > u α 2 n Faicel Chamroukhi (UTLN/LSIS) Statistique inférentielle 2014/2015 18 / 18