ISE: Introduction à la statistique et à l économétrie. E. Le Pennec École Polytechnique

Documents pareils
La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TESTS D'HYPOTHESES Etude d'un exemple

TABLE DES MATIERES. C Exercices complémentaires 42

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Cours de méthodes de scoring

Principe d un test statistique

Analyse de la variance Comparaison de plusieurs moyennes

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Le risque Idiosyncrasique

FORMULAIRE DE STATISTIQUES

STATISTIQUES. UE Modélisation pour la biologie

Probabilités III Introduction à l évaluation d options

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

L exclusion mutuelle distribuée

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

1 Définition de la non stationnarité

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Chapitre 3. Les distributions à deux variables

Soutenance de stage Laboratoire des Signaux et Systèmes

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours de Tests paramétriques

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

23. Interprétation clinique des mesures de l effet traitement

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Projet de Traitement du Signal Segmentation d images SAR

MODELE A CORRECTION D ERREUR ET APPLICATIONS

INF6304 Interfaces Intelligentes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

3. Caractéristiques et fonctions d une v.a.

Annexe commune aux séries ES, L et S : boîtes et quantiles

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Relation entre deux variables : estimation de la corrélation linéaire

Programmation Linéaire - Cours 1

Biostatistiques : Petits effectifs

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

L Agence Marketing 365

M2 IAD UE MODE Notes de cours (3)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Statistique inférentielle TD 1 : Estimation

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction à la statistique non paramétrique

Incertitudes expérimentales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Coup de Projecteur sur les Réseaux de Neurones

FICHE 1 Fiche à destination des enseignants

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Les cartes de fidélités... 2 Natures de pièces... 5 Impression des chèques cadeaux... 6 Statistiques fidélités... 8 Fiche client...

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Statistiques à une variable

Exemples d application

Econométrie et applications

Rupture et plasticité

PROGRAMME (Susceptible de modifications)

Lire ; Compter ; Tester... avec R

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

!-.!#- $'( 1&) &) (,' &*- %,!

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Programmation linéaire

Programmation linéaire

Exercices sur le chapitre «Probabilités»

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Évaluation de la régression bornée

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Cours 9 : Plans à plusieurs facteurs

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

MATHS FINANCIERES. Projet OMEGA

La simulation probabiliste avec Excel

Estimation et tests statistiques, TD 5. Solutions

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

FIMA, 7 juillet 2005

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Introduction au datamining

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Table des matières. I Mise à niveau 11. Préface

Généralités. Aperçu. Introduction. Précision. Instruction de montage. Lubrification. Conception. Produits. Guides à brides FNS. Guides standards GNS

LE BRUIT A BORD DES NAVIRES DE PECHE

Raisonnement probabiliste

Site : mail : mennier@isnab.fr SUJET ES - session 2003 Page 1 68-(7(6VHVVLRQ

TSTI 2D CH X : Exemples de lois à densité 1

Le modèle de Black et Scholes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Transcription:

ISE: Introduction à la statistique et à l économétrie E. Le Pennec École Polytechnique 2014

Menu du jour Modèle linéaire Tests Tests dans le modèle linéaire (gaussien)

Modèle linéaire Modèle matriciel Système linéaire : Y = X β avec un paramètre inconnu : β R p une matrice expérimentale (design) connue : X M n p une observation : Y R n. Modèle linéaire : Y = X β + E avec un paramètre inconnu : β R p une matrice expérimentale (design) connue : X M n p une observation : Y R n un modèle de bruit tel que E [E] = 0

Modélisation Pollution Cadre : La limite légale d un polluant contenu dans les déchets d une usine est un taux moyen de 6 mg/kg, on considère par ailleurs, qu il y a danger lorsque ce taux dépasse 8 mg/kg. Données : Un organisme indépendant effectue un dosage sur 12 prélèvements, pour lesquels on observe une moyenne de 7mg/kg avec un écart-type de 2.4mg/kg. Modèle linéaire : 1 Y =. µ + σn (0, I 12 ) 1 avec µ la moyenne commune et σ l écart type

Modélisation Marketing Cadre : Une entreprise souhaite tester des stratégies de publicités : A : Pas de publicité B : Tracts distribués dans le voisinage C : Tracts et annonces dans les journaux locaux Données : Elle divise ses 18 magasins en 3 groupes de 6 et mesure les ventes cumulés (et leurs écarts types) pour ces 3 sous groupes. Modèle linéaire : 1 0 0... 1 0 0 0 1 0 µ A σa 2 I 6 0 0 Y =... µ B + N 0, 0 σb 2 I 6 0 0 1 0 µ C 0 0 σc 2 I 6 0 0 1... 0 0 1

Modélisation Guinness Cadre : Un brasseur souhaite s assurer que son taux de de malt est proche de celui annoncé. Modèle linéaire : 1 Y =. µ + σn (0, I n ) 1 Cadre : Ce même brasseur souhaite optimiser la conservation de sa bière en jouant sur la concentration en levure et leur origine Modèle linéaire : 1 0 q 1 0.... µ A ( )) Y = 1 0 q na 0 µ B σ 0 1 0 q 1 β A + N 2 (0, A I na 0 0 σb 2 I n B.... β B 0 1 0 q n B

Modélisation Économétrie Étude du coût en fonction du C.A. Modèle linéaire : 1 V 1 ( ) α C =.. + N (0, σ 2 I β n ) 1 V n

Tests Test d hypothèse Démarche scientifique expérimentale : Par la réflexion, on propose une hypothèse d explication d un phénomène, on construit ensuite une expérience autour de ce phénomène pour laquelle on prédit un certain comportement, on vérifie ensuite la compatibilité des résultats expériementaux avec ce comportement prédit. Au mieux, on peut invalider l hypothèse! Test d hypothèses : Par la réflexion, on propose une hypothèse d explication statistique d un phénomène, on mesure des données en relation avec ce phénomène pour lesquels on prédit un certain comportement, on vérifie ensuite la compatibilité des données avec ce comportement prédit. Au mieux, on peut invalider l hypothèse!

Tests L approche de Fisher Hypothèse H 0 (hypothèse nulle) à réfuter. Construction d une variable aléatoire T, la statistique de test, qui est petite sous H 0... et dont on connait la loi (au moins approximativement) Mesure de la réalisation t sur les données et décision suivant la p valeur (valeur pivotale) : p = P H0 {T > t} Principe : Si p est petit, cela signifie qu on a observé un évènement rare pour T et donc qu on a des indices en défaveur de H 0 et qu on a donc envie de rejeter cette hypothèse. Exemple de Fisher : rejet si p < 0.05 où 0.05 (5%) est une valeur totalement arbitraire mais qui est restée! Attention : On accepte jamais H 0!

Tests L approche de Neyman et Pearson Hypothèse H 0 de référence en compétition avec une hypothèse alternative H 1. Construction d une variable aléatoire T, la statistique de test, qui est petite sous H 0 et grande sous H 1... et dont on connait la loi (au moins approximativement) sous H 0 (et idéalement sous H 1 ) On fixe un seuil t α et on privilégie H 0 si T t α et H 1 si T > t α. Deux types d erreurs sont souvent considérés : Ne pas privilégier H 0 alors qu elle est vraie : α = P H0 {T > t α } (Erreur de première espèce / Taux de faux positifs) Ne pas privilégier H 1 alors qu elle est vraie : β = P H1 {T t α } (Erreur de seconde espèce / Taux de faux négatifs) Attention : H 0 et H 1 peuvent être fausses!

Tests L approche Bayésienne Approche fondée sur un a-priori sur les modèles : P {H i }. Formule de Bayes : P {X, H i } = P {X H i } P {H i } = P {H i X } P {X } P {H i X } = P {X H i} P {H i } P {X } On privilégie alors le modèle maximisant P {H i X } ou encore Rapport de chance : P {X H i } P {H i } P {H 0 X } P {H 1 X } = P {X H 0} P {H 0 } P {X H 1 } P {H 1 } Attention : On exclut toutes autres explications...

Tests dans le mod. lin. gaussien Test de Student Test sur la valeur d une coordonnée d un paramètres. Hypothèse H 0 : β k = b Propriété : Sous H 0, β k b σ [(X t X ) 1 ] k,k T (n p) où T (n p) est la loi de Student de degré n p : T (n p) X / V avec X et V indépendant de loi respective N (0, 1) et χ 2 (n p). Statistique de test (t-test de Student) : β k b T = σ [(X t X ) 1 ] k,k de loi connue sous H 0. Approche de Fisher : T est petit sous H 0 Lien avec un intervalle de confiance...

Tests dans le mod. lin. gaussien Test de Student Retour sur l exemple de la pollution. Cadre : La limite légale d un polluant contenu dans les déchets d une usine est un taux moyen de 6 mg/kg, on considère par ailleurs, qu il y a danger lorsque ce taux dépasse 8 mg/kg. Données : Un organisme indépendant effectue un dosage sur 12 prélèvements, pour lesquels on observe une moyenne de 7mg/kg avec un écart-type de 2.4mg/kg. Directeur d usine : H 0 : µ = 6. T = µ µ σ T (11) { } P H0 T > 12 7 6 2.4 0.088 Agence de l environnement : H 0 : µ = 8. T = µ µ σ T (11) { } P H0 T > 12 8 7 2.4 0.088 Conclusion?

Tests dans le mod. lin. gaussien Test de Student généralisé Hypothèse H 0 : a t β = b Propriété : Sous H 0, a t β b σ a t (X t X ) 1 a T (n p) Statistique de test (t-test de Student) : a t β b T = σ a t (X t X ) 1 a de loi connue sous H 0. Approche de Fisher : T est petit sous H 0

Tests dans le mod. lin. gaussien Test de Student généralisé Cadre : Une entreprise souhaite tester des stratégies de publicités : A : Pas de publicité, B : Tracts distribués dans le voisinage, C : Tracts et annonces dans les journaux locaux Données : Elle divise ses 18 magasins en 3 groupes de 6 et mesure les ventes cumulés (et leurs écarts types) pour chacun de ces sous groupes : A B C X 130.17 139.5 169.17 S 8.57 14.71 18.23 Hypothèse H 0 : B et C sont équivalentes : µ B µ C = 0 et σ B = σ C. Test statistique : µ C µ B T = T (12 2) ((6 1)σ 2A + (6 1)σ2B )/(12 2) (1/6 + 1/6) P H0 {T > } 169.17 129.5 = 0.00099 (14.71 2 + 18.23 2 )/2 1/3

Tests dans le mod. lin. gaussien Test de Fisher Deux hypothèses emboîtées : H 0 : Y N (X β, σ 2 I n ) avec β R p H 1 : Y N (Zγ, σ 2 I n ) avec γ R q et ImX ImZ Cas particulier : γ = W β... Propriétés : Sous H 0 et H 1, X β, Z γ X β et Y Z γ sont indépendants Sous H 0, Z γ X β 2 σ 2 χ 2 (q p) Sous H 0 et H 1, Y Z γ 2 σ 2 χ 2 (n q) Statistique de test : T = Z γ X β 2 /(q p) Y Z γ 2 /(n q) de loi connues sous H 0 : loi de Fisher F (q p, n q) de degrés q p et n q.

Tests dans le mod. lin. gaussien Test de Fisher Deux hypothèses emboitées : µ A 1 H 0 : µ B = 1 µ µ C 1 H 1 : µ A µ B µ C R 3 Statistique de test : mu mu A X mu mu B mu mu C T = 2 mu A Y X mu B /15 mu C P H0 {T > t} = 0.00077 2 /2

Tests dans le mod. lin. gaussien Test de Wald Hypothèse H 0 : Y N (X β, σ 2 I n ) avec β R p et Aβ = B avec A injective M r,p Propriétés : Sous H 0, Sous H 0, Statistique de test : A β B N ( 0, σ 2 A(X t X ) 1 A t) (A β B) t ( A(X t X ) 1 A t) 1 (A β B) σ 2 χ 2 (r) T = (A β B) t ( A(X t X ) 1 A t) 1 (A β B) r σ 2 F (r, n p)

Tests dans le mod. lin. gaussien Test de Wald Cas intéressant : A = I p et B = β. On obtient : T = ( β β) t (X t X )( β β) p σ 2 F (p, n p) Ellipse de confiance pour β! Test : Est-ce que β appartient à l ellipse de confiance? Lien intervalle de confiance / Test

Tests dans le mod. lin. gaussien Test sur la variance Hypothèse H 0 : σ 2 = σ 2 0. Propriété : Sous H 0, Statistique de test : σ 2 σ 2 0 χ 2 (n p) σ T = 2 1 σ 2 0 de loi connue sous H 0 Remarque : on aurait pu choisir également σ T = 2 mais T n aurait pas été grand si le σ 2 < σ 2 0... Hypothèse H 1 implicite : σ 2 σ 2 0! σ 2 0

Tests dans le mod. lin. gaussien Test sur la variance Y A = N (X A µ A, σ A I na ) et Y B = N (X B µ B, σ B I nb ) Hypothèse H 0 : σ 2 A = σ2 B. Propriété : Sous H 0, Y A X A µ A 2 /(n A p A ) Y B X B µ B 2 /(n B p B ) F (n A p A, n B p B ) Statistique de test : T = Y A X A µ A 2 /(n A p A ) Y B X B µ B 2 /(n B p B ) 1 Asymétrie entre Y A et Y B!