MAP433 Statistique. 10 et 17 octobre 2014



Documents pareils
Séance 0 : Linux + Octave : le compromis idéal

Introduction à MATLAB R

Annexe commune aux séries ES, L et S : boîtes et quantiles

Analyse en Composantes Principales

FORMULAIRE DE STATISTIQUES

Lire ; Compter ; Tester... avec R

Analyse des durées de vie avec le logiciel R

Exemples d application

Statistiques descriptives

Chapitre 3. Les distributions à deux variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exercice : la frontière des portefeuilles optimaux sans actif certain

Méthodes de Simulation

Cours d initiation à la programmation en C++ Johann Cuenin

Etude des propriétés empiriques du lasso par simulations

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

MAP 553 Apprentissage statistique

Économetrie non paramétrique I. Estimation d une densité

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Calcul Formel et Numérique, Partie I

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

1 Définition de la non stationnarité

Table des matières. I Mise à niveau 11. Préface

FIMA, 7 juillet 2005

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Chapitre 3: TESTS DE SPECIFICATION

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

La place de SAS dans l'informatique décisionnelle

Introduction aux Statistiques et à l utilisation du logiciel R

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Modèles pour données répétées

1 Importer et modifier des données avec R Commander

Université de Caen Basse-Normandie. Christophe Chesneau.

Programmation linéaire

Évaluation de la régression bornée

Développements limités, équivalents et calculs de limites

1 Complément sur la projection du nuage des individus

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Pierre Thérond Année universitaire

LES TYPES DE DONNÉES DU LANGAGE PASCAL

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Cours d Algorithmique-Programmation 2 e partie (IAP2): programmation 24 octobre 2007impérative 1 / 44 et. structures de données simples

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

Arbres binaires de décision

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Programmation linéaire

Projet Etienne Marceau Méthodes statistiques en assurance non vie

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Relation entre deux variables : estimation de la corrélation linéaire

STATISTIQUES. UE Modélisation pour la biologie

Statistiques Descriptives à une dimension

Aide - mémoire gnuplot 4.0

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Processus aléatoires avec application en finance

L exclusion mutuelle distribuée

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Analyse de la variance Comparaison de plusieurs moyennes

Cours de Tests paramétriques

Econométrie et applications

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Aide-mémoire de statistique appliquée à la biologie

TP 0 : INTRODUCTION À MATLAB

Tutoriel Mathematica Les graphiques

Introduction au Data-Mining

URECA Initiation Matlab 2 Laurent Ott. Initiation Matlab 2

Optimiser ses graphiques avec R

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

La classification automatique de données quantitatives

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Cours 7 : Utilisation de modules sous python

Chap III : Les tableaux

Le Modèle Linéaire par l exemple :

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

4.2 Unités d enseignement du M1

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

1. Introduction Création d'une requête...2

Cours Informatique Master STEP

Lois de probabilité. Anita Burgun

Notes de cours Statistique avec le logiciel R

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Bases de programmation. Cours 5. Structurer les données

Cours d analyse numérique SMI-S4

Quantification Scalaire et Prédictive

Programmes des classes préparatoires aux Grandes Ecoles

Le théorème des deux fonds et la gestion indicielle

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Le risque Idiosyncrasique

PROBABILITES ET STATISTIQUE I&II

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Examen de Logiciels Statistiques

Transcription:

MAP433 Statistique PC 7 et 8: Test du χ 2 et régression linéaire 10 et 17 octobre 2014 1 Test d adéquation du χ 2 Une vaste enquête au sein d un central téléphonique a permis de déterminer que le nombre d appels reçus durant une seconde suit une loi de Poisson de paramètre 4. Pour un second central téléphonique, on effectue une enquête de moindre envergure afin de vérifier si le nombre d appels reçus par seconde suit la même loi. On comptabilise lors de 200 secondes, le nombre d appels par seconde, ce qui produit les résultats suivants : Nombre d appels par seconde 0 1 2 3 4 5 6 7 8 9 10 11 Effectifs observés 6 15 40 42 37 30 10 9 5 3 2 1 On note N i le nombre d appels reçus entre les secondes i et i + 1 et on suppose les N i indépendantes. Enfin on note N i = min(n i, 8). 1. On note Q 0 la loi de min(n, 8) où N suit une loi de Poisson de paramètre 4. Tester l adéquation des N i à cette loi Q 0. 2. On suppose maintenant que les N i sont indépendants et suivent une loi de Poisson de paramètre λ. Proposez un test de niveau asymptotique 5% de λ = 4 contre λ 4. 3. Comment expliquer la différence de résultats entre ces deux tests? Table de la loi de Poisson : k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 P 3.7 [X = k].025.091.169.209.193.143.088.047.021.009.003.001 3.10 4 10 4 P 4 [X = k].018.073.146.195.195.156.104.059.03.013.005.002 6.10 4 2.10 4 2 Modèle de régression multiple On considère le modèle de regression multiple y = θ 0 e + Xθ + ξ, où E[ξ] = 0, E[ξξ T ] = σ 2 I n, e = (1, 1,..., 1) T avec X une matrice n k de rang k et y, ξ des vecteurs de R n. Les paramètres θ 0 R et θ R k sont inconnus. On note ˆθ 0 et ˆθ les estimateurs des moindres carrés de θ 0 et θ. 1. On note ŷ = ˆθ 0 e + X ˆθ. Montrer que ŷ = ȳ, où ȳ (resp. ŷ) est la moyenne des y i (resp. des ŷ i ). En déduire que ȳ = ˆθ 0 + X ˆθ où X = 1 n et X = [..., X : j,... ].

MAP433 Statistique, Année 2014-2015/ PC7-8 2 2. Montrer l équation d analyse de la variance : y ȳe 2 = y ŷ 2 + ŷ ȳe 2. En déduire que le coefficient de détermination n R 2 i=1 = (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 est toujours inférieur à 1. 3. Supposons que Z = [e, X] est de rang k + 1. Calculez en fonction de Z la matrice de covariance de (ˆθ 0, ˆθ). Comment accède-t-on à Var(ˆθ j ), pour j = 0,..., p? 4. Proposer un estimateur sans biais de σ 2 puis de la matrice de covariance de (ˆθ 0, ˆθ). 5. On suppose dorénavant que θ 0 = 0 et donc y = Xθ + ξ, E[ξ] = 0, E[ξξ T ] = σ 2 I n. L estimateur des moindres carrés θ dans ce modèle est-il égal à ˆθ? 6. A-t-on la relation ŷ = ȳ? Que dire du R 2 dans ce modèle? 3 Analyse de données atmosphériques Nous allons analyser des relevés atmosphériques effectués par l association Air Breizh. Ces relevés se présentent sous la forme d un tableau dont chaque ligne donne les mesures de l ozone du jour (O3), de la température à 12h (T12) et 15h (T15), d un indice de nébulosité à 12h (Ne12), des relevés de vents à 12h (N12, S12, E12, W12), d un indice du vent moyen (Vx) et de la concentration en ozone de la veille (03v). Notre objectif sera de trouver parmi les facteurs précédents ceux qui sont influents sur la quantité d ozone (O3) présente dans la basse atmosphère. Les analyses seront réalisées avec R : c est un logiciel gratuit et très largement utilisé par les statisticiens car la plupart des méthodes statistiques (anciennes et nouvelles) ont été implémentées dans ce langage. Il est téléchargeable sur : http://cran.r-project.org/. Pour apprendre à s en servir : http://cran.r-project.org/doc/manuals/r-intro.pdf. Vous pouvez aussi consulter l ouvrage Régression avec R de Cornillon & Matzner-Lober. La syntaxe est proche de scilab et matlab. Pour commencer, téléchargez les données sur la page http://www.cmap.polytechnique.fr/ ~giraud/map433/ozone.rdata. Lancez R, puis chargez les données dans R avec la commande load("ozone.rdata"). Nous effectuerons une régression linéaire à l aide de la fonction lm. Par exemple reg = lm(o3~t12+vx, data=ozone) réalise la régression de O3 par rapport aux variables T12 et Vx. Tapez?lm pour avoir une description de cette fonction. Si reg est le résultat d une régression de Y R n contre X

MAP433 Statistique, Année 2014-2015/ PC7-8 3 R n k, l instruction summary(reg) retourne un tableau de valeurs dont la première colonne donne l estimateur θ argmin θ R k Y Xθ 2 et l avant dernière colonne donne les t-values ˆt j = θ j ˆσ 2 [(X T X) 1 ] jj où σ 2 = 1 n k Y X θ 2. La dernière colonne donne les p-values ˆp j = T n k (ˆt j ) où T n k (t) = P( T n k > t ) avec T n k une variable de Student à n k degrés de liberté. A) Inspection des résidus 1. Calculer avec la fonction lm la régression de O3 par rapport aux autres variables. Identifier Y et X dans ce cas. Que vaut n? Que vaut k? 2. On note ˆξ = Y Ŷ où Ŷ = X θ. Tracer l histogramme des {ˆξ i : i = 1,..., n} à l aide de la fonction hist. 3. L histogramme suggère que les résidus pourraient suivre une loi Gaussienne. On va inspecter cette hypothèse en regardant les quantiles de la loi empirique. On note x q (Q) = min{x : Q(], x]) q} le quantile d ordre q d une loi Q. Tracer le QQplot qqnorm(lm(o3~.,data=ozone)$residuals) Que représente ce graphique? 4. Pour savoir si la variance dépend du signal tracer les points { (Ŷi, ˆξ i ) : i = 1,..., n } à l aide de la fonction plot. Effectuer la régression des ˆξ i en fonction des Ŷi. B) Choix des variables 1. Quelles variables j ont une p-value ˆp j inférieure à 5%? 2. Calculer la régression de O3 par rapport à Ne12+O3v et inspecter les résidus comme précédemment. 3. Calculer la régression de O3 par rapport à Ne12+O3v+T15+Vx. Que constatez-vous au niveau des p-values ˆp j? C) Régressions partielles Dorénavant on ne travaille qu avec les variables Ne12, O3v, T15 et Vx. On veut inspecter les questions suivantes : le modèle linéaire par rapport à la variable j est-il raisonnable? quelle est l influence de la variable j? 1. Montrer que si le modèle Y = k θ kx k + ξ est vrai, alors : lm(y X j )$residuals = θ j lm(x j X j )$residuals + lm(ξ X j )$residuals où lm(z X j ) représente la régression de Z par rapport à toutes les variables X 1,..., X k sauf X j. 2. Si les ξ 1,..., ξ n sont i.i.d. de loi N (0, σ 2 ), quelle est la loi du vecteur lm(ξ X j )$residuals?

MAP433 Statistique, Année 2014-2015/ PC7-8 4 3. Calculer la régression de lm(y X j )$residuals par lm(x j X j )$residuals pour j =Ne12. Le modèle linéaire semble-t-il raisonnable pour cette variable? 4. Même question avec la variable j =T15. 4 Test dans un modèle ANOVA On dispose de l observation de variables aléatoires Y ij = m i + ξ ij, i = 1,..., k, j = 1,..., l, où (m 1,..., m k ) R k et les ξ ij sont des variables aléatoires i.i.d. de loi N (0, σ 2 ). On considère le problème de test d égalité des moyennes H 0 : m 1 = m 2 = = m k contre H 1 : i i tels que m i m i. 1. Montrer qu il s agit d un modèle de régression linéaire avec la matrice X que l on précisera, ainsi que la matrice B = X T X correspondante. 2. Montrer que l hypothèse nulle s écrit avec la matrice G que l on précisera. H 0 : m Θ 0 = {m : Gm = 0} 3. En déduire la forme du test de Fisher dans ce contexte. 5 Théorème de Gauss-Markov On considère le modèle de régression Y = X (n,1) θ + ξ (n,k)(k,1) (n,1) On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 I n, Rang(X) = k. On note ˆθ l estimateur des MC de θ. 1. Montrer que ˆθ est sans biais et expliciter sa matrice de covariance. 2. Soit θ un estimateur de θ linéaire en Y, i.e., θ = LY pour une matrice L R k n déterministe. Donner une condition nécessaire et suffisante sur L pour que θ soit sans biais. On supposera maintenant cette hypothèse vérifiée. 3. Calculer la matrice de covariance de θ. En posant = L (X T X) 1 X T montrer que X = 0 et cov( θ) = cov(ˆθ) + σ 2 T. En déduire que. E[( θ θ)( θ θ) T ] E[(ˆθ θ)(ˆθ θ) T ] (inégalité au sens matriciel). 4. En passant au risques quadratiques E [ θ θ 2] et E [ ˆθ θ 2], en déduire que l estimateur des MC est optimal dans la classe de tous les estimateurs linéaires sans biais.

MAP433 Statistique, Année 2014-2015/ PC7-8 5 6 Régression Ridge On considère le modèle de régression Y = X (n,1) θ + ξ (n,k)(k,1) (n,1) On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξ T ] = σ 2 I n. 1. On suppose que k > n. Que dire de l estimation par moindres carrés? 2. On appelle estimateur Ridge regression de paramètre de régularisation λ > 0 l estimateur ˆθ λ = arg min θ R k { Y Xθ 2 + λ θ 2}. Exprimez ˆθ λ en fonction de X, Y et λ. Cet estimateur est-il défini pour k > n? 3. Calculez la moyenne et la matrice de covariance de l estimateur Ridge. Est-il sans biais? 4. On suppose maintenant que k = 1, ce qui correspond au modèle de régression simple. Montrer qu il existe une valeur de λ telle que, pour certaines valeurs de θ, le risque E [ (ˆθ λ θ) 2] de l estimateur Ridge de paramètre λ est inférieur au risque E [ (ˆθ 0 θ) 2] de l estimateur des MC..