ISE: Introduction à la statistique et à l économétrie. E. Le Pennec École Polytechnique

Documents pareils

TABLE DES MATIERES. C Exercices complémentaires 42

PROBABILITES ET STATISTIQUE I&II

Table des matières. I Mise à niveau 11. Préface

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Modélisation aléatoire en fiabilité des logiciels

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Coup de Projecteur sur les Réseaux de Neurones

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 3 : INFERENCE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Que faire lorsqu on considère plusieurs variables en même temps?

Refonte du cours de statistique dans une école de commerce

Programmes des classes préparatoires aux Grandes Ecoles

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Théorie des probabilités

Température corporelle d un castor (une petite introduction aux séries temporelles)

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

4.2 Unités d enseignement du M1

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Intelligence Artificielle et Robotique

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Résumé des communications des Intervenants

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Dunod, Paris, 2014 ISBN

Estimation et tests statistiques, TD 5. Solutions

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Qu est-ce qu une probabilité?

Introduction à l approche bootstrap

Méthodes de Simulation

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Probabilités et Statistique

Introduction au Data-Mining

Principe d un test statistique

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction au datamining

Cours de Tests paramétriques

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Calculs de probabilités conditionelles

Aide-mémoire de statistique appliquée à la biologie

Probabilités (méthodes et objectifs)

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

CNAM léments de cours Bonus-malus et Crédibilité

3 Approximation de solutions d équations

Débouchés professionnels

Probabilités conditionnelles Loi binomiale

Probabilités sur un univers fini

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Biostatistiques : Petits effectifs

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

IFT3245. Simulation et modèles

IBM SPSS Regression 21

MASTER de sciences et technologies, Mention MATHÉMATIQUES ET APPLICATIONS Université Pierre et Marie Curie (Paris VI) Année

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

«Cours Statistique et logiciel R»

Loi binomiale Lois normales

Probabilités III Introduction à l évaluation d options

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Chapitre 3. Les distributions à deux variables

Chaînes de Markov au lycée

Introduction à la statistique non paramétrique

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Introduction à la théorie des files d'attente. Claude Chaudet

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

LES MODELES DE SCORE

Evaluation générale de la qualité des données par âge et sexe

Feuille d exercices 2 : Espaces probabilisés

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Emploi du temps prévisionnel

Probabilités conditionnelles

Théorie des sondages : cours 5

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Calculs de probabilités

Introduction à la Statistique Inférentielle

Cours de méthodes de scoring

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Analyse de la variance Comparaison de plusieurs moyennes

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

FORMULAIRE DE STATISTIQUES

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Annexe commune aux séries ES, L et S : boîtes et quantiles

Intégration et probabilités TD1 Espaces mesurés

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Probabilités sur un univers fini

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Calcul élémentaire des probabilités

Transcription:

ISE: Introduction à la statistique et à l économétrie E. Le Pennec École Polytechnique 2014

Menu du jour Organisation Objectifs du cours Les statistiques sont partout! Modélisation statistique Plan du cours Brève histoire des statistiques Modélisation d un sondage simple

Organisation Enseignants Cours : Erwan Le Pennec (École Polytechnique) : Erwan.Le-Pennec@polytechnique.edu Assistant : Victor-Emmanuel Brunel (ENSAE) 5 Chargés de TDs...

Organisation Support et évaluation Support de cours : mis en ligne au fur et à mesure sur la page http://www.cmap.polytechnique.fr/~lepennec dans la rubrique Enseignement. Évaluation : Contrôle final : note Exam sur 20 Contrôle continu : note CC sur 20 (1/4 présence, 1/4 participation et 1/2 rendu de TP ou mi-parcours) Exam + CC Note finale : (à confirmer) 2

Objectifs du cours Comprendre la problématique statistique à travers des problèmes simples. Modèles statistiques classiques : modèles linéaires et leurs extensions, modèles multinomiaux Modèles non paramétriques : estimation de densité. Culture générale minimale en statistique : Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. H. G. Wells (écrivain britannique, 1866 1946)

Les statistiques sont partout! INSEE Les chiffres du travail Taux d activité par tranche d âge hommes vs. femmes http://www.insee.fr/

Les statistiques sont partout! Politique Sondage

Les statistiques sont partout! Santé Étude sur les OGM

Les statistiques sont partout! Économétrie Étude du coût en fonction du C.A.

Les statistiques sont partout! Finance FGBL, Apr. 99 à Dec. 05, 1 donnée par jour. (Source : BNP Paribas) Bund 105 110 115 120 125 0 500 1000 1500 Time

Les statistiques sont partout! Biologie Biopuces et analyse d ADN

Les statistiques sont partout! E-Marketing Réseau d achat de livres

Les statistiques sont partout Big Data Volume de donnée tellement grand que cela implique une évolution forte des statistiques...

Inférence statistique Question sur des données. Quantité mesurée : variable X et covariable Y. Modélisation : Collection de modèles probabiliste P θ avec θ Θ. Probabilité : Étude du comportement de (X, Y ) sous la loi P θ à θ fixé. Statistique : Inférence sur θ à partir de l observation de (X, Y ). Questions statistiques : Ajustement (Estimation de θ) Précision (Zone de confiance pour θ) Décision (Test sur θ) Prédiction de X pour un autre Y

Un exemple historique John Arbuthnot et la divine providence 1712, Arbuthnot (médecin de la Reine Anne) examine le nombre de baptêmes de filles et de garçons à Londres, entre 1629 et 1710. Sur les 82 années étudiés, le nombre de naissances masculines est toujours supérieur au nombre de naissance féminines. Arbuthnott fait l hypothèse que les naissances masculines et féminines sont équi-probables et calcule, toujours sous cette hypothèse, la probabilité que les naissances masculines soient 82 fois de suite plus grande que celles féminines (= (1/2) 82 ), which will be found easily by the Table of Logarithms to be 1/4 8360 0000 0000 0000 0000 0000. Il en déduit que cette hypothèse est fausse. Il vérifie ensuite que la proportion de naissance masculine reste constant de l ordre de.5171. Il en déduit que seule la divine providence peut expliquer ceci.

Un exemple historique Modèle statistique associé Formulation moderne Question sur le ratio naiss. masculines/naiss. féminines. Observation : variable X = (X 1,..., X 82 ) et covariable Y = (Y 1,..., Y 82 ) avec X i le ratio naissa. masculines/naiss. féminines et Y i le nombre totale de naiss. l année i. Modélisation : Les années sont indépendantes. Les naissances à l année i sont indépendantes les unes des autres et le sexe du bébé est masculin avec une probabilité ρ i et féminin avec une probabilité 1 ρ i. Pas de modélisation du nombre de naissance Y i. Paramètre θ = (ρ 1,..., ρ 82 ) et Θ = [0, 1] 82.

Un exemple historique Modèle statistique associé Formulation moderne Rappel : Les années sont indépendantes, les naissances à l année i sont indépendantes les unes des autres et le sexe du bébé est masculin avec une probabilité ρ i et féminin avec une probabilité 1 ρ i tandis qu il n y a pas de modélisation du nombre de naissance Y i. Probabilité : La loi de G Y avec G i = X i Y i est simple à exprimer : sous P θ c est un produit de loi binomiale : 82 ( ) yi P θ {G = g Y = y} = ρ g i (1 ρ) y i g i Loi de X Y est plus complexe : i=1 P θ {X = x Y = y} = P θ {YX = xy Y = y} = g i 82 ( yi i=1 x i y i Attention : définition de la mesure de référence (mesure de type comptage) dépend de Y dans le second cas! ) ρ y i x i (1 ρ) y i (1 x i )

Un exemple historique Modèle statistique associé Formulation moderne Modèle plutôt complexe! Mais un raisonnement simple montre que P 1/2 {X i >= 1 Y i } = 1/2! C est le raisonnement utilisé par Arbuthnot pour monter que P 1/2 { ix i 1 Y } = i P 1/2 {X i 1 Y i } = (1/2) 82 Artbuthnot trouve cette probabilité trop faible sans justifier pourquoi... Pour le caractère constant des ρ i, là encore il se contente de le justifier heuristiquement. Objectif de ce cours : développer les outils pour justifier ces assertions!

Plan du cours Introduction à la statistique : modèle statistique, estimateur, rappel sur les convergences et zone de confiance, construction d estimateur, tests Modèle linéaire : moindres carrés, le cas gaussien, test dans le modèle gaussien, sélection de variables, généralisation du modèle linéaire Modèle multinomial : maximum de vraisemblance, test(s) du chi-deux Initiation au non-paramétrique : le cas de l estimation de densité par une méthode à noyau

Brève histoire des statistiques Statistik Mesure et représentation de données Antiquité / Moyen-âge : existence de registre. 1686 : Vauban propose une méthodologie du recensement. 1749 : Statistik (dérivé du latin Statisticum). Achenval (Allemagne). Ensemble de mesures et recueil de données nécessaires au fonctionnement et à l organisation de l état. 1765 : Priestley propose les premières méthodes de représentation graphiques. 1786 : Playfair propose le premier camembert 1800 : Bonaparte institue un bureau de la statistique de la République. 1869 : Minard combine des informations sur les pertes de l armée napoléonienne avec des informations géographiques. 1901 : Pearson justifie les ACP. 1904 : Spearman les utilise pour les analyses factorielles. Renouveau actuel avec les pbs de visualisation Big Data!

Brève histoire des statistiques Probabilités 1 Comportement d objets aléatoires Antiquité/Moyen âge : utilisation de principe probabiliste (répétition de mesures, extension d une mesure sur une sous-population à la population complète). 1654 : Fermat et Pascal étudie des jeux de hasard. 1657 : Hughens formalise le traitement des jeux de dès et définit l espérance. 1667 : Leibnitz étend le calcul des probabilités à tous les concepts. 1713 : Bernoulli formalise le concept de variable aléatoire et démontre une loi des grands nombres. 1721 : de Moivre généralise l usage de la combinatoire. 1755 : Simpson applique une théorie des erreurs sur des observations. 1812 : Laplace donne une première version du TCL.

Brève histoire des statistiques Probabilités 2 Comportement d objets aléatoires 1897 : Borel propose une théorie de la mesure complétée avec la théorie de l intégration de Lebesgue. 1901 : Lyapounov propose une première version rigoureuse du TCL. 1902 : Markov introduit les chaînes de Markov. 1910 : Levy propose une preuve rigoureuse du TCL. 1933 : Kolmogorov axiomatise les probabilités. XXème -XXIème : explosion des probabilités comme discipline mathématique.

Brève histoire des statistiques Inférence Estimation des paramètres d un modèle Antiquité/Moyen âge : utilisation de principe probabiliste (répétition de mesures, extension d une mesure sur une sous-population à la population complète). 1662 : Graunt estime la population de Londres à partir du nombre total d enterrement et des informations partielles sur la taille et le nombre de décès des familles. 1712 : Arbuthnott étudie le fait que le nombre de naissance de garçons soit supérieur au nombre de filles 82 années consécutives. 1729 : Mayer propose un estimateur autre que la moyenne empirique. 1763 : le théorème de Bayes est publié. 1778 : Bernoulli introduit un principe de maximum de vraisemblance. 1805-1809 : Legendre, Adrain et Gauss proposent indépendamment la méthode des moindres carrés. 1877 : Galton étudie des régressions. 1893 : Pearson propose le test du Chi-deux.

Brève histoire des statistiques Statistique mathématique Étude théorique des estimateurs 1908 : Gosset justifie l utilisation de la loi de Student. 1912 : Fischer étude les estimateurs du maximum de vraisemblance. 1928 : Neyman et Pearson (fils...) construisent une théorie des tests. 1940 : Wald formalise la théorie de la décision statistique. 1942 : Wolfowitz introduit le terme modèle non paramétrique pour une modèle de dimension infinie. XXème -XXIème : explosion des statistique comme discipline mathématique.

Brève histoire des statistiques Apprentissage Au delà du modèle 1950 : Turing lance le principe d une machine imitant un comportement intelligent à partir d exemples. 1952 : Hebbs propose un modèle d assemblée de neurone et des règles d apprentissage. 1955 : Séminaire Session on learning machines 1962-1962 : Block et Novikoff démontrent des résultats de consistance en temps finis pour le perceptron de Rosenblatt. 1960s : Approche bayésienne. 1968 : Vapnik et Chernovenkis se placent dans un cadre probabiliste et soulignent le compromis biais-complexité d un bon modèle. 1990 : Schapire propose de combiner des mauvais algorithmes pour en faire un bon. 1995 : Vapnik et Cortes propose les SVMs. XXIème : explosion de l apprentissage comme discipline à la frontière math/info.

Modélisation d un sondage Approche combinatoire Question : on souhaite estimer la proportion de la population donnant une certaine réponse à une certaine question. On suppose qu il s agit d une réponse binaire... Données : Réponses R = (R 1,..., R n ) d un sous-ens. de la pop. Modélisation : Il existe une proportion ρ d individus répondant 0 et donc une proportion 1 ρ d individus répondant 1. La population totale est de N individus. Le sous-ensemble est obtenu en tirant successivement au hasard n individus. Paramètre θ = ρ Θ = [0, 1]. Loi de R sous P θ : ( n Nρ ) ( i 1 k=1 P θ {R = r} = 1 1ri =0 r k =0 N(1 ρ) ) i 1 k=1 1 1ri =1 r k =1 N (i 1) N (i 1) i=1

Modélisation d un sondage Approche combinatoire Loi de R sous P θ : P θ {R = r} = = n i=1 ( Nρ ) ( i 1 k=1 1 1ri =0 r k =0 N(1 ρ) i 1 k=1 1 r k =1 N (i 1) N (i 1) ( n i=1 ρ + (i 1) i 1 k=1 1 r k =0 N (i 1) ( ) 1ri =0 (1 ρ) + (i 1) i 1 k=1 1 r k =1 N (i 1) Loi compliquée du fait de la dépendance des réponses... Simplification drastique si N = +... ) 1ri =1 ) 1ri =1

Modélisation d un sondage Approche population Modélisation : Chaque individu se comporte de manière indépendante. La réponse R i d un individu pris au hasard est 0 avec une probabilité ρ et 1 avec une probabilité 1 ρ (Bernoulli de paramètre ρ). Paramètre θ = ρ Θ = [0, 1]. Loi de R sous P θ : n P θ {R = r} = ρ 1 r i =0 (1 ρ) 1 r i =1 Loi de N 0 = n i=1 1 r i =0 : P θ {N 0 = n 0 } = i=1 = (ρ) n i=1 1 r i =0 (1 ρ) n i=1 1 r i =1 r, n i=1 1 r i =0=n 0 P θ {R = r} = N 0 suit une loi binomiale de paramètre (n, ρ)! ( ) n ρ n 0 (1 ρ) n n 0 n 0

Modélisation d un sondage Rappel sur la loi binomiale X v.a. à valeur entière suit une loi binomiale de paramètres (n, ρ) si et seulement si ( ) n P {X = k} = ρ k (1 ρ) n k k On sait qu alors E [X ] = nρ V [X ] = nρ(1 ρ) Idée naturelle : estimer ρ par ρ = X /n... On a immédiatement E [ ρ] = ρ V [ ρ] = ρ(1 ρ) n

Modélisation d un sondage Application On estime ρ par ρ = N 0 /n... i.e. la proportion empirique... Propriétés de l estimateur : Sans biais : E θ [ ρ] = ρ. Erreur quadratique : E θ [ ρ ρ 2 ] = V θ [ ρ] = ρ(1 ρ) n Propriétés asymptotiques : Convergence en probabilité (via Markov) : P θ { ˆρ ρ > ɛ} ρ(1 ρ) nɛ 2 0 Convergence forte (en utilisant la LFGN pour les variables de Bernoulli R i ) : ρ ρ p.s. Convergence en loi (TCL) : n ( ρ ρ) N (0, ρ(1 ρ))

Modélisation d un sondage Intervalle(s) de confiance Quelle confiance avoir sur l estimée p? ρ(1 ρ) Markov : P θ { ˆρ ρ > ɛ} nɛ 2 1 4nɛ 2 Intervalle de confiance de niveau α : pour δ α = 1/ 1 α [ P θ {ρ ρ δ α 2 n, ρ + δ ]} α 2 α n Zone de confiance de niveau α : P θ {ρ, (ˆρ ρ) 2 δ 2 α } ρ(1 ρ) α n TCL : P θ { n ρ ρ > δ ρ(1 ρ) } P { N (0, 1) > ɛ} 2e δ2 /2 IC asymptotiquement de niveau α : pour δ α = 2 log(2/(1 α)) P θ { ρ [ ρ δ α ρ(1 ρ)/ n, ρ δα ρ(1 ρ)/ n] } α

Modélisation d un sondage Test et IC Peut-on vérifier l hypothèse ρ = ρ 0? Pb : impossible de distinguer ρ 0 de ρ 0 + ɛ si n n est pas assez grand! Test statistique = test de non incompatibilité avec l hypothèse! Approche classique : on se fixe un niveau de confiance α, on détermine une zone de confiance de ˆρ pour ce niveau sous l hypothèse ρ = ρ 0, on rejette l hypothèse si ˆρ n est pas dans la zone et on ne rejette pas l hypothèse sinon... Une expérience statistique (comme les expériences des sciences expérimentales) ne permet pas d accepter une hypothèse mais uniquement de vérifier son apparente non contradiction avec les observations!