ISE: Introduction à la statistique et à l économétrie E. Le Pennec École Polytechnique 2014
Menu du jour Organisation Objectifs du cours Les statistiques sont partout! Modélisation statistique Plan du cours Brève histoire des statistiques Modélisation d un sondage simple
Organisation Enseignants Cours : Erwan Le Pennec (École Polytechnique) : Erwan.Le-Pennec@polytechnique.edu Assistant : Victor-Emmanuel Brunel (ENSAE) 5 Chargés de TDs...
Organisation Support et évaluation Support de cours : mis en ligne au fur et à mesure sur la page http://www.cmap.polytechnique.fr/~lepennec dans la rubrique Enseignement. Évaluation : Contrôle final : note Exam sur 20 Contrôle continu : note CC sur 20 (1/4 présence, 1/4 participation et 1/2 rendu de TP ou mi-parcours) Exam + CC Note finale : (à confirmer) 2
Objectifs du cours Comprendre la problématique statistique à travers des problèmes simples. Modèles statistiques classiques : modèles linéaires et leurs extensions, modèles multinomiaux Modèles non paramétriques : estimation de densité. Culture générale minimale en statistique : Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. H. G. Wells (écrivain britannique, 1866 1946)
Les statistiques sont partout! INSEE Les chiffres du travail Taux d activité par tranche d âge hommes vs. femmes http://www.insee.fr/
Les statistiques sont partout! Politique Sondage
Les statistiques sont partout! Santé Étude sur les OGM
Les statistiques sont partout! Économétrie Étude du coût en fonction du C.A.
Les statistiques sont partout! Finance FGBL, Apr. 99 à Dec. 05, 1 donnée par jour. (Source : BNP Paribas) Bund 105 110 115 120 125 0 500 1000 1500 Time
Les statistiques sont partout! Biologie Biopuces et analyse d ADN
Les statistiques sont partout! E-Marketing Réseau d achat de livres
Les statistiques sont partout Big Data Volume de donnée tellement grand que cela implique une évolution forte des statistiques...
Inférence statistique Question sur des données. Quantité mesurée : variable X et covariable Y. Modélisation : Collection de modèles probabiliste P θ avec θ Θ. Probabilité : Étude du comportement de (X, Y ) sous la loi P θ à θ fixé. Statistique : Inférence sur θ à partir de l observation de (X, Y ). Questions statistiques : Ajustement (Estimation de θ) Précision (Zone de confiance pour θ) Décision (Test sur θ) Prédiction de X pour un autre Y
Un exemple historique John Arbuthnot et la divine providence 1712, Arbuthnot (médecin de la Reine Anne) examine le nombre de baptêmes de filles et de garçons à Londres, entre 1629 et 1710. Sur les 82 années étudiés, le nombre de naissances masculines est toujours supérieur au nombre de naissance féminines. Arbuthnott fait l hypothèse que les naissances masculines et féminines sont équi-probables et calcule, toujours sous cette hypothèse, la probabilité que les naissances masculines soient 82 fois de suite plus grande que celles féminines (= (1/2) 82 ), which will be found easily by the Table of Logarithms to be 1/4 8360 0000 0000 0000 0000 0000. Il en déduit que cette hypothèse est fausse. Il vérifie ensuite que la proportion de naissance masculine reste constant de l ordre de.5171. Il en déduit que seule la divine providence peut expliquer ceci.
Un exemple historique Modèle statistique associé Formulation moderne Question sur le ratio naiss. masculines/naiss. féminines. Observation : variable X = (X 1,..., X 82 ) et covariable Y = (Y 1,..., Y 82 ) avec X i le ratio naissa. masculines/naiss. féminines et Y i le nombre totale de naiss. l année i. Modélisation : Les années sont indépendantes. Les naissances à l année i sont indépendantes les unes des autres et le sexe du bébé est masculin avec une probabilité ρ i et féminin avec une probabilité 1 ρ i. Pas de modélisation du nombre de naissance Y i. Paramètre θ = (ρ 1,..., ρ 82 ) et Θ = [0, 1] 82.
Un exemple historique Modèle statistique associé Formulation moderne Rappel : Les années sont indépendantes, les naissances à l année i sont indépendantes les unes des autres et le sexe du bébé est masculin avec une probabilité ρ i et féminin avec une probabilité 1 ρ i tandis qu il n y a pas de modélisation du nombre de naissance Y i. Probabilité : La loi de G Y avec G i = X i Y i est simple à exprimer : sous P θ c est un produit de loi binomiale : 82 ( ) yi P θ {G = g Y = y} = ρ g i (1 ρ) y i g i Loi de X Y est plus complexe : i=1 P θ {X = x Y = y} = P θ {YX = xy Y = y} = g i 82 ( yi i=1 x i y i Attention : définition de la mesure de référence (mesure de type comptage) dépend de Y dans le second cas! ) ρ y i x i (1 ρ) y i (1 x i )
Un exemple historique Modèle statistique associé Formulation moderne Modèle plutôt complexe! Mais un raisonnement simple montre que P 1/2 {X i >= 1 Y i } = 1/2! C est le raisonnement utilisé par Arbuthnot pour monter que P 1/2 { ix i 1 Y } = i P 1/2 {X i 1 Y i } = (1/2) 82 Artbuthnot trouve cette probabilité trop faible sans justifier pourquoi... Pour le caractère constant des ρ i, là encore il se contente de le justifier heuristiquement. Objectif de ce cours : développer les outils pour justifier ces assertions!
Plan du cours Introduction à la statistique : modèle statistique, estimateur, rappel sur les convergences et zone de confiance, construction d estimateur, tests Modèle linéaire : moindres carrés, le cas gaussien, test dans le modèle gaussien, sélection de variables, généralisation du modèle linéaire Modèle multinomial : maximum de vraisemblance, test(s) du chi-deux Initiation au non-paramétrique : le cas de l estimation de densité par une méthode à noyau
Brève histoire des statistiques Statistik Mesure et représentation de données Antiquité / Moyen-âge : existence de registre. 1686 : Vauban propose une méthodologie du recensement. 1749 : Statistik (dérivé du latin Statisticum). Achenval (Allemagne). Ensemble de mesures et recueil de données nécessaires au fonctionnement et à l organisation de l état. 1765 : Priestley propose les premières méthodes de représentation graphiques. 1786 : Playfair propose le premier camembert 1800 : Bonaparte institue un bureau de la statistique de la République. 1869 : Minard combine des informations sur les pertes de l armée napoléonienne avec des informations géographiques. 1901 : Pearson justifie les ACP. 1904 : Spearman les utilise pour les analyses factorielles. Renouveau actuel avec les pbs de visualisation Big Data!
Brève histoire des statistiques Probabilités 1 Comportement d objets aléatoires Antiquité/Moyen âge : utilisation de principe probabiliste (répétition de mesures, extension d une mesure sur une sous-population à la population complète). 1654 : Fermat et Pascal étudie des jeux de hasard. 1657 : Hughens formalise le traitement des jeux de dès et définit l espérance. 1667 : Leibnitz étend le calcul des probabilités à tous les concepts. 1713 : Bernoulli formalise le concept de variable aléatoire et démontre une loi des grands nombres. 1721 : de Moivre généralise l usage de la combinatoire. 1755 : Simpson applique une théorie des erreurs sur des observations. 1812 : Laplace donne une première version du TCL.
Brève histoire des statistiques Probabilités 2 Comportement d objets aléatoires 1897 : Borel propose une théorie de la mesure complétée avec la théorie de l intégration de Lebesgue. 1901 : Lyapounov propose une première version rigoureuse du TCL. 1902 : Markov introduit les chaînes de Markov. 1910 : Levy propose une preuve rigoureuse du TCL. 1933 : Kolmogorov axiomatise les probabilités. XXème -XXIème : explosion des probabilités comme discipline mathématique.
Brève histoire des statistiques Inférence Estimation des paramètres d un modèle Antiquité/Moyen âge : utilisation de principe probabiliste (répétition de mesures, extension d une mesure sur une sous-population à la population complète). 1662 : Graunt estime la population de Londres à partir du nombre total d enterrement et des informations partielles sur la taille et le nombre de décès des familles. 1712 : Arbuthnott étudie le fait que le nombre de naissance de garçons soit supérieur au nombre de filles 82 années consécutives. 1729 : Mayer propose un estimateur autre que la moyenne empirique. 1763 : le théorème de Bayes est publié. 1778 : Bernoulli introduit un principe de maximum de vraisemblance. 1805-1809 : Legendre, Adrain et Gauss proposent indépendamment la méthode des moindres carrés. 1877 : Galton étudie des régressions. 1893 : Pearson propose le test du Chi-deux.
Brève histoire des statistiques Statistique mathématique Étude théorique des estimateurs 1908 : Gosset justifie l utilisation de la loi de Student. 1912 : Fischer étude les estimateurs du maximum de vraisemblance. 1928 : Neyman et Pearson (fils...) construisent une théorie des tests. 1940 : Wald formalise la théorie de la décision statistique. 1942 : Wolfowitz introduit le terme modèle non paramétrique pour une modèle de dimension infinie. XXème -XXIème : explosion des statistique comme discipline mathématique.
Brève histoire des statistiques Apprentissage Au delà du modèle 1950 : Turing lance le principe d une machine imitant un comportement intelligent à partir d exemples. 1952 : Hebbs propose un modèle d assemblée de neurone et des règles d apprentissage. 1955 : Séminaire Session on learning machines 1962-1962 : Block et Novikoff démontrent des résultats de consistance en temps finis pour le perceptron de Rosenblatt. 1960s : Approche bayésienne. 1968 : Vapnik et Chernovenkis se placent dans un cadre probabiliste et soulignent le compromis biais-complexité d un bon modèle. 1990 : Schapire propose de combiner des mauvais algorithmes pour en faire un bon. 1995 : Vapnik et Cortes propose les SVMs. XXIème : explosion de l apprentissage comme discipline à la frontière math/info.
Modélisation d un sondage Approche combinatoire Question : on souhaite estimer la proportion de la population donnant une certaine réponse à une certaine question. On suppose qu il s agit d une réponse binaire... Données : Réponses R = (R 1,..., R n ) d un sous-ens. de la pop. Modélisation : Il existe une proportion ρ d individus répondant 0 et donc une proportion 1 ρ d individus répondant 1. La population totale est de N individus. Le sous-ensemble est obtenu en tirant successivement au hasard n individus. Paramètre θ = ρ Θ = [0, 1]. Loi de R sous P θ : ( n Nρ ) ( i 1 k=1 P θ {R = r} = 1 1ri =0 r k =0 N(1 ρ) ) i 1 k=1 1 1ri =1 r k =1 N (i 1) N (i 1) i=1
Modélisation d un sondage Approche combinatoire Loi de R sous P θ : P θ {R = r} = = n i=1 ( Nρ ) ( i 1 k=1 1 1ri =0 r k =0 N(1 ρ) i 1 k=1 1 r k =1 N (i 1) N (i 1) ( n i=1 ρ + (i 1) i 1 k=1 1 r k =0 N (i 1) ( ) 1ri =0 (1 ρ) + (i 1) i 1 k=1 1 r k =1 N (i 1) Loi compliquée du fait de la dépendance des réponses... Simplification drastique si N = +... ) 1ri =1 ) 1ri =1
Modélisation d un sondage Approche population Modélisation : Chaque individu se comporte de manière indépendante. La réponse R i d un individu pris au hasard est 0 avec une probabilité ρ et 1 avec une probabilité 1 ρ (Bernoulli de paramètre ρ). Paramètre θ = ρ Θ = [0, 1]. Loi de R sous P θ : n P θ {R = r} = ρ 1 r i =0 (1 ρ) 1 r i =1 Loi de N 0 = n i=1 1 r i =0 : P θ {N 0 = n 0 } = i=1 = (ρ) n i=1 1 r i =0 (1 ρ) n i=1 1 r i =1 r, n i=1 1 r i =0=n 0 P θ {R = r} = N 0 suit une loi binomiale de paramètre (n, ρ)! ( ) n ρ n 0 (1 ρ) n n 0 n 0
Modélisation d un sondage Rappel sur la loi binomiale X v.a. à valeur entière suit une loi binomiale de paramètres (n, ρ) si et seulement si ( ) n P {X = k} = ρ k (1 ρ) n k k On sait qu alors E [X ] = nρ V [X ] = nρ(1 ρ) Idée naturelle : estimer ρ par ρ = X /n... On a immédiatement E [ ρ] = ρ V [ ρ] = ρ(1 ρ) n
Modélisation d un sondage Application On estime ρ par ρ = N 0 /n... i.e. la proportion empirique... Propriétés de l estimateur : Sans biais : E θ [ ρ] = ρ. Erreur quadratique : E θ [ ρ ρ 2 ] = V θ [ ρ] = ρ(1 ρ) n Propriétés asymptotiques : Convergence en probabilité (via Markov) : P θ { ˆρ ρ > ɛ} ρ(1 ρ) nɛ 2 0 Convergence forte (en utilisant la LFGN pour les variables de Bernoulli R i ) : ρ ρ p.s. Convergence en loi (TCL) : n ( ρ ρ) N (0, ρ(1 ρ))
Modélisation d un sondage Intervalle(s) de confiance Quelle confiance avoir sur l estimée p? ρ(1 ρ) Markov : P θ { ˆρ ρ > ɛ} nɛ 2 1 4nɛ 2 Intervalle de confiance de niveau α : pour δ α = 1/ 1 α [ P θ {ρ ρ δ α 2 n, ρ + δ ]} α 2 α n Zone de confiance de niveau α : P θ {ρ, (ˆρ ρ) 2 δ 2 α } ρ(1 ρ) α n TCL : P θ { n ρ ρ > δ ρ(1 ρ) } P { N (0, 1) > ɛ} 2e δ2 /2 IC asymptotiquement de niveau α : pour δ α = 2 log(2/(1 α)) P θ { ρ [ ρ δ α ρ(1 ρ)/ n, ρ δα ρ(1 ρ)/ n] } α
Modélisation d un sondage Test et IC Peut-on vérifier l hypothèse ρ = ρ 0? Pb : impossible de distinguer ρ 0 de ρ 0 + ɛ si n n est pas assez grand! Test statistique = test de non incompatibilité avec l hypothèse! Approche classique : on se fixe un niveau de confiance α, on détermine une zone de confiance de ˆρ pour ce niveau sous l hypothèse ρ = ρ 0, on rejette l hypothèse si ˆρ n est pas dans la zone et on ne rejette pas l hypothèse sinon... Une expérience statistique (comme les expériences des sciences expérimentales) ne permet pas d accepter une hypothèse mais uniquement de vérifier son apparente non contradiction avec les observations!