Probabilités et statistiques dans le traitement de données expérimentales

Documents pareils

Lycées du Val d Oise préparant au CAP (cliquez sur l établissement pour connaitre les CAP préparés)

Séries Statistiques Simples

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Relation entre deux variables : estimation de la corrélation linéaire

1 Complément sur la projection du nuage des individus

Chapitre 3 : INFERENCE

Statistique Descriptive Élémentaire

Chapitre 3. Les distributions à deux variables

Introduction à l approche bootstrap

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Table des matières. I Mise à niveau 11. Préface

Annexe commune aux séries ES, L et S : boîtes et quantiles

Analyse en Composantes Principales

Traitement des données avec Microsoft EXCEL 2010

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Théorie des sondages : cours 5

3. Caractéristiques et fonctions d une v.a.

Régression linéaire. Nicolas Turenne INRA

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Que faire lorsqu on considère plusieurs variables en même temps?

CAPTEURS - CHAINES DE MESURES

TD1 Signaux, énergie et puissance, signaux aléatoires

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

F411 - Courbes Paramétrées, Polaires

Simulation de variables aléatoires

BILAN ÉCONOMIQUE ET SOCIAL DU VAL D OISE LES ÉQUIPEMENTS COMMUNAUX

Gestion obligataire passive

Loi binomiale Lois normales

Etude des propriétés empiriques du lasso par simulations

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

3 Approximation de solutions d équations

FORMULAIRE DE STATISTIQUES

Principe d un test statistique

Chapitre 2 Le problème de l unicité des solutions

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Exercice : la frontière des portefeuilles optimaux sans actif certain

Programmes des classes préparatoires aux Grandes Ecoles

PROBABILITES ET STATISTIQUE I&II

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Leçon N 4 : Statistiques à deux variables

Aide-mémoire de statistique appliquée à la biologie

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

1 Importer et modifier des données avec R Commander

Structure tarifaire en Ambulance et Véhicule Sanitaire Léger.

Cergy eric.yalap@keops.fr. ROISSY EN FRANCE m 2

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Statistiques Descriptives à une dimension

Optimisation, traitement d image et éclipse de Soleil

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Moments des variables aléatoires réelles

PRÉFET DU VAL D OISE LISTE DES CENTRES AGRÉÉS POUR LES STAGES DE SENSIBILISATION À LA SÉCURITÉ ROUTIÈRE

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Estimation et tests statistiques, TD 5. Solutions

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Température corporelle d un castor (une petite introduction aux séries temporelles)

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

MAP 553 Apprentissage statistique

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Introduction à la Statistique Inférentielle

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Chapitre 2. Eléments pour comprendre un énoncé

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Le Modèle Linéaire par l exemple :

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Cours 02 : Problème général de la programmation linéaire

Le modèle de régression linéaire

Probabilités sur un univers fini

Extraction d informations stratégiques par Analyse en Composantes Principales

VI. Tests non paramétriques sur un échantillon

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Les coûts de la production. Microéconomie, chapitre 7

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

La classification automatique de données quantitatives

LISTE DES CENTRES DE VACCINATION FRANCILIENS

Le risque Idiosyncrasique

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Résumé du Cours de Statistique Descriptive. Yves Tillé

L analyse boursière avec Scilab

Quantification Scalaire et Prédictive

Chaînes de Markov au lycée

Communications numériques

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Introduction à l analyse numérique : exemple du cloud computing

De la mesure à l analyse des risques

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année

Transcription:

Probabilités et statistiques dans le traitement de données expérimentales S. LESECQ, B. RAISON IUT1, GEII 1 Module MC-M1 2009-2010 1

V Estimation de paramètres, tests d hypothèse, statistiques Module MC-M1 2009-2010 2

Plan de cette partie Qu est-ce que la statistique? Définition des variables Les différents outils à notre disposition Estimation par les moindres carrés Régression linéaire Signaux stationnaires et ergodicité 3

Qu est-ce que la statistique? La statistique est l'ensemble des méthodes permettant de déterminer les caractéristiques d'un ensemble de données. Faire parler les données afin d obtenir le maximum d information. Cette activité regroupe trois principales branches : La collecte des données. Le traitement des données collectées (statistique descriptive, ). L'interprétation et la généralisation des résultats (inférence statistique, ) Domaine d application: Économie, Finance, Gestion, Sciences sociales, Psychologie, Physique, Chimie, Sciences naturelles,. 4 4

Population, individu et échantillon Individu : Un élément de la population. Échantillon : Un sous-ensemble de la population. Population Individu Elément de la population Echantillon Sous-ensemble de la population. x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x 5 5

Principe de l échantillonnage Impossibilité d'obtenir toute l'information : Budgets limités Temps Objets rares Tests destructeurs Si l échantillon étudié est bien choisi, les observations sur l échantillon permettront d'acquérir les connaissances voulues sur la population. 6 6

Variable Une caractéristique d intérêt qui varie selon les individus de la population. Exemple : Les voitures assurées par une compagnie d'assurance varient selon leur couleur, leur marque, leur puissance, leur prix, le nombre de kilomètres parcourus, etc. Une variable est souvent représentée symboliquement par une lettre majuscule Exemples X = Temps passé à revoir le cours par étudiant. R = Note obtenue à l'examen par étudiant. 7 7

Définition de la covariance et de la corrélation densité de probabilité f(x,y) : on définit <x>, <y>, σ 2 (x),σ 2 (y) et C(x,y) = E[(x-E(x)).(y-E(y))] covariance de x et y Correlation r(x,y) = C(x,y) /( σ(x) σ(y)) inégalite de Schwartz -1 r +1 x et y indépendants C(x,y) = 0 ATTENTION: réciproque fausse!! r(x,y) = 1 ou -1 indique que les 2 variables sont complètement liées r(x,y) = 0 indique que les 2 variables sont non correlées (sans relation entre elles) 8

Un petit exemple (sous excel) Le tableau suivant présente pour différents individus le nombre de cigarettes fumées et la capacité pulmonaire mesurée. Cigarettes (X) 0 5 10 15 20 Capacité pulmonaire (Y) 45 42 33 31 29 9

Lien possible entre les deux variables? 50 45 Capacité (Y) 40 35 30 25 20 0 5 10 15 20 Cigarettes (X) 10

Somme de variables aléatoires indépendantes s = x + y f(x,y) = f X (x) f Y (y) <s> = <x> + <y> (vrai même si x et y corrélés) σ 2 (s) = σ 2 (x) + σ 2 (y) les variances s ajoutent (remarque d = x - y σ 2 (d) = σ 2 (x) + σ 2 (y) ) application: N tirages indépendants x i selon f(x): s = x i σ2 (s) = N σ 2 (x) = N σ 2 m = s/n <m> = <x> et σ 2 (m) = σ 2 /N premiere loi des grands nombres: m tend vers <x> avec une variance qui décroît en 1/N (la précision augmente comme N ) 11

Application de la loi des grands nombres Illustration sur des tirages pile/face effectués pour un nombre différent de tirages Nombre Moyenne Ecart-type 5 0.6 0.4984 100000 0.5477 0.5000 12

Illustration graphique : loi des grands nombres On fait varier le nombre de tirages pile/face et on calcule la moyenne et l écart-type obtenus Moyenne Ecart-type 0.6 0.51 Moyenne de l'échantillon 0.55 0.5 0.45 0.4 0.35 Ecart type de l'échantillon 0.505 0.5 0.495 0.49 0.3 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Taille de l'échantillon 0.485 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Taille de l'échantillon 13

Calcul de quelques valeurs via excel Moyenne (X) 10 Moyenne (Y) 36 Ecart type (X) 7.91 Ecart type (Y) 7.07 Coefficient de corrélation -0.96 14

Observations Les valeurs résultantes d une variable constituent les observations de l étude. Exemples: Pour un échantillon de cinq personnes, X=«Age» x = 19, x = 20, x = 23, x = 40, x = 15 1 2 3 4 5 La variable Y=«sexe» observée sur l échantillon y = H, y = F, y = F, y = F, y = H 1 2 3 4 5 L ensemble des observations constitue le tableau des données 15 15

Que fait-on de ces données? statistique descriptive regroupe les techniques utilisées pour décrire un ensemble de données Observations disponibles Une statistique est une quantité calculée à partir d'un certain nombre d'observations. critères qui quantifient différentes caractéristiques de la distribution des observations: sont-elles centrées autour d'une valeur? sont-elles groupées autour de certaines valeurs? parcourent-elles de larges plages de valeurs possibles? suivent-elles des lois statistiques connues? etc. 16

Les outils à notre disposition Les statistiques simples permettent de décrire les observations : la moyenne ; la médiane ; le mode (valeur la plus représentée d'une variable quelconque dans une population d'objets) ; le maximum ; le minimum ; l'écart type (ou son carré la variance) ; des quantiles. Les deux premiers critères de position Les autres critères de dispersion 17

Illustration : médiane (critère de position) Code NOM PSDC99 95203 EAUBONNE 22870 95306 HERBLAY 23081 95277 GONESSE 24721 95582 SANNOIS 25331 95607 TAVERNY 25905 95063 BEZONS 26087 95680 VILLIERS-LE-BEL 26089 95280 GOUSSAINVILLE 27224 95500 PONTOISE 27418 95219 ERMONT 27542 95252 FRANCONVILLE 33494 95268 GARGES-LES-GONESSE 39963 95127 CERGY 53995 95585 SARCELLES 57940 95018 ARGENTEUIL 94019 minimum médiane étendue moyenne 35711 maximun (94019-22870) Les valeurs sont rangées par ordre croissant 18

Illustration variance (critère de dispersion) La variance de y est égale à la somme des carrés des écarts à la moyenne divisée par l effectif n. 1 n i n 2 2 ( yi y) = σ y = Code NOM PSDC99 écart à la moyenne (écart à la moyenne)2 1 95203 EAUBONNE 22 870-12 841,9 164915251,7 95306 HERBLAY 23 081-12 630,9 159540476,9 95277 GONESSE 24 721-10 990,9 120800615,5 95582 SANNOIS 25 331-10 380,9 107763776,9 95607 TAVERNY 25 905-9 806,9 96175941,4 95063 BEZONS 26 087-9 624,9 92639341,67 95680 VILLIERS-LE-BEL 26 089-9 622,9 92600845,94 95280 GOUSSAINVILLE 27 224-8 487,9 72045012,27 95500 PONTOISE 27 418-8 293,9 68789330,14 95219 ERMONT 27 542-8 169,9 66747810,67 95252 FRANCONVILLE 33 494-2 217,9 4919228,271 95268 GARGES-LES-GONESSE 39 963 4 251,1 18071567,8 95127 CERGY 53 995 18 283,1 334270526,7 95585 SARCELLES 57 940 22 228,1 494086947,7 95018 ARGENTEUIL 94 019 58 307,1 3399714023 somme 535 679 0,0 5 293 080 696,9 effectif 15 352 872 046 moyenne 35 711,9 19

Illustration écart-type (crtière de dispersion) L écart type d une variable est égal à la racine carrée de sa variance. 1 n n i= 1 ( yi y) 2 = σ y L écart type s exprime dans la même unité que les observations Code NOM PSDC99 écart à la moyenne (écart à la moyenne)2 95203 EAUBONNE 22 870-12 841,9 164915251,7 95306 HERBLAY 23 081-12 630,9 159540476,9 95277 GONESSE 24 721-10 990,9 120800615,5 95582 SANNOIS 25 331-10 380,9 107763776,9 95607 TAVERNY 25 905-9 806,9 96175941,4 95063 BEZONS 26 087-9 624,9 92639341,67 95680 VILLIERS-LE-BEL 26 089-9 622,9 92600845,94 95280 GOUSSAINVILLE 27 224-8 487,9 72045012,27 95500 PONTOISE 27 418-8 293,9 68789330,14 95219 ERMONT 27 542-8 169,9 66747810,67 95252 FRANCONVILLE 33 494-2 217,9 4919228,271 95268 GARGES-LES-GONESSE 39 963 4 251,1 18071567,8 95127 CERGY 53 995 18 283,1 334270526,7 95585 SARCELLES 57 940 22 228,1 494086947,7 95018 ARGENTEUIL 94 019 58 307,1 3399714023 somme 535 679 0,0 5 293 080 696,9 effectif 15 écart-type moyenne 35 711,9 variance 352 872 046,5 18 784,9 20

Représentation graphique 100000 90000 ARGENTEUIL 80000 70000 60000 SARCELLES 50000 CERGY 40000 médiane 30000 HERBLAY SANNOIS VILLIERS-LE-BEL PONTOISE GARGES-LES-GONESSE ERMONT FRANCONVILLE Écart-type moyenne 20000 EAUBONNE GONESSE TAVERNY BEZONS GOUSSAINVILLE 10000 0 21

Estimation de paramètres X variable aléatoire dont la densité de probabilité f(x,θ) dépend d un paramètre inconnu θ. Etant donné N tirages x i de X, que peut-on dire de θ? But : construire une variable aléatoire, fonction des x i, dont l espérance mathématique (moyenne) sera (au moins asymptotiquement) θ (et dont la variance sera la plus faible possible). [une telle variable est appelée estimateur, ou encore statistique!] 22

Estimation de paramètres Biais d un estimateur de θ = différence entre son espérance et θ Un estimateur sera convergent si le biais B N et sa variance σ 2 N tendent vers 0 en 1/N lorsque N Les propriétés de convergence des estimateurs usuels découlent de la loi des grands nombres (démonstration plus ou moins facile) Un estimateur qui a une variance plus faible que les autres est dit optimal; et si sa variance est le minimum théorique, il est dit efficace. [il n existe pas forcément d estimateur efficace pour N fini] 23

Estimation par moindres carrés Exemple : on dispose de plusieurs mesures d une règle à diverses températures T i, et on veut estimer son coefficient de dilatation α. On suppose mes diverses mesures L i indépendantes, chacune affectée d une incertitude σ i On dispose d un modèle théorique L(T) = L 0 (1 + α T) avec 2 paramètres inconnus L 0 et α Problème : Estimer au mieux ces 2 paramètres à partir des observations L J estime les paramètres inconnus en prenant pour valeurs celles qui minimisent la somme Ҳ 2 = Σ [L i L(T i )] 2 /σ i 2 Cas général: estimation biaisée, convergente T Variance-covariance des estimateurs donnée asymptotiquement par 2 fois l inverse de la matrice des dérivées secondes au minimum 24

Cas particulier : régression linéaire (d après document Y. Demur) La régression linéaire est un outil (mathématique) statistique qui permet de définir une loi linéaire entre deux variables intervenant dans un même phénomène. Le coefficient de corrélation est un indicateur sur la qualité des données. Il est dégradé par la dispersion des informations autour de la tendance. 25

Principe de la régression linéaire Loi linéaire Méthode graphique Méthode statistique On veut obtenir la «meilleure» équation de droite y = ax + b à partir d'un nuage de n points. 26

Principe de la régression linéaire Calcul du barycentre Calcul de a avec un critère d optimisation Calcul de b avec b = y ax = = G( x x / n, y y / n) Coefficient de corrélation r=cov(x,y)/σ x σ y caractérise le regroupement «en ligne» des points. 27

Illustration de la regression linéaire Considérons la droite y=2x+5 à laquelle on ajoute du bruit blanc 35.00 30.00 On pratique une régression linéaire pour chaque réalisation 25.00 bruit pente ordonnée 20.00 0.01 0.1 1.99981 2.00383 5.002537 4.977576 15.00 1 1.97281 5.158888 10.00 10 2.22103 4.123788 2 5 5.00 0.00 1 2 3 4 5 6 7 8 9 10 11 28

Une remarque importante Signal aléatoire Signal bidimensionnel dépendant du temps et d'une variable aléatoire Comment caractériser un signal dont la valeur à chaque instant est une variable aléatoire? Objectifs Notions de stationnarité et d'ergodicité 29

Stationnarité d un signal : constatation Hypothèse : une infinité d'expériences dans des conditions identiques Moyenne m(t) = E[x(t)] Corrélation R(x,t 1, t 2 ) = E[x(t 1 )x(t 2 )] Covariance C(x; t1, t2) = E[(x(t1) m1)(x(t2) m2)] 30

Qu est-ce que la stationnarité? Remarque : Le comportement d'une v.a n'est pas nécessairement identique pour t1 et t2 quelconque. Pour s'affranchir de cette difficulté, on définit la notion de stationnarité d'un signal Stationnarité indépendance du temps 31

Stationnarité du second ordre Stationnarité du 2 nd ordre Égalité des moyennes E[x(t1)] = E[x(t2 )] Invariance temporelle des corrélations E[x(t1).x(t2)] = E[x(t1 + T).x(t2 + T)] Invariance des covariances ("mesure" une dépendance linéaire entre les différentes valeurs d'un signal aléatoire) C[x(t1), x(t1 + T )] = C[x(0), x(t)] 32

Ergodicité Dans la pratique, on ne dispose souvent que d'une réalisation du phénomène aléatoire. Il devient donc difficile de caractériser statistiquement le signal aléatoire L'hypothèse d'ergodicité consiste à admettre que l'évolution d'un signal aléatoire au cours du temps apporte la même information qu'un ensemble de réalisations Ergocité => Histogramme est une estimation de la ddp 33