Probabilités et statistiques dans le traitement de données expérimentales S. LESECQ, B. RAISON IUT1, GEII 1 Module MC-M1 2009-2010 1
V Estimation de paramètres, tests d hypothèse, statistiques Module MC-M1 2009-2010 2
Plan de cette partie Qu est-ce que la statistique? Définition des variables Les différents outils à notre disposition Estimation par les moindres carrés Régression linéaire Signaux stationnaires et ergodicité 3
Qu est-ce que la statistique? La statistique est l'ensemble des méthodes permettant de déterminer les caractéristiques d'un ensemble de données. Faire parler les données afin d obtenir le maximum d information. Cette activité regroupe trois principales branches : La collecte des données. Le traitement des données collectées (statistique descriptive, ). L'interprétation et la généralisation des résultats (inférence statistique, ) Domaine d application: Économie, Finance, Gestion, Sciences sociales, Psychologie, Physique, Chimie, Sciences naturelles,. 4 4
Population, individu et échantillon Individu : Un élément de la population. Échantillon : Un sous-ensemble de la population. Population Individu Elément de la population Echantillon Sous-ensemble de la population. x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x 5 5
Principe de l échantillonnage Impossibilité d'obtenir toute l'information : Budgets limités Temps Objets rares Tests destructeurs Si l échantillon étudié est bien choisi, les observations sur l échantillon permettront d'acquérir les connaissances voulues sur la population. 6 6
Variable Une caractéristique d intérêt qui varie selon les individus de la population. Exemple : Les voitures assurées par une compagnie d'assurance varient selon leur couleur, leur marque, leur puissance, leur prix, le nombre de kilomètres parcourus, etc. Une variable est souvent représentée symboliquement par une lettre majuscule Exemples X = Temps passé à revoir le cours par étudiant. R = Note obtenue à l'examen par étudiant. 7 7
Définition de la covariance et de la corrélation densité de probabilité f(x,y) : on définit <x>, <y>, σ 2 (x),σ 2 (y) et C(x,y) = E[(x-E(x)).(y-E(y))] covariance de x et y Correlation r(x,y) = C(x,y) /( σ(x) σ(y)) inégalite de Schwartz -1 r +1 x et y indépendants C(x,y) = 0 ATTENTION: réciproque fausse!! r(x,y) = 1 ou -1 indique que les 2 variables sont complètement liées r(x,y) = 0 indique que les 2 variables sont non correlées (sans relation entre elles) 8
Un petit exemple (sous excel) Le tableau suivant présente pour différents individus le nombre de cigarettes fumées et la capacité pulmonaire mesurée. Cigarettes (X) 0 5 10 15 20 Capacité pulmonaire (Y) 45 42 33 31 29 9
Lien possible entre les deux variables? 50 45 Capacité (Y) 40 35 30 25 20 0 5 10 15 20 Cigarettes (X) 10
Somme de variables aléatoires indépendantes s = x + y f(x,y) = f X (x) f Y (y) <s> = <x> + <y> (vrai même si x et y corrélés) σ 2 (s) = σ 2 (x) + σ 2 (y) les variances s ajoutent (remarque d = x - y σ 2 (d) = σ 2 (x) + σ 2 (y) ) application: N tirages indépendants x i selon f(x): s = x i σ2 (s) = N σ 2 (x) = N σ 2 m = s/n <m> = <x> et σ 2 (m) = σ 2 /N premiere loi des grands nombres: m tend vers <x> avec une variance qui décroît en 1/N (la précision augmente comme N ) 11
Application de la loi des grands nombres Illustration sur des tirages pile/face effectués pour un nombre différent de tirages Nombre Moyenne Ecart-type 5 0.6 0.4984 100000 0.5477 0.5000 12
Illustration graphique : loi des grands nombres On fait varier le nombre de tirages pile/face et on calcule la moyenne et l écart-type obtenus Moyenne Ecart-type 0.6 0.51 Moyenne de l'échantillon 0.55 0.5 0.45 0.4 0.35 Ecart type de l'échantillon 0.505 0.5 0.495 0.49 0.3 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Taille de l'échantillon 0.485 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Taille de l'échantillon 13
Calcul de quelques valeurs via excel Moyenne (X) 10 Moyenne (Y) 36 Ecart type (X) 7.91 Ecart type (Y) 7.07 Coefficient de corrélation -0.96 14
Observations Les valeurs résultantes d une variable constituent les observations de l étude. Exemples: Pour un échantillon de cinq personnes, X=«Age» x = 19, x = 20, x = 23, x = 40, x = 15 1 2 3 4 5 La variable Y=«sexe» observée sur l échantillon y = H, y = F, y = F, y = F, y = H 1 2 3 4 5 L ensemble des observations constitue le tableau des données 15 15
Que fait-on de ces données? statistique descriptive regroupe les techniques utilisées pour décrire un ensemble de données Observations disponibles Une statistique est une quantité calculée à partir d'un certain nombre d'observations. critères qui quantifient différentes caractéristiques de la distribution des observations: sont-elles centrées autour d'une valeur? sont-elles groupées autour de certaines valeurs? parcourent-elles de larges plages de valeurs possibles? suivent-elles des lois statistiques connues? etc. 16
Les outils à notre disposition Les statistiques simples permettent de décrire les observations : la moyenne ; la médiane ; le mode (valeur la plus représentée d'une variable quelconque dans une population d'objets) ; le maximum ; le minimum ; l'écart type (ou son carré la variance) ; des quantiles. Les deux premiers critères de position Les autres critères de dispersion 17
Illustration : médiane (critère de position) Code NOM PSDC99 95203 EAUBONNE 22870 95306 HERBLAY 23081 95277 GONESSE 24721 95582 SANNOIS 25331 95607 TAVERNY 25905 95063 BEZONS 26087 95680 VILLIERS-LE-BEL 26089 95280 GOUSSAINVILLE 27224 95500 PONTOISE 27418 95219 ERMONT 27542 95252 FRANCONVILLE 33494 95268 GARGES-LES-GONESSE 39963 95127 CERGY 53995 95585 SARCELLES 57940 95018 ARGENTEUIL 94019 minimum médiane étendue moyenne 35711 maximun (94019-22870) Les valeurs sont rangées par ordre croissant 18
Illustration variance (critère de dispersion) La variance de y est égale à la somme des carrés des écarts à la moyenne divisée par l effectif n. 1 n i n 2 2 ( yi y) = σ y = Code NOM PSDC99 écart à la moyenne (écart à la moyenne)2 1 95203 EAUBONNE 22 870-12 841,9 164915251,7 95306 HERBLAY 23 081-12 630,9 159540476,9 95277 GONESSE 24 721-10 990,9 120800615,5 95582 SANNOIS 25 331-10 380,9 107763776,9 95607 TAVERNY 25 905-9 806,9 96175941,4 95063 BEZONS 26 087-9 624,9 92639341,67 95680 VILLIERS-LE-BEL 26 089-9 622,9 92600845,94 95280 GOUSSAINVILLE 27 224-8 487,9 72045012,27 95500 PONTOISE 27 418-8 293,9 68789330,14 95219 ERMONT 27 542-8 169,9 66747810,67 95252 FRANCONVILLE 33 494-2 217,9 4919228,271 95268 GARGES-LES-GONESSE 39 963 4 251,1 18071567,8 95127 CERGY 53 995 18 283,1 334270526,7 95585 SARCELLES 57 940 22 228,1 494086947,7 95018 ARGENTEUIL 94 019 58 307,1 3399714023 somme 535 679 0,0 5 293 080 696,9 effectif 15 352 872 046 moyenne 35 711,9 19
Illustration écart-type (crtière de dispersion) L écart type d une variable est égal à la racine carrée de sa variance. 1 n n i= 1 ( yi y) 2 = σ y L écart type s exprime dans la même unité que les observations Code NOM PSDC99 écart à la moyenne (écart à la moyenne)2 95203 EAUBONNE 22 870-12 841,9 164915251,7 95306 HERBLAY 23 081-12 630,9 159540476,9 95277 GONESSE 24 721-10 990,9 120800615,5 95582 SANNOIS 25 331-10 380,9 107763776,9 95607 TAVERNY 25 905-9 806,9 96175941,4 95063 BEZONS 26 087-9 624,9 92639341,67 95680 VILLIERS-LE-BEL 26 089-9 622,9 92600845,94 95280 GOUSSAINVILLE 27 224-8 487,9 72045012,27 95500 PONTOISE 27 418-8 293,9 68789330,14 95219 ERMONT 27 542-8 169,9 66747810,67 95252 FRANCONVILLE 33 494-2 217,9 4919228,271 95268 GARGES-LES-GONESSE 39 963 4 251,1 18071567,8 95127 CERGY 53 995 18 283,1 334270526,7 95585 SARCELLES 57 940 22 228,1 494086947,7 95018 ARGENTEUIL 94 019 58 307,1 3399714023 somme 535 679 0,0 5 293 080 696,9 effectif 15 écart-type moyenne 35 711,9 variance 352 872 046,5 18 784,9 20
Représentation graphique 100000 90000 ARGENTEUIL 80000 70000 60000 SARCELLES 50000 CERGY 40000 médiane 30000 HERBLAY SANNOIS VILLIERS-LE-BEL PONTOISE GARGES-LES-GONESSE ERMONT FRANCONVILLE Écart-type moyenne 20000 EAUBONNE GONESSE TAVERNY BEZONS GOUSSAINVILLE 10000 0 21
Estimation de paramètres X variable aléatoire dont la densité de probabilité f(x,θ) dépend d un paramètre inconnu θ. Etant donné N tirages x i de X, que peut-on dire de θ? But : construire une variable aléatoire, fonction des x i, dont l espérance mathématique (moyenne) sera (au moins asymptotiquement) θ (et dont la variance sera la plus faible possible). [une telle variable est appelée estimateur, ou encore statistique!] 22
Estimation de paramètres Biais d un estimateur de θ = différence entre son espérance et θ Un estimateur sera convergent si le biais B N et sa variance σ 2 N tendent vers 0 en 1/N lorsque N Les propriétés de convergence des estimateurs usuels découlent de la loi des grands nombres (démonstration plus ou moins facile) Un estimateur qui a une variance plus faible que les autres est dit optimal; et si sa variance est le minimum théorique, il est dit efficace. [il n existe pas forcément d estimateur efficace pour N fini] 23
Estimation par moindres carrés Exemple : on dispose de plusieurs mesures d une règle à diverses températures T i, et on veut estimer son coefficient de dilatation α. On suppose mes diverses mesures L i indépendantes, chacune affectée d une incertitude σ i On dispose d un modèle théorique L(T) = L 0 (1 + α T) avec 2 paramètres inconnus L 0 et α Problème : Estimer au mieux ces 2 paramètres à partir des observations L J estime les paramètres inconnus en prenant pour valeurs celles qui minimisent la somme Ҳ 2 = Σ [L i L(T i )] 2 /σ i 2 Cas général: estimation biaisée, convergente T Variance-covariance des estimateurs donnée asymptotiquement par 2 fois l inverse de la matrice des dérivées secondes au minimum 24
Cas particulier : régression linéaire (d après document Y. Demur) La régression linéaire est un outil (mathématique) statistique qui permet de définir une loi linéaire entre deux variables intervenant dans un même phénomène. Le coefficient de corrélation est un indicateur sur la qualité des données. Il est dégradé par la dispersion des informations autour de la tendance. 25
Principe de la régression linéaire Loi linéaire Méthode graphique Méthode statistique On veut obtenir la «meilleure» équation de droite y = ax + b à partir d'un nuage de n points. 26
Principe de la régression linéaire Calcul du barycentre Calcul de a avec un critère d optimisation Calcul de b avec b = y ax = = G( x x / n, y y / n) Coefficient de corrélation r=cov(x,y)/σ x σ y caractérise le regroupement «en ligne» des points. 27
Illustration de la regression linéaire Considérons la droite y=2x+5 à laquelle on ajoute du bruit blanc 35.00 30.00 On pratique une régression linéaire pour chaque réalisation 25.00 bruit pente ordonnée 20.00 0.01 0.1 1.99981 2.00383 5.002537 4.977576 15.00 1 1.97281 5.158888 10.00 10 2.22103 4.123788 2 5 5.00 0.00 1 2 3 4 5 6 7 8 9 10 11 28
Une remarque importante Signal aléatoire Signal bidimensionnel dépendant du temps et d'une variable aléatoire Comment caractériser un signal dont la valeur à chaque instant est une variable aléatoire? Objectifs Notions de stationnarité et d'ergodicité 29
Stationnarité d un signal : constatation Hypothèse : une infinité d'expériences dans des conditions identiques Moyenne m(t) = E[x(t)] Corrélation R(x,t 1, t 2 ) = E[x(t 1 )x(t 2 )] Covariance C(x; t1, t2) = E[(x(t1) m1)(x(t2) m2)] 30
Qu est-ce que la stationnarité? Remarque : Le comportement d'une v.a n'est pas nécessairement identique pour t1 et t2 quelconque. Pour s'affranchir de cette difficulté, on définit la notion de stationnarité d'un signal Stationnarité indépendance du temps 31
Stationnarité du second ordre Stationnarité du 2 nd ordre Égalité des moyennes E[x(t1)] = E[x(t2 )] Invariance temporelle des corrélations E[x(t1).x(t2)] = E[x(t1 + T).x(t2 + T)] Invariance des covariances ("mesure" une dépendance linéaire entre les différentes valeurs d'un signal aléatoire) C[x(t1), x(t1 + T )] = C[x(0), x(t)] 32
Ergodicité Dans la pratique, on ne dispose souvent que d'une réalisation du phénomène aléatoire. Il devient donc difficile de caractériser statistiquement le signal aléatoire L'hypothèse d'ergodicité consiste à admettre que l'évolution d'un signal aléatoire au cours du temps apporte la même information qu'un ensemble de réalisations Ergocité => Histogramme est une estimation de la ddp 33