OUTILS STATISTIQUES ET NUMÉRIQUES

Transcription

1 UNIVERSITÉ D ORLEANS Année universitaire UFR Sciences Master FAC et SAE, 2ème année OUTILS STATISTIQUES ET NUMÉRIQUES POUR LA MESURE ET LA SIMULATION T. Dudok de Wit Université d Orléans 16 septembre 214 Ce cours a pour objectif de présenter divers outils qui sont couramment utilisés dans l analyse de données. Il s agit plus d une collection de chapitres choisis que d un cours exhaustif sur l analyse de données, pour laquelle vous trouverez des références ci-dessous.

2 Table des matières 1 Livres utiles 3 2 Rappels sur les probabilités Variable aléatoire Loi de probabilité Statistique descriptive : estimateurs Population ou échantillon? Densité de probabilité Espérance et moyenne Mode et médiane Variance et écart-type Moments d ordre supérieur Propriétés d un estimateur Cohérence d un estimateur Biais d un estimateur Efficacité Quelques lois de probabilité Aléa de Bernouilli Aléa binomial Loi uniforme Aléa de Poisson Loi normale ou loi de Gauss Loi du χ Théorème de la limite centrale Simuler des lois avec Scilab Erreurs Quantifier les erreurs Représenter les erreurs Chiffres significatifs Comment déterminer l incertitude? Propagation des erreurs Bootstrap et jackknife Pourquoi moyenner? Tests d hypothèse Etapes du test d hypothèse Test du χ Calculer les seuils avec Scilab Tests de stationnarité Test de run Régression affine et ajustement de courbes Max de vraisemblance et moindres carrés Résolution avec Scilab Validation de la droite de régression Régression de fonctions affines Régression non-linéaire Régression non-linéaire avec Scilab Ajustement de modèles : Bayes 58 2

3 1 Livres utiles L. Lyons, A practical guide to data analysis for physical science students, Cambridge University Press, 1991 (introduction très claire à l analyse de données). NIVEAU LI- CENCE W. Press et al., Numerical Recipes in C, Cambridge University Press, 1998 (LA référence sur les outils numériques). Voir aussi la version en ligne à NIVEAU MASTER ET +, EN BU. P. Bevington, Data reduction and error analysis for the physical sciences, McGraw-Hill, 1992 (ce livre un peu ancien reste une référence ; il est davantage orienté vers l analyse des erreurs). NIVEAU LICENCE, EN BU E. Feigelson & G. J. Babu, Modern statistical analysis for astronomy, Cambridge University Press, 213 (excellent panorama de méthodes, et bien que dédié à l astronomie, s applique aussi à d autres domaines). NIVEAU LICENCE/MASTER, EN COMMANDE À LA BU K. Protassov, Probabilités et incertitudes, Presses Universitaires de Grenoble, 2 (excellent traité sur les incertitudes). NIVEAU LICENCE, DISPONIBLE EN BU J. Max, Méthodes et techniques de traitement du signal : tome 1 Applications aux mesures physiques et tome 2 Exemples d applications, Dunod, 1987 (ces deux volumes, même s ils ont pris de l âge, restent un des rares exemples de synergie entre les outils de traitement de données et leurs applications en physique). NIVEAU MASTER ET + le cours de Philippe Depondt sur la physique numérique (ENS Cachan), orienté vers la simulation : Allez dans "Licence L3 -> Cours téléchargeables -> Physique numérique" référence complète sur les techniques d analyse de données pour ingénieurs, le Data Analysis Handbook : GUM : Guide to the Expression of Uncertainty of Measurement est un document officiel et une mine d informations sur tous les aspects métrologiques liées au traitement des erreurs. 3

4 2 Rappels sur les probabilités 2.1 Variable aléatoire On appelle variable aléatoire ou aléa numérique une variable X susceptible de prendre différentes valeurs, auxquelles il est possible d affecter une probabilité. Soit V l ensemble des valeurs possibles de X : si V est fini ou dénombrable, on dit que l aléa est discret. Le cas échéant, l aléa est dit continu. Exemple : Dans le lancer d un dé, la variable aléatoire X = {1,2,3,4,5,6} est discrète et ne peut prendre que 6 valeurs. Le débit de fluide dans une conduite est une variable continue. Remarque : La plupart des observables physiques (température, pression, tension, longueur, durées,... ) sont des variables continues, bien que des effets quantiques puissent jouer à très petite échelle, par exemple pour de très faibles champs magnétiques. Les variables discrètes apparaissent généralement dans les expériences où il y a dénombrement. 2.2 Loi de probabilité Soit p(x), la probabilité qu une variable aléatoire discrète X prenne la valeur x. L ensemble des couples (x, p(x)) est appelé loi de probabilité de la variable aléatoire. Elle peut être représentée par un diagramme en bâtons ou par un histogramme. Lorsque l aléa est continu, la probabilité que X prenne la valeur x est en général infiniment petite. Ainsi, si on tire au hasard des nombres réels répartis uniformément entre et 5, la probabilité qu un tel nombre soit exactement égal est très faible, quoique non nulle. Il devient dès lors plus intéressant de calculer la probabilité que X prenne une valeur dans un petit intervalle Prob(a<X b)=prob(x b) Prob(X < a) La quantité Prob(X b) Prob(X < a) b a définit la densité de probabilité dans l intervalle [a,b]. Par passage à la limite, on définit p(a)= lim b a Prob(X b) Prob(X < a) b a La quantité d c p(x) d x équivaut à la probabilité que l aléa X prenne une valeur située entre c et d. Exemple : Dans le lancer d un dé non truqué, la loi de probabilité discrète se résume à x i p(x i ) 1/6 1/6 1/6 1/6 1/6 1/6 4

5 Exemple : La probabilité de tirer un nombre aléatoire issu d une distribution uniforme sur l intervalle [, 1[ vaut { 1 si x < 1 p(x)= sinon Pour un aléa discret, la probabilité de tirer une valeur parmi toutes les valeurs possibles vaut obligatoirement 1 car on est sûr du résultat. Cela signifie qu on a toujours x X p(x) = i p(x i ) = 1 De la même façon, pour un aléa continu, la probabilité de tirer une valeur parmi l ensemble des valeurs possibles est toujours égale à 1. On a donc + p(x) d x = 1 Ces résultats sont valables quelle que soit la loi de probabilité. Remarque : Pour un aléa discret, chaque probabilité satisfait forcément p(x) 1, puisque la somme des probabilités est égale à 1. La probabilité p(x) est alors un nombre sans unités. En revanche, pour un aléa continu, il est tout à fait possible d avoir p(x) > 1, puisque c est l intégrale qui est bornée. En outre, p(x) peut s exprimer en unités physiques. Par exemple, si x est une longueur mesurée en [m], alors p(x) s exprimera en [m 1 ]. 3 Statistique descriptive : estimateurs Dans une expérience, on a rarement accès à l expression exacte de la loi de probabilité ; il n est pas forcément possible de mesurer p(x) pour chaque valeur de x. On se contente donc souvent de calculer des indicateurs, qui résument à eux seuls certaines caractéristiques de la loi. Le mieux connu de ces indicateurs est la moyenne, qui est un indicateur de tendance. On recourt aussi fréquemment à des indicateurs de dispersion ou d étalement, tels que écarttype. Notre objectif est d en trouver la meilleure estimation à partir d un échantillon dont la taille sera toujours finie. 3.1 Population ou échantillon? D un point de vue formel, il existe une différence fondamentale entre les modèles et les observations. Dans le premier cas, et pour autant que la loi de probabilité soit connue, on parlera de population. Les quantités qui en seront déduites, telles que l espérance, sont théoriques et en ce sens dépourvues d erreur. Il est rare de pouvoir travailler directement sur une population, sauf si on dispose d un modèle mathématique exact du phénomène à étudier. Lorsque la loi de probabilité n est pas connue, alors il faut réaliser une expérience pour estimer les propriétés telles que la moyenne. On parlera alors d échantillon. Les valeurs obtenues seront d autant plus proches des valeurs théoriques que l expérience a été bien menée. 5

6 En vertu de la loi des grands nombres, les valeurs obtenues avec l échantillon convergent vers celles de la population lorsque la taille de l échantillon augmente. Tout le problème consiste à estimer au mieux ces valeurs. Sauf exception rare, l expérimentateur travaille toujours sur des échantillons. Un modèle de son expérience lui permettra cependant de définir une population, par rapport à laquelle il se référera. 3.2 Densité de probabilité La densité de probabilité figure parmi les quantités les plus importantes pour caractériser une série temporelle ou une suite de valeurs en général. Comme nous l avons vu en 2.2, p(a)d x est la probabilité qu un processus stationnaire x(t) prenne une valeur comprise dans l intervalle [a, a+ d x]. On utilise fréquemment l expression pdf (= probability density function) pour désigner la densité de probabilité p(x). Un théorème important (le théorème de la limite centrale, cf. 5.7) nous dit que pour beaucoup de processus physiques, la pdf tend vers une loi normale (ou loi de Gauss) p(x) e (x a)2 /b. FIGURE 1 A gauche : quatre exemples de séries temporelles : a) une sinusoïde, b) une sinusoïde avec du bruit de haute fréquence, c) une sinusoïde dont l amplitude fluctue au cours du temps, d) un signal aléatoire. A droite est représentée la densité de probabilité de chaque série. 6

7 Quelques exemples de pdf estimées à partir d échantillons sont illustrés dans la figure 1. L estimation d une pdf à partir d un échantillon est une tâche délicate pour laquelle la méthode la plus simple (mais non la meilleure) consiste à calculer un histogramme. La détermination de la pdf joue un rôle crucial dans l étude de la turbulence, où de très faibles écarts par rapport à une loi normale peuvent parfois être interprétés en termes de structures cohérentes (tourbillons, etc.). Estimer des distributions avecscilab Le logiciel Scilab dispose de quelques routines permettant d estimer des fonctions de distribution et plus particulièrement des histogrammes. histplot(n,x) affiche l histogramme de la variable x (un vecteur) en choisissant automatiquement n classes de même largeur ; l effectif de chaque classe est normalisé par l effectif total. histplot(b,x) même fonction que ci-dessus, sauf qu elle utilise les classes dont les bornes sont définies par le vecteur b. Ces bornes sont [b 1,b 2 ], (b 2,b 3 ], (b 3,b 4 ], etc. [pos,eff] = dsearch(x,b,"c") recherche parmi les éléments du vecteur x ceux qui se trouvent dans l une des classes définies par b (même syntaxe que ci-dessus). pos est un vecteur de même taille que x, qui indique le numéro de la classe à laquelle appartient chaque élément. e f f donne l effectif de chaque classe. Cette fonction convient aux lois discrètes et continues. [pos,eff] = dsearch(x,v,"d") même fonction que ci-dessus, sauf que la recherche se fait par rapport aux valeurs entières définies dans le vecteur v. Cette fonction convient uniquement aux lois discrètes. Un estimateur simple : l estimateur à noyau La méthode de l histogramme possède un sérieux défaut : les effectifs obtenus dans chaque classe fluctuent et lui donnent une allure irrégulière. Il devient lors difficile de distinguer les fluctuations statistiques des véritables variations d effectifs entre classes. Pour atténuer les premières, il convient de moyenner les effectifs entre classes. L estimateur de la densité de probabilité par histogramme peut être défini comme ˆp(x i )= 1 [ n i avec n i = nbre d observations dans x i N 2, x i + ] 2 que l on peut écrire comme ˆp(x)= 1 1 N N ( x xk ) Γ k=1 { 1/2 si u 1 avec Γ(u) = sinon L estimateur classique peut dès lors être interprété comme un empilement de boîtes de largeur 2 et de hauteur (2 N) 1. Comme l aire de chaque boîte vaut N 1, l aire totale de la densité de probabilité est bien égale à 1. 7

8 On peut avantageusement remplacer la fonction porte Γ(u) par une fonction plus lisse, qui atténuera les irrégularités dans la distribution. Ceci donne lieu aux estimateurs à noyau (kernel estimators), qui sont fréquemment utilisés dans la pratique. A chaque valeur z i de l échantillon on associe alors une courbe centrée sur z i ; la superposition de toutes ces courbes donne la densité p(z). p(z) z A priori, n importe quelle fonction Γ(u) peut servir de noyau, à condition de remplir les conditions suivantes Γ(u) doit être et à support compact Γ(u)du= 1 Il est toutefois préférable de choisir une fonction qui soit aussi lisse que possible, tout en étant concentrée sur un intervalle compact. Le noyau Gaussien Γ(u)= 1 2π e est particulièrement adapté et très fréquemment utilisé. Toutefois, la forme précise du noyau n a que peu d influence sur le résultat final. Le seul paramètre ajustable est le paramètre de lissage (ou encore largeur caractéristique ) pour lequel il n existe pas de recette fiable. Si les données en question suivent un loi normale de variance σ 2 alors on peut utiliser en première approximation =σn 1/5 Cette expression nous apprend que le résolution à laquelle on peut espérer dans un histogramme (à savoir la valeur de ) ne s améliore que très lentement lorsque l effectif N croît. u Espérance et moyenne Quand la densité de probabilité n est pas connue, on commence par estimer certains de ses moments. Une des caractéristiques les plus importantes d une loi est sa moyenne ou espérance. En présence d une population, on parle d espérance de la variable X, qui se note habituellement µ X, E(X ) ou X. Si la loi de probabilité n est pas connue a priori, alors il faut estimer l espérance à partir d un échantillon. On parlera alors de moyenne, que l on notera habituel- 8

9 lement x, parfois x N ou m. On a x = x p(x) d x espérance pour un aléa continu x = i x i p i espérance pour un aléa discret x = 1 N N x i moyenne pour un échantillon Notons qu il existe d autres estimateurs de la moyenne, telles que la moyenne pondérée x = i w i x i / i w i ainsi que la moyenne géométrique x = ( N x i) 1/N. Exemple : Dans le lancer d un dé non truqué, l espérance vaut X = = 7 2 Ce résultat est exact, et ne dépend pas du nombre de lancers. En réalisant l expérience pour des nombres de lancers différents, obtient de même la moyenne N x Ces valeurs convergent vers le résultat théorique pour N. Dans le logiciel Scilab, la moyenne d un échantillon s obtient avec l une des commandes m = mean(x) estime la moyenne sur tous les éléments de la matrice x m = mean(x, r ) même fonction que ci-dessus, sauf que la moyenne s effectue selon chaque rangée de x m = mean(x, c ) même fonction que ci-dessus, sauf que la moyenne s effectue selon chaque colonne de x 3.4 Mode et médiane La moyenne à elle seule ne suffit pas pour rendre compte de la notion intuitive de "valeur moyenne". On recourt parfois aussi au mode, qui est la valeur la plus probable de la distribution, cf. figure 2. Le mode n est pas toujours défini. Une autre quantité utile est la médiane : c est la valeur x m telle qu on a la même probabilité de tirer une valeur inférieure à x m qu une valeur supérieure à x m. Pour une population avec un aléa continu, nous avons xm p(x) d x = p(x) d x = 1 x m 2 Pour un échantillon, la médiane s estime de la manière suivante : soient {x i },i = 1,..., N les N résultats de l expérience. D abord on les trie par ordre croissant, pour obtenir une nouvelle suite {x k },k = 1,..., N. La valeur médiane x m est alors la valeur d indice N/2 (si N est pair) ou d indice (N + 1)/2 (si N est impair). 9

10 p(x) mode médiane moyenne 2 écarts-type x FIGURE 2 Représentation de quelques indicateurs statistiques pour une distribution continue. Exemple : Une mesure du courant dans un conducteur a donné les valeurs suivantes : {x i }=7, 79.4, 94, 86, 82, 81.4 et 7 [A]. La moyenne est 8.4 [A], le mode est 7 [A] et la médiane est 81.4 [A]. Exemple : Une distribution continue est donnée par la loi { 1 p(x)= 2 x si x < 2 sinon On vérifie que l on a bien + p(x) d x= 1. L espérance vaut x = + La médiane x m est donnée par x p(x) d x = x 2 d x = 4 3 xm p(x) d x = 1 2 x m = 2 Estimer la médiane avecscilab Il n existe pas de fonction dédiée dans Scilab pour calculer le mode car ce dernier n est pas toujours défini. En revanche, la médiane s obtient avec la même syntaxe que la moyenne m = median(x) estime la médiane sur tous les éléments de la matrice x m = median(x, r ) même fonction que ci-dessus, sauf que la médiane se calcule selon chaque rangée de x m = median(x, c ) même fonction que ci-dessus, sauf que la médiane se calcule selon chaque colonne de x 1

11 3.5 Variance et écart-type Pour quantifier la dispersion des valeurs de X autour de sa valeur moyenne, on recourt habituellement à la variance σ 2 x et plus fréquemment à l écart-type (ou écart quadratique moyen) σ x = σ 2 x. La définition de la variance est σ 2 x = (x µ ) 2 p(x)d x pour un aléa continu σ 2 x = i ( xi µ ) 2 pi pour un aléa discret où µ est l espérance et non la moyenne. Les expressions ci-dessus peuvent se mettre sous une forme plus commode σ 2 x = x2 µ 2 L écart-type est donc une mesure de la largeur d une distribution, cf. figure 2. Elle s exprime dans les mêmes unités que la variable X : si cette dernière est par exemple en [Ω], alors l écarttype le sera aussi. Pour un échantillon de taille finie, on notera généralement la variance sx 2 et non σ2 x ; son expression dépendra alors de la connaissance de l espérance. Si l espérance est connue (ce qui est rarement le cas), l expression de la variance sera la même que pour celle d une population. En revanche, si l espérance n est pas connue, le fait de devoir estimer la moyenne de l échantillon pour ensuite calculer la variance à partir de ce même échantillon aura pour effet de sous-estimer cette dernière. L estimation de la variance est alors biaisée (cf. 4). Pour corriger cet effet, on peut montrer que le dénominateur doit être N 1 et non N. La plupart des calculatrices font la distinction entre les deux estimateurs. sx 2 = 1 N sx 2 = 1 N 1 N ( xi µ ) 2 l espérance est connue N (x i x) 2 l espérance n est pas connue Dans ce qui suit, j utiliserai souvent la notation σ indifféremment pour les populations et les échantillons. Exemple : Dans l exemple précédent de la distribution continue, la variance vaut + σ 2 x = x 2 p(x) d x ( x ) 2 = 1 2 L écart-type vaut donc σ x = σ 2 x = x 3 d x 16 9 =.222 Estimer l écart-type avec Scilab Dans Scilab, l estimateur non-biaisé de l écart-type est 11

12 s = stdev(x) estime l écart-type sur tous les éléments de la matrice x s = stdev(x, r ) même fonction que ci-dessus, sauf que l écarttype est estimé selon chaque rangée de x s = stdev(x, c ) même fonction que ci-dessus, sauf que l écarttype est estimé selon chaque colonne de x u = x(:)-mean(x); s = sqrt(u *u/length(u)); notation compacte pour l estimateur biaisé de l écart-type 3.6 Moments d ordre supérieur L espérance et la variance sont les deux principaux moments d une densité de probabilité. Il arrive qu on soit amené à s intéresser à des moments d ordre supérieur, définis selon m q = (x µ ) q p(x)d x pour un aléa continu m q m q = i ( xi µ ) q pi pour un aléa discret m q = 1 N N (x i x) q pour un échantillon où l ordre q est habituellement un entier positif. Pour q =, on trouve par définition 1, pour q = 1, l espérance et pour q = 2, la variance. Il est souvent plus commode de normaliser les moments d ordre supérieur par rapport à la variance de la population ou de l échantillon, ce qui donne m q = m q σ q. On rencontre fréquemment le skewness (ou asymétrie), défini comme γ 1 = (x µ)3 (x µ) 2 3/2 = m 3 σ 3 et le kurtosis (ou aplatissement), défini comme γ 1 = (x µ)4 (x µ) 2 2 3= m 4 σ 4 3 Le skewness mesure l asymétrie d une distribution. Comme le montre la Figure 3, il est nul pour toute distribution symétrique par rapport à sa moyenne alors que γ 1 > implique un surcroît de grandes valeurs positives. Le kurtosis est une mesure de l étalement d une distribution, encore appelé aplatissement. Pour une loi normale, m 4 = 3 et γ 2=. Plus l ordre d un moment est élevé, plus celui-ci sera fortement pondéré par les valeurs extrêmes. Il faudra donc être très prudent avec un échantillon X de taille finie, car la valeur du moment sera presque entièrement déterminée par les quelques valeurs de x qui s écartent le plus de la moyenne. C est la raison pour laquelle on ne rencontre que très rarement les moments d ordre supérieur à 4. La seule exception est l étude expérimentale de la turbulence, où ces moments apportent une information cruciale sur les processus physiques de transfert d énergie entre les tourbillons de tailles différentes (loi de Kolmogorov). 12

13 .4.3 m 1 =µ=, m 2 =σ 2 =1, γ 1 = γ 2 =.6.4 m 1 =µ=, m 2 =σ 2 =1, γ 1 = γ 2 =.812 p(x).2.1 p(x) x 5 5 x m 1 =µ=, m 2 =σ 2 =1, γ 1 = γ 2 =1.35 m 1 =µ=, m 2 =σ 2 =1, γ 1 =.631 γ 2 =.245 p(x) x p(x) x FIGURE 3 Quelques distributions et leurs premiers moments normalisés. 4 Propriétés d un estimateur On dispose d un échantillon fini {x i } de N valeurs. Supposons que l on veuille en extraire une valeur x aussi raisonnablement proche que possible de la vraie valeur x. On appellera x estimation de x. Dans le cas plus général où on est confronté à N variables aléatoires {X i }, on appellera X estimateur de la variable aléatoire X recherchée (par exemple, la moyenne). Un bon estimateur doit satisfaire à la fois trois conditions souvent contradictoires : il doit être cohérent, non biaisé et efficace. 4.1 Cohérence d un estimateur La loi des grands nombres (cf. section 6) nous dit qu en moyennant le résultat d une expérience un grand nombre N de fois, la moyenne X ainsi obtenue tend vers une variable non aléatoire x, qui est la valeur numérique recherchée. C est la propriété de cohérence (ou consistency). 4.2 Biais d un estimateur Lorsque la taille N d un échantillon tend vers l infini, un estimateur cohérent tend vers la valeur exacte x. Mais dans le cas réel où l échantillon est de taille finie, on aimerait que l es- 13

14 pérance X N s écarte le moins possible de la valeur x. Cet écart est appelé biais. Pour un estimateur biaisé, on a X N = x + b N où b N est le biais de l échantillon. Pour un estimateur cohérent, lim N b N =. L estimateur de la figure 4 est biaisé. Celui de la figure 5 ne l est pas. intervalle dans lequel se répartissent les valeurs de X * biais FIGURE 4 Exemple d un estimateur cohérent et biaisé. Exemple : L estimateur de l entropie est biaisé. Soit {k i } un échantillon de N nombres entiers répartis uniformément entre et 9 compris (chaque nombre possède la même probabilité d apparition). Si f k est la fréquence d apparition du nombre k, alors l entropie vaut H = 9 f k log f k k= On montre aisément que cet estimateur est fortement biaisé. N H N valeur numérique 1 log1 2 log log log Efficacité Parmi différents estimateurs de la même quantité, on choisira celui dont l écart-type est minimal : la convergence vers la valeur exacte n en sera que plus rapide. Exemple : Pour estimer la moyenne d un échantillon {x i } on effectue habituellement la moyenne arithmétique sur toutes les valeurs. On peut aussi effectuer la moyenne de la valeur minimum et de la valeur maximum. Lequel est plus efficace? 14

15 estimateur le moins efficace estimateur le plus efficace FIGURE 5 Deux estimateurs d efficacité différente. 5 Quelques lois de probabilité Il existe un grand nombre de lois de probabilité. A chaque modèle correspond une loi particulière. Néanmoins, la grande majorité des lois rencontrées dans la nature s avèrent être des lois de normales (ou lois de Gauss) ou encore des lois binomiales. Ces différentes lois étant apparentées, on passe de l une à l autre par un passage à la limite. 5.1 Aléa de Bernouilli L aléa de Bernouilli (ou loi de Bernouilli) est l expression la plus simple d une loi de probabilité. Elle s exprime par une variable aléatoire X qui n a que deux états : elle prend soit la valeur 1 (ou pile), avec une probabilité p, soit la valeur (ou face), avec une probabilité q. L espérance vaut dans ce cas et la variance Prob(X = 1)= p, Prob(X = )= q, et p+ q = 1 x =1 p+ q = p σ 2 x = (1 p)2 p+ ( p) 2 q = p(1 p) = pq Exemple : Dans le jeu de pile ou face, avec une pièce non truquée, on a p = q = 1/ Aléa binomial On considère N épreuves de Bernouilli identiques et indépendantes. La variable K est le nombre de réalisations de l événement X : par exemple le nombre de fois qu on obtient pile après N lancers successifs d une pièce. La probabilité pour que K prenne la valeur k vaut Prob(K = k)= C k N pk (1 p) N k où C k N = N! (N k)! k! On dit alors que K suit une loi binomiale de paramètres N et p, que l on note B N,p. On montre dans ce cas que l espérance, la variance et l écart-type valent respectivement 15

16 espérance variance écart-type K = N p σ 2 K = N pq σ K = N pq.4 p =.1.4 p =.5.4 p =.7 Prob(K=k) k k k FIGURE 6 Distribution binomiale correspondant à N = 1 et p =.1,.5,.7 Exemple : On lance une pièce de monnaie truquée N = 3 fois. Quelle est la probabilité d obtenir en tout k = 2 fois pile sachant que la probabilité d avoir pile vaut p =.6? Prob(k = 2)= 3! 2! 1! =.432 La valeur moyenne et l écart-type sont respectivement K =3.6=1.8 et σ K = 3.6.4=.848 L aléa binomial intervient fréquemment dans les phénomènes physiques où il n existe que deux états possibles, chacun étant assorti d une probabilité. Par exemple, dans une expérience d analyse optique d une couche translucide, p pourrait être la probabilité qu un photon traverse la couche et q celle de voir le photon être absorbé. 5.3 Loi uniforme La loi uniforme décrit une variable aléatoire X dont les valeurs sont équiprobables sur un ou plusieurs intervalles [a, b[. Prob(a< x b)=cte Or comme on a obligatoirement p(x) d x = 1, cela donne p(x)= { 1 b a si a x< b sinon On montre dans ce cas que (a+ b) espérance x = 2 (b a) écart-type σ x = 12 Dans les ordinateurs, les générateurs de nombres aléatoires fournissent généralement par défaut des nombres distribués selon une loi uniforme sur l intervalle [, 1[. On peut générer à partir d elle des nombres distribués selon n importe quelle loi. La construction d un bon générateur est un problème ardu qui fait encore l objet de recherches intenses. 16

17 5.4 Aléa de Poisson Considérons des épreuves binomiales telles que N devient très grand (un lance la pièce un grand nombre de fois) et p très petit (la probabilité d obtenir pile est très petite) tout en gardant K = N p fini (ni nul, ni infini). La loi binomiale tend alors vers une loi dite de Poisson. La probabilité que K prenne la valeur k vaut Prob(K = k)= µk k! e µ où µ est un paramètre qui est égal à l espérance. Contrairement à la loi binomiale, qui nécessite deux paramètres (N et p), ici un seul paramètre (µ) suffit pour décrire la loi. On montre dans ce cas que l espérance, la variance et l écart-type valent respectivement espérance K =µ variance écart-type σ 2 K = µ σ K = µ.4 µ = 1.4 µ = 3.4 µ = 8 Prob(K=k) k k k FIGURE 7 Distribution de Poisson correspondant à µ = 1, 3, 8 La loi de Poisson décrit les phénomènes dont la probabilité de tirage individuel (c est-à-dire p) est très petite, mais dont le nombre de réalisations (c est-à-dire N) est si élevé, que l espérance µ atteint une valeur finie. On dira qu une loi binomiale B N,p peut être approchée par une loi de Poisson P µ dès que N p < 5 et N > 2. La loi de Poisson décrit bien des phénomènes de comptage : détection de photons par un photomultiplicateur, comptage de particules émises lors de désintégrations radioactives, comptage d ions dans un spectromètre de masse, comptage d individus en microbiologie,... Exemple : Une décharge luminescente émet en moyenne N = photons par seconde. Sur ceux-ci, seule une très faible fraction p = pénètre dans un photomultiplicateur. Le nombre moyen de photons détectés en une seconde vaut donc µ = N p = 15. Ce nombre fluctue au cours du temps avec un écarttype qui vaut σ= µ=12.2. Si dans l exemple qui précède on n effectue qu une seule mesure, avec par exemple n = 822 photons pendant un intervalle de temps donné, alors le seul fait d avoir une loi de Poisson nous permet d affirmer que l incertitude sur cette valeur sera de σ= µ n= La force de la loi réside ici dans sa capacité à nous renseigner directement sur une quantité qui nécessiterait sinon plusieurs mesures. 17

18 5.5 Loi normale ou loi de Gauss Si on prend la loi binomiale ou la loi de Poisson dans la limite où l espérance devient très grande (N > 2 et µ>2) alors le nombre d états possibles croît rapidement : la représentation du diagramme en bâtons de p(x) se transforme petit à petit en une courbe continue. Dans la limite où le nombre N est infini, on obtient une loi normale (ou loi de Gauss), dont l expression générale est p(x)= 1 ) ( σ 2π exp (x µ)2 2σ 2 Cette expression fait apparaître deux paramètres, µ et σ, qui sont respectivement l espérance et l écart-type. On dit dès lors que X suit une loi normale N (µ,σ 2 ). Lorsqu un générateur de nombres aléatoires fournit des valeurs distribuées selon une loi normale, c est toujours d une distribution N (, 1) qu il s agit..4.3 µ=, σ=1 µ=, σ=2 µ=2, σ=3 p(x) x FIGURE 8 Distribution normale correspondant à différents couples de valeurs (µ,σ). La loi normale se rencontre très fréquemment et s applique à tous les phénomènes qui résultent de la superposition d un grand nombre d événements indépendants et d origines diverses. L explication se trouve dans le théorème de la limite centrale, cf. section 5.7. Pourquoi standardiser? Il arrive fréquemment que l on doive comparer deux ou plusieurs quantités, dont les unités de mesure diffèrent ou dont les ordres de grandeur ne sont pas les mêmes. Si en plus ces quantités obéissent à une loi normale, il peut être commode de les standardiser. Cette opération consiste à leur soustraire la moyenne (= centrer) et à les normaliser par rapport à leur écart-type (= réduire) x x x La figure ci-dessous illustre cela pour la mesure simultanée de la température et de la résistance d un thermistor dans un écoulement fluide. Les deux quantités s expriment en des unités différentes et sont difficilement comparables. Leur comparaison relative est facilitée une fois qu elles sont standardisées. 18 σ x

19 5 4 donnees brutes T [K] R [kω] 4 2 donnees standardisees T R amplitude 3 2 amplitude temps [h] temps [h] FIGURE 9 Mesure simultanée de la température et de la résistance d un thermistor dans un écoulement. A gauche les données brutes (en unités physiques), à droite les données standardisées. Pour les graphes, la standardisation est à manipuler avec précaution, car elle enlève toute référence absolue. Les quantités standardisées sont en effet sans dimension. La standardisation s avère utile pour tout calcul de probabilité faisant intervenir des quantités distribuées selon une loi normale. Prenons une quantité x qui suit une loi normale N (µ,σ 2 ). Si on s intéresse à une probabilité, par exemple celle de rencontrer des valeurs de x inférieures à x, alors il faut calculer Prob(x < x )= x p(x )d x = 1 2πσ x e (y µ)2 2σ 2 d y Cette intégrale ne possède pas de solution analytique ; il faut la calculer numériquement, ou bien recourir à des tables. Le calcul répété pour différentes valeurs de µ ou de σ devient alors fastidieux. Or le changement de variable x u = (x µ)/σ permet de poser ( Prob(x < x )=Prob u< u = x µ σ ) = 1 2π u e v2 2 d v Le grand intérêt de cette expression réside dans l absence de paramètres de la distribution (µ, σ) dans l intégrand. Seules comptent les bornes de l intégrale, dont la valeur peut être obtenue à partir de tables où grâce à une fonction prédéfinie sur votre calculatrice. La standardisation confère ainsi aux variables normales un caractère universel. Pour des raisons historiques, on recourt fréquemment à la fonction erreur, définie comme erf(x)= 2 x e y2 d y, π ce qui nous donne Prob(u< u )= ( ) 2 erf u Loi du χ 2 Si X 1, X 2,... X n sont n variables aléatoires indépendantes distribuées chacune selon une même loi normale N (,1), alors la nouvelle variable X = X1 2 + X X n 2 possède une dis- 19

20 1.5 erf(x) x FIGURE 1 Allure de la fonction erreur. tribution en χ 2 à n degrés de liberté 1. Plus généralement, si X 1, X 2,... X n sont n variables aléatoires indépendantes distribuées chacune selon une même loi normale N (µ,σ 2 ), alors la variable standardisée X = n (X i µ) 2 est distribuée selon une loi en χ 2 à n degrés de liberté. σ 2 p(x) ν=2 ν=4 ν= x FIGURE 11 Quelques exemples de distributions du χ 2. Cette loi joue un rôle important dans les tests d hypothèse et dans les ajustements de fonctions. L espérance, la variance et l écart-type valent respectivement espérance variance écart-type χ 2 =n σ 2 = 2n χ 2 σ χ 2 = 2n 1. ce qui se prononce ki-deux ou ki-carré. 2

21 L expression analytique de la densité de probabilité vaut si x < p(x)= 1 2 n/2 Γ(n/2) xn/2 1 e x /2 si x où Γ(x) est la fonction gamma définie par Γ(x)= + t x 1 e t d t. 5.7 Théorème de la limite centrale Un très grand nombre de phénomènes aléatoires présentent des distributions qui sont ou suivent de très près une loi normale. L explication provient d un théorème fondamental, le théorème de la limite centrale. Soit X, une variable aléatoire d espérance µ, de variance σ 2 et dont la loi de probabilité est quelconque. Soit y N, une nouvelle variable aléatoire définie comme la moyenne effectuée sur N mesures. y N = 1 N N x i Si σ 2 est fini, alors la distribution de y N tend pour N grand vers une loi normale d espérance µ et de variance σ 2 /N. et de même pour la somme Soit X, une variable aléatoire d espérance µ, de variance σ 2 et dont la loi de probabilité est quelconque. Soit y N, une nouvelle variable aléatoire définie comme la somme effectuée sur N mesures. y N = N x i Si σ 2 est fini, alors la distribution de y N tend pour N grand vers une loi normale d espérance Nµ et de variance Nσ 2. Le caractère remarquable de ce théorème tient au fait qu aucune hypothèse n est émise sur la loi de X, hormis le fait que sa variance doive être finie. Ce théorème peut s interpréter comme suit : si une grandeur physique subit l influence d un grand nombre important de facteurs indépendants, et si l influence de chaque facteur pris séparément est petite, alors la distribution de cette grandeur tend vers une loi normale. Exemple : Prenons pour exemple une variable aléatoire X discrète qui suit une loi uniforme sur l intervalle [,9]. Créons une nouvelle variable y N = 1 N xi, en moyennant N = 1, N = 2 et N = 8 fois. Dans le premier cas, cela revient à ne rien faire, et la distribution reste uniforme. Dans le second cas, on obtient une distribution triangulaire. Dans le dernier cas, on tend déjà vers une loi normale, même si elle reste discrète. 21

22 n=1 n=2 6 n=8 effectif x x x FIGURE 12 Illustration de l obtention de la loi normale en moyennant une variable aléatoire discrète de loi uniforme N = 1,2 et 8 fois. Cette figure a été obtenue en simulant un échantillon de 1 valeurs aléatoires ; il est donc naturel que les histogrammes ne soient pas réguliers. Exemple : Un télescope qui pointe sur une étoile lointaine détecte en moyenne un taux de φ = 1 photons par seconde en provenance de cette étoile. Pendant combien de temps faut-il observer cette étoile pour que l écart-type du taux mesuré soit inférieur à.5 photons par seconde? Dans ce problème, il s agit d abord de déterminer l écart-type associé au taux de comptage (dont on ne sait rien a priori) pour ensuite déterminer à partir du théorème de la limite centrale sur combien de secondes il faut intégrer le signal mesuré. Le comptage de photons en provenance d une étoile est un exemple-type de processus de physique qui suit une loi de Poisson. Puisque le taux moyen de comptage par seconde vaut φ = 1 photons par seconde, nous savons que l écart-type sur le nombre de photons compté en 1 seconde vaut σ= φ = 1 photons. Si nous répétons cette expérience N fois (ce qui revient à compter pendant N secondes) alors, d après le théorème de la limite centrale, le taux moyen vaudra φ N = N φ N = φ et son écart-type sera σ N = σ φ = N N Ainsi, pour avoir σ N <.5 il faut N > 4 secondes. Le théorème de la limite centrale nous dit par ailleurs que la nouvelle variable φ N tend à suivre une loi normale. Remarque : Ce théorème n est plus totalement vérifié pour des variables aléatoires qui ne sont pas indépendantes. La somme (ou la moyenne) des variables aléatoires tend bien vers une loi normale, et la moyenne de y N tend bien vers Nµ (respectivement µ). En revanche, le calcul de la variance de y N devra tenir compte des corrélations entre les valeurs. Il est donc très important de toujours vérifier au préalable l indépendance ou non des variables. 22

23 5.8 Simuler des lois avec Scilab Le logiciel Scilab est équipé de nombreux et excellents générateurs de nombres aléatoires, qui permettent de reproduire une grande variété de lois. La syntaxe de base est la même pour toutes les lois : y = grand(m,n,...) génère une matrice de taille [m, n] constituée de nombres aléatoires distribués selon la loi spécifiée. y = grand(m,n, bin,n,p); génère des entiers distribués selon une loi binomiale B(N, p) y = grand(m,n, poi,lambda); génère des entiers distribués selon une loi de Poisson P (λ) y = grand(m,n, nor,mu,sigma); génère des réels distribués selon une loi normale N (µ,σ 2 ) y = grand(m,n, chi,nu); génère des réels distribués selon une loi du χ 2 à ν degrés de liberté y = grand(m,n, unf,a,b); génère des réels distribués selon une loi uniforme sur l intervalle [a, b) 23

24 6 Erreurs Bien gérer les erreurs est un des aspects les plus importants d une expérience : il faut savoir quantifier les erreurs et les réduire autant que possible. Il existe essentiellement quatre types d erreurs : les erreurs aléatoires de mesure : elles sont liées à notre incapacité de faire des mesures avec une précision infinie. Réduire cette erreur nécessite une amélioration du dispositif expérimental. Exemple : impossible d accéder à une précision de l ordre de la milliseconde avec un chronomètre à main. les erreurs aléatoires dues aux fluctuations : l erreur provient du fait que le phénomène étudié varie lui-même de façon aléatoire, suivant une loi statistique. On peut atténuer son effet en prolongeant la durée de la mesure. Exemple : la mesure du taux de désintégration d un échantillon radioactif. les erreurs systématiques : ce sont des erreurs reproductibles qui résultent d un mauvais dispositif de mesure ou d une erreur dans la modélisation. Elles sont susceptibles d être éliminées par une correction adéquate. Si la dispersion due aux fluctuations est aisément détectable, le biais dû aux erreurs systématiques l est moins. Pour le mettre en évidence, il faudrait une mesure indépendante et correcte de la quantité en question. Exemple : mesure d une distance par ultrasons, en prenant une valeur erronée pour la vitesse du son. les erreurs accidentelles : elles résultent d une fausse manoeuvre, d un dysfonctionnement de l appareil ou d un manque d information sur la nature réelle du processus. Elles sont difficiles à éliminer si leur cause exacte n est pas connue. Exemple : détermination de la masse de notre galaxie. Pendant longtemps, il n a pas été tenu compte de la matière sombre, qui contribue pourtant de manière importante à la masse totale. Les deux premières erreurs peuvent être détectées et réduites en adoptant une méthodologie d expérience adéquate. Par contre, il est difficile de quantifier les erreurs systématiques ainsi que les erreurs accidentelles sans disposer d un moyen indépendant pour vérifier la chaîne de mesure. Erreur ou incertitude? Les termes erreur et incertitude ont des significations différentes, mais sont souvent utilisés comme synonymes. L erreur de mesure est l écart entre la valeur mesure et sa valeur réelle (ou espérance), qui est inaccessible. L incertitude de mesure est une estimation de l intervalle dans lequel risquent de se rencontrer les valeurs de la mesure. C est donc une approximation de l erreur, qui s obtient par analyse statistique. 6.1 Quantifier les erreurs Les erreurs aléatoires suivent généralement une loi de distribution connue, qui est très souvent normale N (, s 2 ). Par convention, on dira que la mesure est affectée d une erreur ou 24

25 d une incertitude de valeur s (toujours positive) et on notera m± s Cela signifie concrètement que des observations successives donneront des valeurs différentes, distribuées selon une loi normale N (m, s 2 ). Nous connaissons ainsi la valeur la plus probable de l observation (m) ainsi que sa dispersion (s). Les deux données sont indispensables pour bien caractériser un résultat de mesure. L intérêt majeur de cette convention réside dans la quantification de l erreur. Nous pouvons en effet estimer la probabilité de trouver une valeur contenue dans l intervalle [m s, m + s], appelé intervalle de confiance. Nous avons Prob(m s<x m+ s) = = = m+s m s p(x )d X m+s 1 s e (X m)2 /2s 2 d X 2π m s 1 +1 e Y 2 /2 dy 2π = % des valeurs se trouveront donc dans un intervalle [x s, x + s]. De la même façon, la probabilité de se trouver dans l intervalle [m 2s,m+2s] vaut.954. Différents intervalles sont illustrés dans la figure 13 et leurs probabilités sont tabulées ci-dessous. 1 largeur probabilité de l intervalle d y appartenir [µ.67σ,µ+.67σ].5 [µ σ,µ+σ].6826 [µ 1.65σ,µ+1.65σ].9 [µ 1.96σ,µ+1.96σ].95 [µ 2σ,µ+2σ].9544 [µ 2.33σ,µ+2.33σ].98 [µ 2.58σ,µ+2.58σ].99 [µ 3σ,µ+3σ].9974 [µ 4σ,µ+4σ] Représenter les erreurs La représentation des incertitudes dans un graphe se fait fréquemment à l aide de barres d erreur (si l erreur n affecte qu une variable) ou d ellipses d erreur (si l erreur affecte deux variables à la fois). Par convention, les barres d erreur en une dimension sont obtenues en traçant un trait de longueur σ de part et d autre du point de mesure, cf. figure 14. Il existe une autre représentation plus compacte et plus riche en information. Elle consiste à représenter pour chaque point sa valeur médiane, ses valeurs extrêmes et ses quartiles. Les 25

26 p(x) ± σ ± 2 σ.5 ± 3 σ (x µ)/σ FIGURE 13 Intervalles de confiance pour une loi normale. La largeur à mi-hauteur vaut±1.17σ. quartiles sont les valeurs seuil q de la variable aléatoire telles que la probabilité d obtenir des valeurs plus petites que q est respectivement de.25,.5 et.75. On définit q.25 tel que q.25 p(x) d x =.25 premier quartile q.5 tel que q.5 p(x) d x =.5 second quartile = médiane q.75 tel que q.75 p(x) d x =.75 troisième quartile On superpose sur chaque point de mesure (cf. figure 14) : 1) un trait reliant les deux extrêmes, 2) un rectangle qui s étend du premier au troisième quartile, 3) une marque au niveau de la médiane. Le trait permet de se rendre compte de l étendue totale des mesures alors que le rectangle renseigne sur l intervalle dans lequel se trouve la moitié des points. Pour une distribution normale, ce dernier équivaut à l intervalle [µ.67σ, µ +.67σ]. Enfin, la médiane renseigne sur le centre de la distribution, qui ne coïncide pas forcément avec la moyenne. Si l erreur affecte à la fois l abscisse et l ordonnée, deux solutions se présentent. Si les erreurs sont indépendantes, alors on trace habituellement des barres d erreur orthogonales, qui s étendent d une valeur σ i de part et d autre du point de mesure. Il est souvent plus commode de représenter des ellipses de confiance dont la longueur des demi-axes équivaut à la valeur des écarts-type. Si les erreurs ne sont pas indépendantes, alors le demi-grand-axe de l ellipse aura une inclinaison autre que deg ou 9 deg. Ce cas ne sera pas abordé ici, car il nécessite l étude des distributions multivariées. 26

27 y p(y) x_1 x_2 FIGURE 14 Exemple d une distribution p(y) de la valeur des ordonnées (à gauche) et de ses barres d erreur (à droite). La barre d erreur classique en x 1 donne une idée de la dispersion mais ne rend pas du tout compte de l asymétrie de la distribution. La barre d erreur en x 2 est nettement plus révélatrice de l allure de la distribution. 6.3 Chiffres significatifs Comme toute valeur expérimentale est affectée d une erreur, donner des résultats avec un grand nombre de décimales n a pas de sens. Par exemple, le résultat g = ± [m s 2 ] n a pas de sens puisque l incertitude est donnée avec davantage de précision que la valeur elle-même. La valeur de l incertitude est toujours approximative. On se contente souvent de la représenter avec un (voire deux) chiffres significatifs. Il faut donc commencer par transformer le résultat ci-dessus en g = ±.3 [m s 2 ] Dans une valeur numérique, le premier chiffre non-nul de gauche (ici le 9) désigne le chiffre le plus significatif et le dernier chiffre non-nul de droite (ici 1) le chiffre le moins significatif. Les nombres 1234, et.1234 ont ainsi tous quatre chiffres significatifs. En vertu de ce qui a été dit plus haut, le nombre de chiffres significatifs rend compte de la précision du résultat et permet donc de se faire une idée de l incertitude, même quand cette dernière n est pas indiquée. Le chiffre le moins significatif d un résultat devrait toujours être du même ordre de grandeur que l incertitude. Le résultat ci-dessus s écrit donc finalement g = 9.81±.3 [m s 2 ] 27

28 Exemple : Dans la publicité d une bière sans alcool, il est dit que la taux d alcool vaut. %. Cela signifie donc que l incertitude sur le taux est de l ordre du dixième de pour-cent. Il se peut fort bien que la bière contienne encore.5 % d alcool, ce qui est effectivement le cas. 6.4 Comment déterminer l incertitude? L incertitude sur un résultat peut être estimée de plusieurs façons. l incertitude est connue d avance : c est le cas de valeurs qui résultent de la combinaison d autres mesures, dont on connaît déjà l incertitude. Dans ce cas, on peut estimer l incertitude du résultat par un calcul de propagation d erreurs, cf. plus bas. la mesure peut être répétée plusieurs fois dans de mêmes conditions : il suffit alors de répéter l expérience et de prendre l écart-type comme estimation de l incertitude. la loi de probabilité est connue : certaines lois (comme la loi de Poisson) donnent directement accès à l incertitude, sans qu il soit nécessaire de répéter l expérience. C est là un des principaux atouts des lois de probabilité. Dans la pratique, on devra généralement se contenter d une seule méthode. Exemple : Huit tirages successifs d une variable de Poisson d espérance µ = 5 ont donné les valeurs x= {6,5,3,5,9,7,6,2} La moyenne vaut x= 1 x i = 5.37 N i On a bien x µ. Pour connaître l incertitude sur x, on estime son écart-type (avec l estimateur non biaisé) 1 s x = (x i x) 2 = 2.2 N 1 i Or comme x obéit à une loi de Poisson, on sait aussi que son écart-type vaut théoriquement σ x = µ=2.24 et on vérifie que σ x s x. Il n est donc même pas nécessaire de répéter l expérience. En vertu de la loi des grands nombres, la valeur expérimentale tend vers la valeur théorique dans la limite où le nombre de tirages est grand. 6.5 Propagation des erreurs Il arrive fréquemment que l on doive combiner des mesures qui sont toutes entachées d erreurs différentes. Il faut alors déterminer comment la combinaison de ces erreurs affecte le produit final. Nous supposerons dans ce qui suit, que nous avons des erreurs décorrélées : la valeur d une erreur sur une mesure ne dépend pas de celle sur une autre mesure. Exemple : On met bout à bout deux tiges de longueur a±σ a et b±σ b. Quelle est l incertitude sur la valeur de c = a+ b? 28

29 Alors σ 2 c = (c c ) 2 = (a+ b a+ b ) 2 = (a a ) 2 + (a a ) 2 2 (a a )(b b ) = σ 2 a + σ2 b 2 (a a )(b b ) Si les erreurs sont décorrélées, alors le troisième terme est nul, et il reste σ 2 c = σ 2 a + σ2 b. De manière plus générale, si une valeur x = f (a,b,c,...) est une fonction de différentes variables indépendantes {a,b,c,...} dont les variances sont respectivement {σ 2 a,σ2 b,σ2 c,...}, alors l incertitude sur x vaut approximativement ( ) f 2 ( ) f 2 ( ) f 2 σ 2 x = σ 2 a a + σ 2 b b + σ 2 c c +... Dans cette expression, qui dérive d une développement de Taylor, nous supposons que les erreurs ne sont pas corrélées entre elles, que leur distribution est normale, et que leur valeur relative reste suffisamment petite (σ y / y 1) pour justifier un tel développement. Notez que cette expression ne donne pas tout à fait les mêmes résultats que l expression simplifiée σ x = f a σ a+ f b σ b+ f c σ c+... que l on rencontre fréquemment. Seule la première des deux expressions donne des résultats exacts d un point de vue statistique. Exemple : La tension mesurée au bornes d une résistance vaut U = U ± σ U lorsque le courant à travers cette résistance vaut I = I ± σ I. L incertitude sur la valeur de la résistance R = f (U, I )= U /I vaut alors σ 2 R = ( f U ) 2 ( ) f 2 σ 2 U + σ 2 I I = σ2 U I 2 + U 2 σ2 I I 4 σ2 R R 2 = σ2 U U 2 + σ2 I I 2 La propagation des erreurs pour quelques expressions courantes donne f = ax+ by f = x y f = x y f = x a y b σ 2 f = a2 σ 2 x + b2 σ 2 y ( ) σf 2 ( σx ) ( 2+ σy = ( f ) x y σf 2 ( σx ) ( 2+ σy = ( f ) x y σf 2 = a 2( σ ) x 2+ b 2 ) 2 ) 2 ( ) σy 2 f x y On notera que pour les fonctions linéaires, les erreurs s ajoutent, alors que pour les produits/divisions ce sont les erreurs relatives qui s ajoutent. 29

30 6.6 Bootstrap et jackknife Il arrive fréquemment que le calcul d incertitude par propagation d erreur (c est à dire par voie analytique) ne soit pas possible. Soit l expression analytique est trop complexe, soit les hypothèses sous-jacentes (l erreur relative doit être petite) ne sont pas vérifiées. Il existe alors deux méthodes simples, qui méritent d être mieux connues. Exemple : Les modèles de circulation générale qu utilisent climatologues montrent qu il existe un lien entre la puissance P rayonnée par le Soleil et la température moyenne T du globe. Ce lien fait cependant intervenir de très nombreux mécanismes. Pour un code donné, on a varié la puissance pour obtenir N couples de valeur (P i,t i ),i = 1,..., N. On aimerait connaître le rapport de proportionnalité α = T / P ainsi que son incertitude. Il suffit pour cela d effectuer une régression linéaire, cf. Chapitre 9. Comment procéder pour déterminer α et son incertitude σ α? La méthode du bootstrap 2 est une méthode dite de rééchantillonnage, qui est simple à appliquer et très puissante, mais qui peut cependant devenir gourmande en temps de calcul. Soit un échantillon de N observations. Il faut alors 1. Prendre au hasard N valeurs de cet échantillon en les remettant après chaque tirage. Une même valeur peut donc être tirée plusieurs fois. 2. Estimer le paramètre α recherché à partir de ces N valeurs. 3. Recommencer l opération un grand nombre de fois. 4. En déduire la valeur moyenne de α et sa distribution. La méthode dujackknife 3 est plus ancienne que celle du bootstrap. On s en sert pour réduire le biais d un estimateur en présence d un petit échantillon. Soit un échantillon de N observations. Il faut alors 1. Commencer par estimer le paramètre α à partir de l échantillon entier. Appelons-le ˆα. 2. Prendre N 1 valeurs de cet échantillon et estimer le paramètre α recherché. 3. Répéter cette opération en excluant successivement la première, la seconde, etc. jusqu à la dernière valeur de l échantillon. On obtient donc un ensemble de N estimations partielles de α : { ˆα 1, ˆα 2,..., ˆα N }. 4. Il faut ensuite leur apporter une correction ˆα i = N ˆα (N 1) ˆα i 5. La valeur moyenne ˆα = 1 N N ˆα i constitue alors un estimateur non biaisé du paramètre α. 2. littéralement : se hisser en tirant sur ses lacets. 3. littéralement : couteau suisse 3

31 6.7 Pourquoi moyenner? Les résultats ci-dessus ont des conséquences importantes sur la stratégie à adopter pour améliorer un résultat. Nous savons intuitivement que pour améliorer la précision d un résultat, il vaut mieux répéter les mesures plusieurs fois dans les mêmes conditions puis moyenner. Supposons que cette moyenne soit effectuée sur N mesures x N = f (x 1, x 2,..., x N ) = 1 N (x 1+ x x N ) Comme les mesures ont été effectuées dans les mêmes conditions, elles ont a priori la même incertitude σ x. La moyenne x N est elle aussi une variable aléatoire dont l incertitude σ x N vaut σ x N = σ x N Pour réduire l incertitude d un facteur 1, il faut donc moyenner sur 1 valeurs. Exemple : Huit mesures successives de la masse atomique du méthane, effectuées dans les mêmes conditions et avec le même spectromètre de masse, ont donné les valeurs [15.942, , 16.9, , 16.99, , , ]. La masse moyenne vaut M = [u.a.]. L espérance de la masse vaut par définition µ M = 16 [u.a.]. 1 L écart-type de la masse est s M = N 1 (Mi M) 2 =.1665 [u.a.]. L incertitude sur une mesure particulière de la masse vaut donc s M =.17 [u.a.]. Notez qu on utilise ici l estimateur non-biaisé de l écart-type pour un échantillon. L incertitude sur la masse atomique moyenne est forcément plus petite. Son expression est s M = s M / 8 =.589 [u.a.]. On dira dès lors que la masse moyenne vaut M = ±.6 [u.a.]. Dans l exemple ci-dessus, nous avons supposé que les N mesures avaient toutes la même incertitude. Si ce n est pas le cas, alors on est naturellement amené à pondérer les valeurs. Exemple : Deux mesures successives d une concentration donnent comme résultat c 1 c 2 = 27±4 cm 3 = 23±2 cm 3 Un calcul direct donne c =25.±2.2 cm 3. L incertitude sur la moyenne est supérieure à celle de c 2! Posons c =a 1 c 1 + a 2 c 2 avec a 1 + a 2 = 1. La valeur de a 1 et de a 2 qui minimise l incertitude sur c est a 1 = σ 2 c 2 σ 2 c 1 + σ 2 c 2 et a 2 = σ 2 c 1 σ 2 c 1 + σ 2 c 2 soit a 1 = 1/5 et a 2 = 4/5, ce qui donne c = 23.8±1.8 cm 3. L incertitude de la moyenne est plus petite que l incertitude de chacune des mesures, conformément à ce qu on attend de l opération. 31

32 7 Tests d hypothèse La diffusion de résultats scientifiques est souvent source de de malentendus : les résultats scientifiques sont souvent de nature probabiliste, alors que le public attend des réponses tranchées, de type vrai ou faux. L avis sera donc généralement exprimé sous la forme d un test d hypothèse. Même si cela donne un caractère plus tranché au résultat, ce dernier restera toujours probabiliste. Un test d hypothèse permet de trancher entre deux hypothèses au vu des résultats d un échantillon. Ces hypothèses portent généralement sur des estimations (valeur de la moyenne, égalité de variances, nature d une loi de probabilité,... ). Soient H et H 1 ces deux hypothèses, dont une et une seule est vraie. La décision aboutira à choisir H ou H 1. Il y a donc 4 cas possibles, dont les probabilités sont H vraie H 1 vraie H décidée 1 α β H 1 décidée α 1 β α est la probabilité de décider H 1 alors que H est vraie. β est la probabilité de décider H alors que H 1 est vraie. On appelle encore α le niveau de confiance (ou niveau de signification). Plus sa valeur est faible, plus β sera grand. Dans la pratique, on fixe une faible valeur de α (typiquement.5,.1 ou.1) et on se concentre sur le rejet de l hypothèse H, appelée l hypothèse nulle. On dira que le degré de confiance à accorder au rejet de H est 1 α (en %). Si on impose une trop faible valeur de α alors la règle de décision devient si stricte que l hypothèse H ne sera jamais rejetée. A l inverse, le test sera dénué d intérêt si α est trop grand. Il existe deux types de tests (cf. figure 15) 1. le test unilatéral s applique quand on cherche à savoir si une estimation est soit inférieure soit supérieure à une valeur donnée. La probabilité vaut par exemple Prob(X x 1 α )= x1 α p(x) d x = 1 α ou Prob(X > x 1 α )=α 2. le test bilatéral s applique quand on cherche à savoir si une estimation s écarte d une valeur donnée (vers le haut ou vers le bas). On a par exemple x1 α Prob(x α < X x 2 1 α )= 2 p(x) d x = 1 α 2 Exemple : On dispose d un échantillon de n valeurs distribués selon une loi normale, dont on connaît la moyenne x ainsi que l écart-type s. On veut savoir si l espérance de la population vaut µ (inconnue). L hypothèse H consiste à supposer que x = µ. Cette hypothèse sera rejetée si x µ. Plus exactement, elle sera rejetée si x µ < seuil. C est donc un test bilatéral qu il nous faut. Fixons un niveau de confiance α=.5. D après le théorème de la limite centrale, x est distribué selon une loi normale d espérance µ et d écart-type s/ n. Par conséquent, la variable standardisée z = ( x µ)/(s/ n) est distribuée selon une loi normale N (,1). On a z1 α Prob(z α < Z z 2 1 α )= 2 p(z) d z = 1 α =.95 2 z α 2 32 x α 2

33 .4.3 Test unilateral p(x) α α x x 1 α.4.3 Test bilateral p(x).2.1 α/2 1 α α/ x 1 α/2 x x 1 α/2 FIGURE 15 Test unilatéral (en haut) et test bilatéral (en bas). Dans ce dernier, les deux intervalles extrêmes ont toujours la même aire. La loi de probabilité p(z) étant connue, on trouve les bornes d intégration symétriques z α = 1.96 et z 2 1 α = L hypothèse H doit donc être rejetée si l on n a 2 pas 1.96< z = x µ s/ n 1.96 ce qui conduit à x 1.96s n µ< x+ 1.96s n On dira encore que l intervalle de confiance à 95 % pour la moyenne x est donné par x± 1.96 s n. L hypothèse H sera rejetée si la valeur présumée de µ tombe endehors de cet intervalle. Dans l exemple ci-dessus, si on avait voulu obtenir une certitude, alors il aurait fallu poser α = 1. Cela aurait conduit au résultat inexploitable (car toujours vrai) x < +. A l inverse, si on peut se contenter d un niveau de confiance α plus faible, alors l intervalle de confiance se rétrécit. Le choix du niveau de confiance est donc important. C est lui qui reflétera in fine le caractère probabiliste du résultat. Exemple : L alimentation d un circuit électronique sensible comprend à son entrée une protection contre les surtensions. Ces dernières peuvent provenir d impacts de foudre ou de pics inductifs générés par des appareils situés à proximité. Nous voulons savoir si ces tensions risquent de dépasser une valeur seuil. Il nous faut ici un test unilatéral. Soit α=.1, le niveau de confiance. La tolérance ou probabilité d avoir une tension qui dépasse la valeur seuil U s du circuit vaut donc.1 ; H est l hypothèse selon laquelle le circuit ne subit pas de dommages. 33

34 Si on veut une tolérance plus faible (α<.1), alors il faudra nécessairement relever le seuil, i.e. avoir une alimentation qui supporte des surtensions plus élevées. Prendre une tolérance nulle (α=) revient à prendre un seuil de tension U s si élevé que jamais l appareil ne sera affecté par une surtension. En pratique, le constructeur doit trouver un bon compromis entre la résilience de son alimentation et son coût de construction. 7.1 Etapes du test d hypothèse L application d un test d hypothèse nécessite une formulation précise du problème, avec une démarche qui comprend plusieurs étapes : 1. Définir l hypothèse H. Il est important que celle-ci soit réaliste. 2. Fixer le niveau de confiance <α 1. Les valeurs les plus courantes sont.5,.1 et Déterminer la quantité à étudier (dans l exemple ci-dessus, c est la variable z). Doit-on comparer des moyennes, prendre le rapport de variances,...? 4. Déterminer la distribution de la variable z (dans l exemple ci-dessus, c est une loi normale). 5. Calculer l intervalle de confiance ; pour un test bilatéral, on a [z α 2, z 1 α 2 ]. Le tableau 1 donne quelques intervalles de confiance courants. Loi de Student Le tableau 1 fait apparaître une nouvelle loi, dite loi de Student T [ν] à ν degrés de liberté. Lorsqu on compare deux variables normales issues de petits échantillons (typiquement n < 3) dont les écarts-type ne sont pas connus, alors la loi normale ne convient plus. Il faut appliquer un facteur correctif, ce qui conduit à la loi de Student ou t distribution, qui s en approche d autant plus que n est grand. La loi de Student, contrairement à la loi normale, admet deux paramètres : la variable x et le nombre de degrés de liberté ν. Ce dernier sera pris égal à n 1 si la moyenne ou l écart-type de l échantillon doivent être estimés ; il sera égal n 2 si les deux doivent être estimés à la fois. 7.2 Test du χ 2 Le test du χ 2 est très couramment utilisé pour déterminer si un échantillon est issu d une population donnée. On s en sert notamment pour tester si un modèle obéit aux observations. Considérons un échantillon de taille k dont chacune des valeurs x i (supposées indépendantes) est issue d une population distribuée selon une loi normale N (µ,σ 2 ). L hypothèse nulle H est : l échantillon observé est issu de cette population. Chaque variable x i suit une loi normale N (µ,σ 2 ). Il est souhaitable de standardiser toutes les variables x (x µ)/σ afin qu elles suivent toutes la même loi normale N (, 1). Dans ce cas, la variable aléatoire k k ζ= z 2 (x i µ) 2 i = 34 σ 2

35 TABLE 1 Quelques intervalles de confiance courants ; s désigne l écart-type estimé à partir d un échantillon, alors que σ est la valeur issue de la population. De même, x est la moyenne de l échantillon et µ l espérance de la population. Ici, U désigne une variable aléatoire distribuée selon une loi normale N (,1), T [ν] est une variable aléatoire distribuée selon un loi de Student à ν degrés de liberté (voir ci-dessous) et χ 2 [ν] est une variable aléatoire distribuée selon une loi du χ 2 à ν degrés de liberté. Paramètre de la population parente à estimer Paramètres connus Loi de probabilité µ σ, x normale Intervalle de confiance (au niveau α) pour le paramètre à estimer x± σ n u 1 α 2 µ s, x normale s x± t 1 α [n 1] n 1 2 σ s normale s± s 2n u 1 α 2 si n 1 p probabilité d un événement ˆp = n N où n est le nombre d observations binomiale ˆp± ˆp(1 ˆp) n u 1 α 2 si n 1 λ nombre d observations k Poisson 1 2 χ2 α 2 [2k] λ< 1 2 χ2 1 α [2k+ 2] 2 35

36 TABLE 2 Quelques valeurs caractéristiques de la loi de Student à ν degrés de liberté pour le rejet d un hypothèse avec un seuil α. Pour ν, ces seuils convergent vers ceux d une loi normale. test bilatéral test unilatéral ν α=.5 α=.1 α=.5 α= suit une loi du χ 2 à ν degrés de liberté. L hypothèse H sera rejetée au niveau α si ζ > χ 2 1 α [ν] Il s agit ici d un test unilatéral. Le nombre de degrés de liberté ν est égal à l effectif k de la population moins le nombre de paramètres qu il a fallu estimer pour ajuster la loi normale aux observations. Si le paramètre à estimer est uniquement σ 2, alors ν = k 1. Si µ et σ 2 doivent être estimés, alors ν=k 2. Des valeurs de χ 2 1 α [ν] sont données dans la table 3. Le test du χ 2 reste valable si les variables sont issues de lois normales d espérances et/ou de variances différentes. Il faudra cependant calculer k ζ= z 2 i = k (x i µ i ) 2 σ 2 i intensite I 1 I 2 I canal canal FIGURE 16 Spectres d absorption de deux échantillons (à gauche) et la différence des intensités (à droite). Les barres d erreur correspondent à±1 écart-type. 36

37 TABLE 3 Valeurs seuil d une distribution de χ 2 pour ν degrés de liberté et pour un niveau de confiance α. α ν

38 Exemple : La figure 16 montre deux spectres d absorption de l atmosphère, obtenus dans des conditions voisines et qui se ressemblent beaucoup. Les intensités I 1 et I 2 proviennent d un spectromètre à 22 canaux, numérotés de 1 à 22. L erreur sur les intensités est connue. Peut-on conclure ici que les deux échantillons sont différents (i.e. ils ont des spectres différents)? Il est impossible de répondre à cette question sans connaître l incertitude des mesures, qui est donc une donnée obligatoire. Notre hypothèse nulle est : les deux échantillons possèdent le même spectre d émission. Le niveau de confiance est fixé à.5. On peut effectuer plusieurs types de tests : 1. Soit on détermine pour chaque canal, si l écart I = I 1 I 2 s écarte de manière significative de la valeur nulle. Il faut pour cela un test bilatéral. Pour un niveau de confiance α=.5, cela revient à vérifier si 1.96< I σ I 1.96 Tous les canaux sauf les numéros 6, 7, 12, 13 et 19 vérifient cette inégalité. On peut donc conclure que l hypothèse H l écart I est nul est vérifiée pour la plupart des canaux. 2. Dans notre cas, c est davantage l accord général entre les deux spectres qui nous intéresse. On préférera au test précédent un test du χ 2 unilatéral. La variable z = I σ I est distribuée selon une loi normale N (,1). Par conséquent, ζ= 22 z2 suit i une loi du χ 2 [ν] à ν=22 degrés de liberté 4. Il faut auparavant déterminer σ I. Or, sachant que I = I 1 I 2, par propagation d erreurs on a σ 2 I = σ2 I 1 + σ 2 I 2. Pour l exemple donné dans la figure 16, nous obtenons ζ=54.88 > χ 2 1 α [ν]= L hypothèse nulle doit donc être rejetée avec un niveau de confiance α=.5. Il n y a pas de contradiction entre les résultats 1) et 2), car ils répondent à des questions différentes. Cet exemple révèle ainsi l importance de la formulation du problème. Test du χ 2 pour des classes On utilise fréquemment le test du χ 2 en présence d un échantillon dont les éléments sont répartis dans k classes. Appelons o i l effectif de chaque classe. Si les éléments sont indépendants, alors chaque effectif suit une loi de Poisson d espérance λ i = e i et d écart-type σ i = e i. Par conséquent, si o i 1, la nouvelle variable z i = o i e i ei suivra une loi normale N (,1). La quantité k k ζ= z 2 (o i e i ) 2 i = suit alors une loi du χ 2 à ν degrés de liberté. Comme ci-dessus, on réduira le nombre de degrés de liberté d une unité pour chaque paramètre estimé. 4. Le nombre de degrés de liberté est ici égal au nombre de variables, car il n a point été nécessaire d estimer l espérance ou la variance de z à partir des données. e i 38

39 Exemple : Pendant un an, on a recensé 143 défaillances mineures dans un réacteur chimique. L effectif est connu pour chaque jour. On aimerait savoir s il se produit davantage de défaillances certains jours de la semaine, comme par exemple le lundi, après de la mise en route du réacteur. L hypothèse nulle est ici : le nombre de défaillances ne dépend pas du jour de la semaine. Cela revient à supposer que l effectif reste constant, à savoir e i = 123/5= Il faut comparer les effectifs donnés dans le tableau suivant lundi mardi mercredi jeudi vendredi o i e i Le nombre de degrés de liberté vaut ν=5 1=4. Le niveau de confiance étant fixé à α=.1, on a 5 (o i e i ) 2 e i = 8.71 < χ 2 ν=4 = 13.3 L hypothèse H ne peut donc pas être rejetée avec un niveau de confiance α =.1. Autrement dit, le réacteur se comporte de la même façon, quel que soit le jour de la semaine. Si on fixe un niveau de confiance moins contraignant à α =.1, cela donne χ 2 ν=4 = 7.78 et l hypothèse doit alors au contraire être rejetée. Cet exemple illustre bien l importance du choix du niveau de confiance dans le rendu d un résultat. 7.3 Calculer les seuils avec Scilab Le logiciel Scilab dispose de plusieurs routines, dont la syntaxe compacte permet de calculer le niveau de confiance en fonction du seuil, ou inversement. 39

40 [P,Q] = cdfnor("pq",x,mu,sigma) calcule pour une loi normale N (µ,σ 2 ), la probabilité P = x p(y)d y, connaissant le seuil x. On a Q = 1 P. x = cdfnor("x",mu,sigma,p,q) calcule pour une loi normale N (µ,σ 2 ), la valeur seuil x telle que P = x p(y)d y. Il faut spécifier Q = 1 P. mu = cdfnor("mean",sigma,p,q,x) calcule pour une loi normale N (µ,σ 2 ), la moyenne µ telle que P = x p(y)d y. Il faut spécifier Q = 1 P. [P,Q] = cdfchi("pq",x,nu) calcule pour une loi du χ 2 [ν] l intégrale P = x p(y)d y, connaissant x. La probabilité Q = 1 P est habituellement interprétée comme étant le niveau de confiance α. x = cdfchi("x",nu,p,q) calcule pour une loi du χ 2 [ν] le seuil x tel que P = x p(y)d y. On a Q = 1 P. nu = cdfchi("df",p,q,x) calcule pour une loi du χ 2 le nombre ν de degrés de liberté nécessaire pour avoir P = x p(y)d y. On a Q = 1 P. [P,Q] = cdfpoi("pq",s,lambda) calcule pour une loi de Poisson P (λ), la probabilité P = i s p i, connaissant le seuil entier s. On a Q = 1 P. 4

41 8 Tests de stationnarité Beaucoup de résultats scientifiques s obtiennent sous forme de séries temporelles. Nombreux sont les outils en traitement du signal (comme par exemple la transformée de Fourier) pour lesquels la stationnarité des processus étudiés est une hypothèse de travail essentielle. Or la stationnarité est une propriété qui n est que rarement vérifiée dans la pratique. Il est donc important de savoir déterminer si une série temporelle l est ou non. Un processus X (t) est dit stationnaire au sens strict si la densité de probabilité conjointe p ( X (t 1 ), X (t 2 ),..., X (t n ) ) est la même que p ( X (t 1 +τ), X (t 2 +τ),..., X (t n +τ) ), quelles que soient les valeurs de t i et de τ. En d autres termes, les propriétés statistiques doivent être indépendantes de l intervalle sur lequel on travaille. Cette définition est impossible à appliquer dans la pratique. On se contentera donc souvent de vérifier la stationnarité du premier ordre : l espérance E (X ) et la variance σ 2 X ne doivent pas dépendre de l intervalle choisi. Visuellement, cela correspond à une série temporelle dont les caractéristiques ne varient pas "sensiblement" au cours du temps. Un test simple consiste dès lors à diviser la série temporelle en des intervalles égaux, à calculer la moyenne x i et l écart-type σ 2 pour chacun puis à vérifier si la variation de i ces dernières est compatibles avec une hypothèse de stationnarité. Quelle longueur d intervalle faut-il choisir? 4 (1) 5 (2) 2 x(t) x(t) (3) (4) x(t) 5 x(t) (5) (6) x(t) x(t) FIGURE 17 Quelques exemples de séries temporelles. La série (1) est stationnaire. Les séries (2) et (3) ne le sont clairement pas. Qu en est-il des trois autres? La figure 17 montre que la stationnarité est une notion difficile à quantifier dans la pratique. 41

42 On se contentera donc de faire des tests approximatifs. Parmi ceux-ci, letest de run a l avantage d être simple, à défaut d être précis. 8.1 Test de run On dispose d une série temporelle [x 1, x 2,..., x N ], dont la valeur médiane (et non la moyenne) est m x. Remplaçons chaque valeur de x par+si x m x et par sinon. On obtient alors une succession du genre etc. Un run est défini comme une suite de signes identiques. Ici, le premier run est+ + +, suivi de, puis de++, etc. Soient N + le nombre de runs comprenant des + et N le nombre de runs comprenant des. On peut montrer que pour un processus stationnaire, le nombre total r de runs obtenus suit une loi normale de moyenne et de variance qui sont respectivement µ r = 2N +N N + 1 et σ 2 r = 2N +N (2N + N N) N 2 (N 1) où N est le nombre d échantillons. Il suffit ensuite de calculer avec quelle probabilité le nombre r de runs observés tombe dans l intervalle Prob(a < r b). Cela revient donc à faire un test d hypothèse. Ce test a cependant une particularité : r doit être un nombre entier et on ne peut donc appliquer telle quelle la loi normale. Une table des valeurs est requise ici. Exemple : Considérons la séquence x=[5.5, 5.1, 5.7, 5.2, 4.8, 5.7, 5., 6.5, 5.4, 5.8, 6.8, 6.6, 4.9, 5.4, 5.9, 5.4, 6.8, 5.8, 6.9, 5.5], dont la médiane est m x = 5.6. Cela donne la suite avec N = 2, N + = 6 et N = 7. On en tire que r = 5.2 et σ 2 r =.71. Fixons le niveau de confiance à α =.5. D après les tables numériques, avec une probabilité de.95, la valeur de r doit se trouver dans l intervalle [6<r 15]. Comme nous avons r = 13, il est fort probable que la série soit stationnaire. L hypothèse de nonstationnarité doit donc être rejetée avec un niveau de confiance de 5 %. 42

43 43

44 9 Régression affine et ajustement de courbes La figure 18 illustre une chute de température relevée par un thermocouple dans un caisson à plasma. On peut légitimement supposer que la suite de points traduit une diminution progressive de la température, à laquelle viennent se superposer des fluctuations dues au dispositif de mesure ou aux propriétés du milieu. Nous admettrons donc qu il existe une relation sous-jacente T = T (t) qui est une fonction régulière de t. Le travail du physicien consiste à 1. proposer un tel modèle 2. l ajuster ce modèle aux mesures 3. interpréter les paramètres de ce modèle 6 5 T [C] t [h] FIGURE 18 Exemple de variation de la température dans un caisson (points), avec ajustement d une droite et d une exponentielle décroissante. La première étape est de loin la plus importante et nécessite une connaissance du phénomène. Nous nous concentrons ici sur la seconde étape, appelée régression (ou ajustement). La figure 18 suggère l existence d une relation linéaire T (t) = at + b. Il est cependant aussi possible que la relaxation obéisse à une loi exponentielle T (t) = a+ b exp( t/τ). Ces deux modèles ont ici la même allure mais conduisent à des états finaux très différents. Dans l immédiat, c est l estimation des paramètres a, b, τ,... qui nous intéresse. 9.1 Max de vraisemblance et moindres carrés Dans la majorité des cas, on cherche à établir une correspondance entre N points de mesure {x i } et N valeurs correspondantes {y i }. On supposera pour commencer que les deux quantités sont liées par un modèle linéaire y = f (x)=ax+ b. Nous supposerons aussi que les abscisses x i sont connues exactement, mais non les ordonnées : chaque y i est une variable aléatoire distribuée selon une loi normale d espérance y i et d écart-type (connu) σ i. De plus, les erreurs sur les abscisses sont supposées indépendantes. Ces hypothèses facilitent beaucoup le développement théorique qui suit, mais il est rare qu elles soient pleinement remplies dans la pratique. 44

45 La probabilité que la i-ième ordonnée se situe dans un intervalle infinitésimal de largeur d y, centré sur y, vaut alors ( ) 1 p i (y) d y = exp (y y i ) 2 2πσ 2 2σ 2 d y i i La probabilité que la droite d équation y = ax + b passe dans cet intervalle vaut ( ) 1 p i (y = ax+ b) d y = exp (ax i + b y i ) 2 2πσ 2 2σ 2 d y i i La probabilité que la même droite passe ainsi à proximité de chacun des N couples de points devient p tot d y = = = N p i d y ( ) N 1 exp (ax i + b y i ) 2 2πσ 2 2σ 2 d y i i [ ( )] N 1 exp 1 N (ax k + b y k ) 2 2πσ 2 2 k=1 σ 2 d y i k On peut dès lors postuler que la droite la plus vraisemblable est celle dont les coefficients (a,b) maximisent la valeur de p tot. Cette solution, dite du maximum de vraisemblance est couramment utilisée en statistique. Il n est pas très aisé de maximiser p tot. Notons en revanche que si p tot présente un maximum, alors log p tot possède un maximum pour les mêmes valeurs de a et de b. Prenons donc le logarithme log p tot = N log p i i N = log2π 2 i logσ 1 ( N axi + b y i 2 σ i ) 2 Les deux premiers termes sur la droite sont des constantes, seul le troisième dépend de a et de b. La droite de régression recherchée est donc celle qui minimise l écart quadratique Notons que : J(a,b)= ( N axi + b y i La droite de maximum de vraisemblance est celle qui passe au plus près de chacune des ordonnées. la droite recherchée minimise la somme des écarts au carré et non leur valeur absolue ( ax i + b y i ) comme on aurait pu le penser. C est pour cette raison que la méthode associée porte le nom de méthode des moindres carrés. 45 σ i ) 2

46 dans la somme à minimiser, chaque écart est pondéré par l écart-type σ i des ordonnées, que l on remplace généralement par la valeur de l incertitude. Une ordonnée de faible incertitude (σ i petit) contribuera davantage au terme d erreur J et la droite de régression aura donc tendance à en tenir davantage compte. Au contraire, si l incertitude est très grande (σ i ), le point associé ne sera guère pris en compte dans l ajustement. Dans la pratique, il arrive fréquemment que les incertitudes ne soient pas connues. Dans ce cas, et sans perte de généralité, on posera σ i = 1. La somme des écarts quadratiques se réduit alors à N ( ) 2 J(a,b)= axi + b y i (1) La solution (a, b) qui minimise cet écart J satisfait J a J b N = ( ) 2x i axi + b y i = N = 2 ( ) ax i + b y i = On gagne à exprimer ceci sous forme matricielle ( N N x2 i x )( ) i a N x = i N b ( N x i y i N y i ) (2) En divisant tout par N, on obtient une expression encore plus simple ( x 2 )( ) ( ) x a x y = x 1 b y La solution (a,b) de ce système linéaire est unique, à condition que le déterminant de la matrice soit non-nul. Or un déterminant non-nul signifie = x 2 x x = σ 2 x L interprétation est simple : il faut des points d abscisses différentes pour pouvoir déterminer la droite de régression. Il nous reste à vérifier que la solution (a,b) correspond bien à un minimum et non à un maximum. Un calcul de la dérivée seconde de J permet aisément de vérifier que 2 J et que 2 J. a 2 b 2 La pente de la droite de régression et l ordonnée à l origine valent donc respectivement a b = x y x y x 2 x x = x2 y x y x x 2 x x Dans le cas où les écarts-type σ i sont connus et différents de 1, l équation 2 devient N x 2 N i x i N x i y i σ 2 i σ 2 ( ) i a N x i N 1 = σ 2 i b N y i σ 2 i σ 2 i σ 2 i (3) 46

47 Les solutions de ce système sont du même type que celles de (2), mais leur expression est plus complexe E BD C D BE a= b= σ 2 N N i avec w i = N B = w i x i C = w i x 2 k=1 σ 2 i k N N et D = w i y i E = w i x i y i = C B 2 (4) 9.2 Résolution avec Scilab Le problème de la régression d une droite peut s écrire y 1 y 2 y N = a x 1 + b = a x 2 + b. = a x N + b Il s agit généralement d un problème sur-déterminé, puisque le nombre N d équations dépasse le nombre d inconnues, qui est de 2. Cela signifie qu il n existe pas forcément de solution exacte du système. On peut en revanche chercher la solution la plus vraisemblable. Les N équations ci-dessus peuvent se mettre sous forme matricielle avec A= x 1 1 x x N 1, c= Ac=y (5) ( a b ), y= On pourrait être tenté de résoudre le systèmeac=y simplement en inversant la matricea, ce qui donne c=a 1 y mais cette expression est fausse en général car la matrice A n est pas forcément carrée. Pour résoudre le problème, on multiplie d abord le système (5) à gauche par la transposéea T dea, ce qui donne A T Ac=A T y (6) La matrice A T A est carrée, et peut donc être inversée si son déterminant n est pas nul. En détaillant le contenu dea, l équation 6 devient ( N N x2 i x )( ) ( i a N N x = x ) i y i i N b N y (7) i Cette équation est exactement la même que celle (éq. 2) obtenue plus haut par le calcul direct. Nous savons donc que la solutionc y 1 y 2. y N c= ( A T A ) 1 A T y (8) 47

48 coïncide avec la solution obtenue par maximisation de la vraisemblance. On s aperçoit ici qu une régression par moindres carrés ne possède de solution que si le nombre de points de mesure indépendants dépasse le nombre d inconnues : N > M. Lorsqu il y a égalité, la matriceadevient carrée et la solution passe exactement par tous les points. S il n a pas égalité, la matricea devient rectangulaire et la solution est celle qui passe au mieux par tous les points. Dans le cas où les données sont additionnées de bruit, il est souhaitable d avoir N M pour contraindre la régression à extraire au mieux la relation sous-jacente. Dans Scilab, la solutionc peut se calculer de deux façons différentes. Soit on la détermine à partir de l équation 8 ci-dessus, c = inv(a *A)*A *y; soit on utilise une notation plus compacte, qui est propre à Scilab et à Matlab, selon laquelle c = A \ y; Cette notation compacte est fausse d un point de vue mathématique car l opérateur\ n existe pas. Elle exprime une division du vecteur y à partir de la gauche par la matrice A. Les deux commandes Scilab ci-dessus donnent le même résultat, mais la seconde est numériquement plus précise. La procédure pour résoudre en Scilab un système linéaire par la méthode des moindres carrés se résume donc à 5 Soit { y i = ax i + b },...,N, un système de N équations à résoudre en a et en b. Il faut que N 2, sinon le système est sous-déterminé. On enregistre d abord les données dans deux vecteurs colonne. Par exemple --> x = [62; 257; 64; 91]; --> y = [.337;.168;.78;.9]; On construit ensuite la matricea, puis on résout le système linéaire --> N = length(x); --> A = [x(:) ones(n,1)]; --> y = y(:); --> c = A \ y; sachant quec=(a,b) T. Pour calculer l estimation deŷdeypar la méthode des moindres carrés, et pour comparer les résultats, il suffit de poser --> yfit = A*c; --> xbasc(); --> plot2d(x, [y yfit], style=[-6 1]) 5. la commande(:) permet ici de s assurer que les vecteurs apparaissent sous forme de vecteur colonne. 48

49 9.3 Validation de la droite de régression Si la méthode des moindres carrés fournit toujours une estimation des coefficients de la droite de régression, rien en revanche ne garantit que le résultat ait un sens. Ainsi, la droite illustrée dans la figure 19 est totalement dénuée de sens. Il nous reste donc une dernière étape indispensable, qui est la validation du modèle obtenu. 1 ρ= y x FIGURE 19 Un ensemble de 15 couples (x, y) répartis aléatoirement entre et 1, avec la droite de régression obtenue par la méthode des moindres carrés. Celle-ci est bien définie mais n a strictement aucun sens. Validation par le calcul du coefficient de corrélation La validation peut se faire de plusieurs façons. La première et aussi la plus courante consiste à estimer lecoefficient de corrélation linéaire (ou coefficient de Pearson) ρ x y. Ce coefficient dit dans quelle mesure les couples de points (x i, y i ) sont liés par une relation linéaire y i = ax i + b, quels que soient les paramètres a et b. Sa définition est ρ x y = σ x y σ x σ y où la quantité σ x y = (x x )(y y ) = x y x y est appelée covariance (notez la similitude avec la définition de la variance). Pour un échantillon de N couples de points (x i, y i ), l estimateur de la covariance est σ x y = 1 N N (x k x )(y k y ) k=1 Contrairement à la variance, qui est toujours positive, la covariance peut être négative. Elle est nulle lorsque les valeurs de x et de y ne sont pas corrélées. Sa définition est basée sur des estimateurs biaisés de la variance et de la covariance (avec N et non N 1 au dénominateur). 49

50 Le coefficient de corrélation est une quantité bornée 1 ρ x y 1 Si tous les points (x i, y i ) sont parfaitement alignés, alors ρ x y = 1 (si a > ) ou ρ x y = 1 (si a < ). Au contraire, ρ x y signifie qu il n y a pas de relation linéaire immédiate entre les points. Des valeurs intermédiaires signifient que x et y sont corrélées, sans qu il y ait de relation linéaire forte entre les deux. Le coefficient de corrélation linéaire quantifie donc la qualité d ajustement de la droite. y y ρ=1 2 2 x ρ= 2 2 x ρ= x ρ= x FIGURE 2 Quatre échantillons, pour lesquels le coefficient de corrélation vaut respectivement (de gauche à droite et de haut en bas) ρ x y =1,.9, et -.4. En règle générale, il est déconseillé d ajuster une droite à une série de points lorsque le coefficient de corrélation linéaire vaut ρ x y <.7. Dans Scilab, la fonction de corrélation linéaire peut être estimée à partir de la routine corr, laquelle sert à calculer la fonction de covariance. Il faut cependant prendre garde au fait que Scilab utilise l estimateur non-biaisé de l écart-type alors qu ici c est l estimateur biaisé qui est requis. Une fonction qui calcule la corrélation entre les variables x et y pourrait s écrire 5

51 function [c] = correl(x,y) N = length(x); if N~=length(y), error( ** x et y doivent etre de meme taille ** ); end x = x-mean(x); y = y-mean(y); x = x/sqrt(x *x/n); y = y/sqrt(y *y/n); c = corr(x,y,1); enfunction // centrer x // centrer y // reduire x // reduire y Validation par les intervalles de confiance Une meilleure stratégie de validation consiste à estimer les intervalles de confiance des paramètres de la droite de régression. Le calcul, simple mais long, se fait à partir des lois de propagation des erreurs. Soient (x i, y i ) les N couples de points ; les écarts-type sur la valeur des ordonnées sont notés σ i. Les écarts-type sur les paramètres de la droite de régression y = ax + b constituent alors une estimation de l erreur commise sur la détermination de ces paramètres. Ces écarts-type sont F FC 1 σ a = σ b = où F = N k=1 σ 2 k dont les différents termes sont définis dans l équation 4. Dans le cas fréquent où les incertitudes sur les mesures ne sont pas connues, on pose σ i = 1, ce qui donne (cf. équation 4) x σ a = σ b = N N σ 2 x Notez que σ a et σ b diminuent quand la taille de l échantillon augmente. Cela ne veut pas dire que le modèle s améliore, mais que ses paramètres sont mieux contraints. Il arrive fréquemment que l erreur σ i sur les ordonnées ne soit pas connue a priori. Si le modèle linéaire décrit correctement les données et si les couples de points sont tous indépendants, alors il est possible d estimer cette erreur à partir de l écart entre la droite de régression et les observations σ 2 s2 = 1 N ( ) 2 axi + b y i (9) N 2 Le facteur N 2 provient du fait que deux coefficients du modèle (a et b) ont du être estimés. Il faut être très prudent avec cette façon d estimer l erreur, car pour que l équation 9 soit valable, il faut être sûr que les hypothèses (modèle exact et mesures indépendantes) soit vérifiées. De la même façon, on peut calculer l erreur σ d sur la droite de régression au point d abscisse u. Cette erreur vaut, dans le cas où toutes les erreurs σ i = σ sont les mêmes σ d = σ 1+ (u x N ) 2 N x 2 N x 2 N où σ est défini en (9). Notons que cette erreur est minimale pour le point d abscisse u= x N et s évase de part et d autre de la moyenne. Ceci est illustré dans la figure σ 2 x

52 1.4 a= b= y x FIGURE 21 Exemple d ajustement d une droite de régression (en traitillé), avec un intervalle de confiance correspondant à±un écart-type. Le nombre de couples de points est N = 1. Validation par un test du χ 2 Une troisième stratégie de validation consiste à effectuer un test du χ 2 (cf. section 7.2). Connaissant les ordonnées ŷ i = ax i + b prédites par la droite de régression ainsi que les ordonnées mesurées y i avec leur écart-type σ i, on sait que la variable ζ= ( N ŷi y i suit une loi du χ 2 à ν = N 2 degrés de liberté. On peut dès lors tester l hypothèse selon laquelle la droite de régression décrit correctement le nuage de points. Dans l exemple ci-dessus de la figure 21 et pour un seuil de confiance α=.5, on trouve σ i ) 2 ζ=16.2 > χ 2 1 α [ν=8]=15.5 et l hypothèse est donc rejetée de peu. Notons qu il est essentiel d avoir une bonne estimation de l erreur σ i des mesurer pour appliquer un tel test du χ Régression de fonctions affines La méthode des moindres carrés se généralise aisément à la décomposition d une suite de valeurs y en combinaison linéaire de fonctions connues. La décomposition y(x)= M c k f k (x) k=1 52

53 conduit directement au problème matriciel f 1 (x 1 ) f 2 (x 1 ) f M (x 1 ) f 1 (x 2 ) f 2 (x 2 ) f M (x 2 ).... f 1 (x N 1 ) f 2 (x N 1 ) f M (x N 1 ) f 1 (x N ) f 2 (x N ) f M (x N ) c 1 c 2. c M = y 1 y 2. y N 1 y N (1) qu il suffit de résoudre comme pour l exemple ci-dessus. Exemple : Dans une expérience laser, on soupçonne les mesures de luminosité d être modulées par le scintillement à f = 5 Hz causé par l éclairage à tubes fluorescents. On décide alors de se placer dans les conditions où l intensité du faisceau laser est aussi constante que possible, puis de mesurer N couples {y i, t i }, où y i est la luminosité et t i l instant de la mesure. Essayons la régression y(t)=c 1 sin(ωt)+c 2 cos(ωt)+c 3 (11) où ω = 2πf est connu. Avec Scilab, si les variables y et t sont respectivement stockées dans les vecteurs colonney ett, cela donne --> N = length(y); --> omega = 2 * %pi * 5; --> A = [sin(omega*t) cos(omega*t) ones(n,1)]; --> c = A \ y; --> yest = A*c; --> c c = > amplitude = sqrt(c(1)*c(1) + c(2)*c(2)) amplitude = > phase = atan(c(1),c(2)) phase = > rho = correl(x,y) rho = L amplitude de la modulation vaut.15, à comparer avec le niveau de fond, qui vaut.81. On en déduit que le scintillement représente environ 18 % du signal de fond, ce qui est considérable. La valeur de la corrélation (.76) entre les mesures et le modèle suggère que ce dernier décrit relativement bien les observations. Ceci est confirmé visuellement par la figure 22. On peut a priori ajuster n importe quelle combinaison de fonctions f (x) à une série de mesures. Il faut cependant être très prudent avec la colinéarité. Si deux fonctions f i (x) et f j (x) sont linéairement dépendantes, la matrice de régression A devient singulière et la solution 53

54 1.5 1 y(t) t [ms] FIGURE 22 Evolution temporelle de la luminosité mesurée (points) et de la luminosité ajustée avec le modèle de l équation 11. n existe plus. Si deux fonctions sont presque linéairement dépendantes, la matrice A devient quasiment singulière et les solutions très instables : une petite erreur sur les valeurs des ordonnées y aura une forte répercussion sur la valeur de la solution c. Même si la solution des moindres carrés existe et reste toujours unique, le résultat sera dénué de sens. Exemples : Fonctions linéairement dépendantes y = Ax B x y = A sin(kx)+2b sin(kx) y = A(x 2 1)+B(1 x 2 ) Fonctions presque linéairement dépendantes y = A sin(kx) + B sin(kx +.1) y = Ax+ B sin(x) pour x 1 y = Ax 5 + B x 7 +C Pour quantifier la colinéarité dans un problème de régression linéaire, on recourt au conditionnement (conditioning en anglais) de la matrice de régression A. Une définition simplifiée du conditionnement est la suivante : dans un système linéaire Ac = y, si on modifie d une fraction y / y le module du vecteur y, alors la plus grande variation qui en résultera sur le module de la solution sera γ c / c, où γ est le conditionnement de la matrice de régression. Par définition, γ 1. Un système linéaire est dit mal conditionné dès lors que γ 1. Quelques exemples ( 1 A= 2 A= ) ( ) ( 2 3 A= ( 1 2 A= 3 6 ) ) γ=2 matrice bien conditionnée γ = 5.1 γ = 133 γ = matrice relativement mal conditionnée matrice mal conditionnée matrice très mal conditionnée (singulière) 54

55 9.5 Régression non-linéaire Les outils de la régression linéaire ne s appliquent que lorsque le modèle à ajuster peut s exprimer sous la forme d une combinaison linéaire de fonctions f k connues. y(x)= y(x, a)= k f k (x, a) Or il arrive fréquemment que ces fonctions f k doivent elles aussi être déterminées. Deux solutions se présentent alors. Mise sous forme d un problème linéaire Dans certains cas, un simple changement de variables permet de transformer un problème de régression non-linéaire en un problème linéaire, auquel on peut alors appliquer la méthode des moindres carrés. Exemple : La loi exponentielle y(x)=ae bx ne s exprime pas comme une combinaison linéaire de ses coefficients. Or le changement de variable y z = log y donne z(x)= log a+ bx dont les coefficients log a et b peuvent être estimés par moindres carrés à partir des couples de points (x i,log y i ). De même, la loi de puissance y = ax b, se résout en prenant comme nouvelles variables log y et log x. Il faut prendre garde au fait que le changement de variable affecte la fonction de coût. En prenant par exemple le logarithme d une variable on donne davantage de poids à ses faibles valeurs. Le résultat sera biaisé. Exemple : D autres problèmes apparemment non-linéaires peuvent se mettre sous forme linéaire, après une transformation adéquate. Ainsi, par exemple, pour estimer la phase φ dans x(t) = A sin(ωt + φ), il suffit de faire la régression avec x(t)=b sin(ωt)+c cos(ωt) et de déduire φ du rapport de B et de C. Optimisation non-linéaire Nombreux sont les cas où la méthode des moindres carrés ne s applique pas. On procède alors par minimisation de l erreur. Si y(x) = k f k (x, a) est le modèle à ajuster, alors on cherche à minimiser l écart quadratique J( a)= ( N yi y(x i, a) Ceci devient alors un problème d optimisation, qui débouche généralement sur une recherche itérative de la solution. Il faut alors lui fournir une estimation initiale de la solution. L unicité de cette dernière n est hélas plus garantie. σ i ) 2 55

56 Exemple : Aucune transformation ne permet de transformer la loi exponentielle avec piédestal y(x)=ae bx + c en une expression linéaire de ses coefficients. La méthode des moindres carrés ne s applique donc pas. Il en va de même pour l expression y(x) = a sinbx, lorsque les inconnues sont à la fois a et b. 9.6 Régression non-linéaire avec Scilab Scilab est pourvu de routines d optimisation qui permettent de traiter des problèmes de régression non-linéaire. Ces routines, à défaut d être rapides, ont l avantage d être simples à utiliser. La plus importante est optim. Elle appelle la fonction à minimiser, qui doit fournir en argument de sortie l écart quadratique moyen J. La minimisation peut être accélérée si cette fonction évalue aussi la dérivée partielle J/ a de l écart quadratique par rapport aux paramètres a. Exemple : On veut ajuster un sinus y(x, a 1, a 2 )= a 1 sin(a 2 x) aux couples de points (x, y) = (.1,.1),(.2,.19),(.3,.26) et (.4,.3). On a J = J a 1 J a 2 N ( yi a 1 sin(a 2 x i ) ) 2 = 2 = 2 N sin(a 2 x) ( y i a 1 sin(a 2 x i ) ) N a 1 x i cos(a 2 x) ( y i a 1 sin(a 2 x i ) ) Il faut d abord créer une fonction cost.sci. Le meilleur ajustement est obtenu avec la solution y(x)=.398 sin(3.35 x). Si on avait choisi une autre condition initiale, par exemple a_init = [-1; 6], la routine aurait convergé vers une autre solution, pour laquelle l erreur quadratique J aurait eu un minimum local vraisemblablement plus élevé que le premier. Le risque de tomber dans des minima locaux est donc réel. La régression non-linéaire avec de nombreux paramètres à ajuster et/ou en l absence d une connaissance préalable de la solution approchée est un problème complexe, qui fait aujourd hui encore l objet de recherches intensives. Même si la plupart des logiciels proposent aujourd hui des routines d optimisation, il y a une règle d or : ne jamais faire aveuglément confiance à une routine de recherche de minima : toujours lancer la recherche avec plusieurs conditions initiales différentes et visualiser les solutions. 56

57 function [J,dJda,ind] = cost(a,ind); x = [ 1 3 7] ; y = [ ] ; sinx = sin(a(2)*x); yfit = a(1)*sinx; err = yfit-y; J = err *err; djda(1) = -2*sinx *err; djda(2) = -2*a(1)*(x.*cos(a(2)*x) *err; endfunction Enregistrez cette fonction et compilez-la. Ensuite, dans la fenêtre de commande, faites --> a_init = [1; 1]; --> [J,a_opt] = optim(cost,a_init); --> J J =.9 --> a_opt a_opt =

58 1 Ajustement de modèles : Bayes Le problème de l ajustement d un modèle à des données est aujourd hui en pleine mutation, grâce à l utilisation croissante d un concept pourtant ancien. Ce problème peut se formuler sous une forme plus générale : étant donné un ensemble d observations o et un modèle µ, nous cherchons la valeur des paramètres x qui maximisent la probabilité conditionnelle p(x o, µ). Dans l approche classique, basée sur la méthode du maximum de vraisemblance (Chapitre 9.1), nous obtenons la valeur la plus vraisemblable de x, sans aucune idée sur la distribution de x, qui peut être étroite ou très étalée, et sans savoir si cette solution est la plus probable. Il serait bien donc plus intéressant d avoir accès à la probabilité conditionnelle p(x o,µ). Or d après la loi de Bayes ce qui donne p(x o, µ) p(x µ) = p(o x, µ) p(o µ) p(o x,µ) p(x µ) p(x o,µ)= p(o µ) avec la terminologie suivante : p(x o, µ) est la probabilité a posteriori. Elle nous donne la probabilité que les paramètres du modèle aient pour valeur x, compte tenu des observations o et du modèle µ. C est ce que nous cherchons en premier dans tout ajustement de modèle. p(o x, µ) est la vraisemblance, ou likelihood en anglais. Elle dit dans quelle mesure ce que prédit le modèle avec les paramètres x colle aux observations o, pour un modèle d erreur donné. p(x µ) la probabilité a priori sur les observations o (appelée prior en anglais). Elle décrit notre connaissance a priori des coefficients. Par exemple, si ceux-ci doivent tous être positifs, alors p(x < µ) =. p(o µ) la probabilité a priori sur les paramètres x (appelée evidence en anglais). Elle dit dans quelle mesure le modèle décrit bien les données. La valeur des paramètres qui décrit au mieux les données est typiquement celle qui maximise la probabilité a posteriori p(x o,µ). Le calcul de ces valeurs (appelées maximum a posteriori) peut devenir extrêmement fastidieuse lorsque le nombre de paramètres est important (> 1) car il faut balayer toutes les valeurs et pour chacune estimer la probabilité. Les méthodes Bayesiennes ont été ignorées jusqu à ce que des algorithmes rapides de type Monte-Carlo permettent de faire de tels calculs. Aujourd hui, l approche bayesienne est ce qu il y a de mieux pour ajuster un modèle car elle intègre une donné fondamentale à toute modélisation : notre connaissance a priori sur les valeurs que pourraient prendre les paramètres, et la nature de l erreur. Dans le cas particulier où nous savons dès le départ quel sera notre modèle, l équation cidessus se réduit à p(o x) p(x) p(x o)= p(o) Le maximum a posteriori est alors identique au maximum a priori max p(x o)= max o p(o x) p(x) x p(o) = max p(o x) o où nous avons fait l hypothèse (réductrice) que rien n est connu a priori sur o et sur x. Dans ce cas p(x)=p(o)=1. 58

59 Cette expression montre que la solution obtenue en cherchant le modèle qui colle le mieux aux observations est identique à celle obtenue en cherchant les observations qui collent le mieux à la prévision du modèle. Les deux ont pourtant des significations très différentes : la probabilité qu il va pleuvoir, sachant que le ciel est couvert, n est pas forcément égale à la probabilité d avoir un ciel couvert, sachant qu il pleuve. Le second terme n est rien d autre que la solution dite de maximum de vraisemblance, déjà rencontrée dans l ajustement de fonctions affines (Section 9.4). 59

Montrer encore