OUTILS STATISTIQUES ET NUMÉRIQUES

Dimension: px
Commencer à balayer dès la page:

Download "OUTILS STATISTIQUES ET NUMÉRIQUES"

Transcription

1 UNIVERSITÉ D ORLEANS Année universitaire UFR Sciences Master EE, 2ème année OUTILS STATISTIQUES ET NUMÉRIQUES POUR LA MESURE ET LA SIMULATION T. Dudok de Wit Université d Orléans Septembre 26 Ce cours a pour objectif de présenter divers outils qui sont couramment utilisés dans l analyse de données expérimentales.

2 Table des matières 1 Livres utiles 3 2 Rappels sur les probabilités Variable aléatoire Loi de probabilité Statistique descriptive : estimateurs Population ou échantillon? Densité de probabilité Espérance et moyenne Mode et médiane Variance et écart-type Moments d ordre supérieur Propriétés d un estimateur Cohérence d un estimateur Biais d un estimateur Efficacité Quelques lois de probabilité Aléa de Bernouilli Aléa binomial Loi uniforme Aléa de Poisson Loi normale ou loi de Gauss Loi du χ Théorème de la limite centrale Simuler des lois avec Scilab Erreurs Quantifier les erreurs Représenter les erreurs Chiffres significatifs Comment déterminer l incertitude? Propagation des erreurs Pourquoi moyenner? Tests d hypothèse Etapes du test d hypothèse Test du χ Calculer les seuils avec Scilab Tests de stationnarité Test de run Régression affine et ajustement de courbes Régression linéaire : maximum de vraisemblance et moindres carrés Résolution avec Scilab Validation de la droite de régression Régression de fonctions affines Régression non-linéaire Régression non-linéaire avec Scilab Lissage Lisser avec Scilab

3 1 Livres utiles W. Press et al., Numerical Recipes in C, Cambridge University Press, 1998 (LA référence sur les outils numériques). NIVEAU MASTER ET + K. Protassov, Probabilités et incertitudes, Presses Universitaires de Grenoble, 2 (excellent traité sur les incertitudes). NIVEAU LICENCE L. Lyons, A practical guide to data analysis for physical science students, Cambridge University Press, 1991 (introduction très claire à l analyse de données). NIVEAU LI- CENCE P. Bevington, Data reduction and error analysis for the physical sciences, McGraw-Hill, 1992 (comme le livre précédent, celui-ci est devenu une référence ; il est davantage orienté vers l analyse des erreurs). NIVEAU LICENCE J. Bendat & A. Piersol, Random data : analysis and measurement procedures, Wiley, 1998 (traité détaillé sur l analyse de processus aléatoires, niveau master). NIVEAU MAS- TER ET + G. Borradaile, Statistics of Earth science data, Springer, 23 (un exemple parmi d autres de statistiques appliquées, avec ici une orientation vers les géosciences).niveau MASTER ET + L. Lebart, A. Morineau et M. Piron, Statistique exploratoire multidimensionnelle, Dunod, 24 (orienté vers l analyse de données multidimensionnelles, un sujet pas abordé dans ce cours). NIVEAU MASTER J. Max, Méthodes et techniques de traitement du signal : tome 1 Applications aux mesures physiques et tome 2 Exemples d applications, Dunod, 1987 (ces deux volumes, même s ils sont un peu démodés, restent un des rares exemples de synergie entre les outils de traitement de données et leurs applications en physique). NIVEAU MASTER ET + excellent cours de Philippe Depondt sur la physique numérique (ENS Cachan), orienté vers la simulation : référence complète sur les techniques d analyse de données pour ingénieurs, le Data Analysis Handbook : 2 Rappels sur les probabilités 2.1 Variable aléatoire On appelle variable aléatoire ou aléa numérique une variable X susceptible de prendre différentes valeurs, auxquelles il est possible d affecter une probabilité. Soit V l ensemble des valeurs possibles de X : si V est fini ou dénombrable, on dit que l aléa est discret. Le cas échéant, l aléa est dit continu. Exemple : Dans le lancer d un dé, la variable aléatoire X = {1,2,3,4,5,6} est discrète et ne peut prendre que 6 valeurs. Dans le cas d un débit de fluide dans une conduite, nous avons une variable continue. 3

4 Remarque : La plupart des observables physiques (température, pression, tension, longueur, durées,... ) sont des variables continues, bien que des effets quantiques puissent jouer à très petite échelle, par exemple pour de très faibles champs magnétiques. Les variables discrètes apparaissent généralement dans les expériences où il y a dénombrement. 2.2 Loi de probabilité Soit p(x), la probabilité qu une variable aléatoire discrète X prenne la valeur x. L ensemble des couples (x, p(x)) est appelé loi de probabilité de la variable aléatoire. Elle peut être représentée par un diagramme en bâtons ou par un histogramme. Lorsque l aléa est continu, la probabilité que X prenne la valeur x est en général infiniment petite. Ainsi, si on tire au hasard des nombres réels répartis uniformément entre et 5, la probabilité qu un tel nombre soit exactement égal est très faible, quoique non nulle. Il devient dès lors plus intéressant de calculer la probabilité que X prenne une valeur dans un petit intervalle Prob(a<X b)=prob(x b) Prob(X < a) La quantité Prob(X b) Prob(X < a) b a définit la densité de probabilité dans l intervalle [a,b]. Par passage à la limite, on définit p(a)= lim b a Prob(X b) Prob(X < a) b a La quantité d c p(x) d x équivaut à la probabilité que l aléa X prenne une valeur située entre c et d. Exemple : Dans le lancer d un dé non truqué, la loi de probabilité discrète se résume à x i p(x i ) 1/6 1/6 1/6 1/6 1/6 1/6 Exemple : La probabilité de tirer un nombre aléatoire issu d une distribution uniforme sur l intervalle [, 1[ vaut { 1 si x < 1 p(x)= sinon Pour un aléa discret, la probabilité de tirer une valeur parmi toutes les valeurs possibles vaut obligatoirement 1 car on est sûr du résultat. Cela signifie qu on a toujours x X p(x) = i 4 p(x i ) = 1

5 De la même façon, pour un aléa continu, la probabilité de tirer une valeur parmi l ensemble des valeurs possibles est toujours égale à 1. On a donc + p(x) d x = 1 Ces résultats sont valables quelle que soit la loi de probabilité. Remarque : Pour un aléa discret, chaque probabilité satisfait forcément p(x) 1, puisque la somme des probabilités est égale à 1. La probabilité p(x) est alors un nombre sans unités. En revanche, pour un aléa continu, il est tout à fait possible d avoir p(x) > 1, puisque c est l intégrale qui est bornée. En outre, p(x) peut s exprimer en unités physiques. Par exemple, si x est une longueur mesurée en [m], alors p(x) s exprimera en [m 1 ]. 3 Statistique descriptive : estimateurs Dans une expérience, on a rarement accès à l expression exacte de la loi de probabilité ; il n est pas forcément possible de mesurer p(x) pour chaque valeur de x. On se contente donc souvent de calculer des indicateurs, qui résument à eux seuls certaines caractéristiques de la loi. Le mieux connu de ces indicateurs est la moyenne, qui est un indicateur de tendance. On recourt aussi fréquemment à des indicateurs de dispersion ou d étalement, tels que écart-type. La principale difficulté consiste à trouver la meilleure estimation à partir d un échantillon qui sera toujours limité en taille. 3.1 Population ou échantillon? D un point de vue formel, il existe une différence fondamentale entre les modèles et les observations. Dans le premier cas, et pour autant que la loi de probabilité soit connue, on parlera de population. Les quantités qui en seront déduites, telles que l espérance, sont théoriques et en ce sens dépourvues d erreur. Il est très rare de pouvoir travailler directement sur une population, sauf si on dispose d un modèle mathématique exact du phénomène à étudier. Lorsque la loi de probabilité n est pas connue, alors il faut réaliser une expérience pour estimer les propriétés telles que la moyenne. On parlera alors d échantillon. Les valeurs obtenues seront d autant plus proches des valeurs théoriques que l expérience a été bien menée. En vertu de la loi des grands nombres, les valeurs obtenues avec l échantillon convergent vers celles de la population lorsque la taille de l échantillon augmente. Tout le problème consiste à estimer au mieux ces valeurs. Sauf exception rare, l expérimentateur travaille toujours sur des échantillons. Un modèle de son expérience lui permettra cependant de définir une population, par rapport à laquelle il se référera. 5

6 3.2 Densité de probabilité La densité de probabilité figure parmi les quantités les plus importantes pour caractériser une série temporelle ou une suite de valeurs en général. Comme nous l avons vu en 2.2, p(a)d x est la probabilité qu un processus stationnaire x(t) prenne une valeur comprise dans l intervalle [a, a+ d x]. On utilise fréquemment l expression pdf (= probability density function) pour désigner la densité de probabilité p(x). Un théorème important (le théorème de la limite centrale, cf. 5.7) nous dit que pour beaucoup de processus physiques, la pdf tend vers une loi normale (ou loi de Gauss) p(x) e (x a)2 /b. FIG. 1 A gauche : quatre exemples de séries temporelles : a) une sinusoïde, b) une sinusoïde avec du bruit de haute fréquence, c) une sinusoïde dont l amplitude fluctue au cours du temps, d) un signal aléatoire. A droite est représentée la densité de probabilité de chaque série. Quelques exemples de pdf estimées à partir d échantillons sont illustrés dans la figure 1. L estimation d une pdf à partir d un échantillon est une tâche délicate pour laquelle il existe plusieurs approches. La détermination de la pdf joue un rôle crucial dans l étude de la turbulence, où de très faibles écarts par rapport à une loi normale peuvent parfois être interprétés en termes de structures cohérentes (tourbillons, etc.). 6

7 Estimer des distributions avecscilab Le logiciel Scilab dispose de quelques routines permettant d estimer des fonctions de distribution et plus particulièrement des histogrammes. histplot(n,x) affiche l histogramme de la variable x (un vecteur) en choisissant automatiquement n classes de même largeur ; l effectif de chaque classe est normalisé par l effectif total. histplot(b,x) même fonction que ci-dessus, sauf qu elle utilise les classes dont les bornes sont définies par le vecteur b. Ces bornes sont [b 1,b 2 ], (b 2,b 3 ], (b 3,b 4 ], etc. [pos,eff] = dsearch(x,b,"c") recherche parmi les éléments du vecteur x ceux qui se trouvent dans l une des classes définies par b (même syntaxe que ci-dessus). pos est un vecteur de même taille que x, qui indique le numéro de la classe à laquelle appartient chaque élément. e f f donne l effectif de chaque classe. Cette fonction convient aux lois discrètes et continues. [pos,eff] = dsearch(x,v,"d") même fonction que ci-dessus, sauf que la recherche se fait par rapport aux valeurs entières définies dans le vecteur v. Cette fonction convient uniquement aux lois discrètes. 3.3 Espérance et moyenne Quand on ne connaît pas la densité de probabilité, on commence par estimer certains de ses moments. Une des caractéristiques les plus importantes d une loi est sa moyenne ou espérance. En présence d une population, on parle d espérance de la variable X, qui se note habituellement µ X, E(X ) ou X. Si la loi de probabilité n est pas connue a priori, alors il faut estimer l espérance à partir d un échantillon. On parlera alors de moyenne, que l on notera habituellement x, x N ou m. On a x = x p(x) d x espérance pour un aléa continu x = i x i p i espérance pour un aléa discret x = 1 N N x i i=1 moyenne pour un échantillon Notons qu il existe d autres estimateurs de la moyenne, telles que la moyenne pondérée x = i w i x i / i w i ainsi que la moyenne géométrique x = ( N i=1 x i) 1/N. Dans ce qui suit, nous ne ferons guère différence entre espérance et moyenne, alors que les deux revêtent bien des significations différentes. Exemple : Dans le lancer d un dé non truqué, l espérance vaut X = = 7 2 7

8 Ce résultat est exact, et ne dépend pas du nombre de lancers. En réalisant l expérience pour des nombres de lancers différents, obtient de même la moyenne N x Ces valeurs convergent vers le résultat théorique pour N. Dans le logiciel Scilab, la moyenne d un échantillon s obtient avec l une des commandes m = mean(x) estime la moyenne sur tous les éléments de la matrice x m = mean(x, r ) même fonction que ci-dessus, sauf que la moyenne s effectue selon chaque rangée de x m = mean(x, c ) même fonction que ci-dessus, sauf que la moyenne s effectue selon chaque colonne de x 3.4 Mode et médiane La moyenne à elle seule ne suffit pas pour rendre compte de la notion intuitive de "valeur moyenne". On recourt parfois aussi au mode, qui est la valeur la plus probable de la distribution, cf. figure 2. Le mode n est pas toujours défini. Une autre quantité utile est la médiane : c est la valeur x m telle qu on a la même probabilité de tirer une valeur inférieure à x m qu une valeur supérieure à x m. Pour une population avec un aléa continu, nous avons xm p(x) d x = p(x) d x = 1 x m 2 Pour un échantillon, la médiane s estime de la manière suivante : soient {x i },i = 1,..., N les N résultats de l expérience. D abord on les trie par ordre croissant, pour obtenir une nouvelle suite {x k },k = 1,..., N. La valeur médiane x m est alors la valeur d indice N/2 (si N est pair) ou d indice (N + 1)/2 (si N est impair). Exemple : Une mesure du courant dans un conducteur a donné les valeurs suivantes : {x i }=7, 79.4, 94, 86, 82, 81.4 et 7 [A]. La moyenne est 8.4 [A], le mode est 7 [A] et la médiane est 81.4 [A]. Exemple : Une distribution continue est donnée par la loi { 1 x si x < 2 p(x)= 2 sinon On vérifie que l on a bien + p(x) d x= 1. L espérance vaut x = + La médiane x m est donnée par xm x p(x) d x = x 2 d x = 4 3 p(x) d x = 1 2 x m = 2 8

9 x p(x) mode médiane moyenne 2écartstype FIG. 2 Représentation de quelques indicateurs statistiques pour une distribution continue. Estimer la médiane avecscilab Il n existe pas de fonction dédiée dans Scilab pour calculer le mode. En revanche, la médiane s obtient avec la même syntaxe que la moyenne m = median(x) estime la médiane sur tous les éléments de la matrice x m = median(x, r ) même fonction que ci-dessus, sauf que la médiane se calcule selon chaque rangée de x m = median(x, c ) même fonction que ci-dessus, sauf que la médiane se calcule selon chaque colonne de x 3.5 Variance et écart-type Pour quantifier la dispersion des valeurs de X autour de sa valeur moyenne, on recourt habituellement à la variance σ 2 x et plus fréquemment à l écart-type (ou écart quadratique moyen) σ x = σ 2 x. La définition de la variance est σ 2 x = (x x ) 2 p(x)d x pour un aléa continu σ 2 x = i (x i x ) 2 p i pour un aléa discret σ 2 x = 1 N N (x i x) 2 pour un échantillon i=1 Les expressions ci-dessus peuvent se mettre sous une forme plus commode σ 2 x = x2 x 2 L écart-type est donc une mesure de la largeur d une distribution, cf. figure 2. Elle s exprime dans les mêmes unités que la variable X : si cette dernière est par exemple en [Ω], alors l écarttype le sera aussi. 9

10 Exemple : Dans l exemple précédent de la distribution continue, la variance vaut + σ 2 x = x 2 p(x) d x ( x ) 2 = 1 2 L écart-type vaut donc σ x = σ 2 x = x 3 d x 16 9 =.222 Notez que l estimateur classique de la variance à partir d un échantillon σ 2 = 1 N N (x i x) 2 i=1 incorpore de l information sur la moyenne, qui a déjà été estimée à partir du même échantillon. Cet estimateur sous-estime donc la véritable variance. On dira qu il est biaisé (cf. section 4). On montre que l estimateur non biaisé est en réalité s 2 = 1 N (x i x) 2 N 1 i=1 Ce dernier se note fréquemment s 2, par opposition à σ 2. La plupart des calculatrices font la distinction entre les deux estimateurs. Estimer l écart-type avec Scilab Dans Scilab, l estimateur non-biaisé de l écart-type est s = stdev(x) estime l écart-type sur tous les éléments de la matrice x s = stdev(x, r ) même fonction que ci-dessus, sauf que l écart-type est estimé selon chaque rangée de x s = stdev(x, c ) même fonction que ci-dessus, sauf que l écart-type est estimé selon chaque colonne de x com- u = x(:)-mean(x); s = sqrt(u *u/length(u)); notation pacte pour l estimateur biaisé de l écart-type 3.6 Moments d ordre supérieur La moyenne et l écart-type sont les deux principaux moments d une densité de probabilité. Il arrive qu on soit amené à s intéresser à des moments d ordre supérieur, définis selon m q = (x x ) q p(x)d x pour un aléa continu m q = i (x i x ) q p i pour un aléa discret m q = 1 N N (x i x) q pour un échantillon i=1 1

11 où l ordre q est habituellement un entier positif. Pour q =, on trouve par définition 1, pour q = 1, la moyenne ou l espérance et pour q = 2, la variance. Le moment d ordre 3 porte en anglais le nom de skewness ; c est une mesure de l asymétrie d une distribution. Il est nul pour toute distribution symétrique par rapport à sa moyenne alors que m 3 > implique un surcroît de grandes valeurs positives. Le moment d ordre 4 porte en anglais le nom de kurtosis ; c est une mesure de l étalement d une distribution. Pour une distribution normale, m 3 = et m 4 = 3σ 4. Il est souvent plus commode de normaliser les moments d ordre supérieur par rapport à l écart-type de la population ou de l échantillon, ce qui donne m q = m q σ q Plus l ordre d un moment est élevé, plus celui-ci sera fortement pondéré par les valeurs extrêmes. Il faudra donc être très prudent avec un échantillon X de taille finie, car la valeur du moment sera presque entièrement déterminée par les quelques valeurs de x qui s écartent le plus de la moyenne. C est la raison pour laquelle on ne rencontre que très rarement les moments d ordre supérieur à 4. La seule exception est l étude expérimentale de la turbulence, où ces moments apportent une information cruciale sur les processus physiques de transfert d énergie entre les tourbillons de tailles différentes (loi de Kolmogorov). µ=, σ 2 =1, m 3 = m 4 =3 µ=, σ 2 =1, m 3 = m 4 = p(x).2.1 p(x) x 5 5 x µ=, σ 2 =1, m 3 = m 4 =4.35 µ=, σ 2 =1, m 3 =.354 m 4 =3.4 p(x) x p(x) x FIG. 3 Quelques distributions et leurs quatre premiers moments normalisés. 11

12 4 Propriétés d un estimateur On dispose d un échantillon fini {x i } de N valeurs. Supposons que l on veuille en extraire une valeur x aussi raisonnablement proche que possible de la vraie valeur x. On appellera x estimation de x. Dans le cas plus général où on est confronté à N variables aléatoires {X i }, on appellera X estimateur de la variable aléatoire X recherchée (par exemple, la moyenne). Un bon estimateur doit satisfaire à la fois trois conditions souvent contradictoires : il doit être cohérent, non biaisé et efficace. 4.1 Cohérence d un estimateur La loi des grands nombres (cf. section 6) nous dit qu en moyennant le résultat d une expérience un grand nombre N de fois, la moyenne X ainsi obtenue tend vers une variable non aléatoire x, qui est la valeur numérique recherchée. C est la propriété de cohérence (ou consistency). 4.2 Biais d un estimateur Lorsque la taille N d un échantillon tend vers l infini, un estimateur cohérent tend vers la valeur exacte x. Mais dans le cas réel où l échantillon est de taille finie, on aimerait que l espérance X N s écarte le moins possible de la valeur x. Cet écart est appelé biais. Pour un estimateur biaisé, on a X N = x + b N où b N intervalledanslequelse est le biais de l échantillon. Pour un estimateur cohérent, lim N b N =. L estimateur de la figure 4 est biaisé. Celui de la figure dex* répartissentlesvaleurs 5 ne l est pas. biais FIG. 4 Exemple d un estimateur cohérent et biaisé. Exemple : L estimateur de l entropie est biaisé. Soit {k i } un échantillon de N nombres entiers répartis uniformément entre et 9 compris (chaque nombre 12

13 possède la même probabilité d apparition). Si f k est la fréquence d apparition du nombre k, alors l entropie vaut H = 9 f k log f k k= On montre aisément que cet estimateur est fortement biaisé. N H N valeur numérique 1 log1 2 log log log Efficacité estimateurlemoinsefficace estimateurleplusefficace Parmi différents estimateurs de la même quantité, on choisira celui dont l écart-type est minimal : la convergence vers la valeur exacte n en sera que rapide. FIG. 5 Deux estimateurs d efficacité différente. Exemple : Pour estimer la moyenne d un échantillon {x i } on effectue habituellement la moyenne arithmétique sur toutes les valeurs. On peut aussi effectuer la moyenne de la valeur minimum et de la valeur maximum. Lequel est plus efficace? 5 Quelques lois de probabilité Il existe un grand nombre de lois de probabilité. A chaque modèle correspond une loi particulière. Néanmoins, la grande majorité des lois rencontrées dans la nature s avèrent être des lois de normales (ou lois de Gauss) ou encore des lois binomiales. Ces différentes lois étant apparentées, on passe de l une à l autre par un passage à la limite. 13

14 5.1 Aléa de Bernouilli L aléa de Bernouilli (ou loi de Bernouilli) est l expression la plus simple d une loi de probabilité. Elle s exprime par une variable aléatoire X qui n a que deux états : elle prend soit la valeur 1 (ou pile), avec une probabilité p, soit la valeur (ou face), avec une probabilité q. Prob(X = 1)= p, Prob(X = )= q, et p+ q = 1 L espérance vaut dans ce cas x =1 p+ q = p et la variance σ 2 x = (1 p)2 p+ ( p) 2 q = p(1 p) = pq Exemple : Dans le jeu de pile ou face, avec une pièce non truquée, on a p = q = 1/ Aléa binomial On considère N épreuves de Bernouilli identiques et indépendantes. La variable K est le nombre de réalisations de l événement X : par exemple le nombre de fois qu on obtient pile après N lancers successifs d une pièce. La probabilité pour que K prenne la valeur k vaut Prob(K = k)= C k N pk (1 p) N k où C k N = N! (N k)! k! On dit alors que K suit une loi binomiale de paramètres N et p, que l on note B N,p. On montre dans ce cas que l espérance, la variance et l écart-type valent respectivement espérance variance écart-type K = N p σ 2 K = N pq σ K = N pq.4 p =.1.4 p =.5.4 p =.7 Prob(K=k) k k k FIG. 6 Distribution binomiale correspondant à N = 1 et p =.1,.5,.7 14

15 Exemple : On lance une pièce de monnaie truquée N = 3 fois. Quelle est la probabilité d obtenir en tout k = 2 fois pile sachant que la probabilité d avoir pile vaut p =.6? Prob(k = 2)= 3! 2! 1! =.432 La valeur moyenne et l écart-type sont respectivement K =3.6=1.8 et σ K = 3.6.4=.848 L aléa binomial intervient fréquemment dans les phénomènes physiques où il n existe que deux états possibles, chacun étant assorti d une probabilité. Par exemple, dans une expérience d analyse optique d une couche translucide, p pourrait être la probabilité qu un photon traverse la couche et q celle de voir le photon être absorbé. 5.3 Loi uniforme La loi uniforme décrit une variable aléatoire X dont les valeurs sont équiprobables sur un ou plusieurs intervalles [a, b[. Prob(a< x b)=cte Or comme on a obligatoirement p(x) d x = 1, cela donne { 1 si a x< b p(x)= b a sinon On montre dans ce cas que (a+ b) espérance x = 2 (b a) écart-type σ x = 12 Dans les ordinateurs, les générateurs de nombres aléatoires fournissent généralement par défaut des nombres distribués selon une loi uniforme sur l intervalle [, 1[. On peut générer à partir de cela des nombres distribués selon n importe quelle loi. La construction d un bon générateur est un problème ardu qui fait encore l objet de recherches intenses. 5.4 Aléa de Poisson Considérons des épreuves binomiales telles que N devient très grand (un lance la pièce un grand nombre de fois) et p très petit (la probabilité d obtenir pile est très petite) tout en gardant K = N p fini (ni nul, ni infini). La loi binomiale tend alors vers une loi dite de Poisson. La probabilité que K prenne la valeur k vaut Prob(K = k)= µk k! e µ où µ est un paramètre qui est égal à l espérance. Contrairement à la loi binomiale, qui nécessite deux paramètres (N et p), ici un seul paramètre (µ) suffit pour décrire la loi. On montre dans ce cas que l espérance, la variance et l écart-type valent respectivement 15

16 espérance K =µ variance écart-type σ 2 K = µ σ K = µ.4 µ = 1.4 µ = 3.4 µ = 8 Prob(K=k) k k k FIG. 7 Distribution de Poisson correspondant à µ = 1, 3, 8 La loi de Poisson décrit les phénomènes dont la probabilité de tirage individuel (c est-à-dire p) est très petite, mais dont le nombre de réalisations (c est-à-dire N) est si élevé, que l espérance µ atteint une valeur finie. On dira qu une loi binomiale B N,p peut être approchée par une loi de Poisson P µ dès que N p < 5 et N > 2. La loi de Poisson décrit bien des phénomènes de comptage : détection de photons par un photomultiplicateur, comptage de particules émises lors de désintégrations radioactives, comptage d ions dans un spectromètre de masse, comptage d individus en microbiologie,... Exemple : Une décharge luminescente émet en moyenne N = photons par seconde. Sur ceux-ci, seule une très faible fraction p = pénètre dans un photomultiplicateur. Le nombre moyen de photons détectés en une seconde vaut donc µ= N p = 15. Ce nombre fluctue au cours du temps. Si on n avait pu effectuer qu une seule mesure, avec par exemple n= 822 photons, alors le seul fait d avoir une loi de Poisson nous permet d affirmer que l écarttype sur cette quantité est de σ= µ n = La force de la loi est donc de nous renseigner directement sur une quantité qui sinon nécessiterait plusieurs mesures. 5.5 Loi normale ou loi de Gauss Si on prend la loi binomiale ou la loi de Poisson dans la limite où l espérance devient très grande (N > 2 et x >2) alors le nombre d états possibles croît rapidement : la représentation du diagramme en bâtons de p(x) se transforme petit à petit en une courbe continue. Dans la limite où le nombre N est infini, on obtient une loi normale (ou loi de Gauss), dont l expression générale est p(x)= 1 ) ( σ 2π exp (x µ)2 2σ 2 Cette expression fait apparaître deux paramètres, µ et σ, qui sont respectivement l espérance et l écart-type. En effet, on montre que dans ce cas 16

17 espérance x = µ écart-type σ x = σ On dit dès lors que X suit une loi normale N (µ,σ 2 ). Lorsqu un générateur fournit des nombres aléatoires distribués selon une loi normale, c est toujours d une distribution N (, 1) qu il s agit..4.3 µ=, σ=1 µ=, σ=2 µ=2, σ=3 p(x) x FIG. 8 Distribution normale correspondant à différents couples de valeurs (µ,σ). La loi normale se rencontre très fréquemment et s applique à tous les phénomènes qui résultent de la superposition d un grand nombre d événements indépendants et d origines diverses. L explication se trouve dans le théorème de la limite centrale, cf. section 5.7. Pourquoi standardiser? Il arrive fréquemment que l on doive comparer deux ou plusieurs quantités, dont les unités de mesure diffèrent ou dont les ordres de grandeur ne sont pas les mêmes. Si en plus ces quantités obéissent à une loi normale, il peut être commode de les standardiser. Cette opération consiste à leur soustraire la moyenne (= centrer) et à les normaliser par rapport à leur écart-type (= réduire) x x x La figure ci-dessous illustre cela pour la mesure simultanée de la température et de la résistance d un thermistor dans un écoulement fluide. Les deux quantités s expriment en des unités différentes et sont difficilement comparables. Leur comparaison relative est facilitée une fois qu elles sont standardisées. Pour les graphes, la standardisation est à manipuler avec précaution, car elle enlève toute référence. Les quantités standardisées sont en effet sans dimension. En revanche, elle trouve une forte justification dès lors que les quantités obéissent à une loi normale. Prenons une quantité x qui suit une loi normale N (µ,σ 2 ). Si on s intéresse à une probabilité, par exemple celle de rencontrer des valeurs de x inférieures à x, alors il faut calculer x Prob(x < x )= p(x )d x = 1 x e (y µ)2 2σ 2 d y 2πσ 17 σ x

18 5 4 donnees brutes T [K] R [kω] 4 2 donnees standardisees T R amplitude 3 2 amplitude temps [h] temps [h] FIG. 9 Mesure simultanée de la température et de la résistance d un thermistor dans un écoulement. A gauche les données brutes (en unités physiques), à droite les données standardisées. L intégrale ne possède pas de solution analytique ; il faut la calculer numériquement, ou bien recourir à des tables. Ce calcul répété pour différentes valeurs de µ ou de σ peut s avérer onéreux. Or le changement de variable x u = (x µ)/σ permet de poser ( Prob(x < x )=Prob u< u = x µ σ ) = 1 2π u e v2 2 d v Le grand intérêt de cette expression réside en l absence de paramètres de la distribution (µ, σ) dans l intégrand. Il suffit de spécifier les bornes d intégrale. La probabilité peut donc être évaluée une fois pour toutes, quelle que soit la distribution. La standardisation confère ainsi aux variables normales un caractère universel. Pour des raisons historiques, on recourt fréquemment à la fonction erreur, définie comme ce qui nous donne erf(x)= 2 x e y2 d y, π Prob(u< u )= ( ) 2 erf u Loi du χ 2 Si X 1, X 2,... X n sont n variables aléatoires indépendantes distribuées chacune selon une même loi normale N (,1), alors la nouvelle variable X = X1 2+ X X n 2 possède une distribution en χ 2 à n degrés de liberté 1. Plus généralement, si X 1, X 2,... X n sont n variables aléatoires indépendantes distribuées chacune selon une même loi normale N (µ,σ 2 ), alors la variable standardisée X = n (X i µ) 2 i=1 est distribuée selon une loi en χ 2 à n degrés de liberté. 1 ce qui se prononce ki-deux ou ki-carré. σ 2 18

19 1.5 erf(x) x FIG. 1 Allure de la fonction erreur. p(x) ν=2 ν=4 ν= x FIG. 11 Quelques exemples de distributions du χ 2. Cette loi joue un rôle important dans les tests d hypothèse et dans les ajustements de fonctions. L espérance, la variance et l écart-type valent respectivement espérance variance écart-type χ 2 =n σ 2 = 2n χ 2 σ χ 2 = 2n L expression analytique de la densité de probabilité donne où Γ(x) est la fonction gamma définie par si x < p(x)= 1 2 n/2 Γ(n/2) xn/2 1 e x /2 si x Γ(x)= + 19 t x 1 e t d t.

20 5.7 Théorème de la limite centrale Un très grand nombre de phénomènes aléatoires présentent des distributions qui sont ou suivent de très près une loi normale. L explication provient d un théorème fondamental, le théorème de la limite centrale. Soit X une variable aléatoire d espérance µ, de variance σ 2 et dont la loi de probabilité est quelconque. Soit y N = 1 N x i N une moyenne effectuée sur un grand nombre N de mesures. Si σ 2 est fini, alors la distribution de y N tend vers une loi normale d espérance µ et de variance σ 2 /N. i=1 Le caractère remarquable de cette loi tient au fait qu aucune hypothèse n est émise sur la loi de X, hormis le fait que sa variance doive être finie. Ce théorème peut s interpréter comme suit : si une grandeur physique subit l influence d un nombre important de facteurs indépendants, et si l influence de chaque facteur pris séparément est petite, alors la distribution de cette grandeur tend vers une loi normale. Exemple : Prenons pour exemple une variable aléatoire X discrète qui suit une loi uniforme sur l intervalle [,9]. Créons une nouvelle variable y N = 1 N xi, en moyennant N = 1, N = 2 et N = 8 fois. Dans le premier cas, cela revient à ne rien faire, et la distribution reste uniforme. Dans le second cas, on obtient une distribution à allure triangulaire. Dans le dernier cas, on tend déjà vers une loi normale, même si elle reste discrète. n=1 n=2 6 n=8 effectif x x x FIG. 12 Illustration de l obtention de la loi normale en moyennant une variable aléatoire discrète de loi uniforme N = 1,2 et 8 fois. Cette figure a été obtenue en simulant un échantillon de 1 valeurs aléatoires ; il est donc naturel que les histogrammes ne soient pas réguliers. Exemple : Un téléscope qui pointe sur une étoile lointaine détecte en moyenne un taux de φ = 1 photons par seconde en provenance de cette étoile. Pendant combien de temps faut-il observer cette étoile pour que l écart-type du taux mesuré soit inférieur à.5 photons par seconde? 2

21 Dans ce problème, il s agit d abord de déterminer l écart-type associé au taux de comptage (dont on ne sait rien a priori) pour ensuite déterminer à partir du théorème de la limite centrale sur combien de secondes il faut intégrer le signal mesuré. Le comptage de photons en provenance d une étoile est un exemple-type de processus de physique qui suit une loi de Poisson. Puisque le taux moyen de comptage par seconde vaut φ = 1 photons par seconde, nous savons que l écart-type sur le nombre de photons compté en 1 seconde vaut σ= φ = 1 photons. Si nous répétons cette expérience N fois (ce qui revient à compter pendant N secondes) alors, d après le théorème de la limite centrale, le taux moyen vaudra φ N = N φ N = φ et son écart-type sera σ N = σ φ = N N Ainsi, pour avoir σ N <.5 il faut N > 4 secondes. Le théorème de la limite centrale nous dit par ailleurs que la nouvelle variable φ N suit une loi normale. 5.8 Simuler des lois avec Scilab Le logiciel Scilab est équipé d excellents générateurs de nombres aléatoires, qui permettent de reproduire une grande variété de lois. La syntaxe de base est la même pour toutes les lois : y = grand(m,n,...) génère une matrice de taille [m, n] constituée de nombres aléatoires distribués selon la loi spécifiée. y = grand(m,n, bin,n,p); génère des entiers distribués selon une loi binomiale B(N, p) y = grand(m,n, poi,lambda); génère des entiers distribués selon une loi de Poisson P (λ) y = grand(m,n, nor,mu,sigma); génère des réels distribués selon une loi normale N (µ,σ 2 ) y = grand(m,n, chi,nu); génère des réels distribués selon une loi du χ 2 à ν degrés de liberté y = grand(m,n, unf,a,b); génère des réels distribués selon une loi uniforme sur l intervalle [a, b) 6 Erreurs Bien gérer les erreurs est un des aspects les plus importants d une expérience : il faut savoir quantifier les erreurs et les réduire autant que possible. Il existe essentiellement quatre types d erreurs : 21

22 les erreurs aléatoires de mesure : elles sont liées à notre incapacité de faire des mesures avec une précision infinie. Réduire cette erreur nécessite une amélioration du dispositif expérimental. Exemple : impossible d accéder à une précision de l ordre de la milliseconde avec un chronomètre à main. les erreurs aléatoires dues aux fluctuations : l erreur provient du fait que le phénomène étudié varie lui-même de façon aléatoire, suivant une loi statistique. On peut atténuer son effet en prolongeant la durée de la mesure. Exemple : la mesure du taux de désintégration d un échantillon radioactif. les erreurs systématiques : ce sont des erreurs reproductibles qui résultent d un mauvais dispositif de mesure ou d une erreur dans la modélisation. Elles sont susceptibles d être éliminées par une correction adéquate. Exemple : mesure d une distance par ultrasons, en utilisant une valeur erronée de la vitesse du son. les erreurs accidentelles : elles résultent d une fausse manoeuvre, d un dysfonctionnement de l appareil ou d un manque d information sur la nature réelle du processus. Elles sont difficiles à éliminer si leur cause exacte n est pas connue. Exemple : détermination de la masse de notre galaxie. Pendant longtemps, il n a pas été tenu compte de la matière sombre, qui contribue pourtant de manière importante à la masse totale. Les deux premiers types d erreurs peuvent être détectés et réduits en adoptant une méthodologie d expérience adéquate. Par contre, il est difficile de quantifier les erreurs systématiques ainsi que les erreurs accidentelles sans disposer d un moyen indépendant pour vérifier la chaîne de mesure. Erreur ou incertitude? Les termes erreur et incertitude ont des significations différentes, mais sont souvent utilisés comme synonymes. L erreur de mesure est l écart entre la valeur mesure et sa valeur réelle (ou espérance), qui est inaccessible. L incertitude de mesure est une estimation de l intervalle dans lequel risquent de se rencontrer les valeurs de la mesure. C est donc une approximation de l erreur, qui s obtient par analyse statistique. 6.1 Quantifier les erreurs Les erreurs aléatoires suivent généralement une loi de distribution connue, qui est très souvent normale N (,σ 2 ). Par convention, on dira que la mesure est affectée d une erreur ou d une incertitude de valeur σ (toujours positive) et on notera x± σ Cela signifie concrètement que des mesures successives risquent de donner des valeurs différentes, mais que dans 68% des cas, ces valeurs se trouveront dans un intervalle [ x σ, x +σ]. 22

23 Ce dernier est appelé intervalle de confiance. En effet Prob( x σ< X x +σ) = = = x +σ x σ p(x )d X x +σ 1 σ e (X x )2 /2σ 2 d X 2π x σ 1 +1 e Y 2 /2 dy 2π =.6826 De la même façon, la probabilité de se trouver dans l intervalle [ x 2σ, x +2σ] vaut.954. Différents intervalles sont illustrés dans la figure 13 et leurs probabilités sont tabulées cidessous. 1 largeur probabilité de l intervalle d y appartenir [µ.67σ,µ+.67σ].5 [µ σ,µ+σ].6826 [µ 1.65σ,µ+1.65σ].9 [µ 1.96σ,µ+1.96σ].95 [µ 2σ,µ+2σ].9544 [µ 2.33σ,µ+2.33σ].98 [µ 2.58σ,µ+2.58σ].99 [µ 3σ,µ+3σ].9974 [µ 4σ,µ+4σ] p(x) ± σ ± 2 σ.5 ± 3 σ (x µ)/σ FIG. 13 Intervalles de confiance pour une loi normale. La largeur à mi-hauteur vaut±1.17σ. 23

24 6.2 Représenter les erreurs La représentation des incertitudes dans un graphe se fait fréquemment à l aide de barres d erreur (si l erreur n affecte qu une variable) ou d ellipses d erreur (si l erreur affecte deux variables à la fois). Par convention, les barres d erreur en une dimension sont obtenues en traçant un trait de longueur σ de part et d autre du point de mesure, cf. figure 14. Il existe une autre représentation plus compacte et plus riche en information. Elle consiste à représenter pour chaque point sa valeur médiane, ses valeurs extrêmes et ses quartiles. Les quartiles sont les valeurs seuil q de la variable aléatoire telles que la probabilité d obtenir des valeurs plus petites que q est respectivement de.25,.5 et.75. On définit q.25 q.25 tel que p(x) d x =.25 premier quartile q.5 q.5 tel que p(x) d x =.5 second quartile = médiane q.75 q.75 tel que p(x) d x =.75 troisième quartile On superpose sur chaque point de mesure (cf. figure 14) : 1) un trait reliant les deux extrêmes, 2) un rectangle qui s étend du premier au troisième quartile, 3) une marque au niveau de la médiane. Le trait permet de se rendre compte de l étendue totale des mesures alors que le rectangle renseigne sur l intervalle dans lequel se trouve la moitié des points. Pour une distribution normale, ce dernier équivaut à l intervalle [µ.67σ, µ +.67σ]. Enfin, la médiane renseigne sur le centre de la distribution, qui ne coïncide pas forcément avec la moyenne. Si l erreur affecte à la fois l abscisse et l ordonnée, deux solutions se présentent. Si les erreurs sont indépendantes, alors on trace habituellement des barres d erreur orthogonales, qui s étendent d une valeur σ i de part et d autre du point de mesure. Il est souvent plus commode de représenter des ellipses de confiance dont la longueur des demi-axes équivaut à la valeur des écarts-type. Si les erreurs ne sont pas indépendantes, alors le demi-grand-axe de l ellipse aura une inclinaison autre que deg ou 9 deg. Ce cas ne sera pas abordé ici, car il nécessite l étude des distributions multivariées. 6.3 Chiffres significatifs Comme toute valeur expérimentale est affectée d une erreur, donner des résultats avec un grand nombre de décimales n a pas de sens. Par exemple, le résultat g = ± [m s 2 ] n a pas de sens puisque l incertitude est donnée avec davantage de précision que la valeur elle-même. La valeur de l incertitude est toujours approximative. On se contente souvent de la représenter avec un (voire deux) chiffres significatifs. 24

25 y p(y) x_1 x_2 FIG. 14 Exemple d une distribution p(y) de la valeur des ordonnées (à gauche) et de ses barres d erreur (à droite). La barre d erreur classique en x 1 donne une idée de la dispersion mais ne rend pas du tout compte de l asymétrie de la distribution. La barre d erreur en x 2 est nettement plus révélatrice de l allure de la distribution. Il faut donc commencer par transformer le résultat ci-dessus en g = ±.3 [m s 2 ] Dans une valeur numérique, le premier chiffre non-nul de gauche (ici le 9) désigne le chiffre le plus significatif et le dernier chiffre non-nul de droite (ici 1) le chiffre le moins significatif. Les nombres 1234, et.1234 ont ainsi tous quatre chiffres significatifs. En vertu de ce qui a été dit plus haut, le nombre de chiffres significatifs rend compte de la précision du résultat et permet donc de se faire une idée de l incertitude, même quand cette dernière n est pas indiquée. Le chiffre le moins significatif d un résultat devrait toujours être du même ordre de grandeur que l incertitude. Le résultat ci-dessus s écrit donc finalement g = 9.81±.3 [m s 2 ] Exemple : Dans la publicité d une bière sans alcool, il est dit que la taux d alcool vaut. %. Cela signifie donc que l incertitude sur le taux est de l ordre du dixième de pour-cent. Il se peut donc très bien que la bière contienne encore.5 % d alcool, ce qui est effectivement le cas. 6.4 Comment déterminer l incertitude? L incertitude sur un résultat peut être estimée de plusieurs façons. 25

26 l incertitude est connue d avance : c est le cas de valeurs qui résultent de la combinaison d autres mesures, dont on connaît déjà l incertitude. Dans ce cas, on peut estimer l incertitude du résultat par un calcul de propagation d erreurs, cf. plus bas. la mesure peut être répétée plusieurs fois dans de mêmes conditions : il suffit alors de répéter l expérience et de prendre l écart-type comme estimation de l incertitude. la loi de probabilité est connue : certaines lois (comme la loi de Poisson) donnent directement accès à l incertitude, sans qu il soit nécessaire de répéter l expérience. C est là un des principaux atouts des lois de probabilité. Dans la pratique, on devra généralement se contenter d une seule méthode. Exemple : Huit tirages successifs d une variable de Poisson d espérance µ = 5 ont donné les valeurs x= {6,5,3,5,9,7,6,2} La moyenne vaut x= 1 x i = 5.37 N i On a bien x µ. Pour connaître l incertitude sur x, on estime son écart-type (avec l estimateur non biaisé) 1 s x = (x i x) 2 = 2.2 N 1 i Or comme x obéit à une loi de Poisson, on sait aussi que son écart-type vaut théoriquement σ x = µ=2.24 et on vérifie que s x σ x. Il n est donc même pas nécessaire de répéter l expérience. En vertu de la loi des grands nombres, la valeur expérimentale tend vers la valeur théorique dans la limite où le nombre de tirages est grand. 6.5 Propagation des erreurs Il arrive fréquemment que l on doive combiner des mesures qui sont toutes entachées d erreurs différentes. Il faut alors déterminer comment la combinaison de ces erreurs affecte le produit final. Nous supposerons dans ce qui suit, que nous avons des erreurs décorrélées : la valeur d une erreur sur une mesure ne dépend pas de celle sur une autre mesure. Exemple : On met bout à bout deux tiges de longueur a±σ a et b±σ b. Quelle est l incertitude sur la valeur de c = a+ b? Alors σ 2 c = (c c ) 2 = (a+ b a+ b ) 2 = (a a ) 2 + (a a ) 2 2 (a a )(b b ) = σ 2 a + σ2 b 2 (a a )(b b ) Si les erreurs sont décorrélées, alors le troisième terme est nul, et il reste σ 2 c = σ 2 a + σ2 b. 26

27 De manière plus générale, si une valeur x = f (a,b,c,...) est une fonction de différentes variables indépendantes {a,b,c,...} dont les variances sont respectivement {σ 2 a,σ2 b,σ2 c,...}, alors l incertitude sur x vaut approximativement σ 2 x ( ) f 2 ( ) f 2 ( ) f 2 = σ 2 a a + σ 2 b b + σ 2 c c +... Dans cette expression, qui dérive d une développement de Taylor, nous supposons que les erreurs ne sont pas corrélées entre elles, que leur distribution est normale, et que leur valeur reste suffisamment petite (σ y / y 1) pour justifier un tel développement. Notez que cette expression ne donne pas tout à fait les mêmes résultats que l expression simplifiée σ x = f a σ a+ f b σ b+ f c σ c+... que l on rencontre fréquemment. Seule la première des deux expressions donne des résultats exacts d un point de vue statistique. Exemple : La tension mesurée au bornes d une résistance vaut U = U ± σ U lorsque le courant à travers cette résistance vaut I = I ± σ I. L incertitude sur la valeur de la résistance R = f (U, I )= U /I vaut alors σ 2 R = ( f U ) 2 ( ) f 2 σ 2 U + σ 2 I I = σ2 U I 2 + U 2 σ2 I I 4 σ2 R R 2 = σ2 U U 2 + σ2 I I 2 La propagation des erreurs pour quelques expressions courantes donne f = ax+ by f = x y f = x y f = x a y b σ 2 f = a2 σ 2 x + b2 σ 2 y ( ) σf 2 ( σx ) ( 2+ σy = ( f ) x y σf 2 ( σx ) ( 2+ σy = ( f ) x y σf 2 = a 2( σ ) x 2+ b 2 f x ) 2 ) 2 ( ) σy 2 On notera que pour les fonctions linéaires, les erreurs s ajoutent, alors que pour les produits/divisions ce sont les erreurs relatives qui s ajoutent. y 6.6 Pourquoi moyenner? Les résultats ci-dessus ont des conséquences importantes sur la stratégie à adopter pour améliorer un résultat. Nous savons intuitivement que pour améliorer la précision d un résultat, il 27

28 vaut mieux répéter les mesures plusieurs fois dans les mêmes conditions puis moyenner. Supposons que cette moyenne soit effectuée sur N mesures x N = f (x 1, x 2,..., x N ) = 1 N (x 1+ x x N ) Comme les mesures ont été effectuées dans les mêmes conditions, elles ont a priori la même incertitude σ x. La moyenne x N est elle aussi une variable aléatoire dont l incertitude σ x N vaut σ x N = σ x N Pour réduire l incertitude d un facteur 1, il faut donc moyenner sur 1 valeurs. Exemple : Huit mesures successives de la masse atomique du méthane, effectuées dans les mêmes conditions et avec le même spectromètre de masse, ont donné les valeurs [15.942, , 16.9, , 16.99, , , ]. La masse moyenne vaut M = [u.a.]. L espérance de la masse vaut par définition µ M = 16 [u.a.]. 1 L écart-type de la masse est s M = N 1 (Mi M) 2 =.1665 [u.a.]. L incertitude sur une mesure particulière de la masse vaut donc σ M =.17 [u.a.]. Notez qu on utilise ici l estimateur non-biaisé de l écart-type. L incertitude sur la masse atomique moyenne est forcément plus petite. Son expression est s M = s M / 8 =.589 [u.a.]. On dira dès lors que la masse moyenne vaut M = ±.6 [u.a.]. Dans l exemple ci-dessus, nous avons supposé que les N mesures avaient toutes la même incertitude. Si ce n est pas le cas, alors on est naturellement amené à pondérer les valeurs. Exemple : Deux mesures successives d une concentration donnent comme résultat c 1 c 2 = 27±4 cm 3 = 23±2 cm 3 Un calcul direct donne c =25.±2.2 cm 3. L incertitude sur la moyenne est supérieure à celle de c 2! Posons c = a 1c 1 + a 2 c 2 2 avec a 1 + a 2 = 1. La valeur de a 1 et de a 2 qui minimise l incertitude sur c est a 1 = σ 2 c 2 σ 2 c 1 + σ 2 c 2 et a 2 = σ 2 c 1 σ 2 c 1 + σ 2 c 2 soit a 1 = 1/5 et a 2 = 4/5, ce qui donne c =23.8±1.8 cm 3. 28

29 7 Tests d hypothèse La diffusion de résultats scientifiques est souvent source de de malentendus : les résultats scientifiques sont souvent de nature probabiliste, alors que le public attend des réponses tranchées, de type vrai ou faux. L avis sera donc généralement exprimé sous la forme d un test d hypothèse. Même si cela donne un caractère plus tranché au résultat, ce dernier restera toujours probabiliste. Un test d hypothèse permet de trancher entre deux hypothèses au vu des résultats d un échantillon. Ces hypothèses portent généralement sur des estimations (valeur de la moyenne, égalité de variances, nature d une loi de probabilité,... ). Soient H et H 1 ces deux hypothèses, dont une et une seule est vraie. La décision aboutira à choisir H ou H 1. Il y a donc 4 cas possibles, dont les probabilités sont H vraie H 1 vraie H décidée 1 α β H 1 décidée α 1 β α est la probabilité de décider H 1 alors que H est vraie. β est la probabilité de décider H alors que H 1 est vraie. On appelle encore α le niveau de confiance (ou niveau de signification). Plus sa valeur est faible, plus β sera grand. Dans la pratique, on fixe une faible valeur de α (typiquement.5,.1 ou.1) et on se concentre sur le rejet de l hypothèse H, appelée l hypothèse nulle. On dira que le degré de confiance à accorder au rejet de H est 1 α (en %). Si on impose une trop faible valeur de α alors la règle de décision devient si stricte que l hypothèse H ne sera jamais rejetée. A l inverse, le test sera dénué d intérêt si α est trop grand. Il existe deux types de tests (cf. figure 15) 1. le test unilatéral s applique quand on cherche à savoir si une estimation est inférieure ou supérieure à une valeur donnée. La probabilité vaut par exemple x1 α Prob(X x 1 α )= p(x) d x = 1 α ou Prob(X > x 1 α )=α 2. le test bilatéral s applique quand on cherche à savoir si une estimation se trouve à l intérieur ou à l extérieur d un intervalle donné. On a par exemple x1 α Prob(x α < X x 2 1 α )= 2 p(x) d x = 1 α 2 x α 2 Exemple : On dispose d un échantillon de n valeurs distribués selon une loi normale, dont on connaît la moyenne x ainsi que l écart-type σ. On veut estimer l espérance µ (inconnue) de cette variable. L hypothèse H consiste à supposer que x = µ. Cette hypothèse devrait en principe être rejetée si x µ. Or comme x est une variable aléatoire, il faudrait plutôt effectuer un test bilatéral et vérifier si x µ < seuil. Fixons un niveau de confiance α =.5. 29

30 .4.3 Test unilateral p(x) α α x x 1 α.4.3 Test bilateral p(x).2.1 α/2 1 α α/ x 1 α/2 x x 1 α/2 FIG. 15 Test unilatéral (en haut) et test bilatéral (en bas). Dans ce dernier, les deux intervalles extrêmes ont toujours la même aire. D après le théorème de la limite centrale, x est distribué selon une loi normale de moyenne µ et d écart-type σ/ n. Par conséquent, la variable standardisée z = ( x µ)/(σ/ n) est distribuée selon une loi normale N (,1). On a z1 α Prob(z α < Z z 2 1 α )= 2 p(z) d z = 1 α =.95 2 z α 2 La densité de probabilité p(z) étant connue, on trouve les bornes d intégration symétriques z α = 1.96 et z 2 1 α = L hypothèse H doit donc être rejetée si 2 l on n a pas 1.96< z = x µ σ/ n 1.96 ce qui conduit à x 1.96σ n µ< x+ 1.96σ n On dira encore que l intervalle de confiance à 95 % pour l espérance µ est donné par x±1.96 σ n. L hypothèse H sera rejetée si µ tombe en-dehors de cet intervalle. Dans l exemple ci-dessus, si on avait voulu obtenir une certitude, alors il aurait fallu prendre α = 1. Cela aurait conduit au résultat inexploitable (car toujours vrai) µ < +. A l inverse, si on peut se contenter d un niveau de confiance α plus faible, alors l intervalle de confiance se rétrécit. Le choix du niveau de confiance est donc important. C est lui qui reflétera in fine le caractère probabiliste du résultat. Exemple : Une alimentation d un circuit électronique sensible comprend à son entrée une protection contre les surtensions. Ces dernières peuvent provenir 3

31 d impacts de foudre ou de pics inductifs générés par des appareils à proximité. Il nous faut ici un test unilatéral. Soit α=.1, le niveau de confiance. La tolérance ou probabilité d avoir une tension qui dépasse la valeur seuil U s du circuit vaut donc.1 ; H est l hypothèse selon laquelle le circuit ne subit pas de dommages. Si on veut une tolérance plus faible (α <.1), alors il faudra nécessairement relever le seuil, i.e. avoir une alimentation qui supporte des surtensions plus élevées. Prendre une tolérance nulle (α=) implique un seuil de tension U s si élevé que jamais l appareil ne sera affecté par une surtension. En pratique, le constructeur doit trouver un bon compromis entre la résilience de son alimentation et son coût de construction. 7.1 Etapes du test d hypothèse L application d un test d hypothèse nécessite une formulation précise du problème, avec une démarche qui comprend plusieurs étapes : 1. Définir l hypothèse H. Il est important que celle-ci soit réaliste. 2. Fixer le niveau de confiance <α 1. Les valeurs les plus courantes sont.5,.1 et Déterminer la quantité à étudier (dans l exemple ci-dessus, c est la variable z). Doit-on comparer des moyennes, prendre le rapport de variances,...? 4. Déterminer la distribution de la variable z (dans l exemple ci-dessus, c est une loi normale). 5. Calculer l intervalle de confiance ; pour un test bilatéral, on a [z α 2, z 1 α 2 ]. Le tableau 1 donne quelques intervalles de confiance courants. Loi de Student Le tableau 1 fait apparaître une nouvelle loi, dite loi de Student T [ν] à ν degrés de liberté. Lorsqu on compare deux variables normales issues de petits échantillons (typiquement n < 3) dont les écarts-type ne sont pas connus, alors la loi normale ne convient plus. Il faut appliquer un facteur correctif, ce qui conduit à la loi de Student ou t distribution, qui s en approche d autant plus que n est grand. La loi de Student, contrairement à la loi normale, admet deux paramètres : la variable x et le nombre de degrés de liberté ν. Ce dernier sera pris égal à n 1 si la moyenne ou l écart-type de l échantillon doivent être estimés ; il sera égal n 2 si les deux doivent être estimés à la fois. 7.2 Test du χ 2 Le test du χ 2 est très couramment utilisé pour déterminer si un échantillon est issu d une population donnée. On dispose d un échantillon de taille k dont chacune des valeurs x i (supposées indépendantes) est issue d une même population distribuée selon une loi normale N (µ,σ 2 ). L hypothèse nulle H est : l échantillon observé est issu de cette population. 31

32 TAB. 1 Quelques intervalles de confiance courants ; s désigne l écart-type estimé à partir d un échantillon, alors que σ est la valeur issue de la population. De même, x est la moyenne de l échantillon et µ l espérance de la population. Ici, U désigne une variable aléatoire distribuée selon une loi normale N (,1), T [ν] est une variable aléatoire distribuée selon un loi de Student à ν degrés de liberté (voir ci-dessous) et χ 2 [ν] est une variable aléatoire distribuée selon une loi du χ 2 à ν degrés de liberté. Paramètre de la population parente à estimer Paramètres connus Loi de probabilité µ σ, x normale Intervalle de confiance (au niveau α) pour le paramètre à estimer x± σ n u 1 α 2 µ s, x normale s x± t 1 α [n 1] n 1 2 σ s normale s± s 2n u 1 α 2 si n 1 p probabilité d un événement ˆp = n N où n est le nombre d observations binomiale ˆp± ˆp(1 ˆp) n u 1 α 2 si n 1 λ nombre d observations k Poisson 1 2 χ2 α 2 [2k] λ< 1 2 χ2 1 α [2k+ 2] 2 32

33 TAB. 2 Quelques valeurs caractéristiques de la loi de Student à ν degrés de liberté pour le rejet d un hypothèse avec un seuil α. Pour ν, ces seuils convergent vers ceux d une loi normale. test bilatéral test unilatéral ν α=.5 α=.1 α=.5 α= Comme chaque variable x i suit une loi normale N (µ,σ 2 ), les variables standardisées (x µ)/σ doivent toutes suivre la même loi normale N (,1). Par conséquent, la variable aléatoire k ζ= z 2 i = i=1 k (x i µ) 2 i=1 σ 2 suit une loi du χ 2 à ν degrés de liberté. L hypothèse H sera rejetée au niveau α si ζ > χ 2 1 α [ν] Il s agit ici d un test unilatéral. Le nombre de degrés de liberté ν est égal à l effectif k de la population moins le nombre de paramètres qu il a fallu estimer pour ajuster la loi normale aux observations. Si le paramètre à estimer est uniquement σ 2, alors ν = k 1. Si µ et σ 2 doivent être estimés, alors ν=k 2. Des valeurs de χ 2 1 α [ν] sont données dans la table 3. Le test du χ 2 reste valable si les variables sont issues de lois normales d espérances et/ou de variances différentes. Il faudra cependant calculer k ζ= z 2 i = i=1 k (x i µ i ) 2 i=1 σ 2 i Exemple : La figure 16 montre deux spectres d absorption de l atmosphère, obtenus dans des conditions voisines et qui se ressemblent beaucoup. Les intensités I 1 et I 2 proviennent d un spectromètre à 22 canaux, numérotés de 1 à 22. L erreur sur les intensités est connue. Peut-on conclure ici que les deux échantillons sont différents (i.e. ils ont des spectres différents)? Il est impossible de répondre à cette question sans connaître l incertitude des mesures, qui est donc une donnée obligatoire. Notre hypothèse nulle est : les deux échantillons possèdent le même spectre d émission. Le niveau de confiance est fixé à.5. On peut effectuer plusieurs types de tests : 33

34 TAB. 3 Valeurs seuil d une distribution de χ 2 pour ν degrés de liberté et pour un niveau de confiance α. α ν

35 intensite I 1 I 2 I canal canal FIG. 16 Spectres d absorption de deux échantillons (à gauche) et la différence des intensités (à droite). Les barres d erreur correspondent à±1 écart-type. 1. Soit on détermine pour chaque canal, si l écart I = I 1 I 2 s écarte de manière significative de la valeur nulle. Il faut pour cela un test bilatéral. Pour un niveau de confiance α=.5, cela revient à vérifier si 1.96< I σ I 1.96 Tous les canaux sauf les numéros 6, 7, 12, 13 et 19 vérifient cette inégalité. On peut donc conclure que l hypothèse selon laquelle l écart I est nul, semble vérifié pour la plupart des canaux. 2. Dans notre cas, c est plutôt l accord général entre les deux spectres qui nous intéresse. On préférera au test précédent un test du χ 2 unilatéral. La variable z = I σ I est distribuée selon une loi normalen (,1). Par conséquent, ζ= 22 i=1 z2 i suit une loi du χ 2 [ν] à ν = 22 degrés de liberté 2. Il faut auparavant déterminer σ I. Or, sachant que I = I 1 I 2, par propagation d erreurs on a σ 2 I = σ2 I 1 + σ 2 I 2. Pour l exemple donné dans la figure 16, nous obtenons ζ=54.88 > χ 2 1 α [ν]= L hypothèse nulle doit donc être rejetée avec un niveau de confiance α =.5. Il n y a pas de contradiction entre les résultats 1) et 2), car ils répondent à des questions différentes. Cet exemple illustre ainsi l importance de la formulation du problème. 2 Le nombre de degrés de liberté est ici égal au nombre de variables, car il n a point été nécessaire d estimer l espérance ou la variance de z à partir des données. 35

36 Test du χ 2 pour des classes On utilise fréquemment le test du χ 2 en présence d un échantillon dont les éléments sont répartis dans k classes. Appelons o i l effectif de chaque classe. Si les éléments sont indépendants, alors chaque effectif suit une loi de Poisson d espérance λ i = e i et d écart-type σ i = e i. Par conséquent, si o i 1, la nouvelle variable z i = o i e i ei suivra une loi normale N (,1). La quantité ζ= k z 2 i = i=1 k (o i e i ) 2 suit alors une loi du χ 2 à ν degrés de liberté. Comme ci-dessus, on réduira le nombre de degrés de liberté d une unité pour chaque paramètre estimé. i=1 e i Exemple : Pendant un an, on a recensé 143 défaillances mineures dans un réacteur chimique. L effectif est connu pour chaque jour. On aimerait savoir s il se produit davantage de défaillances certains jours de la semaine, comme par exemple le lundi, après de la mise en route du réacteur. L hypothèse nulle est ici : le nombre de défaillances ne dépend pas du jour de la semaine. Cela revient à supposer que l effectif reste constant, à savoir e i = 123/5= Il faut comparer les effectifs donnés dans le tableau suivant lundi mardi mercredi jeudi vendredi o i e i Le nombre de degrés de liberté vaut ν=5 1=4. Le niveau de confiance étant fixé à α=.1, on a 5 (o i e i ) 2 i=1 e i = 8.71 < χ 2 ν=4 = 13.3 L hypothèse H ne peut donc pas être rejetée avec un niveau de confiance α =.1. Autrement dit, le réacteur se comporte de la même façon, quel que soit le jour de la semaine. Si on fixe un niveau de confiance moins contraignant à α =.1, cela donne χ 2 ν=4 = 7.78 et l hypothèse doit alors au contraire être rejetée. Cet exemple illustre bien l importance du choix du niveau de confiance dans le rendu d un résultat. 7.3 Calculer les seuils avec Scilab Le logiciel Scilab dispose de plusieurs routines, dont la syntaxe compacte permet de calculer le niveau de confiance en fonction du seuil, ou inversement. 36

37 [P,Q] = cdfnor("pq",x,mu,sigma) calcule pour une loi normale N (µ,σ 2 ), la probabilité P = x p(y)d y, connaissant le seuil x. On a Q = 1 P. x = cdfnor("x",mu,sigma,p,q) calcule pour une loi normale N (µ,σ 2 ), la valeur seuil x telle que P = x p(y)d y. Il faut spécifier Q = 1 P. mu = cdfnor("mean",sigma,p,q,x) calcule pour une loi normale N (µ,σ 2 ), la moyenne µ telle que P = x p(y)d y. Il faut spécifier Q = 1 P. [P,Q] = cdfchi("pq",x,nu) calcule pour une loi du χ 2 [ν] l intégrale P = x p(y)d y, connaissant x. La probabilité Q = 1 P est habituellement interprétée comme étant le niveau de confiance α. x = cdfchi("x",nu,p,q) calcule pour une loi du χ 2 [ν] le seuil x tel que P = x p(y)d y. On a Q = 1 P. nu = cdfchi("df",p,q,x) calcule pour une loi du χ 2 le nombre ν de degrés de liberté nécessaire pour avoir P = x p(y)d y. On a Q = 1 P. [P,Q] = cdfpoi("pq",s,lambda) calcule pour une loi de Poisson P (λ), la probabilité P = i s p i, connaissant le seuil entier s. On a Q = 1 P. 8 Tests de stationnarité Beaucoup de résultats scientifiques s obtiennent sous forme de séries temporelles. Nombreux sont les outils en traitement du signal (comme par exemple la transformée de Fourier) pour lesquels la stationnarité des processus étudiés est une hypothèse de travail essentielle. Or la stationnarité est une propriété qui n est que rarement vérifiée dans la pratique. Il est donc important de savoir déterminer si une série temporelle l est ou non. Un processus X (t) est dit stationnaire au sens strict si la densité de probabilité conjointe p ( X (t 1 ), X (t 2 ),..., X (t n ) ) est la même que p ( X (t 1 +τ), X (t 2 +τ),..., X (t n +τ) ), quelles que soient les valeurs de t i et de τ. En d autres termes, les propriétés statistiques doivent être indépendantes de l intervalle sur lequel on travaille. Cette définition est impossible à appliquer dans la pratique. On se contentera donc souvent de vérifier la stationnarité du premier ordre : l espérance E (X ) et la variance σ 2 X ne doivent pas dépendre de l intervalle choisi. Visuellement, cela correspond à une série temporelle dont les caractéristiques ne varient pas "sensiblement" au cours du temps. Un test simple consiste dès lors à diviser la série temporelle en des intervalles égaux, à calculer la moyenne x i et l écart-type σ 2 pour chacun puis à vérifier si la variation de i ces dernières est compatibles avec une hypothèse de stationnarité. Quelle longueur d intervalle faut-il choisir? La figure 17 montre que la stationnarité est une notion difficile à quantifier dans la pratique. On se contentera donc de faire des tests approximatifs. Parmi ceux-ci, letest de run a l avantage d être simple, à défaut d être précis. 37

38 4 (1) 5 (2) 2 x(t) x(t) (3) (4) x(t) 5 x(t) (5) (6) x(t) x(t) FIG. 17 Quelques exemples de séries temporelles. La série (1) est stationnaire. Les séries (2) et (3) ne le sont clairement pas. Qu en est-il des trois autres? 38

39 8.1 Test de run On dispose d une série temporelle [x 1, x 2,..., x N ], dont la valeur médiane (et non la moyenne) est m x. Remplaçons chaque valeur de x par+si x m x et par sinon. On obtient alors une succession du genre etc. Un run est défini comme une suite de signes identiques. Ici, le premier run est+ + +, suivi de, puis de++, etc. Soient N + le nombre de runs comprenant des + et N le nombre de runs comprenant des. On peut montrer que pour un processus stationnaire, le nombre total r de runs obtenus suit une loi normale de moyenne et de variance qui sont respectivement µ r = 2N +N N + 1 et σ 2 r = 2N +N (2N + N N) N 2 (N 1) où N est le nombre d échantillons. Il suffit ensuite de calculer avec quelle probabilité le nombre r de runs observés tombe dans l intervalle Prob(a < r b). Cela revient donc à faire un test d hypothèse. Ce test a cependant une particularité : r doit être un nombre entier et on ne peut donc appliquer telle quelle la loi normale. Une table des valeurs est requise ici. Exemple : Considérons la séquence x=[5.5, 5.1, 5.7, 5.2, 4.8, 5.7, 5., 6.5, 5.4, 5.8, 6.8, 6.6, 4.9, 5.4, 5.9, 5.4, 6.8, 5.8, 6.9, 5.5], dont la médiane est m x = 5.6. Cela donne la suite avec N = 2, N + = 6 et N = 7. On en tire que µ r = 5.2 et σ 2 r =.71. Fixons le niveau de confiance à α =.5. D après les tables numériques, avec une probabilité de.95, la valeur de r doit se trouver dans l intervalle [6<r 15]. Comme nous avons r = 13, il est fort probable que la série soit stationnaire. L hypothèse de non-stationnarité doit donc être rejetée avec un niveau de confiance de 5 %. 9 Régression affine et ajustement de courbes La figure 18 illustre une chute de température relevée par un thermocouple dans un caisson à plasma. On peut légitimement supposer que la suite de points traduit une diminution progressive de la température, à laquelle viennent se superposer des fluctuations dues au dispositif de mesure ou aux propriétés du milieu. Nous admettrons donc qu il existe une relation sous-jacente T = T (t) qui est une fonction régulière de t. Le travail du physicien consiste à 1. proposer un tel modèle 2. l ajuster ce modèle aux mesures 3. interpréter les paramètres de ce modèle La première étape est de loin la plus importante et nécessite une connaissance du phénomène. Nous nous concentrons ici sur la seconde étape, appelée régression (ou ajustement). La figure 18 suggère l existence d une relation linéaire T (t) = at + b. Il est cependant aussi possible que la relaxation obéisse à une loi exponentielle T (t) = a+ b exp( t/τ). Ces deux modèles ont ici la même allure mais conduisent à des états finaux très différents. Dans l immédiat, c est l estimation des paramètres a, b, τ,... qui nous intéresse. 39

40 6 5 T [C] t [h] FIG. 18 Exemple de variation de la température dans un caisson (points), avec ajustement d une droite et d une exponentielle décroissante. 4

41 9.1 Régression linéaire : maximum de vraisemblance et moindres carrés Dans la majorité des cas, on cherche à établir une correspondance entre N points de mesure {x i } et N valeurs correspondantes {y i }. On supposera pour commencer que les deux quantités sont liées par un modèle linéaire y = f (x)=ax+b. Nous supposerons que les abscisses x i sont connues exactement, mais non les ordonnées : chaque y i est une variable aléatoire distribuée selon une loi normale d espérance y i et d écart-type (connu) σ i. De plus, les erreurs sur les abscisses sont supposées indépendantes. La probabilité que la i-ième ordonnée se situe dans un intervalle infinitésimal de largeur d y, centré sur y, vaut alors ( ) 1 p i (y) d y = exp (y y i ) 2 2πσ 2 2σ 2 d y i i La probabilité que la droite d équation y = ax + b passe dans cet intervalle vaut ( ) 1 p i (y = ax+ b) d y = exp (ax i + b y i ) 2 2πσ 2 2σ 2 d y i i La probabilité que la même droite passe ainsi à proximité de chacun des N couples de points devient N p tot d y = p i d y = = i=1 ( ) N 1 exp (ax i + b y i ) 2 2πσ 2 2σ 2 d y i i [ ( )] N 1 exp 1 N (ax k + b y k ) 2 2πσ 2 2 k=1 σ 2 d y i k i=1 i=1 On peut dès lors postuler que la droite la plus vraisemblable est celle dont les coefficients (a,b) maximisent la valeur de p tot. Cette solution, dite du maximum de vraisemblance est couramment utilisée en statistique. Il n est pas très aisé de maximiser p tot. Notons en revanche que si p tot présente un maximum, alors log p tot possède un maximum pour les mêmes valeurs de a et de b. Prenons donc le logarithme log p tot = N log p i i N = log2π 2 i i=1logσ 1 ( N axi + b y i 2 i=1 σ i Les deux premiers termes sur la droite sont des constantes, seul le troisième dépend de a et de b. La droite de régression recherchée est donc celle qui minimise l écart quadratique ( ) N axi + b y 2 i J(a,b)= Notons que : i=1 41 σ i ) 2

42 La droite de maximum de vraisemblance est celle qui passe au plus près de chacune des ordonnées. la droite recherchée minimise la somme des écarts au carré et non leur valeur absolue ( ax i + b y i ) comme on aurait pu le penser. C est pour cette raison que la méthode associée porte le nom de méthode des moindres carrés. dans la somme à minimiser, chaque écart est pondéré par l écart-type σ i des ordonnées, que l on remplace généralement par la valeur de l incertitude. Une ordonnée de faible incertitude (σ i petit) contribuera davantage au terme d erreur J et la droite de régression aura donc tendance à en tenir davantage compte. Au contraire, si l incertitude est très grande (σ i ), le point associé ne sera guère pris en compte dans l ajustement. Dans la pratique, il arrive fréquemment que les incertitudes ne soient pas connues. Dans ce cas, et sans perte de généralité, on posera σ i = 1. La somme des écarts quadratiques se réduit alors à N ( ) 2 J(a,b)= axi + b y i (1) i=1 La solution (a, b) qui minimise cet écart J satisfait J a J b N = ( ) 2x i axi + b y i = i=1 N = 2 ( ) ax i + b y i = i=1 On gagne à exprimer ceci sous forme matricielle ( N i=1 x2 i N i=1 x i N i=1 x i N )( a b ) ( N = i=1 x i y i N i=1 y i ) (2) En divisant tout par N, on obtient une expression encore plus simple ( x 2 x x 1 )( a b ) ( x y = y La solution (a,b) de ce système linéaire est unique, à condition que le déterminant de la matrice soit non-nul. Or un déterminant non-nul signifie = x 2 x x = σ 2 x L interprétation est simple : il faut des points d abscisses différentes pour pouvoir déterminer la droite de régression. Il nous reste à vérifier que la solution (a,b) correspond bien à un minimum et non à un maximum. Un calcul de la dérivée seconde de J permet aisément de vérifier que 2 J et que 2 J. a 2 b 2 La pente de la droite de régression et l ordonnée à l origine valent donc respectivement ) a b = x y x y x 2 x x = x2 y x y x x 2 x x 42

43 Dans le cas où les écarts-type σ i sont connus et différents de 1, l équation 2 devient N x 2 N i x i N x i y i i=1 σ 2 i i=1 σ 2 ( ) i a N x i N 1 = i=1 σ 2 i b N y i i=1 σ 2 i i=1 σ 2 i i=1 σ 2 i (3) Les solutions de ce système sont du même type que celles de (2), mais leur expression est plus complexe E BD a= G B 2 avec B = i GD BE b= G B 2 (4) w i x i G = w i x 2 i D = w i y i E = ( ) w i y 2 i w i = i i i σ 2 i k σ 2 k 9.2 Résolution avec Scilab Le problème de la régression d une droite peut s écrire y 1 y 2 y N = a x 1 + b = a x 2 + b. = a x N + b Il s agit généralement d un problème sur-déterminé, puisque le nombre N d équations dépasse le nombre d inconnues, qui est de 2. Cela signifie qu il n existe pas forcément de solution exacte du système. On peut en revanche chercher la solution la plus vraisemblable. Les N équations ci-dessus peuvent se mettre sous forme matricielle avec A= x 1 1 x x N 1, c= A c=y (5) ( a b ), y= On pourrait être tenté de résoudre le système A c=y simplement en inversant la matrice A, ce qui donne c=a 1 y mais cette expression est fausse en général car la matrice A n est pas forcément carrée. Pour résoudre le problème, on multiplie d abord le système (5) à gauche par la transposée A T de A, ce qui donne A T A c=a T y (6) La matrice A T A est carrée, et peut donc être inversée si son déterminant n est pas nul. En détaillant le contenu de A, l équation 6 devient ( N N i=1 x2 i i=1 x )( ) ( i a N N i=1 x = i=1 x ) i y i i N b N i=1 y (7) i 43 y 1 y 2. y N

44 Cette équation est exactement la même que celle (éq. 2) obtenue plus haut par le calcul direct. Nous savons donc que la solution c c= ( A T A ) 1 A T y (8) coïncide avec la solution obtenue par maximisation de la vraisemblance. On s aperçoit ici qu une régression par moindres carrés ne possède de solution que si le nombre de points de mesure indépendants dépasse le nombre d inconnues : N > M. Lorsqu il y a égalité, la matrice A devient carrée et la solution passe exactement par tous les points. S il n a pas égalité, la matrice A devient rectangulaire et la solution est celle qui passe au mieux par tous les points. Dans le cas où les données sont additionnées de bruit, il est souhaitable d avoir N M pour contraindre la régression à extraire au mieux la relation sous-jacente. Dans Scilab, la solution c peut se calculer de deux façons différentes. Soit on la détermine à partir de l équation 8 ci-dessus, c = inv(a *A)*A *y; soit on utilise une notation plus compacte, qui est propre à Scilab et à Matlab, selon laquelle c = A \ y; Cette notation compacte est fausse d un point de vue mathématique car l opérateur\ n existe pas. Elle exprime une division du vecteur y à partir de la gauche par la matrice A. Les deux commandes Scilab ci-dessus donnent le même résultat, mais la seconde est numériquement plus précise. La procédure pour résoudre en Scilab un système linéaire par la méthode des moindres carrés se résume donc à 3 3 la commande( :) permet ici de s assurer que les vecteurs apparaissent sous forme de vecteur colonne. 44

45 Soit { y i = ax i + b } i=1,...,n, un système de N équations à résoudre en a et en b. Il faut que N 2, sinon le système est sous-déterminé. On enregistre d abord les données dans deux vecteurs colonne. Par exemple --> x = [62; 257; 64; 91]; --> y = [.337;.168;.78;.9]; On construit ensuite la matrice A, puis on résout le système linéaire --> N = length(x); --> A = [x(:) ones(n,1)]; --> y = y(:); --> c = A \ y; sachant que c=(a,b) T. Pour calculer l estimation de ŷ de y par la méthode des moindres carrés, et pour comparer les résultats, il suffit de poser --> yfit = A*c; --> xbasc(); --> plot2d(x, [y yfit], style=[-6 1]) 9.3 Validation de la droite de régression Si la méthode des moindres carrés fournit toujours une estimation des coefficients de la droite de régression, rien en revanche ne garantit que le résultat ait un sens. Ainsi, la droite illustrée dans la figure 19 est totalement dénuée de sens. Il nous reste donc une dernière étape indispensable, qui est la validation du modèle obtenu. Validation par le calcul du coefficient de corrélation La validation peut se faire de plusieurs façons. La première et aussi la plus courante consiste à estimer lecoefficient de corrélation linéaire (ou coefficient de Pearson) ρ x y. Ce coefficient dit dans quelle mesure les couples de points (x i, y i ) sont liés par une relation linéaire y i = ax i + b, quels que soient les paramètres a et b. Sa définition est ρ x y = σ x y σ x σ y où la quantité σ x y = (x x )(y y ) = x y x y est appelée covariance (notez la similitude avec la définition de la variance). Pour un échantillon de N couples de points (x i, y i ), l estimateur de la covariance est σ x y = 1 N N (x k x )(y k y ) k=1 45

46 1 ρ= y x FIG. 19 Un ensemble de 15 couples (x, y) répartis aléatoirement entre et 1, avec la droite de régression obtenue par la méthode des moindres carrés. Celle-ci est bien définie mais n a strictement aucun sens. Contrairement à la variance, qui est toujours positive, la covariance peut être négative. Elle est nulle lorsque les valeurs de x et de y ne sont pas corrélées. Sa définition est basée sur des estimateurs biaisés de la variance et de la covariance (avec N et non N 1 au dénominateur). Le coefficient de corrélation est une quantité bornée 1 ρ x y 1 Si tous les points (x i, y i ) sont parfaitement alignés, alors ρ x y = 1 (si a > ) ou ρ x y = 1 (si a < ). Au contraire, ρ x y signifie qu il n y a pas de relation linéaire immédiate entre les points. Des valeurs intermédiaires signifient que x et y sont corrélées, sans qu il y ait de relation linéaire forte entre les deux. Le coefficient de corrélation linéaire quantifie donc la qualité d ajustement de la droite. En règle générale, il est déconseillé d ajuster une droite à une série de points lorsque le coefficient de corrélation linéaire vaut ρ x y <.7. Dans Scilab, la fonction de corrélation linéaire peut être estimée à partir de la routine corr, laquelle sert à calculer la fonction de covariance. Il faut cependant prendre garde au fait que Scilab utilise l estimateur non-biaisé de l écart-type alors qu ici c est l estimateur biaisé qui est requis. Une fonction qui calcule la corrélation entre les variables x et y pourrait s écrire 46

47 y y ρ=1 2 2 x ρ= 2 2 x ρ= x ρ= x FIG. 2 Quatre échantillons, pour lesquels le coefficient de corrélation vaut respectivement (de gauche à droite et de haut en bas) ρ x y =1,.9, et -.4. function [c] = correl(x,y) N = length(x); if N~=length(y), error( ** x et y doivent etre de meme taille ** ); end x = x-mean(x); y = y-mean(y); x = x/sqrt(x *x/n); y = y/sqrt(y *y/n); c = corr(x,y,1); enfunction // centrer x // centrer y // reduire x // reduire y Validation par les intervalles de confiance Une meilleure stratégie de validation consiste à estimer les intervalles de confiance des paramètres de la droite de régression. Le calcul, simple mais long, se fait à partir des lois de propagation des erreurs. Soient (x i, y i ) les N couples de points ; les écarts-type sur la valeur des ordonnées sont notés σ i. Les écarts-type sur les paramètres de la droite de régression 47

48 y = ax+ b sont alors σ a = G i (1/σ 2 i ) G B 2 σ b = i (1/σ 2 i ) G B 2 dont les différents termes sont définis dans l équation 4. Il arrive fréquemment que l on ne dispose pas a priori d estimation de l erreur σ i sur les ordonnées. Si le modèle linéaire est valable et si les couples de points sont tous indépendants, il devient possible d estimer cette erreur à partir de l écart entre la droite de régression et les observations σ 2 s2 = 1 N ( ) 2 axi + b y i (9) N 2 i=1 Le facteur N 2 provient du fait que deux coefficients du modèle (a et b) ont du être estimés auparavant. De la même façon, on peut calculer l erreur σ d sur la droite de régression au point d abscisse u. Cette erreur vaut, dans le cas où toutes les erreurs σ i = σ sont les mêmes σ d = σ 1+ (u x N ) 2 N x 2 N x 2 N où σ est défini en (9). Notons que cette erreur est minimale pour le point d abscisse u= x N et s évase de part et d autre de la moyenne. Ceci est illustré dans la figure a= b= y x FIG. 21 Exemple d ajustement d une droite de régression (en traitillé), avec un intervalle de confiance correspondant à±un écart-type. Le nombre de couples de points est N = 1. 48

49 Validation par un test du χ 2 Une troisième stratégie de validation consiste à effectuer un test du χ 2 (cf. section 7.2). Connaissant les ordonnées ŷ i = ax i + b prédites par la droite de régression ainsi que les ordonnées mesurées y i avec leur écart-type σ i, on sait que la variable ζ= ( N ŷi y i i=1 suit une loi du χ 2 à ν = N 2 degrés de liberté. On peut dès lors tester l hypothèse selon laquelle la droite de régression décrit correctement le nuage de points. Dans l exemple ci-dessus de la figure 21 et pour un seuil de confiance α=.5, on trouve σ i ) 2 ζ=16.2 > χ 2 1 α [ν=8]=15.5 et l hypothèse est donc rejetée de peu. Notons qu il est essentiel d avoir une bonne estimation de l erreur σ i des mesurer pour appliquer un tel test du χ Régression de fonctions affines La méthode des moindres carrés se généralise aisément à la décomposition d une suite de valeurs y en combinaison linéaire de fonctions connues. La décomposition y(x)= M c k f k (x) k=1 conduit directement au problème matriciel f 1 (x 1 ) f 2 (x 1 ) f M (x 1 ) f 1 (x 2 ) f 2 (x 2 ) f M (x 2 ).... f 1 (x N 1 ) f 2 (x N 1 ) f M (x N 1 ) f 1 (x N ) f 2 (x N ) f M (x N ) c 1 c 2. c M = y 1 y 2. y N 1 y N (1) qu il suffit de résoudre comme pour l exemple ci-dessus. Exemple : Dans une expérience laser, on soupçonne les mesures de luminosité d être modulées par le scintillement à f = 5 Hz causé par l éclairage à tubes fluorescents. On décide alors de se placer dans les conditions où l intensité du faisceau laser est aussi constante que possible, puis de mesurer N couples {y i, t i }, où y i est la luminosité et t i l instant de la mesure. Essayons la régression y(t)=c 1 sin(ωt)+c 2 cos(ωt)+c 3 (11) où ω = 2πf est connu. Avec Scilab, si les variables y et t sont respectivement stockées dans les vecteurs colonney ett, cela donne 49

50 --> N = length(y); --> omega = 2 * %pi * 5; --> A = [sin(omega*t) cos(omega*t) ones(n,1)]; --> c = A \ y; --> yest = A*c; --> c c = > amplitude = sqrt(c(1)*c(1) + c(2)*c(2)) amplitude = > phase = atan(c(1),c(2)) phase = > rho = correl(x,y) rho = y(t) t [ms] FIG. 22 Evolution temporelle de la luminosité mesurée (points) et de la luminosité ajustée avec le modèle de l équation 11. L amplitude de la modulation vaut.15, à comparer avec le niveau de fond, qui vaut.81. On en déduit que le scintillement représente environ 18 % du signal de fond, ce qui est considérable. La valeur de la corrélation (.76) entre les mesures et le modèle suggère que ce dernier décrit relativement bien les observations. Ceci est confirmé visuellement par la figure 22. On peut a priori ajuster n importe quelle combinaison de fonctions f (x) à une série de mesures. Il faut cependant être très prudent avec la colinéarité. Si deux fonctions f i (x) et f j (x) sont linéairement dépendantes, la matrice de régression A devient singulière et la solution n existe plus. Si deux fonctions sont presque linéairement dépendantes, la matrice A devient quasiment singulière et les solutions très instables : une petite erreur sur les valeurs des ordonnées y aura une forte répercussion sur la valeur de la solution c. Même si la solution des moindres carrés existe et reste toujours unique, le résultat sera dénué de sens. 5

51 Exemples : Fonctions linéairement dépendantes y = Ax B x y = A sin(kx)+2b sin(kx) y = A(x 2 1)+B(1 x 2 ) Fonctions presque linéairement dépendantes y = A sin(kx) + B sin(kx +.1) y = Ax+ B sin(x) pour x 1 y = Ax 5 + B x 7 +C Pour quantifier la colinéarité dans un problème de régression linéaire, on recourt au conditionnement (conditioning en anglais) de la matrice de régression A. Une définition simplifiée du conditionnement est la suivante : dans un système linéaire Ac = y, si on modifie d une fraction y / y le module du vecteur y, alors la plus grande variation qui en résultera sur le module de la solution sera γ c / c, où γ est le conditionnement de la matrice de régression. Par définition, γ 1. Un système linéaire est dit mal conditionné dès lors que γ 1. Quelques exemples ( 1 A= 2 ) γ=2 matrice bien conditionnée ( 1 A= 2.1 A= ) ( ( 1 2 A= 3 6 ) ) γ = 5.1 γ = 133 γ = matrice relativement mal conditionnée matrice mal conditionnée matrice très mal conditionnée (singulière) 9.5 Régression non-linéaire Les outils de la régression linéaire ne s appliquent que lorsque le modèle à ajuster peut s exprimer sous la forme d une combinaison linéaire de fonctions f k connues. y(x)= y(x, a)= k f k (x, a) Or il arrive fréquemment que ces fonctions f k doivent elles aussi être déterminées. Deux solutions se présentent alors. Mise sous forme d un problème linéaire Dans certains cas, un simple changement de variables permet de transformer un problème de régression non-linéaire en un problème linéaire, auquel on peut alors appliquer la méthode des moindres carrés. 51

52 Exemple : La loi exponentielle y(x)=ae bx ne s exprime pas comme une combinaison linéaire de ses coefficients. Or le changement de variable y z = log y donne z(x)= log a+ bx dont les coefficients log a et b peuvent être estimés par moindres carrés à partir des couples de points (x i,log y i ). De même, la loi de puissance y = ax b, se résout en prenant comme nouvelles variables log y et log x. Il faut cependant prendre garde au fait que le changement de variable affecte la fonction de coût. En prenant le logarithme, on donne davantage de poids aux faibles valeurs de y. Optimisation non-linéaire Nombreux sont les cas où la méthode des moindres carrés ne s applique pas. On procède alors par minimisation de l erreur. Si y(x) = k f k (x, a) est le modèle à ajuster, alors on cherche à minimiser l écart quadratique J( a)= ( N yi y(x i, a) i=1 Ceci devient alors un problème d optimisation, qui débouche généralement sur une recherche itérative de la solution. Il faut alors lui fournir une estimation initiale de la solution. L unicité de cette dernière n est hélas plus garantie. σ i ) 2 Exemple : Aucune transformation ne permet de transformer la loi exponentielle avec piédestal y(x)=ae bx + c en une expression linéaire de ses coefficients. La méthode des moindres carrés ne s applique donc pas. Il en va de même pour l expression y(x) = a sinbx, lorsque les inconnues sont à la fois a et b. 9.6 Régression non-linéaire avec Scilab Scilab est pourvu de routines d optimisation qui permettent de traiter des problèmes de régression non-linéaire. Ces routines, à défaut d être rapides, ont l avantage d être simples à utiliser. La plus importante est optim. Elle appelle la fonction à minimiser, qui doit fournir en argument de sortie l écart quadratique moyen J. La minimisation peut être accélérée si cette fonction évalue aussi la dérivée partielle J/ a de l écart quadratique par rapport aux paramètres a. Exemple : On veut ajuster un sinus y(x, a 1, a 2 )= a 1 sin(a 2 x) 52

53 aux couples de points (x, y) = (.1,.1),(.2,.19),(.3,.26) et (.4,.3). On a J = J a 1 J a 2 N ( yi a 1 sin(a 2 x i ) ) 2 i=1 = 2 = 2 N sin(a 2 x) ( y i a 1 sin(a 2 x i ) ) i=1 N a 1 x i cos(a 2 x) ( y i a 1 sin(a 2 x i ) ) i=1 Il faut d abord créer une fonctioncost.sci function [J,dJda,ind] = cost(a,ind); x = [ 1 3 7] ; y = [ ] ; sinx = sin(a(2)*x); yfit = a(1)*sinx; err = yfit-y; J = err *err; djda(1) = -2*sinx *err; djda(2) = -2*a(1)*(x.*cos(a(2)*x) *err; endfunction Enregistrez cette fonction et compilez-la. Ensuite, dans la fenêtre de commande, faites --> a_init = [1; 1]; --> [J,a_opt] = optim(cost,a_init); --> J J =.9 --> a_opt a_opt = Le meilleur ajustement est donc obtenu avec la solution y(x)=.398 sin(3.35 x). Si on avait choisi une autre condition initiale, par exemple a_init = [-1; 6], la routine aurait convergé vers une autre solution, pour laquelle l erreur quadratique J aurait eu un minimum local vraisemblablement plus élevé que le premier. Le risque de tomber dans des minima locaux est donc réel. La régression non-linéaire avec de nombreux paramètres à ajuster et/ou en l absence d une connaissance préalable de la solution approchée est un problème complexe, qui fait aujourd hui encore l objet de recherches intensives. Même si la plupart des logiciels proposent aujourd hui des routines d optimisation, il y a une règle d or : ne jamais faire aveuglément confiance à une routine de recherche de minima : toujours lancer la recherche avec plusieurs conditions initiales différentes et visualiser les solutions. 53

54 1 Lissage Il est fréquent que des mesures expérimentales soient trop affectées par des fluctuations aléatoires pour révéler une tendance pourtant bien présente. Dans ce cas, on peut être amené à lisser les données, afin de mieux mettre en évidence ses traits saillants. Cette opération, quoique courante, présente de nombreux dangers. On a vite fait d éliminer à une partie du signal qui nous intéresse. Il y a aussi le risque de ne faire apparaître que ce qu on veut montrer. Un lissage efficace demande une bonne connaissance de ce qui est le bruit à éliminer et c est seulement dans ces conditions-là que l on peut envisager une démarche objective et rigoureuse. On se bornera ici à étudier le cas le plus simple et relativement courant, dans lequel une série temporelle {x 1, x 2,..., x N } est affectée par des fluctuations aléatoires. Chaque mesure non bruitée x i devient alors x i y i = x i + ε i où ε i est typiquement une variable aléatoire qui suit une loi normale N(,σ 2 ). Les valeurs successives de ε i peuvent être indépendantes ou non. Le lissage consiste alors à moyenner chaque valeur de x i avec ses plus proches voisins. Si la série temporelle varie lentement dans le temps, alors ce moyennage n aura pas une grande incidence sur les valeurs de x i, alors que les fluctuations aléatoires vont être atténuées. Exemple : En moyennant chaque valeur sur les 3 échantillons qui sont de part et d autre (soit 7 au total), on obtient la nouvelle série lissée ŷ i ŷ i = y i+k k= 3 = 1 3 x i+k k= 3 7 x i + e i 3 ε i+k k= 3 D après le théorème de la limite centrale, e i est une variable aléatoire, dont l écart-type ne vaut plus que σ/ 7. Le niveau de bruit a donc été réduit d un facteur 2.6. De manière générale, en moyennant sur M valeurs, on réduit le bruit d un facteur 1/ M. On a toutefois intérêt à limiter la valeur de M, sous peine de lisser exagérément le signal qui nous intéresse. Le choix de la valeur optimale de M est un point délicat pour lequel il n existe pas de recette universelle. Dans tous les cas, on commencera d abord par faire plusieurs essais et par visualiser le résultat. Le meilleurs résultats s obtiennent en moyennant avec une pondération qui dépend de la proximité des voisins. Aux plus proches voisins on donne un poids élevé. Un poids faible voire nul est attribué aux voisins les plus éloignés. La pondération dite gaussienne joue fort bien ce rôle avec ŷ i = +n k= n w k y i+k w k = e (2k/n)2, k = n, n+ 1,,n 1,n 54

55 Or il est important 4 que w k = 1. Les coefficients sont donc définis comme suit w k = e (2k/n)2 k w k, k = n, n+ 1,,n 1,n Pour n= 3, on obtient par exemple k w k L effet du lissage par une fonction gaussienne est illustré ci-dessous. On peut montrer dans ce cas que le meilleur résultat est obtenu pour une fenêtre gaussienne avec n= 1. FIG. 23 Lissage d une fonction en créneau (courbe du bas), à laquelle on a ajouté du bruit gaussien (courbe du haut). L effet du lissage est illustré pour n= 3, n= 1 et n= Lisser avec Scilab Il est aisé de construire une routine Scilab pour lisser des données avec une fenêtre quelconque. La fonction ci-dessous le fait pour une fenêtre gausienne. 4 Pour le montrer, il suffit de poser y i = c = cte. Dans ce cas, on aura ŷ i = y i à condition que w k = 1. 55

56 function y = smooth(x,ns) // y = smooth(x,ns) // // lissage du vecteur x par convolution avec une // fenetre gaussienne de largeur ns // x serie temporelle a lisser (vecteur) // ns largeur de la fenetre de lissage // doit etre un scalaire entier > nx = length(x); ns = round(ns); if ns<=, error( ** ns doit etre > ** ); end if ns>nx/5, error( ** ns doit etre << longueur du vecteur x ** ); end w = exp(-(2*(-ns:ns)/ns).^2) ; w = w/sum(w); y = convol(w,x); // convolution de la fenetre avec x y = y(ns+(1:nx)); if size(x,1) > size(x,2), y = y ; end endfunction 56

OUTILS STATISTIQUES ET NUMÉRIQUES

OUTILS STATISTIQUES ET NUMÉRIQUES UNIVERSITÉ D ORLEANS Année universitaire 211-212 UFR Sciences Master FAC et SAE, 2ème année OUTILS STATISTIQUES ET NUMÉRIQUES POUR LA MESURE ET LA SIMULATION T. Dudok de Wit Université d Orléans 16 septembre

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

La simulation probabiliste avec Excel

La simulation probabiliste avec Excel La simulation probabiliste avec Ecel (2 e version) Emmanuel Grenier [email protected] Relu par Kathy Chapelain et Henry P. Aubert Incontournable lorsqu il s agit de gérer des phénomènes aléatoires

Plus en détail

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chapitre 3. Mesures stationnaires. et théorèmes de convergence Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Représentation d une distribution

Représentation d une distribution 5 Représentation d une distribution VARIABLE DISCRÈTE : FRÉQUENCES RELATIVES DES CLASSES Si dans un graphique représentant une distribution, on place en ordonnées le rapport des effectifs n i de chaque

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé EXERCICE 1 5 points Commun à tous les candidats 1. Réponse c : ln(10)+2 ln ( 10e 2) = ln(10)+ln ( e 2) = ln(10)+2 2. Réponse b : n 13 0,7 n 0,01

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1 Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin. Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Seconde Généralités sur les fonctions Exercices. Notion de fonction. Seconde Généralités sur les fonctions Exercices Notion de fonction. Exercice. Une fonction définie par une formule. On considère la fonction f définie sur R par = x + x. a) Calculer les images de, 0 et

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE - MANIP 2 - - COÏNCIDENCES ET MESURES DE TEMPS - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE L objectif de cette manipulation est d effectuer une mesure de la vitesse de la lumière sur une «base

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 1 Régime transitoire dans les systèmes physiques Chapitre 1 Régime transitoire dans les systèmes physiques Savoir-faire théoriques (T) : Écrire l équation différentielle associée à un système physique ; Faire apparaître la constante de temps ; Tracer

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Oscillations libres des systèmes à deux degrés de liberté

Oscillations libres des systèmes à deux degrés de liberté Chapitre 4 Oscillations libres des systèmes à deux degrés de liberté 4.1 Introduction Les systèmes qui nécessitent deux coordonnées indépendantes pour spécifier leurs positions sont appelés systèmes à

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases SINE QUA NON Découverte et Prise en main du logiciel Utilisation de bases Sine qua non est un logiciel «traceur de courbes planes» mais il possède aussi bien d autres fonctionnalités que nous verrons tout

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Complément d information concernant la fiche de concordance

Complément d information concernant la fiche de concordance Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M 20 20 80 80 100 100 300 300

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M 20 20 80 80 100 100 300 300 I3, Probabilités 2014 Travaux Dirigés TD 1 : rappels. Exercice 1 Poker simplié On tire 3 cartes d'un jeu de 52 cartes. Quelles sont les probabilités d'obtenir un brelan, une couleur, une paire, une suite,

Plus en détail

BTS Groupement A. Mathématiques Session 2011. Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

BTS Groupement A. Mathématiques Session 2011. Spécialités CIRA, IRIS, Systèmes électroniques, TPIL BTS Groupement A Mathématiques Session 11 Exercice 1 : 1 points Spécialités CIRA, IRIS, Systèmes électroniques, TPIL On considère un circuit composé d une résistance et d un condensateur représenté par

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Correction du baccalauréat STMG Polynésie 17 juin 2014

Correction du baccalauréat STMG Polynésie 17 juin 2014 Correction du baccalauréat STMG Polynésie 17 juin 2014 EXERCICE 1 Cet exercice est un Q.C.M. 4 points 1. La valeur d une action cotée en Bourse a baissé de 37,5 %. Le coefficient multiplicateur associé

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé Baccalauréat S/L Métropole La Réunion 13 septembre 2013 Corrigé A. P. M.. P. XRCIC 1 Commun à tous les candidats Partie A 1. L arbre de probabilité correspondant aux données du problème est : 0,3 0,6 H

Plus en détail

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

Développement décimal d un réel

Développement décimal d un réel 4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7 Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,

Plus en détail

ENS de Lyon TD 1 17-18 septembre 2012 Introduction aux probabilités. A partie finie de N

ENS de Lyon TD 1 17-18 septembre 2012 Introduction aux probabilités. A partie finie de N ENS de Lyon TD 7-8 septembre 0 Introduction aux probabilités Exercice Soit (u n ) n N une suite de nombres réels. On considère σ une bijection de N dans N, de sorte que (u σ(n) ) n N est un réordonnement

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Mesures et incertitudes

Mesures et incertitudes En physique et en chimie, toute grandeur, mesurée ou calculée, est entachée d erreur, ce qui ne l empêche pas d être exploitée pour prendre des décisions. Aujourd hui, la notion d erreur a son vocabulaire

Plus en détail

Incertitudes expérimentales

Incertitudes expérimentales Incertitudes expérimentales F.-X. Bally et J.-M. Berroir Février 2013 Table des matières Introduction 4 1 Erreur et incertitude 4 1.1 Erreurs............................................. 4 1.1.1 Définition

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos [email protected]

Plus en détail