Chapitre 4 : Variables aléatoires à densité. Soit f une fonction continue sur IR. On définit sous réserve d existence. f(t) dt = [ exp( t) ] b



Documents pareils
Moments des variables aléatoires réelles

Chapitre 2 Le problème de l unicité des solutions

Simulation de variables aléatoires

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Limites finies en un point

3. Conditionnement P (B)

La fonction exponentielle

Loi binomiale Lois normales

Image d un intervalle par une fonction continue

Chapitre 7 : Intégration sur un intervalle quelconque

Probabilités sur un univers fini

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Continuité en un point

TSTI 2D CH X : Exemples de lois à densité 1

La mesure de Lebesgue sur la droite réelle

Programmes des classes préparatoires aux Grandes Ecoles

Annexe commune aux séries ES, L et S : boîtes et quantiles

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Université Paris-Dauphine DUMI2E 1ère année, Applications

Continuité et dérivabilité d une fonction

Théorème du point fixe - Théorème de l inversion locale

4. Martingales à temps discret

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Probabilités sur un univers fini

4 Distributions particulières de probabilités

Qu est-ce qu une probabilité?

3 Approximation de solutions d équations

Variables Aléatoires. Chapitre 2

Commun à tous les candidats

Cours d Analyse. Fonctions de plusieurs variables

Correction du Baccalauréat S Amérique du Nord mai 2007

I. Polynômes de Tchebychev

Calcul fonctionnel holomorphe dans les algèbres de Banach

EXERCICE 4 (7 points ) (Commun à tous les candidats)

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v t

Correction de l examen de la première session

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Texte Agrégation limitée par diffusion interne

Continuité d une fonction de plusieurs variables

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices - Polynômes : corrigé. Opérations sur les polynômes

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Fonctions de deux variables. Mai 2011

Fonctions de plusieurs variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Méthodes de Simulation

Développements limités, équivalents et calculs de limites

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Espérance conditionnelle

Précision d un résultat et calculs d incertitudes

Amphi 3: Espaces complets - Applications linéaires continues

DOCM Solutions officielles = n 2 10.

M2 IAD UE MODE Notes de cours (3)

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Suites numériques 3. 1 Convergence et limite d une suite

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Estimation et tests statistiques, TD 5. Solutions

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Raisonnement par récurrence Suites numériques

Introduction à l étude des Corps Finis

Résolution d équations non linéaires

Fibonacci et les paquerettes

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Capes Première épreuve

Intégration et probabilités TD1 Espaces mesurés Corrigé

Théorie de la mesure. S. Nicolay

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

IV- Equations, inéquations dans R, Systèmes d équations

Le modèle de Black et Scholes

Etude de fonctions: procédure et exemple

Complément d information concernant la fiche de concordance

Que faire lorsqu on considère plusieurs variables en même temps?

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Logique. Plan du chapitre

Structures algébriques

I. Ensemble de définition d'une fonction

Théorie de la Mesure et Intégration

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Calculs de probabilités

Rappels sur les suites - Algorithme

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Développements limités. Notion de développement limité

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Sur certaines séries entières particulières

FIMA, 7 juillet 2005

Cours de Tests paramétriques

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Théorie de la Mesure et Intégration

Transcription:

Chapitre 4 : Variables aléatoires à densité I - Généralités 1. Intégrales généralisées. a) Généralisée en +. Soit f une fonction continue sur IR. On définit sous réserve d existence la limite lim b + b f(t) dt. f(t) dt comme Exemple : f(t) = exp( t). On obtient vers 1. On en conclut que b exp( t) dt = 1. Cela représente l aire totale sous la courbe de à +. f(t) dt = [ exp( t) ] b = 1 exp( b) qui tend Contre exemple : f(t) = 1 t+1. On obtient b f(t) dt = [ 2 t + 1 ] b égal à 2 b + 1 2 qui tend vers +. Par conséquent, l intégrale n existe pas. On utilisera plus loin la notation f(t) dt + f(t) dt. f(t) dt qui est sous réserve d existence b) Généralisée en un point où f possède une limite à gauche infinie. Soit f une fonction continue sur IR + telle que lim t + f(t) = +. On définit sous réserve 1 1 d existence f(t) dt comme la limite lim a + f(t) dt. Exemple : f(t) = 1 t. On obtient 1 Par conséquent, l intégrale généralisée a a f(t) dt = [ 2 t ] 1 a égal à 2 2 a qui tend vers 2. 1 f(t) dt vaut 2. Cela représente l aire totale sous la courbe de à 1. 35

1 Contre exemple : f(t) = 1 t. On obtient f(t) dt = [ ln(t) ] 1 a a +. Par conséquent, l intégrale n existe pas. 2. Fonctions continues par morceaux au sens généralisé : égal à ln(a) qui tend vers Définition : Il existe un nombre fini (éventuellement nul) de réels a 1 <... < a n tels que f est continue sur ], a 1 [,.., ]a i, a i+1 [,..., ]a n, + [ f possède une limite à droite et à gauche (éventuellement infinies) en chacun des points a i. On utilisera plus loin la notation f(t) dt qui représentera l aire totale sous la courbe de f. Elle se calcule en ajoutant les diverses intégrales généralisées ai+1 a i f(t) dt, a1 f(t) dt et Exemple fondamental admis On trouve a n exp( t 2 /2) dt = 2π. 3. Densités de probabilité. f(t) dt. Définition : Soit p une fonction continue par morceaux au sens généralisé. p est une densité de probabilité ssi les deux conditions suivantes sont vérifiées : a) En tout point t du domaine de définition p(t). b) p(t) dt = 1. Remarque : a) est l analogue du p k du cas discret. La condition de normalisation b) est l analogue du n k=1 p k = 1 du cas discret. Exemples Densité uniforme sur un intervalle [a, b] avec a < b. C est la fonction t 1 b a 1l [a,b](t). Densité exponentielle de paramètre θ >. C est la fonction t θ exp( θt)1l IR +(t). 36

Densité gaussienne centrée réduite. C est la fonction t 1 2π exp( t2 2 ). Rappel : cette fonction déjà vue dans le chapitre précédent ne possède pas de primitive simplement calculable. 4. Variables aléatoires à densité. Définition et formule fondamentale 4. Soit p une densité de probabilité. On dit qu une variable aléatoire X possède la densité de probabilité p ssi pour tous les réels α β on a la formule : IP(α X β) = β α p(t) dt. Conséquence 4.1 : si α = β, on trouve pour tout α, IP(X = α) =. Ce qui est totalement différent de la situation du chapitre II. Comme [α, β] est la réunion disjointe ]α, β[, {α} et de {β}, on obtient IP(α X β) = IP(α < X < β) + +, donc dans ce chapitre, on peut remplacer les inégalités larges par des inégalités strictes. Donc pour tout intervalle I, IP(X I) = p(t) dt. I Les variables aléatoires à densité font partie de la famille des variables continues par opposition aux variables aléatoires discrètes du chapitre 2. Exemple et définition On dit que X possède la loi uniforme sur [a, b] avec a < b ssi X possède la densité de probabilité uniforme sur [a, b]. Ce qui donne par exemple si a =, b = 2, pour I = [1, 1.5], IP(X I) = 1 2 5. Fonction de répartition. 1.5 1 dt = 1 4. Pour simplifier la présentation des calculs comme dans l exemple précédent, on se sert de la fonction de répartition. Définition : La fonction de répartition de la variable aléatoire X de densité de probabilité p est la fonction de IR dans IR (C est la même définition qu au chapitre II). x IP(X x) = F(x). 37

(Seconde) formule fondamentale 5.1 Si α et β sont deux réels tels que α β, IP(α X β) = F(β) F(α). Exemples : a) Si X est de loi uniforme sur [a, b] avec a < b, on trouve : si x < a, F(x) =, si a x b, F(x) = 1 (x a), b a si x > b, F(x) = 1. On trouve bien le résultat du paragraphe précédent, si a = et b = 2, IP(1 X 1.5) = F(1.5) F(1) = 1 4. C est bien sûr l aire du rectangle hachuré sous le graphe de la densité p. b) Si X est de loi exponentielle de paramètre θ >, pour x <, F(x) =, pour x, F(x) = [ exp( θt) ] x = 1 exp( θx). c) La fonction de répartition d une variable aléatoire gaussienne centrée réduite n est pas la fonction Φ du chapitre III qui figure dans les tables. Il manque le morceau de à de surface 1 2. Donc Φ(x) = 1 2 + Ψ(x) = x p(t) dt. Alors Ψ(x) = Φ(x) Φ() = IP( Z x) si x et Ψ(x) = IP(x Z ) si x. 6. Propriétés des fonctions de répartition. Si F est la fonction de répartition d une variable aléatoire X à densité alors, F est croissante (au sens large) 38

lim t F(t) = et lim t + F(t) = 1. F est continue en tout point. Sauf aux points à problèmes de p, F est dérivable et F (t) = p(t). MORALITÉ : ON DÉRIVE LA FONCTION DE RÉPARTITION, MAIS ON INTÈGRE LA DENSITÉ DE PROBABILITÉ. 7. Méthode des fonctions de répartition Soient une fonction numérique φ et une variable aléatoire X qui possède une densité de probabilité p. On définit la variable aléatoire Y = φ(x). On veut savoir si Y possède une densité de probabilité et la calculer le cas échéant. Ce problème général dépasse largement le niveau de ce cours. De plus, même si Y possède une densité de probabilité, il n y a pas de formule simple pour la trouver. Nous allons nous contenter d exposer une méthode, qui repose sur l utilisation des fonctions de répartition. Elle permet de traiter un certain nombre d exemples simples. Premier exemple. Supposons que φ est une fonction affine x ux + v, u et v étant deux constantes réelles. Proposition 7.1. a) si u >, Y = ux + v possède la densité de probabilité q telle que x q(t) = 1 ( ) t v u p. u b) si u <, Y = ux + v possède la densité de probabilité q telle que x q(t) = 1 ( ) t v u p. u c) si u =, Y = v variable aléatoire constante ne possède pas de densité de probabilité. Si c était le cas, d après le corollaire 4.1 avec a = b = v on aurait la contradiction IP(Y = v) = = 1. Preuve du a) Soit G la fonction de répartition de Y : par définition, pour tout nombre réel G(x) = IP(Y x) = IP(uX + v x). En raisonnant sur les valeurs numériques des variables aléatoires, on trouve que ux+v x équivaut à X x v u. Donc G(x) = IP(X x v u ). Posons z = 1 (x v). u Par définition de la fonction de répartition F de X, on a F(z) = IP(X z) en appelant z la variable muette. Finalement IP(Y x) = G(x) = F( 1 u (x v)). On sait qu en dehors d un nombre fini de points à problème, la fonction F est dérivable de dérivée p. On dérive la composée G des fonctions x z = 1 u (x v) et de z F(z). 39

On trouve G (x) = F ( 1 u (x v)) 1 u = p( 1 u (x v)) 1 u. Par conséquent, le candidat naturel pour être la densité de probabilité de Y est bien la fonction q de l énoncé de la proposition. Remarque. On vérifierait facilement que q est une densité de probabilité. En particulier, le changement de variable y = x v u montre que q(t) dt = p(y) dy = 1. C.Q.F.D Le cas b) est laissé au lecteur. Il faut néanmoins observer que la fonction φ est maintenant décroissante, de pente u négative. Alors ux + v x équivaut à X x v u. D où G(x) = IP(X 1 u (x v)) = 1 IP(X 1 u (x v)) = 1 G(X 1 u (x v)) en passant au complémentaire. Le F explique l apparition du signe moins dans la densité de probabilité. D ailleurs, heureusement qu il y a un signe moins, car une densité de probabilité doit obligatoirement prendre des valeurs positives ou nulles. Un autre exemple. Soient φ la fonction x x 2 et X une variable aléatoire de loi N(, 1). C est parti par la même méthode : soit G la fonction de répartition de Y = X 2, donc par définition G(x) = IP(X 2 x). Il est clair que X 2 ne prend que des valeurs positives, il ne se passera rien d intéressant pour x < : IP(X x) =. Supposons dorénavant x. On constate que X 2 x équivaut à x X x. D après la formule fondamentale 5.1, cet événement a la probabilité la densité de probabilité gaussienne centrée réduite. x x p(t) dt où p est On obtient donc G(x) = Φ( x) Φ( x). Comme Φ (t) = p(t) = 1 2π exp( t2 ), en 2 dérivant les fonctions composées, G (x) = p( x)( x) p( x)( x). Au total, G (x) = 2 1 2π exp( x 2 ) 1 2 x. Comme on a pu dériver G en tout point de IR +, sa dérivée est la densité de probabilité de X 2 égale à 1 2πx exp( x/2)1l IR +(x). Conclusion : le défaut de cette méthode de dérivation est que souvent les fonctions de répartition ne sont pas dérivables en tout point. Il est alors conseillé de vérifier que la densité obtenue est bien d intégrale 1. 4

II - Espérances et variances. 1. Espérance d une variable aléatoire à densité. Définition : sous réserve de l existence de l intégrale on pose IE(X) = p(t) t dt. C est l analogue avec une densité de probabilité de la formule IE(X) = n k=1 p kx k du chapitre II. Compément : si X est positive, l espérance a toujours un sens à condition de la prendre dans IR + {+ }. Quand l intégrale diverge, on pose donc IE(X) = +. Si X est de signe quelconque, on ne définit l espérance que dans le cas où l intégrale est absolument convergente. On exige donc que IE( X ) < + pour définir IE(X). Exemples de calculs. a) Soit X de loi uniforme sur [a, b] avec a < b. L intervalle est de longueur b a. La densité de probabilité est p(t) = 1 b a 1l [a,b](t). Quand on reporte p(t) dans la formule p(t) t dt, on s aperçoit qu il ne subsiste qu une intégrale de a à b puisque p s annule en dehors de [a, b]. Il reste IE(X) = b qui est le milieu de l intervalle [a, b]. b) Soit X de loi exponentielle de paramètre θ. a p(t) t dt = 1 b 2 a 2 b a 2 = a + b 2 Quand on reporte p(t) = θ exp( θt)1l IR +(t) dans la formule p(t) t dt, on s aperçoit qu il ne subsiste qu une intégrale de à l infini puisque p s annule sur IR. Il reste IE(X) = p(t) t dt = θ exp( θt) t dt. Une intégration par parties u (t) = θ exp( θt) et v(t) = t donne : 2. Propriétés de l espérance. IE(X) = exp( θt) dt = 1 θ. Ce sont exactement les mêmes que dans le chapitre II à ceci près que le symbole IE est défini différemment. Énonçons maintenant la formule de transfert qui permet le calcul de l espérance d une fonction d une variable aléatoire X à densité. 3. Formule de transfert Énoncé. Soient f une fonction numérique continue et X une variable aléatoire possédant la densité de probabilité t p(t). Alors Y = f(x) est une variable aléatoire et son espérance IE(Y ) se calcule par la formule de transfert p(t)f(t) dt. 41

Exemple : soit X la variable aléatoire du a) et f la fonction carré. Avec une loi uniforme sur [a, b], on trouve: IE(X 2 ) = b a 1 b a t2 dt = b3 a 3 3(b a) = a2 + ab + b 2 3 (à ne pas retenir!). Attention! Il ne faut surtout pas élever au carré les probabilités : on voit mal comment p(t) 2 pourrait être encore une densité de probabilité d intégrale égale à 1. 4. Variance Le but est de mesurer simplement la dispersion de X autour de son espérance. Définition. On appelle (sans modifier la définition par rapport au chapitre II) variance de X, notée Var(X), le nombre réel positif Var(X) = IE ( (X IE(X)) 2). On peut donc écrire Var(X) = IE( X 2 ) où X = X IE(X). En pratique, on utilise la formule de Koenigs var(x) = IE(X 2 ) IE(X) 2. Exemple : soit X possédant une loi uniforme sur [a, b]. D après le calcul du paragraphe 3. et la formule de Koenigs, var(x) = a2 + ab + b 2 3 (à retenir!). ( ) 2 a + b = 4(a2 + ab + b 2 ) 3(a 2 + 2ab + b 2 ) 2 12 = (b a)2 12 Vérification : quand a = b, la variable aléatoire X est constante, donc sa variance est nulle. III- Les lois à densité les plus usuelles. 1. La loi uniforme sur un intervalle [a, b] avec a < b. Voir plus haut (I. 3, exemple). Quand a = b, la densité n est plus définie. On doit interpréter cette variable aléatoire comme une variable constante (= a = b) qui ne possède pas de densité de probabilité. 2. La loi exponentielle de paramètre θ >. Définition. On dit qu une variable aléatoire X suit la loi exponentielle de paramètre θ ssi X possède la densité de probabilité t θ exp( θt)1l IR +(t). Cette loi sert souvent à modéliser les temps d attente (prenant des valeurs continues, à la différence de la loi géométrique qui modélise des attentes de longueur entière). On fait surtout ce choix à cause de la propriété d absence de mémoire (propriété c) plus loin). Propriétés de la loi exponentielle de paramètre θ > : Soit X possédant la densité de probabilité précédente. Alors, 42

a) IE(X) = 1 θ, (preuve laissée au lecteur en utilisant une intégration par parties). b) var(x) = 1, (preuve laissée au lecteur en utilisant une intégration par parties). On θ 2 trouve IE(X 2 ) = 2 θ, donc par la formule de Koenigs, var(x) = 2 2 θ 1 2 θ. 2 c) X n a pas de mémoire. Supposons par exemple que le temps d attente d un bus exprimée en minutes suive une loi exponentielle dont l espérance est 1. Imaginons un malheureux client qui a déjà attendu en vain son bus 15mn. Sachant cela, quelle est la probabilité conditionnelle qu il doive encore attendre au moins 5 minutes? L événement B = { attendre en vain au moins 15mn } est {X > 15}, alors que A est {X > 2} en ajoutant 15 et 5. D après a), le paramètre est identifié : θ = 1 La probabilité conditionnelle est par définition IP(A B) IP(B) = IP(A) IP(B). En utilisant la formule fondamentale 4, pour tout réel positif y, IP(X > y) = y θ exp( θt) dt = 1 F(y) = exp( θy) si F est la fonction de répartition. En substituant y = 2 et y = 15, après simplification par exp( 15θ) dans le rapport, on trouve la probabilité conditionnelle exp( 5θ) qui est la même chose que si on ne conditionnait pas par B. On en conclut que le bus n a pas conservé en mémoire qu un client a déjà attendu. Plus généralement, pour tous les réels t et h strictement positifs, la probabilité conditionnelle IP(X > t + h /X > t) = IP(X > h). Rq : les seules lois à densité qui vérifient cette propriété sont les lois exponentielles. 3. Loi gaussienne N(m, 2 ). Définition : on dit qu une variable aléatoire X possède la loi gaussienne (ou normale) N(m, 2 ) ssi X possède la densité de probabilité t 1 ( ) exp (t m)2. 2π 2 2 2 Le paramètre m s appelle la moyenne (c est en fait l espérance), le paramètre strictement positif est l écart-type. Loi gaussienne centrée réduite N(, 1) Elle correspond au cas particulier m = et = 1. Sa densité de probabilité p est Rappelons l autre définition possible : t p(t) = 1 2π exp( t 2 /2). X suit la loi N(m, 2 ) ssi Z = X m suit la loi N(, 1). Par conséquent, toute variable aléatoire X de loi N(m, 2 ) peut s écrire sous la forme m + Z avec Z de loi N(, 1). 43 1.

Vérification de la cohérence des définitions La proposition 7.1. permet de retrouver la densité de la loi N(m, 2 ) à partir de la densité de probabilité p de la loi N(, 1) : c est t 1 p ( ) t m. Théorème 3.1. Si X possède la loi N(m, 2 ), alors IE(X) = m et Var(X) = 2. Preuve : Commençons par établir ce résultat dans le cas centré et réduit. Calcul de IE(Z) Comme la dérivée de t exp( t2 2 ) est t exp( t2 2 ), on trouve b tp(t) dt = 1 [ exp( t 2 /2) ] b qui tend vers 1 2π 2π 1 quand b croît vers +. Donc De même, tp(t) dt = 1 2π. tp(t) dt = 1 2π. En ajoutant les deux morceaux, tp(t) dt =. À condition d admettre l existence de l intégrale de à +, on pouvait prévoir ce résultat par imparité de t t p(t). Calcul de Var(Z) Attention, il n existe pas de primitive simple de t t 2 exp( t2 2 ). Grâce à une intégration par parties, On en déduit que IE(Z 2 ) = b t 2 p(t) dt = b t 2 p(t) dt = p(t) dt. D après la formule de Koenigs, var(z) = IE(Z 2 ) 2 = 1. p(t) dt = 1. Cas général On déduit immédiatement de IE(Z) = et Var(Z) = 1 que IE(X) = IE(m+Z) = m+ = m (par linéarité) et Var(m + Z) = Var(Z) = 2 Var(Z). C.Q.F.D. Stabilité de la loi normale (admise). Théorème 3.2. Soient X et Y des variables aléatoires indépendantes possédant respectivement les lois N(m 1, 2 1) et N(m 2, 2 2). Alors X + Y possède la loi N(m 1 + m 2, 2 1 + 2 2 ). Conseil. Se souvenir que X + Y possède une loi normale. Il suffit alors d identifier l espérance et la variance. 4. Complément : la loi de Cauchy. Définition. On dit qu une variable aléatoire X possède la loi de Cauchy ssi sa densité de probabilité est 1 t p(t) = π(1 + t 2 ). 44

On peut montrer qu elle ne possède pas d espérance, puisque b t p(t) dt = [ 1 2π ln(1 + t2 ) ] b qui tend vers l infini quand b croît vers l infini. *********** Tableau des lois usuelles nom symbole valeurs dans nature espérance variance Binômiale B(n, p) {,..., n} discrète np npq Poisson P(λ) IN discrète λ λ Géométrique G (p) IN discrète 1 p q p 2 Gaussienne N(m, 2 ) IR continue m 2 Uniforme U(a, b) [a, b] continue a+b 2 (b a) 2 12 Exponentielle Exp(θ) IR + continue 1 θ 1 θ 2 Attention : on parle aussi de la loi uniforme sur un ensemble fini {x 1,..., x n } à ne pas confondre avec la loi uniforme sur un intervalle de longueur strictement positive. 45

Complément : vecteurs aléatoires à densité, hors-programme en 21. Il s agit de définir des objets (vecteurs de IR d ) aléatoires de dimension d > 1. La définition naturelle de ces objets utilise la théorie de l intégrale de Lebesgue, enseignée en licence de mathématiques. Dans le cadre restreint de l intégrale de Riemann (celle du Deug, et la seule au programme du CAPES), des définitions rigoureuses sont vraiment peu satisfaisantes et leur utilisation infiniment plus délicate qu en dimension d = 1. En particulier la notion de fonction continue par morceaux devient peu maniable. Pour intervertir l ordre de calcul des intégrales multiples (en appliquant le théorème de Fubini), il faut supposer que la densité de probabilité est assez régulière. Plutôt que de chercher à appliquer une version étendue de la théorie de l intégrale de Riemann non généralisée multidimensionnelle exposée par exemple dans le cours de mathématiques spéciales Ramis, Deschamps, Odoux tome 4, chapitre 6, nous resterons très vague sur le concept de fonction intégrable avec peu de discontinuités. Pour simplifier les notations, seul le cas d = 2 est abordé ici. Un pavé est un rectangle de la forme [a, b] [a, b ] avec a b et a b. 1. Densités de probabilité et vecteurs aléatoires. Définition. On appelle densité de probabilité sur IR d toute fonction positive p définie sur un ensemble D IR d assez régulier. On prolonge p sur le complémentaire en lui affectant la valeur zéro. Alors p est une densité ssi la restriction de p à tout pavé (fermé borné) est Riemann intégrable et si l intégrale généralisée p(x, y)dxdy vaut 1. D Exemples : a) D = [a, b] [a, b ] avec a < b et a < b. D est un pavé de surface S = (b a)(b a ) >. La densité uniforme sur D vaut 1 S dans D et en dehors. b) D = IR 2 et p(x, y) = 1 2π exp( x2 +y 2 2 ). c) D est le triangle {(x, y)/ < x < y < 1} de surface 1. La densité uniforme sur ce triangle 2 vaut 2 dedans et dehors. On dit qu un vecteur aléatoire V = (X, Y ) possède la densité de probabilité p ssi pour tout pavé A, IP(V A) = p(x, y)dxdy. A Cela signifie que IP(a X b & a Y b ) = b b p(x, y) dxdy. C est donc une a a extension de la définition d une va. réelle à densité du chapitre 4. Remarque 1 : si V possède une densité, alors pour toute valeur (x, y) IP(V = (x, y)) = puisque les points ont une surface nulle. Ceci explique les guillemets dans la densité. Celle-ci n est pas unique, on peut la modifier par exemple en un nombre fini de points, ou plus généralement sur une partie quarrable de surface. Remarque 2 : les deux composantes du vecteur V sont des variables aléatoires réelles. 46

2. Densités marginales. Théorème : si V est un vecteur aléatoire à valeurs dans IR 2, ses deux composantes X et Y possèdent des densités de probabilité. X possède la densité x p(x, y) dy appelée la première densité marginale. IR Y possède la densité y IR p(x, y) dx appelée la seconde densité marginale. Remarque : il s agit de la version continue des additions dans les tableaux des lois discrètes du chapitre 2. Exemples : la première densité marginale de la loi uniforme sur le rectangle non aplati D = [a, b] [a, b ] est la densité uniforme sur [a, b]. La première densité marginale de la loi uniforme sur le triangle de l ex c) est x 2(1 x)1l [,1] (x). Remarque : chaque densité marginale définit une loi de probabilité sur IR appelée loi marginale. 3. Indépendance. Définition. On rappelle que deux variables aléatoires réelles définies sur le même univers sont indépendantes ssi pour tout a b et a b, IP(a X b & a Y b ) = IP(a X b)ip(a Y b ) c est à dire que les événements {a X b} et {a Y b } sont indépendants. Théorème : les composantes X et Y d un vecteur aléatoire de densité p sont indépendantes ssi le produit des densités marginales est une densité de p. Exemple : la densité de l ex. b) est le produit de deux densités gaussiennes centrées réduites. Par contre, les deux composantes de l ex. c) ne sont pas indépendantes. 4. Formule de transfert. Théorème : si f est une fonction continue et bornée, alors IE(f(V )) = p(x, y)f(x, y) dxdy. IR 2 5. Produit de convolution de deux densités Théorème et définition. Si X et Y sont deux variables aléatoires indépendantes qui possèdent respectivement les densités p 1 et p 2, alors X + Y possède la densité t p 1 (x)p 2 (t x) dx. Par symétrie, cette densité s écrit aussi t p 1 (t x)p 2 (x) dx. Cette fonction de t s appelle le produit de convolution de p 1 et p 2. 47

I - Estimateurs Cadre de la statistique. Chapitre 5 : statistique paramétrique On suppose qu un certain phénomène suit une loi de probabilité µ inconnue. En statistique paramétrique, on connaît partiellement la loi, à un ou plusieurs paramètres près, par exemple on sait que c est une loi exponentielle Exp(λ) dont la paramètre est inconnu, une loi gaussienne N(m, 2 ) avec m et inconnus, une loi de Bernoulli B(1, p) avec p inconnu. Pour avoir une certitude (partielle et seulement vraie avec une certaine probabilité) on réalise un certain nombre n d expériences aléatoires. D où la Définition. On appelle n échantillon de loi parente µ la donnée de n variables aléatoires indépendantes de même loi µ, notées X 1,..., X n dans tout ce chapitre. Interprétation : ces n variables aléatoires représentent par exemple des essais indépendants, des mesures successives...plus ils sont nombreux, meilleure sera la connaissance du paramètre inconnu. On note x 1,..., x n les n valeurs expérimentales observées, c est à dire les réalisations X 1 (ω),..., X n (ω) des n variables aléatoires X 1,..., X n. Les problèmes essentiels de la statistique sont de répondre à la vue des valeurs x 1,..., x n à une des questions suivantes : a) Estimer un paramètre inconnu par un intervalle de confiance (ou à défaut par une valeur unique). b) Étant donné un intervalle de paramètres, décider si sa véritable valeur est dedans (avec une probabilité plus grande qu un seuil donné). La question a) est un problème d estimation alors que b) est un test d hypothèse. Définition. On appelle estimateur d un paramètre réel θ une suite de variables aléatoires T n (X 1,..., X n ) (n 1) où chaque T n (X 1,..., X n ) est une variable aléatoire fonction du n échantillon X 1,..., X n. Rq : un estimateur de θ n a d intérêt que si T n converge vers θ quand n tend vers l infini. Exemple : X n = 1 n n i=1 X i appelé moyenne empirique. Donc X n (ω) = 1 n n i=1 x i, souvent notée x quand il n y a pas d ambiguïté sur n. Bien faire la différence entre la variable aléatoire X n et sa valeur expérimentale le jour de l expérience X n (ω). Comment faire pour estimer une variance? ( Si on connaît l espérance m : V n := 1 n (X i m) ). 2 n Si on m est inconnu : on se sert souvent de la variance d échantilonnage i=1 ( Σ 2 n = 1 n ) (X i X n ) 2 n 1 i=1 48

dont la valeur expérimentale est le carré du (n 1) des machines Casio (n 1 réfère au dénominateur et pas au nombre d épreuves qui est n). Définition. On appelle écart-type d échantilonnage la racine carrée de la variance d échantilonnage. Sa valeur expérimentale est souvent notée s = 1 n (x i x) n 1 2. On conseille d utiliser une machine pour calculer ces quantités dans le cas où l énoncé ne donne que la liste des n valeurs numériques x 1,..., x n. Si on tient à faire le calcul à la main, on peut se servir de l analogue du théorème de Koenigs : i=1 ( n ) (x i x) 2 = i=1 n x 2 i nx 2. i=1 Alors s = n i=1 x2 i nx2. n 1 Remarque. Il existe d autres notations que s et V n dans les livres. ( Un autre estimateur de la variance. Il s agit de ˆ 2 := 1 n ) (X i X n ) 2 dont la valeur n i=1 ( expérimentale est le carré du (n) des machines Casio : (n) 2 = 1 n (x i X n (ω)) ). 2 n II - Cas des échantillons gaussiens 1. Nouvelles lois de probabilités utilisées en statistique a) Loi du χ 2 à d degrés de liberté (d IN ). Définition. On dit que la variable aléatoire C à la loi du χ 2 à d degrés de liberté ssi C est de la forme d C = i=1 où N 1,...N d sont d variables aléatoires indépendantes de même loi gaussienne centrée réduite. Notation pour le nom de la loi : χ 2 d à l anglo-saxonne chi square ou khi deux (en français). Exemple : si d = 1, C peut se mettre sous la forme Z 2 où Z est de loi N(, 1). On peut montrer par la méthode des fonctions de répartition que C a ici la densité de probabilité sur IR + 1 exp( t/2). 2πt Propriétés de cette loi : (i) Elle possède une densité de probabilité sur IR +. 49 N 2 i i=1

(ii) Cette densité est proportionnelle à t d 2 1 exp( t/2). Dessin du graphe : bosse sur IR +, avec un maximum atteint en un point unique d 2 (calcul facile à partir de (ii) ). Si d est assez grand, la demi-tangente en est horizontale. (iii) L espérance de C est d (par linéarité). De même que pour les densités normales, la fonction de répartition n a pas d expression simple, c est une intégrale non explicite puisque on ne connaît pas de primitive simple. On se sert donc d une table ou d une calculatrice. Utilisation de la table : elle donne pour 1 d = n 3 et pour un nombre limité de réels α des valeurs approchées des nombres b tels que IP(C b) = α. Voir par exemple que la colonne correspondant à α =.5 est remplie de nombres de plus en plus proches de d quand d croît. Conseil. Comparer les valeurs lues avec d. b) Loi de Student à d degrés de liberté (d IN ). bf Définition. On dit qu une variable aléatoire T à la loi de Student à d degrés de liberté X ssi T peut se mettre sous la forme où X est une va. de loi N(, 1) et Y une autre va. Y d indépendante de loi du khi deux à d degrés de liberté (à ne pas retenir). Propriétés de cette loi : (i) Elle possède une densité de probabilité sur IR. ( ) (d+1)/2 (ii) Cette densité (paire) est proportionnelle à 1 + t2. d Exemple : si d = 1, c est une loi de Cauchy. (ii) Quand d croît vers +, cette densité converge vers la densité gaussienne centrée réduite. En effet, lim d (1 + t2 d ) (d+1)/2 = exp( 1 2 t2 ). Retenir Une loi de Student avec un nombre infini de degrés de liberté est une loi N(, 1). Dessin du graphe : analogue à celui d une densité gaussienne, mais plus étalé, de moins en moins quand d augmente. 5

Ici la fonction de répartition n a pas d expression très simple, bien que le changement de variable t = d tan(θ) conduise à un calcul possible. (D ailleurs ce n est pas un hasard si la fonction de répartition d une densité de Cauchy contient la fonction arctangente). On se sert donc en pratique d une table ou d une calculatrice. Utilisation de la table : Elle donne pour 1 d = n 3 ou d {3, 4, 6, 12, } et pour un nombre limité de réels α des valeurs approchées des nombres b tels que IP( T b) = α. Cette formule est d ailleurs rappelée en haut de la table. En particulier la ligne d = peut servir à rechercher des antécédents de la fonction de répartition Φ d une loi N(, 1). Exemple : cherchons a tel que Φ(a) = IP(Z a), 95. Par passage au complémentaire, IP(Z a), 5 puis par symétrie, on a alors IP( Z a), 1. À l intersection des lignes et des colonnes, 1 on trouve le fameux 1, 645. 2. Les quatre formules fondamentales Soit (X j ) 1 j n un échantillon de taille n dont la variable aléatoire parente est distribuée suivant une loi normale N(m, 2 ). On note respectivement X n et Σ 2 n la moyenne empirique et la variance d échantilonnage de cet échantillon. Alors : n X n m suit la loi N(, 1) F 1 n X n m Σ n suit la loi de Student à n 1 degrés de liberté. F 2 n ( ) 2 Xj m suit la loi du χ 2 à n degrés de liberté. F 3 j=1 n ( ) 2 Xj X n suit la loi du χ 2 à n 1 degrés de liberté. F 4 j=1 On peut démontrer facilement F 1 et F 3, les deux autres sont admises. Preuve de F 1. D après le théorème de stabilité des variables aléatoires gaussiennes indépendantes, S n = n j=1 X j et donc X n sont des variables aléatoires gaussiennes. Alors n X n m de la forme ax n + b est également une va gaussienne dont il suffit d identifier l espérance et l écart-type. Preuve de F 3. Il suffit de remarquer que N j = X j m suit une loi N(, 1). Remarque 1 (lien avec les estimateurs) : La quantité C qui figure dans F 3 est n V n 2. 51

La quantité C qui figure dans F 4 est (n 1) Σ2 n 2. Remarque 2 : ces formules étant exactes, il est possible de s en servir pour rechercher des intervalles même quand n est petit. 3. intervalles (bilatères) pour m On se sert des formules F 1 et F 2 qui contiennent m. D autre part, il faut retenir que l estimateur naturel pour m est X n, ce qui explique que la formule F 3 qui pourrait être utilisée (car elle contient aussi m) donne de très mauvais résultats. Application numérique : trouver un intervalle de confiance pour m au niveau 95% dans le cas n = 25, X 25 (ω) = 8. a) Cas où n est pas connu. On donne en plus s 2 = 1 (par exemple). D après la formule F 2, T= 25 X 25 m Σ 25 suit la loi de Student à 24 degrés de liberté. D après la table, IP( T 2, 64), 5. Donc, au vu de l expérience qui donne x = X 25 (ω) = 8 et s = 1 1, avec une probabilité plus grande que.95, 8 m 25 2, 64. 1 On obtient alors l intervalle de confiance I = [x 2, 64 25 ; x+2, 64 1] [6.69; 9.31]. 25 b) Cas où est connu. On donne ici = 3 (par exemple). D après la formule F 1, Z= 25 X 25 m suit la loi gaussienne N(, 1). D après la table de la loi de Student avec n =, avec une probabilité plus grande que,95, Z 1, 96. Donc avec une probabilité plus grande que.95, 8 m 3 25 1, 96. On obtient alors l intervalle de confiance I = [x 1, 96 3 5 ; x + 1, 96 3 ] [6.82; 9.18]. 5 4. intervalles bilatères pour l écart-type On se sert maintenant des formules F 3 et F 4 qui sont liées à des estimateurs naturels de la variance, donc de sa racine carrée. Définition on appelle intervalle de confiance bilatère un intervalle comportant deux bornes finies (intéressantes). Application numérique : trouver un intervalle de confiance bilatère pour au niveau 9% dans le cas n = 1. 52

a) Cas où m est connu. On donne V 1 (ω) = 4. D après la formule F 3, C = 1 V 1 suit la loi du χ 2 à 1 degrés de liberté. D après la table 2 (colonne.5 pour le morceau d aire à gauche et colonne.95 pour le morceau d aire à droite), IP(3, 94 C 18, 3), 9. On en tire alors que dans au moins 9% des cas, = 1 4 C appartient à ]1.47 ; 3.19[. Remarquer qu ici l intervalle de confiance, bien que contenant V 1 (ω), n y est pas centré. En fait, on divise la surface extrémale de 1% en deux par habitude puisque les tables ne contiennent qu un nombre limité de niveaux. b) Cas où m n est pas connu. On donne s 2 = 5. La seule différence avec le a) qui précède est qu on se sert de la formule F 4, 9 Σ2 1 2 suit la loi du χ 2 à 9 degrés de liberté. Comme pour d = 9, IP(3, 33 C 16, 9), 9, on obtient l intervalle ]1.63; 3.68[. 5. intervalles unilatères pour l écart-type Contrairement au paragraphe précédent où on demande un intervalle comportant deux bornes finies (intéressantes) on peut considérer un autre type d intervalles de confiance : les intervalles unilatères de la forme ], c[ (se souvenir que est positif! ). Le cas des intervalles [c, + ] est laissé au lecteur car il est beaucoup moins utilisé en pratique (par manque d intérêt statistique). Application numérique : trouver un intervalle de confiance unilatère pour au niveau 9% dans le cas n = 1. a) Cas où m est connu. On donne V 1 (ω) = 4. D après la formule F 3, 1 V 1 suit la loi du χ 2 à 1 degrés de liberté. Comme on veut que 2 grand soit rare, on recherche C = 1V 1 petit dans 1% des cas. D après la colonne,1 2 on trouve IP(C 4, 87), 1. Donc dans moins de 1% des cas, 4 est 4, 87, ce qui 2 implique que pour 9% des cas, 4. On trouve l intervalle de confiance ]; 2.87[. 4,87 b) Cas où m n est pas connu. On donne s 2 = 5. La seule différence avec le a) qui précède est qu on se sert de la formule F 4, 9 Σ2 1 suit 2 la loi du χ 2 à 9 degrés de liberté. Comme pour d = 9 IP(C 4, 17).1, on trouve maintenant l intervalle de confiance ], 3, 29[. 53

Remarquons que cet intervalle est plus grand que celui du a) (même si Σ 2 n et V n étaient égaux) parce-que la loi à 1 degrés a tendance à donner des valeurs plus grandes que la loi à 9 degrés (ici le 4,87 est plus grand que 4,17). 6. Résumé Méthode pour trouver un intervalle de confiance dans le cas d un échantillon gaussien. a) Lire l énoncé pour savoir si l intervalle de confiance porte sur m, voire même 2. Regarder si l autre paramètre est lui aussi inconnu. b) Sélectionner la seule formule F k adéquate ( F 1 ou F 2 pour m, F 3 ou F 4 pour ). On dispose alors d une variable aléatoire Z, T ou bien C. c) Construire au moyen d une table un intervalle qui contient la variable aléatoire du b) avec une probabilité plus grande que ce qui est demandé. d) En déduire l intervalle de confiance demandé en exprimant le paramètre inconnu en fonction de la variable aléatoire. 54

I - Principe général Chapitre 6 : Tests On s interroge sur la validité d une hypothèse H qu on appelle l hypothèse nulle. Sa négation s appelle l alternative (ou plus généralement l alternative peut être toute hypothèse H 1 contredisant H ). On suppose H vraie et on examine s il est possible d en déduire que les résultats expérimentaux sont anormaux, parce que leur probabilité d apparition en supposant H est faible. Dans le cas contraire, on dit que H n est pas rejetée (plutôt qu acceptée). Les deux types d erreurs. Définition. On appelle erreur de type 1 (ou I) celle qui consiste à rejeter à tort H. On appelle erreur de type 2 (ou II) celle qui consiste à rejeter à tort H 1. Il est impossible de rendre simultanément les deux erreurs de probabilité arbitrairement petites. Alors par convention, on cherche en priorité à contrôler les erreurs de type 1 et à rendre leur probabilité d apparition plus petite que le seuil ( ou risque ) donné à l avance. Du fait de cette dissymétrie entre les deux types d erreurs, le choix de l hypothèse nulle n est pas indifférent : si l hypothèse est l accusé est innocent, c est qu on veut éviter une erreur judiciaire, quitte à relâcher un coupable, par contre si c est l accusé est coupable, c est qu on se place du point de vue sécuritaire. De même, qui a intérêt à choisir l hypothèse ce médicament est dangereux? (le fabriquant? le ministère de la santé?) Définition. On appelle région de rejet au seuil (ou au risque) de x% tout événement D lié aux variables aléatoires X 1,..., X n tel que si H est vérifiée, IP(D) x 1. La région d acceptation est le complémentaire de la région de rejet. Le point de vue des tests est négatif : si l hypothèse donne lieu à un événement de faible probabilité on la rejette. Dans le cas contraire on ne la rejette pas, en attendant un autre test... C est le décideur non statisticien qui doit prendre des responsabilités. Remarque : à un niveau élémentaire comme ici, on n évalue pas l erreur de type II. Remarque. Contrairement à ce que beaucoup de gens croient, plus le seuil d un test est voisin de, moins le test donne un résultat intéressant. En effet, le complémentaire de la région de rejet est très grand et risque de contenir la valeur expérimentale. On sait d avance que l hypothèse ne sera pas rejetée. II- Cas des échantillons gaussiens Méthode résumée a) Lire l énoncé pour savoir si le test porte sur m, voire même 2. Regarder si l autre paramètre est lui aussi inconnu. b) Sélectionner la seule formule F k adéquate ( F 1 ou F 2 pour m, F 3 ou F 4 pour ). On dispose alors d une variable aléatoire Z, T ou bien C. c) Calculer la valeur expérimentale de la variable parmi Z, T ou C qui figure dans la formule sélectionnée en b). d) Construire la région d acceptation du test. Si c est un test d égalité, elle a deux bornes. S il s agit d un test d inégalité, elle est unilatère et faire attention au sens de l inégalité. 55

e) Conclusion : si la valeur expérimentale du c) est dans la région d acceptation, l hypothèse n est pas rejetée. Sinon on la rejette. A. Tests sur la moyenne m. Pour simplifier on ne traite ici que le cas où est connu. Dans le cas contraire, il faut se servir de la formule F 2 et de la valeur expérimentale s à la place de. On obtiendrait ce qui s appelle un test de Student. On rappelle que d après la formule F 1, Z = n X n m suit la loi N(, 1). Pour simplifier on va toujours prendre dans la suite le risque,5. 1. Test de m m contre m > m Règle : on prend D = {Z a} avec a tel que si m = m, IP(Z a).5. En explicitant en fonction de X n, la région de rejet est donc par un simple calcul {X n b}. avec b = m + a n. Si on ne demande pas explicitement la région d acceptation (cela serait un exercice scolaire), il suffit toujours de regarder si la valeur expérimentale de Z ( obtenue en remplaçant X n par x et m par m ) est dans la région d acceptation. Justification intuitive de la règle (à retenir) Si H est vérifiée, on a m m ; comme X n est voisin de m, l événement {X n très grand} a peu de chance de se produire, on peut donc choisir une région de rejet de cette forme. Mais X n très grand équivaut à Z très grand. Justification de la règle. Supposons H vérifiée, c est à dire m m. Alors IP(X n b) = IP(Z b m b m ). Comme est plus grand que b m, IP(X n b) est majorée par IP(Z b m ). Donc pour rendre IP(X n b) rare, il suffit d exiger que IP(Z b m = a).5. 2. Test de m m contre m < m Il suffit de changer le sens des inégalités. Exemple : tester m 3 dans le cas n = 1, =.5, x = 3.1 au risque de 5%. On trouve ici IP(Z < a = 1.645).5. La valeur expérimentale Z(ω) est Z = 1.1.5 plus grand que a : on ne rejette pas l hypothèse. 3. Test de m = m contre m m Dans ce cas, on considère plus simplement une région de rejet D rare sous l hypothèse H de la forme { Z > c}. Exemple : Tester m = 3 dans le cas n = 5, = 6, x = 3.1 au risque.1. Si H est vrai, Z = 5 X 5 3 6 suit la loi N(, 1). Sa valeur expérimentale est.1179 qui est bien de valeur absolue < c 2.576 lu dans la table Student ( colonne.1 et ligne ). Conclusion : l hypothèse n est pas rejetée. 56

Dessin : B. Test sur l écart-type 1. Test de = contre Pour simplifier on ne traite ici que le cas où m est connu. Dans le cas contraire, il faut se servir de la formule F 4 et de la valeur expérimentale de X n à la place de m. D après la formule F 3, C = nv n 2 suit la loi du χ 2 n. On considère une région de rejet D rare sous l hypothèse H de la forme {C > v ou C < u} en partageant en deux la surface. Exemple. Tester = 3 dans le cas n = 1, V 1 (ω) = 4 au risque, 1. C suit la loi du χ 2 à 1 degrés de libertés. En partageant en deux la surface 1% on trouve le région d acceptation {3.94 < C < 18.3}. Mais si l hypothèse est vraie, la valeur expérimentale de C est 1 4 9 4.44 dans cet intervalle, donc on ne rejette pas l hypothèse. Remarque fondamentale : lien avec les intervalles On constate qu une hypothèse = n est pas rejetée ssi est dans l intervalle de confiance bilatère de même niveau pour. Cette remarque est généralisable : ce cours sur les tests est une reformulation du cours sur les intervalles. Il est donc usuel de poser deux fois le même calcul à un examen pour sanctionner ceux qui ne réfléchissent pas. Dans notre exemple, 3 est bien dans ]1.47; 3.19[. 2. Test de contre > On utilise la région de rejet D = {C > u} avec IP(C > u) niveau 1. En effet on veut que V n (qui ressemble à 2 ) grand soit rare, ce qui équivaut à dire que C grand est rare. Exemple. Tester 4 dans le cas n = 1, s = 1. au risque 1% (m étant inconnu pour changer). D après la formule F 4, C = 9Σ2 1 2 suit la loi du χ 2 9. 57

Si = 4, la valeur expérimentale de C est 9 16 plus petite que u = 14,7 obtenu à la ligne 9, colonne,9 de la table. Donc on ne rejette pas l hypothèse. III- Test du khi deux But. Contrôler l adéquation d un modèle, ce qu on appelle aussi la conformité d un échantillon. Soit un phénomène aléatoire pouvant prendre des valeurs numériques dans N intervalles disjoints (N est un entier quelconque 1, à ne pas confondre avec le nombre n d expériences). On appelle plutôt en statistique ces intervalles des classes car on peut aussi considérer le cas où le phénomène non numérique (qualitatif = non quantitatif) appartient à un nombre fini de catégories. On note O k le nombre de résultats expérimentaux qui tombent dans la k-ième classe (initiale O comme observé). D autre part on fait l hypothèse H que le phénomène est régi par une certaine loi de probabilité. On veut savoir si ce modèle est adéquat. Posons alors T k l effectif théorique de la classe qui s obtient en multipliant le nombre n d expériences par la probabilité théorique que la variable aléatoire soit dans la classe. Donc T k n est pas forcément un entier contrairement à O k. Méthode. On pose C(ω) = N (O k T k ) 2 k=1 dont la loi est approximativement du χ 2 à N 1 degrés de libertés où N est le nombre de classes. (C est une bonne approximation quand le nombre d expériences n est grand). Si la valeur expérimentale de C est en dehors de l intervalle ], a[ avec a lu dans la table tel que IP(C < a) niveau 1, l hypothèse est rejetée. C est sensé mesurer l écart entre l observation et le modèle. Un exemple. Le moine autrichien Gregor Mendel faisait pousser des pois pour mettre en lumière les lois fondamentales de la génétique. Selon l une d elle, on devrait trouver des proportions théoriques de 9 16 pour les pois lisses et jaunes, 3 16 pour les pois lisses et verts, encore 3 1 16 pour les pois ridés et jaunes et enfin 16 pour les ridés verts. T k Lisses jaunes Lisses verts Ridés jaunes Ridés verts Attendus T i 312,75 14,25 14,25 34,75 Observés O i 316 18 11 31 58

Les effectifs théoriques T i des quatre classes s obtiennent par 556 la proportion théorique. Alors C(ω) = 4 i=1, 67. Avec 4 classes, on se sert de la table à 3 degrés de (O i T i ) 2 T i liberté : on y lit IP(C 3 6, 25), 1. Au risque,1 on devrait donc ne pas rejeter l hypothèse. Remarque. Dans le cas où la valeur expérimentale de C est très petite, on parle de test du χ 2 trop bon et on s interroge sur l honnêteté de l expérimentateur. Si C(ω) appartient à [, c] tel que IP(C < c), 1, il est usuel de conclure qu il y a probablement une tricherie. Conseils d utilisation. n doit être assez grand et toutes les classes théoriques d effectifs comparables (donc N ne doit pas être trop grand afin d éviter les classes presque vides). Ne pas hésiter à regrouper des classes s il le faut. On peut bien sûr utiliser des classes ouvertes de la forme { < X < a} ou {b < X < }. Par contre, si un effectif expérimental est anormalement petit, ne pas changer les classes : cela signifie simplement qu on risque fort de rejeter l hypothèse puisque les données expérimentales ne correspondent pas à la théorie. Complément : règle de Fisher. Pour tester une hypothèse du genre la loi est une loi de Poisson avec le paramètre inconnu, il est d usage d estimer le paramètre (ici, on prendrait comme valeur estimée ˆθ la moyenne empirique de l échantillon) et de transformer l hypothèse en la loi est une loi de Poisson avec paramètre égal à ˆθ. Comme il s agit d un paramètre estimé, on diminue d une unité (supplémentaire) le nombre de degré de liberté pour un test comportant deux bornes finies du χ 2. Plus généralement, le nombre de degrés de libertés (nombre de classes - 1) est encore à diminuer du nombre de paramètres estimés. Conclusion. Ce test, à cause de sa simplicité est beaucoup trop utilisé en pratique et bien souvent à tort. Par exemple, le générateur de nombre pseudo-aléatoires Randu fourni par IBM a passé avec succès ce test, alors que Randu fournissait des résultats catastrophiques. Il faut savoir que les simulations numériques réalisées pendant une trentaine d années devraient être jetées à la poubelle. La fonction Random de vos machines à calculer est bien meilleure! 59