BASES ET MÉTHODES POUR LE TRAITEMENT

Dimension: px
Commencer à balayer dès la page:

Download "BASES ET MÉTHODES POUR LE TRAITEMENT"

Transcription

1 MASTER M2 RECHERCHE : ASTRONOMIE ASTROPHYSIQUE Cours BASES ET MÉTHODES POUR LE TRAITEMENT DES DONNÉES (Bruits et Signaux) par Didier PELAT

2 Note à l intention des lecteurs Un cours intitulé «Bruits et Signaux», devrait idéalement comporter au moins deux parties, une partie traitant des statistiques des variables aléatoires, et une autre partie traitant des statistiques des processus stochastiques On ne trouvera ici que la partie concernant les variables aléatoires, mais les principes de base exposés ici seront un bagage précieux pour quiconque voudra bien aborder des problèmes plus complexes Quelques chapitres contiennent des programmes écrit en FORTRAN dont le but est d illustrer tel ou tel point qui vient d être traité L auteur a la conviction que de tels programmes possèdent une valeur pédagogique mais il est également persuadé qu ils sont imparfaits, en conséquence il décline toute responsabilité en cas d usage de ces programmes Certaines parties de ce cours sont indiquées par une étoile, il s agit de compléments qui peuvent être omis en première lecture C est un plaisir de remercier ici D Alloin, J Ballet, L Carter et les étudiants de l école doctorale d Île-de-France pour leurs lectures critiques de ce texte Je tiens tout particulièrement à remercier Françoise Launay pour avoir relu entièrement ce texte et y avoir apporté d innombrables améliorations Tous commentaires, corrections de fautes de frappe etc sont vivement encouragés Meudon le 12 octobre 2006 DPELAT LUTH Observatoire de PARIS Section de MEUDON MEUDON CEDEX Tel : Fax : Internet : didierpelat@obspmfr

3 Table des matières I Éléments de théorie des probabilités 1 1 Espaces probabilisés 3 11 Les axiomes de Kolmogorov L ensemble Ω La tribu B La mesure de probabilité Pr Exemples d espaces probabilisés Ensemble de mesure nulle Probabilités conditionnelles Événements indépendants Suite d événements indépendants Exercices 18 2 Variables aléatoires Une variable aléatoire Loi d une variable aléatoire Fonction de répartition Probabilité attachée à un intervalle Propriétés de la fonction de répartition Les différents types de fonctions de répartition Densité de probabilité Propriétés de la densité de probabilité Caractéristiques numériques des lois 1D Le mode Les moments Variable aléatoire centrée et réduite La médiane et les quantiles Lois conditionnelles Les lois tronquées Lois conditionnelles par rapport à un système d événements Exercices 35 3 Plusieurs variables aléatoires Un couple de variables aléatoires Définition Variables marginales Fonction de répartition Probabilité associée à un rectangle 38 i

4 ii TABLE DES MATIÈRES 315 Densité de probabilité Lois marginales Moments des lois 2D Moments des lois marginales Variables aléatoires indépendantes Lois conditionnelles associées à une loi 2D Lois conditionnelles d une coupe Lois conditionnelles quelconques Plusieurs variables aléatoires Vecteurs aléatoires et notation matricielle Fonction de répartition Probabilité d un hyper-rectangle Densité de probabilité Lois marginales Moments Matrice des variances-covariances Lois conditionnelles Lois conditionnelles des coupes Variables aléatoires indépendantes Plusieurs vecteurs aléatoires La matrice de covariance 54 4 Changement de variable aléatoire Une variable et une fonction Variables aléatoires continues Uniformisation des variables aléatoires continues Changement de variable et indépendance Plusieurs fonctions de plusieurs variables Une fonction de plusieurs variables Somme et différence de deux variables aléatoires Produit de deux variables aléatoires Quotient de deux variables aléatoires Le point de vue des probabilités conditionnelles Exemples Module et phase d un couple de variables aléatoires Module et phase d un couple de variables aléatoires normales indépendantes Exercices et problèmes 67 5 Nombres et fonctions caractéristiques L espérance mathématique L espérance mathématique des variables aléatoires discrètes L espérance mathématique des variables aléatoires continues L espérance mathématique des variables aléatoires quelconques Propriétés de l espérance mathématique Espérance mathématique conditionnelle Espérance d une fonction de la variable aléatoire Inégalités impliquant des espérances L inégalité de Cauchy-Schwarz Les inégalités de Cauchy-Schwarz d ordre n Nombres caractéristiques 79

5 TABLE DES MATIÈRES iii 531 Les moments L erreur quadratique moyenne Fonctions caractéristiques La fonction de répartition La densité de probabilité La fonction caractéristique La fonction génératrice des moments Espérance des variables aléatoires d un couple Espérances conditionnelles des lois 2D Espérance des lois nd Espérance mathématique d une matrice Caractéristiques numériques Quantiles d une fonction de la variable aléatoire Moments d une fonction de la variable aléatoire Moments et changement de variables aléatoires linéaire Changement quasi-linéaire de variables aléatoires Exercices et problèmes 87 6 Lois normales Loi normale à une dimension Fonction de répartition Fonction caractéristique Caractéristiques numériques de la loi normale Quelques propriétés de la loi normale Loi normale à 2 dimensions Fonction caractéristique Lois conditionnelles Caractéristiques numériques de la loi normale 2D Forme quadratique associée Ellipses d égale probabilité Forme matricielle de la loi normale 2D Lois marginales Loi normale à n dimensions Fonction caractéristique nd Changement de variable linéaire Loi normale nd réduite Réduction des variables normales quelconques Caractéristiques numériques de la loi normale nd Lois marginales et conditionnelles Ellipsoïde d égale densité Composantes principales Loi du χ Contenu en probabilité de l ellipsoïde d égale densité Introduction au test du χ Aspects numériques Quantiles de la loi normale réduite Génération d un couple de variables aléatoires suivant la loi normale 2D Simulation de vecteurs suivant la loi normale nd Exercices et problèmes 113

6 iv TABLE DES MATIÈRES 7 Inégalités et convergences Inégalités L inégalité de Markov Les inégalités de type Bienaymé-Tchébychev L inégalité de Bernstein L égalité entre deux variables aléatoires La convergence stochastique La convergence en loi La convergence en probabilité La convergence presque-sûre La convergence en moyenne quadratique Hiérarchie parmi les convergences Critère de Cauchy Lois des grands nombres Loi des grands nombres de Bernoulli Lois faibles des grands nombres Lois fortes des grands nombres La loi du logarithme itéré Théorème central limite Théorème central limite pour une suite de variables aléatoires indépendantes Précision du théorème central limite Exemples Méthode de Monte-Carlo Exercices et problèmes Lois de probabilité usuelles Lois discrètes Loi de Bernoulli Loi binomiale Loi géométrique ou de Pascal Loi binomiale négative Loi de Poisson Loi Hypergéométrique Lois continues Loi uniforme Loi bêta Loi du χ Loi t de Student Loi F de Fisher Loi exponentielle Loi gamma ou loi d Erlang Loi log-normale Loi de Cauchy Lois à plusieurs variables Loi multinomiale Bibliographie Exercices et problèmes 160

7 TABLE DES MATIÈRES v 9 Flux d événements Les flux simples ou de Poisson Loi gouvernant les intervalles de temps T i Lois gouvernant les dates d arrivée des événements Loi gouvernant le nombre d événements observés dans un intervalle de temps donné T Quelques lois conditionnelles Flux de Poisson non-stationnaire L horloge stroboscopique Loi du nombre d événements dans un intervalle t 1, t Loi suivie par l intervalle de temps séparant deux événements Superposition de flux Définition Flux indépendants Superposition de flux de Poisson Tendance vers le flux de Poisson Superposition aléatoire de flux de Poisson Flux tamisés Flux d Erlang Tamisage aléatoire d un flux de Poisson Bruit de grenaille Moyenne et variance d un bruit de grenaille Flux 2D Caractéristiques locales d un flux 2D Propriétés globales d un flux 2D Flux de Poisson 2D Exercices et problèmes 184 II Statistique des variables aléatoires Les échantillons Les échantillons iid La fonction de vraisemblance Les échantillons ordonnés Loi suivie par les extrema d un échantillon Loi suivie par les variables ordonnées Loi suivie par un couple de variables ordonnées La fonction de répartition empirique Une définition «naturelle» de F n Loi suivie par la variable aléatoire F n (x) Convergence de F n vers F Les méthodes bootstrap Exercices et problèmes Les statistiques associées à l échantillon Statistiques associées à un échantillon Les statistiques en tant que fonctionnelles Convergence des statistiques Moments de l échantillon Convergence des moments empiriques 206

8 vi TABLE DES MATIÈRES 1122 Caractéristiques numériques des moments empiriques Statistiques d ordre Réduction des données Les statistiques exhaustives Exhaustivité et information La fonction score Échantillons de population normale Le théorème de Fisher Loi suivie par la moyenne X n Loi suivie par la variance modifiée Sn Indépendance de X n et Sn La loi de «Student» Échantillons issus d une loi normale 2D Exercices et problèmes L estimation ponctuelle Le problème Eléments de théorie de la décision Propriétés des estimateurs La convergence L absence de biais Les méthodes permettant de corriger du biais L efficacité L inégalité de Fréchet ou de Rao-Cramér Les estimateurs MVB Efficacité et estimateur efficace Cas des estimateurs biaisés Borne efficace et information de Fisher Les inégalités de Bhattacharyya Les estimateurs fiables Exercices et problèmes L estimation d intervalle Définition de l intervalle de confiance Les grands échantillons Le point de vue bayesien Exemple tiré de la loi normale Intervalle de confiance n-d Principe de construction Le cas de la loi normale 2D Exemples Intervalle de confiance approximatif d un rapport Exercices Comment obtenir des estimateurs? La méthode des moments La méthode du maximum de vraisemblance Principe de la méthode Propriétés de l estimateur du maximum de vraisemblance 259

9 TABLE DES MATIÈRES vii 1523 Loi et variance de l estimateur du maximum de vraisemblance Exemples Estimation d un rapport Références Exercices et problèmes La méthode des moindres carrés Le modèle général Géométrisation de la méthode des moindres carrés Le cas normal Moindres carrés pondérés Le cas linéaire Modèle linéaire Fonctions à estimer Modèle linéaire réduit Les équations normales Solution du modèle linéaire Reparamétrisation du modèle Interprétation géométrique de la méthode des moindres carrés, dans l espace des observations Le théorème de Gauss-Markov dans le cas linéaire de la méthode des moindres carrés Moyenne et variance des estimateurs des moindres carrés Estimation de la variance σ Loi suivie par les estimateurs des moindres carrés Région de confiance dans l espace des paramètres Résumé des propriétés du modèle linéaire Exercices et problèmes Estimation de paramètres Loi exponentielle Estimation ponctuelle Estimation d intervalle Loi normale Estimation de la moyenne µ connaissant σ Estimation de µ ne connaissant pas σ Estimation de σ 2 connaissant µ Estimation de σ 2 ne connaissant pas µ Estimation simultanée de µ et σ Estimation de la loi Estimation de la fonction de répartition L estimateur «naturel» F n La statistique de Kolmogorov Estimation d une loi en présence de censure Modèle de censure L estimateur de Kaplan-Meier Densité de probabilité empirique Estimateurs subordonnés à un noyau Caractéristiques numériques empiriques Histogrammes Loi suivie par le nombre de points dans une cellule 315

10 viii TABLE DES MATIÈRES 1852 Le χ 2 de Pearson Taille des cellules Étude de la dépendance Étude de la corrélation Coefficient de corrélation en présence d erreurs de mesure L estimateur «naturel» de ρ Le cas normal Estimation d intervalle La régression La régression linéaire Droites de régression empiriques Recherche de dépendances fonctionnelles 324 III Appendices 329 A Fonctions spéciales 331 A1 Fonctions eulériennes 331 A11 Fonction eulérienne de première espèce 331 A12 Fonction eulérienne de deuxième espèce 331 A2 Fonctions eulériennes incomplètes 333 A21 Fonction bêta incomplète 333 A22 Fonction gamma incomplète 333 A3 Fonction hypergéométrique 334 A31 Domaine de définition 334 A32 Propriétés de la fonction hypergéométrique 334 A33 Fonction hypergéométrique généralisée 335 A34 Fonction hypergéométrique confluente 335 A4 Aspects numériques 335 A41 Fonction gamma 336 A42 Fonction bêta 336 A43 Fonction gamma incomplète 336 A44 Fonction bêta incomplète 336 B Outils mathématiques 337 B1 Matrices 337 B11 Matrices définies positives 337 B12 Matrices projectives 338 B13 Inverses généralisées 338 B2 Éléments de topologie 339 B21 Espaces topologiques 339 B22 Espaces métriques 339 B3 Structures algébriques 339 B31 Espaces vectoriels 339 B32 L espace dual 341 B33 Espace vectoriels normés 342 B34 Formes hermitiennes et produit scalaire 342 B35 Espaces préhilbertien 344 B36 Espaces unitaires 345

11 TABLE DES MATIÈRES ix B37 Espaces vectoriels arithmétiques 345 B4 Applications linéaires 346 B41 Application adjointe 347 B42 Espaces de dimensions finies 347 C Solution des exercices 349 C1 Exercices du chapitre C2 Exercices du chapitre C3 Exercices du chapitre C4 Exercices du chapitre C5 Exercices du chapitre C6 Exercices du chapitre C7 Exercices du chapitre D Éléments biographiques 353

12 x TABLE DES MATIÈRES

13 Table des figures 11 Concept d événement réalisé en théorie des probabilités 5 12 Tribu engendrée par une classe Trois événements deux à deux indépendants, mais pas mutuellement indépendants Fonction de répartition de la loi normale Exemple de fonction de répartition d une variable aléatoire discrète Exemple de fonction de répartition d une variable aléatoire absolument continue Densité de probabilité de la loi normale «Densité» de probabilité de la loi Poisson Domaine de définition de la fonction de répartition 2D Probabilité p associée à un rectangle Domaine de définition de la fonction de répartition marginale F X Lois du min et du max d un couple de variables aléatoires Loi suivie par deux variables aléatoires non-corrélées mais pas indépendantes Exemple de changement de variable aléatoire continu mais non univoque Densité de probabilité du produit de deux variables normales réduites Relation «de Pythagore» reliant la variance, le biais et l erreur quadratique moyenne Densité de probabilité de la loi normale réduite Fonction d erreur résiduelle de la loi normale Ellipses de corrélation de la loi normale 2D Interprétation géométrique du rectangle de dispersion Simulation de points suivant la loi normale 2D Simulation de vecteurs suivant la loi normale nd Illustration graphique de l inégalité de Bienaymé-Tchébychev Exemple de convergence en loi Illustration de la loi des grands nombres de Bernoulli Illustration de la loi du logarithme itéré Probabilités de la loi binomiale Fonction de répartition de la loi binomiale négative Répartition de la loi de Poisson Densités de probabilité de la loi bêta Densité de probabilité de la loi du χ Densité de probabilité de la loi de Student 152 xi

14 xii TABLE DES FIGURES 87 Densité de probabilité de la loi de Fisher Densité de probabilité de la loi exponentielle Densité de probabilité de la loi gamma Densité de probabilité d une loi log-normale Densité de probabilité de la loi de Cauchy Représentation schématique d un flux d événements Lois des temps d arrivée d événements de Poisson Flux correspondant à n événements dans le temps T Domaine d intégration correspondant à l observation de n événements dans le temps T Bruit de photons de moyenne 5 photons par unité de temps Lois conditionnelles du temps d arrivée d événements de Poisson lorsque N = n Densité de probabilité d un flux modulé sinusoïdalement Représentation schématique de la somme de deux flux Tamisage déterministe d un flux de Poisson Exemple de bruit de grenaille Exemple de flux de Poisson 2D Densité de probabilité de la distance au plus proche événement voisin Fonction de vraisemblance d un échantillon issu d une loi exponentielle Fonction de répartition suivie par les extrema d un échantillon uniforme Répartition du temps de remplacement d une batterie de composants Densité de probabilité de l empan d un échantillon iid uniforme Fonction de répartition de l empan d un échantillon iid uniforme Réalisation de la fréquence empirique F n Ecart réduits de F n par rapport à F Domaine d intégration pour le calcul de la loi du χ Représentation graphique d un échantillon normal 2D Illustration de l indépendance entre convergence et absence de biais Performances de 6 estimateurs de la moyenne d une loi normale Performances de 6 estimateurs de la moyenne d une loi uniforme Performances de 6 estimateurs de la médiane d une loi de Cauchy Construction graphique de l intervalle de confiance de la moyenne d une loi normale Extrapolation de l intervalle de confiance sans tenir compte de l information a priori Région de confiance de l estimation de la moyenne d une loi normale 2D Abaque de l intervalle de confiance d un rapport Densités de probabilité de quatre observations spectroscopiques d un rapport de raies Estimation d un décrément de Balmer par la méthode du maximum de vraisemblance Construction de la matrice modèle par échantillonnage Interprétation géométrique de la méthode des moindres carrés Construction géométrique des écart types des estimateurs des moindres carrés Région de confiance de l estimation simultanée de deux paramètres Fonction de répartition de Kolmogorov 311

15 TABLE DES FIGURES xiii 191 Lois suivies par le coefficient de corrélation empirique Schéma de principe de la recherche d une dépendance fonctionnelle 325 A1 Logarithme de la fonction Γ 332

16 xiv TABLE DES FIGURES

17 Liste des tableaux 11 Tableau comparatif des terminologies ensembliste et probabiliste 4 21 Extrait d une table de quantiles de la loi normale réduite Fonction de répartition et densité de probabilité de la variable aléatoire Y = ϕ(x) Densités de probabilité des quatre opérations Quantiles des bijections Moyenne et variance des changements de variables linéaires Table permettant de calculer un intervalle de confiance de la loi normale réduite Caractéristiques numériques de certains changements de variable Moyenne et variance de la somme et de la différence de deux variables aléatoires normales corrélées Table des seuils du test du χ Bornes supérieures pour la fonction d erreur Extrait d une table de la fonction bêta incomplète Quatre observations des raies de l hydrogène atomique Confiance associée à «l ellipse» X 2 = Xmin Solutions du modèle linéaire par la méthode des moindres carrés Matrice des variances-covariances des paramètres estimés par la méthode des moindres carrés300 xv

18 Première partie Éléments de théorie des probabilités 1

19

20 Chapitre 1 Espaces probabilisés La base fondamentale du calcul des probabilités est la théorie de la mesure élaborée par Borel et Lebesgue au début du XX e siècle On doit à Kolmogorov, vers l année 1930 [44], d avoir reconnu qu une probabilité se concevait en tant que «mesure» de certains sous-ensembles appelés événements Avant cette date la théorie des probabilités n avait pas le statut de théorie mathématique cohérente et certaines notions comme celle de probabilité conditionnelle restaient assez vagues 11 Les axiomes de Kolmogorov Suivant Kolmogorov, un espace probabilisé est un triplet (Ω, B, Pr) constitué : 1) d un ensemble Ω dont les éléments ω sont appelés événements élémentaires ; 2) d un ensemble B possédant une structure dite de tribu dont les éléments sont des sousensembles particuliers de Ω appelés événements ; et 3) d une mesure normée Pr dite de probabilité associée aux événements Pour être complet ajoutons, sans trop insister, que la théorie des ensembles considérée est celle de Zermelo-Frænkel avec axiome du choix En ce qui concerne ce cours, on pourra se contenter de la notion intuitive que l on a généralement de cette théorie On admettra donc qu une expression comme ω Ω a un sens pour le lecteur 111 L ensemble Ω L ensemble Ω est dit espace des épreuves Ses éléments ω sont toutes les issues possibles d une expérience soumise au hasard Ces issues ou événements élémentaires ou encore événements atomiques ( ou atomes ) sont de nature abstraite, ils représentent, par exemple, le fait qu une pièce de monnaie tombe d un côté ou de l autre dans le jeu dit de «pile ou face» L espace des épreuves peut souvent s exprimer sous forme d une liste de faits : Ω = {pile, face} ou encore Ω = {yeux bleus, yeux verts, - cheveux blonds, cheveux roux,} Néanmoins, le résultat de nombreuses expériences se résume, d un point de vue pratique, à la donnée d un ou plusieurs nombres, c est le cas du jet d un dé à 6 faces : Ω = {1, 2, 3, 4, 5, 6} ou de la mesure de la taille d un individu : Ω = R + Bien que les éléments atomiques ω correspondent à une description fine des issues d une expérience aléatoire, ce ne sont pas les éléments ω eux-mêmes qui nous 3

21 4 CHAPITRE 1 ESPACES PROBABILISÉS Notation Terminologie ensembliste Terminologie probabiliste ω Ω élément, atome événement élémentaire A Ω sous-ensemble, partie idem A B partie mesurable événement Ω partie pleine événement certain partie vide événement impossible A B ou A B A est inclus dans B A implique B A B ou AB intersection de A et B A et B sont simultanés AB = parties disjointes événements incompatibles A B union de A et B A et/ou B est réalisé Ω \ A ou A c complémentaire de A événement contraire de A TAB 11 Tableau comparatif des terminologies ensembliste et probabiliste Dans ce tableau B désigne une tribu telle qu elle est définie en 112 intéressent le plus souvent, mais certaines collections d entre eux que l on appelle événements Ce regroupement des ω revient à accepter une certaine perte de résolution sur l issue de l expérience en question On accepte cette description plus grossière, soit parce que la résolution ultime de l expérience n est pas accessible, soit parce qu une description plus détaillée ne présenterait pas d intérêt Ainsi, on considère plus volontiers l événement : A = «mesurer moins de 1m 80» ou B = «mesurer entre 1m 70 et 1m 80» que l événement atomique : ω = «mesurer exactement 1m 80» Par ailleurs, ce que l on appelle événement atomique correspond effectivement à une description plus précise, mais il est lui-même un événement d une description encore plus fine, mais jugée inutile, de l expérience aléatoire Par exemple, dans le jet d un dé à 6 faces on ne s intéresse pas à l orientation précise du dé sur le plateau de jeu mais seulement au chiffre porté sur sa face supérieure Pour finir, la résolution ultime d une expérience est sans doute une notion évanescente et il faut donc admettre, en physique particulièrement, que ce que l on appelle événement atomique soit sujet à de perpétuelles révisions Les concepts d événements atomiques ou d événements sont identiques à ceux d éléments ou de parties mesurables introduits en théorie des ensembles La théorie des probabilités utilise cependant une terminologie particulière que nous tentons de résumer dans le tableau 11 En parcourant ce tableau, il est important de bien saisir ce que l on entend par la réalisation d un événement On dit que l événement A est réalisé si l issue ω est telle que ω A Quand A est réalisé, ce ne sont pas tous les ω de A qui sont réalisés mais seulement l un d entre eux Ceci étant clarifié, «A est inclus dans B» se dit en théorie des probabilités «A implique B», car si A B et si ω A alors par voie de conséquence ω B ( si A est réalisé alors B est lui aussi réalisé, voir figure 11 page ci-contre ) Remarque 11 Pour les ensembles Ω formés d un nombre fini d éléments, il n y a aucune difficulté à considérer n importe quelle partie de Ω comme constituant un événement En revanche, pour des ensembles Ω infinis il peut exister des parties pour lesquelles on ne peut affecter aucune probabilité ce sont les parties non mesurables de Ω, ce point est étudié au chapitre 112 L existence de parties non mesurables est liée à l introduction de l axiome du choix La raison pour laquelle on introduit cet axiome est qu il est nécessaire pour démontrer que la réunion d une infinité dénombrable d événements de probabilité nulle reste de probabilité nulle Ainsi, pour donner une image tirée de la physique, l intégrale d une surface mesurée en cm 3 reste égale

22 11 LES AXIOMES DE KOLMOGOROV 5 ω A C B D Ω FIG 11 Le résultat d une expérience est l événement atomique ω porté sur cette figure Par rapport à l issue ω, les événements : A, B et C sont réalisés simultanément, D n est pas réalisé et Ω est toujours réalisé Par ailleurs A, B et C sont incompatibles avec D, enfin A de même que B impliquent C à zéro cm 3 puisqu elle est calculée à partir de la réunion d une infinité dénombrable de carrés de zéro cm 3 Notations et opérations sur Ω Nous désignerons habituellement par des capitales romaines : A, B,, éventuellement affectées d un indice, les parties de Ω qui sont des événements Inclusion et ordre Soient deux parties A et B de Ω, si tous les atomes ω de A sont aussi des atomes de B alors on dit que A est inclus dans B et on note A B Si A B et B A on dit que A et B sont égaux, on note A = B L inclusion induit un ordre partiel parmi les parties de Ω, dans le sens où : si A B alors on dit que «A est plus petit que B» Si dans un ensemble de parties, un de ses membres est inclus dans tout les autres, on dit alors qu il est «le plus petit» membre de l ensemble Différence et complémentaire L ensemble des atomes de A qui n appartiennent pas à B est noté A \ B, par définition : A \ B déf = {ω A ω B} L ensemble Ω\A des atomes de Ω qui ne sont pas dans A est appelé le complémentaire de A est reçoit la notation particulière : A c L intersection A B est l ensemble des atomes qui appar- Intersection et union tiennent à A et à B : ω A B ω A et ω B (11)

23 6 CHAPITRE 1 ESPACES PROBABILISÉS En théorie des probabilités, si ω A B on dit que A et B sont simultanés, car si A est réalisé ( ω A ) alors B est réalisé ( car ω B ) L union A B est l ensemble des atomes qui appartiennent à au moins une partie A ou B : ω A B ω A ou ω B (12) Les opérations et sont commutatives, associatives et distributives l une par rapport à l autre : A (B C) = (A B) (A C), A (B C) = (A B) (A C) (13) Le plus souvent on omet l opération et on note simplement AB l ensemble A B Les deux ensembles particuliers Ω et peuvent être considérés comme les solutions uniques des équations : A = A, A =, A Ω = Ω, A Ω = A (14) De même A c peut être considéré comme l unique solution des équations : A A c = Ω, A A c =, (A c ) c = A (15) Il résulte des définitions que Ω c = et c = Ω, et que les opérations et satisfont la règle de «de Morgan» : (A B) c = A c B c, (A B) c = A c B c (16) Si A B =, on dit que les parties A et B sont disjointes ou incompatibles, dans ce cas on note A + B leur union Classes Un ensemble de parties s appelle une classe On note {A t } une classe où chaque élément est indicé par le nombre t, lui-même élément d un ensemble d indices T On note «inf A t» l ensemble des atomes qui appartiennent à tous les éléments de la classe, et «sup A t» l ensemble des atomes qui appartiennent à au moins un élément de la classe On a par définition : déf inf A t = déf A t et sup A t = A t (17) t T Si ω n appartient pas à au moins un A t (ω (sup A t ) c ), alors ω appartient à tous les A c t (ω inf A c t ) Réciproquement, si ω n appartient pas à tous les A t (ω (inf A t ) c ), alors ω appartient à au moins un A c t ( ω sup Ac t ) Ceci est l expression de la règle de de Morgan appliquée aux classes : où de manière équivalente : t T (sup A t ) c = inf A c t, (inf A t ) c = supa c t, (18) ( A t ) c = A c t, ( A t) c = A c t (19) Une classe est dite dénombrable si l ensemble des indices T peut être mis en correspondance bijective avec l ensemble N des entiers En particulier la classe {A t } est dénombrable si T est un sous-ensemble de N L ensemble sup A k d une classe dénombrable peut toujours être mis sous la forme d une somme : sup A k déf = k A k = A 1 + A c 1A 2 + A c 1A c 2A 3 +

24 11 LES AXIOMES DE KOLMOGOROV 7 Système complet de parties Une classe de parties {A t } forme un système complet si les éléments qui la composent sont non-vides, deux à deux incompatibles, et si leur union ( éventuellement infinie ) recouvre tout Ω, c est-à-dire si : t t, t t ; A t A t = et sup A t = Ω (110) Ainsi tous les atomes ω de Ω appartiennent à un et un seul élément d un système complet Exemple 11 Systèmes complets sur des espaces des épreuves finis Si Ω n est formé que du seul événement élémentaire ω 1, il n y a qu un seul système complet : {{ω 1}} ; si n = 2, il y a deux systèmes complets : {{ω 1, ω 2}} et {{ω 1}, {ω 2}} ; si n = 3 il y en a 5 : {{ω 1, ω 2, ω 3}}, {{ω 1, ω 2}, {ω 3}}, {{ω 1, ω 3}, {ω 2}}, {{ω 2, ω 3}, {ω 1}} et enfin {{ω 1}, {ω 2}, {ω 3}} Voir exercice 14 Suites et limites Une classe dénombrable infinie {A k } est appelée une suite si les parties qui la composent ont été ordonnées suivant l ordre croissant de l indice k L ensemble des ω qui appartiennent à tous les A k dès que k K s appelle la limite inférieure de la suite En envisageant tous les cas possibles, on a : liminf A k = n=1 k=n A k D après cette définition, les éléments de la limite inférieure d une suite appartiennent à tous les A k sauf un nombre fini d entre eux La limite inférieure de la suite {A c k } des complémentaires de A k est formée des ω qui n appartiennent à aucun A k dès que k K L ensemble liminf A c k est donc formé des ω qui appartiennent à un nombre fini d éléments de la suite Nous appellerons limite supérieure d une suite le complémentaire de la limite inférieure de la suite des complémentaires, c est-à-dire l ensemble formé des ω qui appartiennent à un nombre infini de A k Par application de la règle de de Morgan sur les classes, il vient : En résumé, on a : limsup A k déf = (liminf A c k )c = n=1 k=n A k liminf A k = {ω ω A k pour tous les k, sauf un nombre fin}, limsup A k = {ω ω A k pour une infinité de k} Si ω appartient à tous les A k, sauf un nombre fini, il appartient de fait à une infinité de A k Il vient alors : liminf A k limsup A k (111) Si l inclusion inverse est également vraie on dit que la suite converge vers la limite lim A k, Soit A cette limite on note alors : A k A Suites monotones Une suite {A n } est monotone si ses éléments «s emboîtent» les uns dans les autres Plus précisément, une suite est monotone croissante si A 1 A 2 A k et monotone décroissante si A 1 A 2 A k On note A n une

25 8 CHAPITRE 1 ESPACES PROBABILISÉS suite croissante et A n une suite décroissante Une suite croissante : A n est convergente On a : A n sup A n, de même une suite décroissante A n est aussi convergente On a : A n inf A n Démonstration Donnons la démonstration de A n sup A n On a, par définition, lim inf A n = n=1 k=n A k, mais pour une suite croissante : k=na k = A n d où lim inf A n = n=1a n Par ailleurs, lim sup A n = n=1 k=na k mais : k=na k = k=1a k d où n=1 k=na k = k=1a k Finalement lim inf A n = lim sup A n = n=1a n = supa n La suite A n est donc convergente : A n supa n On montrerait de même que la suite A n est convergente : A n inf A n 112 La tribu B Une tribu est un ensemble dont les éléments sont des parties de Ω, c est donc une classe de Ω Cette classe comprend le vide, Ω lui-même, ainsi que certaines parties de Ω jugées «intéressantes» pour une raison ou pour une autre De plus, la tribu doit être stable pour les opérations portant sur ses membres c est-à-dire, que le complémentaire, l union et l intersection d un nombre fini de membres de la tribu doit aussi être un membre de la tribu Finalement, elle doit comprendre les limites de toutes les suites monotones que l on peut former à partir des membres qui la composent Dans un premier temps, on peut se contenter de cette définition assez vague et passer directement au chapitre 113 page 11 On pourra se reporter plus tard au chapitre ci-après où la notion de tribu est introduite de façon plus rigoureuse Définition formelle d une tribu Pour qu un ensemble de parties de Ω constitue une tribu, il faut d abord qu il soit une algèbre de Boole ou plus simplement une algèbre Algèbre d événements Un ensemble A de parties de Ω constitue une algèbre, si les trois conditions suivantes sont satisfaites : A1 : Ω A A2 : A A A c A donc = Ω c A A3 : A 1, A 2 A A 1 A 2 A donc A 1 A 2 = (A c 1 Ac 2 )c A Exemple 12 Quelque soit Ω, on a toujours les deux algèbres suivantes : P(Ω), l ensemble des parties de Ω, G(Ω) = {,Ω}, P(Ω) est dite algèbre discrète et G(Ω) algèbre grossière Remarque 12 Accepter l axiome A2, qui dit que A c est un événement, c est franchir l étape intellectuelle qui consiste à admettre que si un événement A manque de se réaliser, c est que son contraire A c s est réalisé Cela n est possible que si l on a introduit le cadre Ω de toutes les issues possibles, par rapport auquel A c est défini Il semble que ce soit Th Bayes au XVIII e siècle qui, le premier, ait admis l équivalence entre l échec d un événement et le succès de son contraire ( voir, AI Dale 23 [20] )

26 11 LES AXIOMES DE KOLMOGOROV 9 Tribu d événements L algèbre A devient une tribu B ( ou σ-algèbre ) si l union d une infinité dénombrable d événements est aussi un événement Les axiomes définissant une tribu d événements sont donc les suivants : B1 : Ω B ; B2 : A B A c B ; B3 : A k B, (k = 1,, ) k=1 A k B Espace mesurable Un espace Ω muni d une tribu B est dit espace mesurable, on note (Ω, B) cet espace La tribu B est dite constituée de parties mesurables En théorie des probabilités, les parties mesurables de l espace mesurable (Ω, B) sont appelées événements On appelle Ω lui-même l événement certain et l événement impossible Si A et B sont des événements tels que AB =, on dit que A et B sont des événements incompatibles, dans ce cas leur union est notée A + B Il résulte des axiomes que l intersection d une suite infinie dénombrable d événements appartenant à une tribu, appartient aussi à la tribu : A k B, (k = 1,, ) A k B (112) Une tribu est donc une classe stable par rapport à toutes les opérations classiques effectuées sur, au plus, une infinité dénombrable de ses membres k=1 Exemple 13 Les classes de parties suivantes sont des tribus de Ω : 1 P(Ω), l ensemble des parties de Ω C est utile pour le cas fini, mais c est une tribu trop grande pour le cas infini 2 G(Ω) = {, Ω}, la tribu grossière 3 Si les événements A j forment un système complet dénombrable, la classe des unions des A j forment une tribu Cette tribu contient tous les événements suivants :, A 1, A 2, A 3, A 1 A 2, A 1 A 3, A 1 A 4, A 2 A 3, A 1 A 2 A 3, A 1 A 2 A 4, A 1 A 2 A 5, A 1 A 3 A 4, Ω Cette classe d événements ne constitue une tribu que parce que les A i sont deux à deux disjoints Ces exemples sont à peu près les seuls où une tribu peut être exprimée de façon explicite Tribu engendrée par une classe Jusqu à présent, une tribu est définie de façon abstraite et détachée de tout contexte expérimental, mais ce contexte apparaît dès que l on exige que certains événements fassent partie de la tribu Dans une expérience portant, par exemple, sur la mesure d une longueur, il est naturel de demander que les intervalles : {ω a < ω < b} soient des événements Une tribu digne d intérêt doit contenir cette classe d événements mais il est, par ailleurs, inutile de la choisir trop grande ( comme la classe des parties de Ω par exemple ) Il faut, d une certaine façon choisir la plus petite tribu ( au sens de l inclusion ) qui contienne la classe en question Cette construction est rendue possible grâce à des considérations sur l intersection de tribus

27 10 CHAPITRE 1 ESPACES PROBABILISÉS B 2 τ(c) C B 3 B 1 P(Ω) FIG 12 Tribu τ(c) engendrée par la classe C Cette tribu est l intersection de toutes les tribus qui contiennent C, ici : B 1, B 2, B 3 et P(Ω) L intersection d une tribu B 1 et d une tribu B 2 constitue une autre tribu car les parties qui sont dans B 1 B 2 appartiennent à B 1 et restent dans B 1 par stabilité des opérations définissant une tribu, de même ces parties sont et restent dans B 2 Les parties de B 1 B 2 sont donc stables dans B 1 B 2 pour ces opérations et par conséquent B 1 B 2 est une tribu On appelle tribu engendrée par la classe C la plus petite tribu qui contienne C, on la note : τ(c) Cette tribu, unique, est l intersection de toutes les tribus qui contiennent C, en effet τ(c) contient C et est contenu dans toutes les tribus qui contiennent C ( voir figure 12 de la présente page ) c est donc la plus petite L expression explicite de τ(c) à partir de C n est en général pas possible, mais on est sûr que τ(c) existe car C appartient au moins à la tribu P(Ω) de toutes les parties de Ω Tribu de Borel On fait appel à cette tribu lorsque le résultat d une expérience est un nombre ou un couple de nombres ou tout n-uplet de nombres, c est-à-dire lorsque Ω = R n Quelle tribu convient-il de choisir? Prenons l exemple de Ω = R, il semble naturel d exiger qu au moins les pavés ouverts de R : {ω a < ω < b} soient des événements pour tout a, b R La tribu de Borel sur R n est autre que la tribu engendrée par la classe des pavés ouverts Cette tribu contient tous les ouverts de R ( par réunion dénombrable de pavés ouverts ), mais aussi les fermés ( par complémentarité ) et les semi-ouverts ( par union et complémentarité ) En fait, il faut faire preuve de beaucoup de subtilité pour exhiber une partie de R n qui ne soit pas borélienne La tribu engendrée par les pavés ouverts ou par les ouverts quelconques de R n est la même ce qui autorise à généraliser la notion de tribu de Borel à un espace topologique : Définition 11 On appelle tribu de Borel la tribu engendrée par la classe des ouverts d un espace topologique Ω Les parties de Ω qui appartiennent à une tribu de Borel sont appelés boréliens Classe monotone Une classe monotone est un ensemble M de parties de Ω stable par rapport à la limite des suites monotones qu il contient Ceci veut dire que si une suite {A k } de M est monotone croissante sa limite k A k appartient à M, de même si elle est monotone décroissante sa limite k A k appartient aussi à M

28 11 LES AXIOMES DE KOLMOGOROV 11 Exemple 14 Une tribu est une classe monotone et réciproquement En effet soit {C k } une suite croissante d une tribu B, sa limite S k=1 A k appartient à la tribu ( de par l axiome B3 ), de même pour une suite décroissante La tribu B est donc une classe monotone Réciproquement, soit {A k } une suite quelconque extraite d une classe monotone M, il s agit de montrer que k=1a k et k=1a k appartiennent aussi à M à cette fin, formons les parties C n = n k=1a k et D n = n k=1a k Les suites {C n} et {D n} sont des suites respectivement croissante et décroissante, leurs limites n=1c n = k=1a k et n=1c n = k=1a k appartiennent à M qui donc est aussi une tribu Comme pour les tribus, la propriété caractéristique de stabilité implique qu une intersection de classes monotones est une classe monotone, ce qui conduit également aux notions équivalentes de «plus petite classe monotone comprenant une classe» et de «classe monotone engendré par cette classe» Dans le cas où la classe génératrice est une algèbre de Boole il y a identité entre la tribu et la classe monotone engendrée par cette classe Nous énonçons ce résultat sous forme de théorème : Théorème 11 Soit A une algèbre de Boole de parties de Ω La classe monotone M et la tribu B engendrées par A coïncident Démonstration Voir M Loève [51] TI 16 p La mesure de probabilité Pr Pour qu un espace mesurable (Ω, B) devienne un espace probabilisé il faut définir de plus une mesure particulière appelée probabilité portant sur les événements Une probabilité Pr est une application qui associe un nombre à un événement appartenant à une tribu B et qui possède les propriétés P1, P2 et P3 suivantes : P1 : A B Pr{A} 0 ( positivité ) La probabilité doit être additive pour des événements incompatibles, c est-à-dire : AB = Pr{A B} = Pr{A} + Pr{B} Il faut de plus qu elle soit σ- additive, c est-à-dire que si la suite dénombrable A k, (k = 1,, ) est composé d événements disjoints, alors : { } P2 : Pr A k = Pr{A k } ( additivité dénombrable) k=1 k=1 Pour que la mesure Pr soit une probabilité il faut, finalement, qu elle soit normalisée : P3 : Pr{Ω} = 1 ( normalisation ) Il y a de très nombreuses parties de Ω pour lesquelles il est possible d attacher une probabilité, mais il en existe d autres pour lesquelles cette opération est impossible L exemple suivant montre comment en construire une Exemple 15 Une partie qui n est pas un événement Considérons l expérience du choix «au hasard» d un point sur un cercle Ω de longueur 1 Il semble naturel d attribuer à l arc sous-tenu par l angle θ la probabilité θ ( techniquement il s agit de la mesure de Lebesgue de 2π l arc de cercle en question ) Ramenons à la même classe d équivalence les points de Ω qui coïncident par rotation de Ω d un angle nαπ où α est un irrationnel donné ( α R \ Q ) et n un entier quelconque Une classe d équivalence est dense dans Ω mais, comme elle ne contient qu une infinité dénombrable de points, elle n épuise pas, à elle seule, tous les points de Ω En revanche, tous les points de Ω

29 12 CHAPITRE 1 ESPACES PROBABILISÉS appartiennent à une et une seule classe d équivalence Il y a par conséquent une infinité continue de classes d équivalences Faisons maintenant appel à l axiome du choix afin de construire l ensemble Φ 0 contenant un point de chaque classe Nous voulons démontrer qu il est impossible d affecter une probabilité à Φ 0 Cette démonstration sera faite par l absurde et à partir de l observation que, si l on fait tourner une classe d équivalence d un angle nαπ ou nαπ alors : i) la classe d équivalence reste invariante, mais : ii) aucun point de la classe ne coïncide avec lui-même Construisons donc les ensembles Φ n obtenus par rotation de Φ 0 d un angle nαπ où cette fois n Z Il est clair que les Φ n sont deux à deux disjoints car on n a qu un point dans chaque classe d équivalence et que par rotation ce point coïncide avec un point de la classe qui n a pas été choisi Par ailleurs, un point quelconque de Ω appartient à un Φ n puisque les Φ n parcourent tous les membres de toutes les classes Tout ceci signifie que les Φ n constituent une partition dénombrable de Ω : Ω = [ n Z Φ n, Φ n Φ m = pour n m Si Pr {Φ n} avait un sens, on aurait en vertu de la σ-additivité de la mesure de Lebesgue : Pr {Ω} = X n= Pr {Φ n} Par ailleurs, la mesure de Lebesgue sur un cercle est invariante par rotation d où : Pr {Φ n} = Pr {Φ 0} Alors, de deux choses l une : soit Pr {Φ 0} = 0 et on doit avoir Pr {Ω} = 0 ; soit Pr {Φ 0} > 0 et alors Pr {Ω} = Les deux termes de l alternative sont contradictoires avec Pr {Ω} = 1 et donc Pr {Φ n} ( et en particulier Pr {Φ 0} ) n a pas de sens 114 Exemples d espaces probabilisés Lorsqu il s agit d utiliser dans le monde réel le modèle théorique exposé ci-dessus, il se pose alors le problème du choix de chacun des termes du triplet (Ω, B, Pr) Ce choix n est pas imposé par la théorie des probabilités, il est le résultat d une analyse critique du phénomène que l on cherche à modéliser De vigoureux débats ont eu lieu dans le passé entre les avocats de tel ou tel modèle Dans une certaine mesure ce débat dure encore aujourd hui, et porte sur le problème de l interprétation pratique de la notion de probabilité ( voir remarque 13 page 15 ) Exemple 16 Espace fini Si Ω contient un nombre fini d éléments, la tribu B est presque toujours formée des parties de Ω et la mesure de probabilité Pr est souvent constante La plupart du temps on a d ailleurs choisi Ω pour qu il en soit ainsi Dans l expérience du jet de 2 dés à 6 faces, on peut choisir les modèles suivants 1 Ω est formé de tous les couples ordonnés formés par les chiffres portés par les dés : Ω = {1, 2, 3,4, 5,6} 2 La tribu est formée des parties de Ω, par exemple A = {(1,3), (3,1), (2,2)} = «la somme vaut 4» La mesure de probabilité est égale à 1, pour tous les éléments de 36 Ω Dans ce modèle, les dés sont discernables 2 On peut accepter une description moins fine du phénomène en ne considérant que la somme des chiffres portés sur les dés On a Ω = {2, 3,4, 5,6, 7,8, 9,10, 11, 12} et Pr = { 1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1 } On peut aussi choisir le modèle, Ω = {1, 2, 3,4, 5,6, «cassé»} 2 pour lequel il n y a pas de mesure de probabilité intuitive 4 Un choix moins heureux aurait été celui défendu par le «Chevalier de Méré» 1 où les dés sont indiscernables On aurait Ω = {2, 3,4, 5,6, 7,8, 9,10, 11, 12}, et Pr = { 1, 1, 2, , 3, 3, 3, 2, 2, 1, 1 } Voir la lettre de Pascal à Fermat du 29 juillet 1654 [59]

30 11 LES AXIOMES DE KOLMOGOROV 13 Le modèle 4 ne correspond pas à l idée que l on se fait de l expérience en question 2 et il n est pas confirmé par la pratique Pour le modèle 3, on obtient un modèle utilisable en rejetant l événement «cassé» hors de Ω Le modèle 2 est celui dont on doit souvent se contenter dans le monde réel où il faut renoncer à l idée de connaître tous les paramètres d une expérience Le modèle 1 est le modèle le plus pratique mais il est rare que l on ait affaire à un cas si pur Exemple 17 Espace infini Considérons le jeu de «pile ou face» infini Un événement élémentaire ω est constitué d une suite infinie de «pile» et de «face» Affectons à «pile» la valeur 1 et à «face» la valeur 0 Posons X n(ω) égal à l issue du n e tirage, X n = 1 si on a obtenu «pile» au n e tirage, X n = 0 si c est «face» On choisit pour espace des épreuves, toutes les suites infinies de 0 et de 1 : Ω = {0, 1} On peut alors considérer un événement élémentaire comme la partie fractionnaire écrite en binaire d un nombre réel x appartenant à l intervalle [0, 1] (1 = ) On peut choisir pour algèbre des d événements les familles de parties de Ω suivantes : 1 Les intervalles quelconques ( ouverts, fermés et semi-ouverts ) de [0, 1] Ce choix peut être utile si le but du tirage aléatoire est de déterminer «au hasard» un nombre x compris entre 0 et 1 2 Si l on s intéresse plutôt à des questions comme «quelle est la probabilité en fonction de n d obtenir k piles consécutifs au cours de n tirages?» on aura intérêt à choisir n, la famille des parties de {0, 1} n Par exemple, pour n = 1 et n = 2, on a les familles de parties P 1(Ω) et P 2(Ω) : P 1(Ω) = {, {0}, {1}, {0, 1}}, P 2(Ω) = {(, ),(, {0}), (, {1}), (, {0, 1}), ({0}, ),, ({0, 1}, {0, 1})} Il est clair que ces familles constituent des algèbres, mais il existe des événements «intéressants» qui ne sont pas dans ces algèbres Par exemple l événement L, qui concerne ce que l on appelle la loi des grands nombres : 1 L = {ω lim n n nx X i(ω) = 1 } 2 Suivant cette définition, un événement élémentaire ω appartient à L si le nombre moyen de «pile» devient égal au nombre moyen de «face» lorsque le nombre d épreuves croît au delà de toute limite Par exemple, si x [0, 1] représente l issue d une épreuve, les deux rationnels x = 1 = et x = 2 = appartiennent à L, il semble bien que π 3 3 appartienne aussi à L, en revanche x = 1 = n y appartient pas Quoi qu il en 7 soit 3, L n appartient pas à l une ou l autre des deux algèbres définies ci-dessus mais, L est exprimable à l aide d unions et d intersections dénombrables d éléments de ces algèbres C est donc un événement En effet, on a : L = \ [ {ω n=1 k=n 1 2k i=1 2kX i=1 X i(ω) = 1 2 }, La probabilité de L vaut soit 0 soit 1, elle ne vaut 1 que si le jeu est équitable, c est-à-dire si : Pr{«pile»} = Pr{«face»} = Ce n était pas le cas de Leibnitz qui, comme Méré, pensait que 11 était aussi probable que 12 car il ne distinguait pas l issue (5,6) de l issue (6,5) 3 Borel a montré en 1909 ( voir [11] et [12], pp ) que presque tous les nombres réels étaient «normaux» Cela implique, en particulier, que les chiffres formant ces nombres apparaissent avec des fréquences égales quelque soit la base choisie pour les représenter Pour nous cela veut dire que presque tout les x appartiennent à L

31 14 CHAPITRE 1 ESPACES PROBABILISÉS 115 Ensemble de mesure nulle étant donné un espace probabilisé (Ω, B, Pr), on dit que l événement A B est de mesure nulle si Pr{A} = 0 On dira que l événement A est presque sûr si Pr{A c } = 0, c est-à-dire si l événement non-a possède une mesure nulle De même on dira qu une propriété a lieu presque partout relativement à Pr si le sous-ensemble A des ω qui vérifient cette propriété est un événement presque-sûr Autrement dit, une propriété a lieu presque-partout si sa non-satisfaction possède une probabilité nulle de se réaliser 12 Probabilités conditionnelles Lorsque l on ne possède pas d information sur un événement A, autre que c est bien un événement ( A B ), les probabilités qui satisfont les axiomes ci-dessus sont dites probabilités a priori Si l on a connaissance de la probabilité d un événement B, il est possible de définir une autre mesure Pr B, définie par rapport à Pr{B} : Pr B {A} = Pr{AB} Pr{B} (113) Si Pr{B} 0, il est facile de vérifier que cette nouvelle mesure satisfait les axiomes P1, P2, P3 et que par conséquent c est une probabilité De telles probabilités sont appelées probabilités a posteriori ou probabilités conditionnelles ( conditionnellement à B ) On note plus couramment Pr{A B} cette probabilité, ce qui autorise l écriture : Pr{AB} = Pr{B} Pr{A B} (114) Pr{A B} se dit probabilité de A sachant B Cette mesure n est autre que la mesure normalisée de la partie de A qui est incluse dans B La probabilité a priori Pr{A} est en général différente de la probabilité conditionnelle Pr{A B}, cette différence révèle ce que l on appelle un effet de sélection ou conditionnement L interprétation pratique des probabilités conditionnelles est particulièrement simple lorsque l espace des épreuves Ω est fini et lorsque des considérations de symétrie permettent d affecter une probabilité égale à tous les événements élémentaires ω de Ω Dans ce cas, la probabilité conditionnelle n est autre que la proportion des ω de A qui sont dans B Formule de Bayes De la même façon que l on a défini une probabilité conditionnelle Pr{A B}, on peut, sous réserve que Pr{A} 0, définir Pr{B A} Il vient alors : Pr{AB} = Pr{B} Pr{A B} = Pr{A} Pr{B A} d où la formule dite de Bayes : Pr{B A} = Pr{A B} Pr{B} Pr{A} (115) Les idées conduisant à cette formule ont été introduites pour la première fois par Th Bayes dans un essai posthume publié en 1764 [4] Formule de «probabilité des causes» La formule de Bayes est utilisée dans un contexte où A représente une donnée connue et B une conjecture sur l état de la nature susceptible d avoir conduit à A Notons plutôt X l événement qui représente l ensemble des données connues sur «l état

32 12 PROBABILITÉS CONDITIONNELLES 15 de la nature», et par H 0, H 1,, H n différentes conjectures sur cet état La formule de Bayes s écrit alors : Pr{H i X} = Pr{X H i} Pr{H i } Pr{X} (116) La probabilité a posteriori Pr{H i X} est la probabilité pour que la nature soit dans l état i étant donné l information X que l on a sur elle, Pr{H i } est la probabilité a priori pour que la nature soit dans cet état i et Pr{X H i } est la probabilité d obtenir X lorsque l on suppose que la nature est dans l état i Cette dernière probabilité reçoit le nom de vraisemblance de l hypothèse H i vis-à-vis des données X Si les hypothèses H 0,,H n forment un système complet d événements disjoints, c est-à-dire si une et une seule d entre elles est vraie, alors Pr{X} peut s écrire : Pr{X} = Pr{ n i=1 XH i} et d après l équation (114) et l axiome P2 il vient : Pr{H i X} = Pr{X H i } Pr{H i } n i=1 Pr{X H i} Pr{H i } (117) Cette formule appelée formule de la probabilité des causes permet de calculer les probabilités a posteriori connaissant les probabilités a priori et les vraisemblances des diverses hypothèses vis-à-vis de l information représentée par X Exemple 18 Modèle des urnes Il est traditionnel de représenter les divers «états de la nature» par des urnes contenant des boules blanches et des boules noires en diverses proportions Considérons un problème à deux états : 1 suivant l hypothèse H 0, l expérimentateur a devant lui l urne n o 0 contenant autant de boules blanches que de boules noires ; 2 suivant l hypothèse H 1, il a devant lui l urne n o 1 contenant trois fois plus de boules noires que de boules blanches On a placé une urne au hasard devant l expérimentateur et il en a extrait une boule noire On demande la probabilité pour que l urne d où a été extraite la boule soit respectivementment l urne n o 0 ou l urne n o 1 La donnée X sur l état de la nature est la boule noire extraite de l urne, il est facile de trouver les vraisemblances des diverses hypothèses En effet, si l urne choisie est l urne n o 0, la probabilité d en extraire une boule noire est 1 2 ; si c est l urne no 1 cette probabilité vaut 3 4, on a donc : Pr{X H 0} = 1 2, Pr{X H1} = 3 4 Si les urnes ont été choisies à «pile» ou «face», par exemple, on a les probabilités a priori : Pr{H 0} = Pr{H 1} = 1, et on en déduit les probabilités a posteriori demandées 2 Pr{H 0 X} = = 2 5, Pr{H1 X} = = 3 5 L information X est marginalement favorable à l hypothèse que l urne placée devant l expérimentateur était l urne n o 1 Ce résultat dépend fortement des valeurs attribuées aux probabilités a priori Remarque 13 Utilisation bayesienne de la formule de Bayes La formule de Bayes et celle de la probabilité des causes sont des conséquences assez élémentaires des axiomes de définition, en cela elles ne sont pas criticables Un problème apparaît cependant lorsqu on veut les utiliser pour valider telle ou telle hypothèse H i au vu des données X Une telle opération n est possible que si l on connaît les probabilités a priori Pr{H i}, c est-à-dire, la probabilité pour que la nature soit dans l état i en l absence de toute information sur elle

33 16 CHAPITRE 1 ESPACES PROBABILISÉS Les praticiens se séparent en une école classique qui refuse d affecter une valeur aux probabilités a priori et une école bayesienne qui l accepte en élargissant la notion de probabilité à celle de plausibilité Selon cette école, la probabilité élargie à la plausibilité mesure un degré subjectif de croyance envers l état de la nature avant toute expérimentation Un tel point de vue est discutable mais il est opérationnel dans le sens où les probabilités a priori et l information X permettent de calculer des probabilités a posteriori qui deviendront les probabilités a priori relativement à une nouvelle information X L arbitraire initial est en quelque sorte «oublié» au fur et à mesure que l on gagne de l information 13 Événements indépendants Nous dirons que deux événements A et B sont indépendants si, et seulement si, on peut écrire : Pr{AB} = Pr{A} Pr{B} (118) Si l événement B n est pas l événement impossible, Pr{B} n est pas nul et il vient d après (115) : Pr{A B} = Pr{A} ; réciproquement, si Pr{A} 0, on a Pr{B A} = Pr{B} Ces relations sont conformes à la notion intuitive d indépendance : si A et B sont indépendants, alors la réalisation de l un n affecte pas les chances de l autre Trois événements indépendants Les trois événements A, B, C sont dit mutuellement indépendants si, et seulement si, ils satisfont les deux conditions suivantes : Pr{AB} = Pr{A}Pr{B}, Pr{AC} = Pr{A} Pr{C}, Pr{BC} = Pr{B}Pr{C}, (119a) Pr{ABC} = Pr{A} Pr{B} Pr{C} (119b) La première condition définit seulement l indépendance deux à deux des événements, la seconde condition ajoutée à l indépendance deux à deux permet d écrire : Pr{AB}Pr{C} = Pr{AC}Pr{B} = Pr{BC}Pr{A} = Pr{A}Pr{B}Pr{C}, (120) qui exprime qu un événement quelconque est aussi indépendant de la réalisation simultanée des deux autres Il est facile de montrer qu il est aussi indépendant de la réalisation de l un ou de l autre des événements restants Montrons, par exemple, que Pr{A(B C)} = Pr{A} Pr{B C} On a Pr{A(B C)} = Pr{AB} + Pr{AC} Pr{ABC} = Pr{A}(Pr{B} + Pr{C} Pr{BC}) = Pr{A} Pr{B C} Il n y a aucune raison pour que des événements deux à deux indépendants soient mutuellement indépendants Un exemple où trois événements sont deux à deux indépendants mais non mutuellement indépendants est donné sur la figure 13 page cicontre Finalement on définit l indépendance mutuelle d un nombre quelconque d événements Définition 12 Les n événements A 1,, A n seront dit mutuellement indépendants, si, et seulement si, pour toute combinaison (i 1, i 2,, i k ) de k indices (1 < k n ) extraite de la suite (1, 2,,n), on a : Pr{A i1 A i2 A ik } = Pr{A i1 } Pr{A i2 } Pr{A ik } (121)

34 13 ÉVÉNEMENTS INDÉPENDANTS 17 A B 024 C 057 Ω FIG 13 Les trois événements A, B, C sont deux à deux indépendants, mais ils ne sont pas mutuellement indépendants On a Pr{A} = 01, Pr{B} = 01 et Pr{C} = 03, les probabilités des huits parties définies par les événements A, B et C sont indiquées sur la figure On vérifie que Pr{AB} = 001 = Pr{A} Pr{B}, Pr{AC} = 003 = Pr{A} Pr{C} et Pr{BC} = 003 = Pr{B} Pr{C} mais on a pas Pr{ABC} = Pr{A} Pr{B} Pr{C} Ceci exprime que les événements sont k à k indépendants (1 < k n ), c est-àdire : Pr{A i1 A i2 } = Pr{A i1 } Pr{A i2 }, Pr{A i1 A i2 A i3 } = Pr{A i1 } Pr{A i2 } Pr{A i3 }, Pr{A 1 A 2 A n } = Pr{A 1 } Pr{A 2 } Pr{A n } L exemple ci-dessous montre que la dernière condition n implique pas nécessairement les précédentes Exemple 19 [ Monfort [54] ] Dans le jeu de pile ou face Ω = {P,F} 3 où l on jette 3 pièces de monnaies, on considère les événements : A = {PPP, PPF,PFP, PFF}, B = {PPP, PPF,PFP, FPP}, C = {PPP, FPF,FFP, FFF} Si le jeu est muni de la probabilité uniforme ( jeu équitable ), on a : Pr{A} = Pr{B} = Pr{C} = = 1 2, Pr{AB} = Pr{PPP, PPF, PFP} = 3 8, Pr{AC} = Pr{PPP} = 1 8, Pr{BC} = Pr{PPP} = 1 8, Pr{ABC} = Pr{PPP} = 1 8 On a bien Pr{ABC} = Pr{A}Pr{B} Pr{C}, mais Pr{AB} qui est égal à 3 n est pas égal à 8 Pr{A}Pr{B} qui égal à 1 ainsi les événements ne sont pas indépendants 4

35 18 CHAPITRE 1 ESPACES PROBABILISÉS 131 Suite d événements indépendants Une suite {A n } est constituée d événements indépendants si quelque soit le nombre p d événements extraits de la suite {A n } la probabilité de la réalisation simultanée de ces événements répond à une condition de type (121) Si i 1 < i 2 < < i p désigne la suite des indices des p événements extraits de la suite, on a : p > 0 ; { p Pr k=1 A ik } = p Pr{A ik } k=1 Un des résultat les plus importants de la théorie des probabilités est le théorème suivant dont la partie 1 concerne les suites quelconques ( formées ou non d événements indépendants ) et la partie 2 exclusivement les suites d événements indépendants Théorème 12 Critère zéro-un de Borel-Cantelli 1 Si une suite d événements {A n } est telle que n=1 Pr{A n} converge, alors les événements A n ne se réalisent presque-sûrement qu un nombre fini de fois C est-à-dire : Pr{A n } < = Pr{limsupA n } = 0 n=1 2 Si une suite d événements indépendants {A n } est telle que n=1 Pr{A n} diverge, alors les événements A n se réalisent infiniment souvent C est-à-dire : Pr{A n } = = Pr{limsupA n } = 1 n=1 Le point 2 n est qu une réciproque partielle du point 1 car le théorème ne dit rien sur les suites {A n } quelconques telles que n=1 Pr{A n} diverge Démonstration Voir M Loève [51] TI 163 p Exercices Exercice 11 [ Réyni [65] p 17 ] Soit Ω un ensemble des épreuves formé de n événements élémentaires : {ω 1,, ω n} On désigne par T n le nombre de systèmes complets différents qu il est possible de construire sur Ω On ne considérera pas comme étant différents deux événements qui ne diffèrent que par l ordre de leurs éléments Que valent T 1, T 2, T 3, T 4, T 5 et T 6? Montrer que T n+1 = 1 + P n k=1 Ck nt k Vérifier que T 10 = Finalement montrer que : X T k 1 + n! xk = e e x 1 k=1 Exercice 12 Si les événements A k, (k = 1,, n) appartiennent à une algèbre A, montrer que l événement n k=1a k appartient aussi à A Démontrer l équation (112), c est-à-dire : si les événements A k, (k = 1,, ) appartiennent à une tribu B, alors l événement k=1a k appartient aussi à la tribu

36 14 EXERCICES 19 Exercice 13 Soit un ensemble des épreuves Ω contenant un nombre fini n d événements élémentaires Montrer que le nombre d événements de la plus petite algèbre sur Ω est égal à 2 n On note 2 Ω cette algèbre Exercice 14 Une suite d événements {D k } est dite décroissante si : n; D n+1 D n On appelle limite de cette suite l ensemble : lim D déf k = T k k=1 D k Montrer que, si {A k } est une suite d événements incompatibles, on peut alors remplacer l axiome P2 par les deux axiomes équivalents suivants : nx n o nx P2a : Pr A k = Pr{A k }, ( additivité finie ), P2b : lim n k=1 k=1 Dn = lim n Pr{Dn} = 0, ( continuité au vide ) Exercice 15 Convexité de Pr Montrer que si les événements A j sont quelconques ( c està-dire non nécessairement disjoints ), on a : n[ o Pr A j = Pr{A 1} + Pr{A c 1A 2} + Pr{A c 1A c 2A 3} + X Pr{A j} j j On dit aussi que la mesure de probabilité est sous σ-additive Exercice 16 Soient des événements A 1, A 2,, A n et une mesure de probabilité Pr Montrer que l on peut écrire : Pr{A 1A 2 A n} = Pr{A 1}Pr{A 2 A 1} Pr{A 3 A 1A 2} Pr{A n A 1A 2 A n 1} Exercice 17 Deux événements incompatibles peuvent-ils être indépendants? Exercice 18 Montrer que, si A et B sont deux événements indépendants, alors A et B c sont indépendants ainsi que A c et B et finalement A c et B c Exercice 19 On définit l indépendance de deux événements A et B de la façon suivante : A et B seront dit indépendants si Pr{A B} = Pr{A B c } A quelles conditions cette définition est-elle équivalente à celle donnée par la formule (118)?

37 20 CHAPITRE 1 ESPACES PROBABILISÉS

38 Chapitre 2 Variables aléatoires Une variable aléatoire crée une relation entre un espace probabilisé et un espace mesurable La mesure de probabilité qui fait défaut à l espace mesurable est définie grâce au lien établi entre les deux espaces Ainsi, l espace mesurable devient à son tour un espace probabilisé Cet espace mesurable est souvent l espace arithmétique R ou R n muni de sa tribu de Borel, mais ce peut être aussi l ensemble des entiers naturels ou encore les deux seuls nombres 0 et 1 Dans la pratique, l espace probabilisé originel est l ensemble abstrait de tous les états possibles d une expérience et l espace mesurable est l ensemble de tous les résultats chiffrés que l on peut obtenir sur elle La variable aléatoire présente alors le grand intérêt pratique d associer des nombres aux issues d une expérience soumise au hasard 21 Une variable aléatoire Considérons l espace probabilisé (Ω, B, Pr), où Ω est l ensemble des épreuves, B une tribu d événements et Pr une mesure de probabilité Soit ω un événement élémentaire de Ω, associons-lui un nombre réel X à l aide d une application ξ ξ : Ω R (21) Afin d alléger l écriture, on notera de façon identique l application et le réel qui en est le résultat, soit : X = X(ω) L espace R est muni d une tribu qui contient les intervalles du type : ], x] Pour que l application X soit une variable aléatoire il faut que l image inverse des intervalles ], x] soit un événement de Ω Par définition, cette image inverse : X 1 (], x]), est l ensemble des ω dont l image par X appartient à ], x] Soit : X 1 (], x]) déf = {ω Ω X(ω) ], x]} (22) Notons A x cette image inverse D après notre définition X est une variable aléatoire si, et seulement si, pour tout x A x est un événement de Ω, c est-à-dire si xa x B Exemple 21 Indicatrice d un événement L indicatrice 1 A d un événement A est une variable aléatoire qui vaut 1 si A est réalisé et 0 dans le cas contraire : ( 1 si ω A; 1 A(ω) = (23) 0 si ω A L indicatrice de A est clairement une variable aléatoire car, A c et Ω sont des événements 21

39 22 CHAPITRE 2 VARIABLES ALÉATOIRES Exemple 22 Nombres pseudo-aléatoires Dans une certaine mesure on peut considérer qu un programme censé fournir des nombres au hasard se comporte comme une variable aléatoire X Les nombres qu il délivre sont les valeurs x prises par cette variable L association, par la pensée, d une variable aléatoire avec un programme permet parfois de clarifier certaines notions du calcul des probabilités Par exemple, nous verrons plus bas l équation : Pr{X x}, qui pourra s interpréter comme la probabilité pour que le programme X fournisse des nombres ne dépassant pas la valeur x Une image semblable se révélera également utile lorsque l on étudiera au chapitre 7 la convergence d une variable aléatoire vers une autre Ensemble de définition L ensemble de tous les résultats possibles de X est appelé le domaine de définition de X, il est noté X : X = {x X 1 (x) Ω} (24) 211 Loi d une variable aléatoire Si X est une variable aléatoire il est alors possible d associer à l intervalle ], x] une probabilité qui, par définition, sera égale à celle associée à A x Plus précisément : Définition 21 On appelle loi d une variable aléatoire X, la probabilité image de Pr par X, on note Pr X cette probabilité La loi d une variable aléatoire X n est autre que la mesure de probabilité induite par X sur R ( ou R n ) On a donc : Pr X {X(ω) ], x]} déf = Pr{A x } (25) En dépit de la réserve exprimée dans la remarque 21 suivante, nous allons à partir de maintenant confondre dans la même notation les deux probabilités Pr et Pr X et noter {X x} l événement noté A x dans l équation (25) ci-dessus Cette convention permet d écrire Pr{X x} pour l un ou l autre des deux membres de l équation (25) Remarque 21 Cette façon de faire est bien commode mais elle est très réductrice, elle revient à assimiler un événement avec le seul nombre X que l on a choisi pour le représenter Dans la pratique cela revient à identifier l état d une expérience physique, tel qu il existe à un moment donné, avec les seules mesures que l on est capable d en obtenir Il est clair qu une expérience ou comme on dit «l état de la nature» est certainement un objet beaucoup plus complexe que la projection plus ou moins fine qu en donne un ensemble de nombres, fut-il très grand Exemple 23 Loi de Bernoulli La loi suivie par l indicatrice de A est appelée loi de Bernoulli On note souvent B(1, p) l ensemble des variables aléatoires qui suivent la loi de Bernoulli, p désigne la probabilité de A 212 Fonction de répartition Soit X une variable aléatoire à valeurs réelles X R La fonction de répartition de X est égale à la probabilité de l intervalle ], x] envisagée comme fonction de x, soit : F X (x) = Pr X {X ], x]}, = Pr{X 1 (], x])}, = Pr{X x}

40 21 UNE VARIABLE ALÉATOIRE 23 Ainsi l information sur la loi suivie par la variable aléatoire X est entièrement contenue dans sa fonction de répartition On connaît la loi suivie par X si l on connaît sa fonction de répartition La fonction de répartition de la variable aléatoire X est donc «la probabilité pour que la X soit inférieure ou égale à x» c est-à-dire, «la probabilité pour que le résultat X d une expérience ne dépasse pas le seuil x» Lorsqu il sera clair que la fonction de répartition F X fera référence à la variable aléatoire X, on la notera simplement F et, comme évoqué plus haut, en adoptant une écriture impropre mais bien pratique on écrira : F(x) = Pr{X x} (26) Remarque 22 Cette définition de la fonction de répartition correspond à la convention anglosaxonne, la convention française serait plutôt F X(x) = Pr {X < x} Exemple 24 Fonction de répartition de la Loi de Laplace-Gauss La fonction de répartition, que l on note Φ, d une variable aléatoire suivant la loi de Laplace-Gauss, est donnée par l expression : Φ(x) = 1 Z x e 1 2 t2 dt (27) 2π La loi de Laplace-Gauss est également appelée Loi normale Le graphe de la fonction de répartition de cette loi est donnée par la figure 21 FIG 21 Fonction de répartition de la Loi de Laplace-Gauss ( ou loi normale ) Il s agit ici du graphe de la fonction de répartition de loi normale réduite 213 Probabilité attachée à un intervalle Rappelons qu un intervalle de R est tout ensemble de nombres réels de la forme : {x a < x < b}, {x a x < b}, {x a < x b} ou {x a x b} (28) Nous les notons respectivement : ]a, b[, [a, b[, ]a, b] et [a, b] Dans les ouvrages anglosaxons on trouve la notation équivalente : (a, b), [a, b), (a, b] et [a, b]

41 24 CHAPITRE 2 VARIABLES ALÉATOIRES Dans ces expressions les symboles a et b représentent aussi bien des nombres réels finis (a, b R ) que des nombres infinis ( a, b R ) A ces intervalles sont attachées les probabilités suivantes : Pr{a < X b} = F(b) F(a); Pr{a X b} = F(b) F(a) + Pr{X = a} ; Pr{a X < b} = F(b) F(a) + Pr{X = a} Pr{X = b} ; Pr{a < X < b} = F(b) F(a) Pr{X = b} (29a) (29b) (29c) (29d) Démonstration Définissons les événements : A = {X a} et B = {X b} Notons que si a < b ( comme nous le supposons ), on a A B Les événements B c, BA c et A forment alors une partition de Ω il vient : 1 = Pr{B c } + Pr{BA c } + Pr{A}, d où on tire Pr{BA c } = Pr{B} Pr{A} Il s ensuit : Pr{a < X b} = Pr{BA c } = Pr{B} Pr{A} = F(b) F(a) (210a) Notons que Pr{X b} = Pr{X < b} + Pr{X = b} et que Pr{a X} = Pr{a < X} + Pr{X = a} d où on tire immédiatement les autres résultats Exemple 25 Intervalles de la Loi de Laplace-Gauss La probabilité pour qu une variable aléatoire X suivant la loi de Laplace-Gauss, soit comprise entre 1 et 1 est égale à Φ(1) Φ( 1) et vaut = Il n y a pas lieu de distinguer entre les intervalles définis en (28) car Pr{X = x} = Propriétés de la fonction de répartition Une fonction quelconque n est en général pas la fonction de répartition d une variable aléatoire On montre que F ne peut être une fonction de répartition que si, et seulement si, elle possède les propriétés suivantes : 1 ses valeurs F(x) sont toujours comprise entre 0 et 1 ; 2 elle est croissante : x 2 x 1 F(x 2 ) F(x 1 ) ; 3 elle est continue à droite en tout point de son domaine de définition, c est-à-dire : x X, ǫ > 0 ; lim ǫ 0 F(x + ǫ) = F(x), ce que l on note F(x + ) = F(x) ; 4 la propriété 1 nous dit qu elle est bornée sur X R et on adopte, s il y a lieu, la convention : F( ) = 0 et F(+ ) = 1 La première propriété résulte directement du fait que F(x) est une probabilité La deuxième et la troisième en découlent également, en effet calculons la probabilité pour que la variable aléatoire X soit comprise dans l intervalle ]x 1, x 2 ] : Pr {x 1 < X x 2 } = F(x 2 ) F(x 1 ) (211) Une probabilité étant, par définition, un nombre non-négatif, on a nécessairement F(x 1 ) F(x 2 ), ce qui montre que F est croissante Elle n est cependant pas strictement croissante, c est-à-dire qu elle peut présenter des plateaux La troisième propriété s obtient en posant x 2 = x 1 + ǫ et par passage à la limite : lim Pr{x < X x + ǫ} = F(x + ǫ) F(x), ǫ 0 Pr{ } = F(x + ) F(x), = 0

42 21 UNE VARIABLE ALÉATOIRE 25 En revanche F n est pas nécessairement continue à gauche, on a : Ce qui peut s écrire sous la forme : lim Pr{x ǫ < X x} = F(x) F(x ǫ), ǫ 0 Pr{X = x} = F(x) F(x ) Pr{X = x} = F(x + ) F(x ), (212) qui présente l avantage d être valable quelle que soit la convention ( anglo-saxonne ou française ) choisie pour définir la fonction de répartition Cette formule implique que F est continue en x si, et seulement si, Pr {X = x} = 0 La quantité F(x + i ) F(x i ) représente le saut de la fonction en x i Dans le cas où F(x + ) F(x ), on conviendra de représenter F(x + ) par un point épais sur le graphe de la fonction F ( voir figure 22 ) Les conditions 1 3 sont donc nécessaires pour que F soit un fonction de répartition, nous admettrons le théorème suivant qui dit qu elles sont aussi suffisantes Théorème 21 Pour que la fonction F soit la fonction de répartition d une variable aléatoire quelconque il faut et il suffit que F soit une fonction monotone croissante, continue à droite et admette les limites 0 en et 1 en + Finalement F, comme toute fonction monotone, n admet qu un ensemble dénombrable de points de discontinuité ( ensemble qui peut d ailleurs être dense ) 215 Les différents types de fonctions de répartition Il n y a que trois types de fonctions qui peuvent être des fonctions de répartition : les fonctions discontinues dites en escaliers ; et les fonctions continues qui se scindent en fonctions absolument continues et fonctions singulièrement continues A ces trois types de fonctions sont attachés trois types de variables aléatoires : les variables discrètes ; les variables absolument continues et les variables continues singulières Seuls les deux premiers types de variables aléatoires présentent un intérêt pratique On montre qu une fonction de répartition quelconque est la somme d une fonction F a, F ac, F sc de chacun des types, on a : F(x) = a 1 F a (x) + a 2 F ac (x) + a 3 F sc (x) (213) Une variable aléatoire est donc discrète si a 1 0, a 2 = a 3 = 0 ; absolument continue si a 2 0, a 1 = a 3 = 0 et elle sera dite de type mixte si a 1 et a 2 ne sont pas nuls alors que a 3 est nul Les variables aléatoires discrètes Ce sont les variables dont la fonction de répartition F est en escaliers ( on dit encore réglée ), c est-à-dire : discontinue et constante entre les points de discontinuité La probabilité attachée à un point est presque partout nulle sauf aux points de discontinuité de F Les points de discontinuité étant dénombrables les valeurs prise par cette variable aléatoire sont eux aussi dénombrables Exemple 26 Loi de Poisson Une variable aléatoire X suit la loi de Poisson si elle possède une probabilité non nulle pour tout x entier positif ou nul et si elle possède la fonction de répartition suivante ( valable pour µ > 0 ) : F(x) = x X k=0 µ k k! e µ, x 0 (214)

43 26 CHAPITRE 2 VARIABLES ALÉATOIRES L expression x désigne le plus grand entier inférieur ou égal à x Le graphe de cette fonction est représenté sur la figure 22 FIG 22 Exemple de fonction de répartition d une variable aléatoire discrète Il s agit ici de la fonction de répartition d une variable aléatoire X suivant la loi de Poisson de paramètre µ = 5 Avec la définition F(x) = Pr {X x}, cette fonction est alors continue à droite Les variables absolument continues Une fonction F est absolument continue si, quel que soit le nombre ǫ > 0, il existe un nombre η tel que : n, n n b k a k < η F(b k ) F(a k ) < ǫ, k=1 k=1 pour tout système d intervalles disjoints d extrémités a k et b k La différence entre la définition de la continuité et de l absolue continuité porte sur l introduction de la somme n k=1, il est alors évident qu une fonction absolument continue est continue mais la réciproque n est pas vraie Il est plus intuitif de caractériser les fonctions absolument continues à l aide de la propriété équivalente suivante : une fonction est absolument continue si, et seulement si, elle est presque-partout dérivable et égale à l intégrale indéfinie de sa dérivée Suivant cette définition F est absolument continue si, et seulement si : F(x) = x f(t)dt, f(t) = F (t) presque-partout (215) Il est difficile de donner, à l aide de formules simples, un exemple de fonction singulièrement continue Ces fonctions ne présentent pas, a l heure actuelle, d application pratique c est pourquoi nous ne les considérerons pas plus avant et quand on parlera, dans ce texte, de fonctions ou de variables aléatoires «continues» il faudra entendre «absolument continues»

44 21 UNE VARIABLE ALÉATOIRE 27 Exemple 27 Loi exponentielle La variable aléatoire X suit la loi exponentielle si, quel que soit λ > 0, elle possède la fonction de répartition suivante : ( 1 e λx si x 0; F(x) = (216) 0 si x < 0 La fonction F est dérivable sauf en x = 0 et F(x) = R x 0 λe λt dt pour x 0, c est donc une fonction de répartition absolument continue Le graphe de cette fonction est représenté sur la figure 23 FIG 23 Exemple de fonction de répartition d une variable aléatoire absolument continue Il s agit ici de la fonction de répartition d une variable aléatoire X suivant la loi exponentielle de paramètre λ > Densité de probabilité Considérons la probabilité pour qu une variable aléatoire X soit comprise entre x et x + x, d après les résultats des équations (29) on a : Pr{x < X x + x} = F(x + x) F(x) Si F est absolument continue on a : F(x + x) F(x) = x+ x x f(t)dt, où f est la dérivée de F, cette dérivée existe pour presque tous les x du domaine de définition de X L expression précédente s écrit alors : En faisant tendre x vers 0 il vient : Pr{x < X x + x} = f(x) x + o( x) (217) Pr{x < X x + x} lim = f(x) (218) x 0 x Ce qui montre que f(x) peut s interpréter comme la densité ( linéaire ) de probabilité au point x

45 28 CHAPITRE 2 VARIABLES ALÉATOIRES Définition 22 Par définition, la densité de probabilité d une variable aléatoire X absolument continue est égale à la dérivée de sa fonction de répartition aux points où cette dérivée existe : f(x) = df(x) presque-partout (219) dx Exemple 28 Densité de probabilité de la loi normale La fonction de répartition Φ d une variable aléatoire X suivant la loi normale est donnée par l expression (27) La fonction Φ est absolument continue sur R et sa dérivée est définie pour tout x R La densité de probabilité de X est alors donnée par l expression : son graphe est donnée sur la figure 24 f(x) = 1 2π exp{ 1 2 x2 }, FIG 24 Densité de probabilité de la Loi de Laplace-Gauss ( ou loi normale ) Remarque 23 En toute rigueur la densité de probabilité n est définie que pour les variables aléatoires absolument continues Cependant on trouve dans certains ouvrages ( surtout orientés vers les applications pratiques ), une extension de la notion de densité de probabilité appliquée aux variables discrètes et mixtes Dans cette acceptation, la dérivée (219) est à prendre au sens des distributions Les fonctions de répartition ne comportant qu un nombre au plus dénombrable de discontinuités, on a alors la formule : F = {F } + X p iδ xi, (220) i I où {F } est la dérivée de F au sens des fonctions, I est l ensemble des indices où F est discontinue, p i = F(x + i ) F(x i ) est la valeur du saut de la fonction F en ses discontinuités situées en x i et δ xi (x) = δ(x x i) est une translatée de la distribution de Dirac Sur la figure 25 la «densité» de la loi de Poisson de paramètre µ = 5 est tracée sous la forme d un «diagramme en bâtons» Dans ce diagramme les sauts de F sont représentés par des traits verticaux, ils correspondent aux distributions δ de l équation (220) ci-dessus Il faut néanmoins noter que l introduction des distributions n est pas nécessaire en théorie des probabilités parce que l outil fondamental est la fonction de répartition pas la densité de probabilité L usage de la densité de probabilité ( impropre ou non ) constitue cependant un moyen commode d acquérir une vision intuitive du lieu où se trouvent les valeurs «les plus probables» de la variable aléatoire

46 22 CARACTÉRISTIQUES NUMÉRIQUES DES LOIS 1D 29 FIG 25 «Densité» de probabilité de la Loi de Poisson pour µ = Propriétés de la densité de probabilité On sait que la fonction de répartition s exprime à l aide de la densité de probabilité de la façon suivante : F(x) = x f(t)dt, (221) et que f est presque-partout égale à la dérivée de F De plus une densité de probabilité est normalisée et positive : + f(t)dt = F(+ ) = 1, f(x) 0 (222) Réciproquement, toute fonction mesurable ( approximativement cela veut dire intégrable ), normalisée et positive est la densité de probabilité d une certaine variable aléatoire 22 Caractéristiques numériques des lois 1D Une loi quelconque est entièrement décrite par sa fonction de répartition ou sa densité de probabilité, mais cette information est souvent trop riche, pour être facilement appréhendée, et l on souhaite alors caractériser la loi par un ensemble restreint de paramètres Nous allons maintenant définir certains de ces paramètres 221 Le mode Un mode m est une valeur au voisinage de laquelle la probabilité d obtenir m à x près est maximum Plus précisément, m est un mode s il existe un x 0 > 0 tel que pour tout x 0 compris entre 0 et x 0 on ait : x X, Pr{X ]x x, x + x]} < Pr{X ]m x, m + x]}, (223)

47 30 CHAPITRE 2 VARIABLES ALÉATOIRES pour tout x différent de m Intuitivement le mode est la valeur que l on «rencontre» le plus souvent( à x près pour les variables continues ), c est d une certaine façon la valeur «à la mode» Exemple 29 La loi de Poisson de paramètre µ = 5 possède un mode en X = 4 et un autre en X = 5 ( voir figure 25 ) S il n y a qu un seul mode, nous dirons que c est le mode de la loi En revanche une loi quelconque peut ne pas posséder de mode Exemple 210 Suivant la définition (223) la loi exponentielle ne possède pas de mode Par extension, elle possède un mode en 0 +, on peut alors dire qu elle possède un mode en zéro La loi uniforme ne possède aucun mode Une valeur m est un mode local si l équation (223) est satisfaite localement, c est- -à-dire non pas pour tout x X mais pour les x d un intervalle I X contenant m Un mode est évidemment un mode local et on dira qu une loi est unimodale si elle ne possède qu un mode local On dira qu elle est multimodale si elle possède au moins deux modes locaux Exemple 211 La loi normale est unimodale et son mode vaut zéro ( voir figure 24 page 28 ) Si la loi est discrète, il existe un mode local en x i si, et seulement si : Pr{X = x i} > Pr{X = x i 1}, et Pr{X = x i} > Pr{X = x i+1} Lorsque la loi dont on cherche le mode est continue et possède une densité f alors le mode de la loi est le maximum de f Si f et f existent, alors une condition suffisante pour que m soit un mode local est que : m X, f (m) = 0, f (m) < 0, (224) ou bien : m X, F (m) = 0, F (m) < 0 (225) Ce mode local correspond à un point d inflexion de la fonction de répartition Le mode d une loi inconnue dont on a observé quelques réalisations, n est pas une valeur facile à estimer, c est pourquoi on lui préfère habituellement d autres paramètres 222 Les moments Les moments non-centrés Les moments non-centrés µ k d ordre k d une variable aléatoire X suivant la loi F sont définis par les intégrales suivantes : µ k = x k df, k N (226) X Dans cette expression l intégrale est l intégrale de Stieltjes, elle porte sur X le domaine de définition de X L intégrale de Stieltjes tient compte des discontinuités éventuelles de F On la calcule en écrivant que la fonction de répartition d une variable mixte est la somme d une fonction en escalier et d une fonction absolument continue [ voir équation (213) ] On envisage séparément les deux cas ci-dessous : Si X est une variable aléatoire discrète prenant les valeurs (x 1, x 2, ), sa fonction de répartition F est «en escaliers» et l intégrale de Stieltjes s écrit : x k df = x k i (F + (x i ) F (x i )), (227) X i = i x k i Pr{X = x i}

48 22 CARACTÉRISTIQUES NUMÉRIQUES DES LOIS 1D 31 L intégrale est définie si la série du membre de droite est absolument convergente c est-à-dire, en posant p i = Pr{X = x i }, si : i xk p i < Exemple 212 Loi de Bernoulli Les moments non-centrés d une variable aléatoire de Bernoulli : X B(1, p) sont tous égaux à p, en effet : Z x k df = 0 k (1 p) + 1 k p = p Si X est une variable aléatoire absolument continue, elle possède alors une densité f et l intégrale de Stieltjes est identique à l intégrale de Riemann : X x k df = X x k f(x)dx (228) Elle est définie si X xk f(x)dx < Le moment non-centré d ordre 0 existe il est, d après (222), toujours égal à 1 En revanche les moments non-centrés d ordres supérieurs à 0 peuvent ne pas exister Si un moment n existe pas à l ordre k, il n existe alors aucun moments à l ordre r > k Exemple 213 La loi de Cauchy Une variable aléatoire suit la loi de Cauchy si elle possède la densité : f(x) = 1 1 π 1 + x 2 Cette loi n a aucun moment car k > 0 l intégrale (228) diverge Exemple 214 Le jeu de S t Petersbourg On considère un jeu de «pile» ou «face» infini : Ω = {P, F }, où p est la probabilité d obtenir «face» On distribue le gain X = p n au joueur qui a obtenu n «face» consécutifs Si p = 1, par exemple, on aura : X({F }) = 2, 2 X({FF}) = 4, X({FFF}) = 8, etc Le gain X est nul dans tous les autres cas Il est facile de voir que cette variable X ne possède pas de moments Par exemple pour le moment d ordre k = 1 on a : P i=1 p n p n = , la série diverge Les moments centrés On pose en général µ = µ 1 et les moments centrés, s ils existent, sont définis par : µ k = X (x µ) k df, k N (229) Un moment centré µ k n existe que si, et seulement si, le moment non-centré correspondant µ k existe lui-aussi En développant (x µ) k dans l équation (229), on trouve les relations entre les moments centrés et non-centrés On obtient pour les quatre premiers moments : µ 0 = 1 µ 0 = 1 µ 1 = 0 µ 1 = µ µ 2 = µ 2 µ2 µ 2 = µ 2 + µ 2 (230a) µ 3 = µ 3 3µ 2 µ + 2µ3 µ 3 = µ 3 + 3µ 2 µ + µ 3 (230b) µ 4 = µ 4 4µ 3 µ + 6µ 2 µ2 3µ 4 µ 4 = µ 4 + 4µ 3 µ + 6µ 2 µ 2 + µ 4 (230c) Parmi tous les moments, on distingue ( sous réserve d existence ) :

49 32 CHAPITRE 2 VARIABLES ALÉATOIRES La moyenne Le moment µ 1 reçoit le nom de moyenne et est généralement noté µ Par définition on a : µ = xdf et si f existe µ = xf(x) dx (231) X La moyenne µ peut s interpréter comme l abscisse du centre de gravité de l axe des réels ayant f(x) comme densité linéaire de masse La variance et l écart type Le moment centré µ 2, reçoit le nom de variance, c est une quantité positive que l on note généralement σ 2 L écart type σ est défini comme la racine carrée de la variance Ainsi défini σ est toujours positif On a : σ 2 = (x µ) 2 df et si f existe σ 2 = (x µ) 2 f(x)dx (232) X La variance correspond au moment d inertie de l axe réel de densité f(x) calculé autour de la moyenne µ D après (230a) la variance d une variable aléatoire X s exprime en fonction des deux premiers moments non-centrés : X X σ 2 = µ 2 µ 2 (233) Asymétrie et aplatissement On utilise également les moments centrés d ordres 3 et 4, µ 3 et µ 4 pour définir le coefficient d asymétrie γ 1 et le coefficient d aplatissement γ 2 de la façon suivante : γ 1 = µ 3, γ µ 3/2 2 = µ 4 µ 2 3 (234) 2 2 Le coefficient γ 2 a été défini de façon à être nul pour la loi normale Une variable aléatoire dont le coefficient d aplatissement γ 2 est positif est dite hypernormale et son graphe sera plus pointu que celui d une loi normale de même variance ; par contre si γ 2 est négatif, la loi sera dite hyponormale et son graphe sera plus plat que celui d une loi normale de même variance Remarque 24 On trouve parfois dans la littérature une autre définition des coefficients d asymétrie et d aplatissement, que l on note alors β 1 et β 2 et pour lesquels on a les relations : β 1 = γ 2 1 ; β 2 = γ (235) 223 Variable aléatoire centrée et réduite Une variable aléatoire de moyenne nulle est dite centrée Une variable aléatoire de moyenne nulle et d écart type unité est dite réduite La variable aléatoire X µ est centrée et la variable aléatoire (X µ)/σ est réduite comme on le calcule facilement à l aide des définitions (226) et (229) 224 La médiane et les quantiles La médiane x 05 est solution de l équation : F(x 05 ) = 1 2 (236)

50 23 LOIS CONDITIONNELLES 33 Plus généralement le quantile x α d ordre α est solution de l équation : F(x α ) = 1 α, 0 α 1, (237) ce qui s écrit aussi à l aide de la densité de probabilité : x 05 f(t)dt = 05, x α f(t)dt = α (238) Si la fonction F présente des plateaux, cette dernière équation peut ne pas avoir de solution unique Par convention on choisira un point particulier du plateau, en général le point milieu ou une des extrémités Ce cas se présente toujours lorsqu on a affaire à des variables aléatoires discrètes On publie les quantiles d une loi donnée, dans une table à deux colonnes dont l une est la valeur choisie α, et l autre la valeur du quantile correspondant x α La table 21 est extraite d une table de quantiles de la loi normale réduite, sa fonction de répartition est donnée par l équation (27) α x α α x α α x α TAB 21 Extrait d une table de quantiles de la loi normale réduite 23 Lois conditionnelles Si l on ne s intéresse à la variable aléatoire X que lorsqu un certain événement A est réalisé, on obtient grâce à la règle des probabilités composées : Pr {X x, A} = Pr {A}Pr {X x A} (239) L événement A est appelé événement conditionnel Par définition, la fonction de répartition conditionnelle, relative à la condition A, est la probabilité pour que X ne dépasse pas le seuil x, sachant que A est réalisé On note F X A cette fonction et l on a : F X A (x) Pr {X x A} = Pr {X x, A} Pr {A} (240) La densité conditionnelle f X A s obtient par dérivation de F X A : f X A (x) = d Pr {X x, A} / Pr {A} dx En général A est indépendant de l événement {X x}, il vient alors : d d df(x) Pr {X x, A} = Pr {X x} = dx dx dx,

51 34 CHAPITRE 2 VARIABLES ALÉATOIRES et il vient : f X A (x) = { (Pr {A}) 1 f(x) si x A; 0 si x A (241) La densité conditionnelle relativement à l événement A est donc identique à la densité de X dans le domaine où A est réalisé, et on s assure que son intégrale sur A est bien égale à un en la renormalisant par la constante (Pr {A}) Les lois tronquées Intéressons-nous à la loi conditionnelle quand l événement A = {a < X b} est réalisé La fonction de répartition conditionnelle est alors trouvée à l aide de (240) et vaut : 0 si x a; F X (x) F X (a) F X A (x a < X b) = si a < x b ; (242) F X (b) F X (a) 1 si x > b où F X est la fonction de répartition de X Cette loi possède des moments, par exemple, elle a pour moyenne ( conditionnelle ) : µ A = 1 F X (b) F X (a) b a xdf X (243) 232 Lois conditionnelles par rapport à un système d événements Supposons que l événement conditionnel A soit formé d un système complet d événements disjoints, en nombre éventuellement infini mais dénombrable : A i ; i = 1,, Par définition, les événements constituant ce système sont incompatibles et recouvrent tout A On a donc : Pr {X x, A} = i Pr {X x, A i } = i Pr {X x A i } Pr {A i } (244) Conformément à (240), on obtient les fonctions de répartition en divisant ( normalisant ) par Pr {A} Il vient : F X A (x) = i F X Ai (x) Pr {A i} Pr {A} = i F X Ai (x)pr {A i A} (245) Pour x fixé, F X Ai (x) est une variable aléatoire discrète et l équation précédente exprime le fait que la fonction de répartition conditionnelle F X A est la moyenne de cette variable aléatoire, moyenne calculée sur les A i Naturellement, cette formule est encore valable si A représente tout l ensemble Ω La formule précédente devient alors : F X (x) = i F X Ai (x)pr {A i } (246) Exemple 215 Mélange de lois Si une variable aléatoire X suit une loi F 1 lorsqu un certain événement A est réalisé ( avec la probabilité p ) et une loi F 2 dans le cas contraire, d après (246) la fonction de répartition F de X est donnée par : F(x) = pf 1(x) + (1 p)f 2(x) (247)

52 24 EXERCICES Exercices Exercice 21 Indiquer dans la liste suivante, quelles sont les fonctions susceptibles d être des fonctions de répartition 1 1 arctan x + 1 ; 2 R x π 2 0 e t dt, x 0; R x 3 (4t R x 0 2t2 1) dt, 0 x 2; 4 (4t 0 2t2 ) dt, 0 x 2 Exercice 22 Durées de vie Soit T la durée de vie d un composant On a de bonnes raisons de croire que T est une variable aléatoire dont la densité de probabilité f suit la loi exponentielle : ( Ae t/τ si t 0 ; f(t) = 0 si t < 0 Calculer la constante A de façon à ce que f(t) soit effectivement une densité de probabilité Calculer la moyenne µ et l écart type σ de T On suppose que τ = 5min, calculer la probabilité pour que le composant ait une durée de vie supérieure à 10 minutes Calculer la probabilité : Pr{T > 10 min T > 5min}, pour que le composant fonctionne plus de 10 minutes sachant qu il a déjà fonctionné 5 minutes Plus généralement, trouver la probabilité : Pr{T > a+b T > a} pour que le composant fonctionne au moins un temps b de plus, sachant qu il a déjà fonctionné pendant un temps a Exercice 23 Téléphone ( voir Parzen [57] p171 ) Une compagnie téléphonique taxe ses clients par tranches de 3 minutes Soit T le temps, exprimé en minutes, passé au téléphone par un client On peut raisonnablement penser que la stratégie tarifaire de la compagnie induise un comportement chez le client tel que la fonction de répartition de T présente des discontinuités au voisinage des multiples de 3 minutes Cette fonction de répartition pourrait ressembler à celle-ci : F(t) = e t/3 1 2 e t/3, x 0 Dans cette expresion t est le temps de conversation exprimé en minutes et t est la partie entière de t Vérifier que F est bien une fonction de répartition et tracer son graphe Quelle est la probabilité pour que la durée de conversation T soit : plus grande que 6 minutes ; plus petite que 4 minutes ; égale à 3 minutes? Quelle est la probabilité conditionnelle que la durée de conversation soit : plus petite que 9 minutes sachant qu elle a déjà duré 5 minutes ; plus grande que 5 minutes sachant que de toutes façons elle sera interrompue si elle dépasse 9 minutes Exercice 24 Donner un exemple de loi absolument continue, pourvue d une densité et pour laquelle le mode n est pas solution des équations (224) Exercice 25 Généraliser les équations (230) en montrant que, dès que k 2, les moments non-centrés µ k et les moments centrés µ k s expriment les uns en fonction des autres de la façon suivante : k 2 X k 2 X µ k = ( ) r Ckµ r r µ k r ( ) k (k 1)µ k, µ k = Ckµ r r µ k r + µ k, r=0 où C r k est le coefficient du binôme et µ la moyenne Exercice 26 Un problème soumis à Pascal On renouvelle une expérience jusqu à l obtention d un certain résultat Si p désigne la probabilité d obtenir le résultat cherché en un essai, trouver la moyenne et l écart type du nombre N d épreuves nécessaires pour obtenir le premier succès On supposera que les épreuves sont indépendantes r=0

53 36 CHAPITRE 2 VARIABLES ALÉATOIRES Exercice 27 Un client se présente devant un guichet pour être servi La probabilité pour que le guichet soit libre est p, si le guichet est occupé le client attend la loi suivie par le temps d attente est une loi exponentielle de fonction de répartition F(t) = 1 e λt Donner la fonction de répartition du temps d attente T ainsi que la moyenne et l écart type de cette variable aléatoire

54 Chapitre 3 Plusieurs variables aléatoires 31 Un couple de variables aléatoires 311 Définition Dans la pratique on parle d un couple de variables aléatoires (X, Y ) associé au résultat d une expérience, mais formellement une variable aléatoire à deux dimensions est une application qui à un événement associe un vecteur d un espace vectoriel arithmétique à deux dimensions ( habituellement R 2 ) On note X ce vecteur et (X 1, X 2 ) ses composantes ou le plus souvent (X, Y ) C est cette dernière notation que nous adopterons ci-dessous Pour que cette application soit effectivement une variable aléatoire il faut et il suffit que l image inverse du domaine {X x, Y y} soit un événement Si tel est bien le cas, on confond alors dans la même notation le domaine de R 2 {X x, Y y} et l événement qui est son image inverse Cette simplification autorise, par exemple, l écriture de l expression : Pr{X x, Y y} qui doit être comprise comme la mesure de probabilité de l événement constitué des issues de l expérience pour lesquelles la variable aléatoire associée appartient au domaine {X x, Y y} Pour simplifier on parle de la probabilité pour que le couple (X, Y ) appartienne au domaine en question mais il s agit là d un abus de langage qui appelle les même remarques que celles exposées au chapitre 2 ( voir remarque 21 page 22 ) Exemple 31 L aiguille de Buffon Une aiguille de longueur l est jetée «au hasard» sur un parquet où les lames dessinent un réseau de lignes parallèles équidistantes de L On demande la condition pour que l aiguille coupe au moins une de ces lignes Deux variables aléatoires suffisent pour décrire l événement qui nous intéresse : X la distance du centre de l aiguille à la ligne la plus proche et Φ l angle aigu formé par l aiguille et cette ligne L expérience est donc décrite par le couple de variables aléatoires (X, Φ) Le domaine de définition de ces variables est 0 X L/2 et 0 Θ π/2 L événement «l aiguille coupe au moins une ligne» est identifié à la condition 0 X (l sin Φ)/2 312 Variables marginales Les membres du couple aléatoire (X, Y ) portent le nom de variables marginales, ce sont des variables aléatoires ( à une dimension ) car {X x, Y } et {X, Y y} sont des événements 37

55 38 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Y y D x X FIG 31 Domaine de définition de la fonction de répartition 2D 313 Fonction de répartition La fonction de répartition ( bidimensionnelle ou 2D ) F XY d un couple de variables aléatoires (X, Y ) à valeurs dans X R 2, est définie comme la probabilité pour que X ne dépasse pas le seuil x et que Y ne dépasse pas le seuil y : F XY (x, y) = Pr{X x, Y y} (31) C est la probabilité pour que le point aléatoire de coordonnées (X, Y ) appartienne au quadrant D correspondant à l événement {X x, Y y}, et représenté hachuré sur la figure 31 de la présente page En l absence d ambiguïté sur les variables aléatoires auxquelles la fonction F XY se rapporte, on notera celle-ci simplement F Notons que l on a les relations suivantes : F(, y) = F(x, ) = 0, et F(, ) = 1 (32) Nous appellerons quelquefois «fonction de répartition conjointe» la fonction F afin de la distinguer d éventuelles autres fonctions de répartition Exemple 32 Loi 2D uniforme sur un rectangle Un couple de variables aléatoires (X, Y ) suit une loi uniforme sur le rectangle R = {0 x a,0 y b} si sa fonction de répartition est proportionnelle à la surface de R qui est comprise dans le domaine {X x, Y y} On trouve la constante de proportionnalité en imposant F(, ) = 1, soit : F(x,y) = 1 max(0,min(x, a))max(0,min(y, b)) (33) ab 314 Probabilité associée à un rectangle La fonction de répartition permet de calculer la probabilité pour que le couple (X, Y ) appartienne au rectangle défini par les relations x 1 < X x 2 et y 1 < Y y 2 ( voir figure 32 page ci-contre ) : Pr{x 1 < X x 2, y 1 < Y y 2 } = F(x 2, y 2 ) F(x 1, y 2 ) F(x 2, y 1 ) + F(x 1, y 1 ) (34)

56 31 UN COUPLE DE VARIABLES ALÉATOIRES 39 Y y 2 R y 1 x 1 x 2 X FIG 32 Probabilité p pour qu une variable aléatoire 2D appartienne au rectangle R : p = R df = F(x 2, y 2 ) F(x 1, y 2 ) F(x 2, y 1 ) + F(x 1, y 1 ) 315 Densité de probabilité En posant x 1 = x, y 1 = y, x 2 = x+ x et y 2 = y+ y dans l équation précédente, il vient au deuxième ordre en x y : Pr{x < X x + x, y < Y y + y} et en faisant tendre x et y vers 0 on obtient : 2 F(x, y) x y, (35) x y Pr{x < X x + x, y < Y y + y} lim = 2 F(x, y) (36) x, y 0 x y x y La densité de probabilité du couple aléatoire (X, Y ), ou comme il est courant de le dire, leur densité de probabilité conjointe, est définie ( si elle existe ) par : f(x, y) = 2 F(x, y) (37) x y La fonction de répartition 2D se calcule alors à partir de la densité de probabilité à l aide de l expression suivante : F(x, y) = 316 Lois marginales D f(u, v)dudv = x du y f(u, v)dv (38) Les lois suivies par les variables marginales du couple (X, Y ) sont appelées lois marginales de ce couple ; la fonction de répartition du couple permet de calculer la fonction de répartition des lois marginales Par exemple, la fonction de répartition F X de X est la probabilité pour que X ne dépasse pas le seuil x, c est aussi la probabilité pour que le couple (X, Y ) appartienne au demi-plan D x représenté hachuré sur la figure 33, il vient donc : F X (x) = F(x, ) (39)

57 40 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Y D x x X FIG 33 Domaine de définition de la fonction de répartition marginale F X De la même façon on trouve la fonction de répartition F Y (y) de Y : F Y (y) = F(, y) (310) Les fonctionsf X (x) et F Y (y) calculées à partir de la fonction de répartition conjointe F(x, y) sont appelées fonctions de répartition marginales de F Les densités de probabilité marginales f X et f Y sont par définition les dérivées des fonctions de répartition marginales, il vient : f X (x) = d dx F X(x) = d d F(x, ) = dx dx f Y (x) = d dy F Y (y) = d d F(, y) = dy dy et donc, sous réserve d existence de f : f X (x) = x y f(x, y)dy ; f Y (y) = du dv f(u, v)dv, f(u, v)du, f(x, y)dx (312) Exemple 33 Lois du min et du max d un couple uniforme Un couple de variables aléatoires (U, V ) est choisit de façon uniforme sur le carré 0 u 1,0 v 1 On construit le couple aléatoire (X, Y ) en posant X = min(u, V ), Y = max(u, V ), on demande les lois ( marginales ) suivies par X et Y On a : F(x,y) déf = Pr{X x,y y} = Pr{U u, V v U V }/ Pr{U V }, la loi de (X, Y ) est donc uniforme sur le triangle supérieur à la première bissectrice des axes La densité de probabilité f(x, y) = 2 sur ce triangle ( Pr{U V } = 1 ) et zéro ailleurs, d où on 2 tire ( voir figure 34 page suivante ) : F X(x) = 1 (1 x) 2, F Y (y) = y 2 (313) 317 Moments des lois 2D On introduit, sous réserve d existence, les moments non-centrés µ mn du couple (X, Y ) : µ mn = x m y n df, m, n 0, (314)

58 31 UN COUPLE DE VARIABLES ALÉATOIRES 41 Y 1 Y 1 X x y Y y 0 x 1 X 0 1 X FIG 34 Lois du min et du max d un couple de variables aléatoires le nombre m + n est l ordre du moment Parmi ces moments on distingue µ 10 que l on note µ 1 et µ 01 que l on note1 µ 2 A l aide de ces valeurs on définit les moments centrés : µ mn = (x µ 1 ) m (y µ 2 ) n df, m, n 0, m + n > 1 ; (315) µ 01 = µ 01, µ 10 = µ 10 Moyennes Le couple (µ 1, µ 2 ) des moments d ordre un reçoit le nom de moyenne de la loi On note µ le vecteur colonne représentant cette moyenne : ( ) µ1 µ = (316) µ 2 Il est immédiat d établir ( voir chapitre 318 page 43 ) que µ 1 et µ 2 sont les moyennes des lois marginales Variances, covariance et coefficient de corrélation Les moments centrés d ordre deux sont au nombre de trois : µ 20, µ 02 et µ 11 Les moments µ 20 et µ 02 sont les variances de la loi, on les note plus volontiers σ1 2 et σ2 2 ; les quantités σ 1 et σ 2 en sont les écart types De même que pour la moyenne σ1, 2 σ2 2 et σ 1, σ 2 sont les variances et écart types des lois marginales La quantité nouvelleµ 11 reçoit le nom de covariance de (X, Y ) et est notée Cov(X, Y ) On a d après la définition : µ 11 = (x µ 1 )(y µ 2 )df (317) Il vient en développant le produit : µ 11 = xy df µ 1 X X X y df µ 2 = µ 11 µ 1 µ 2 µ 2 µ 1 + µ 1 µ 2 X xdf + µ 1 µ 2 X df, Il est alors possible de calculer la covariance à partir des moments non-centrés suivant la formule : µ 11 = µ 11 µ 1µ 2 (318) 1 Cette notation est un peu malheureuse car µ 2 est susceptible de désigner : soit le moment d ordre deux d une loi 1D ; soit le moment µ 01 d une loi 2D L ambiguïté est en général levée par le contexte

59 42 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Des expressions telles que (314), (315) et (317) sont des produits scalaires et il existe alors une inégalité de Cauchy-Schwarz entre les vecteurs formant les termes de ce produit, soit : [ (x µ 1 )(y µ 2 )df ] 2 (x µ 1 ) 2 df (y µ 2 ) 2 df, X X X l égalité n ayant lieu que lorsque (x µ 1 ) est proportionnel à (y µ 2 ) L inégalité s écrit : µ 2 11 µ 20 µ 02 et le coefficient de corrélation ρ est alors défini par : ρ = µ 11 µ20 µ 02 (319) D après ces considérations, on établit les propriétés suivantes : 1 Le coefficient de corrélation ρ entre deux variables aléatoires X et Y est toujours inférieur à un en valeur absolue ( ρ 1 ) Si ρ est strictement positif on dit que les variables sont corrélées Si ρ est nul, on dit qu elles sont non-corrélées Si ρ est négatif, elles sont anti-corrélées 2 Si ρ = 1, alors les variables aléatoires X et Y sont liées ( presque-sûrement) par une relation affine : Y µ 2 = ρ X µ 1 (320) σ 2 σ 1 Le coefficient de corrélation ρ, peut être considéré comme la mesure de la dépendance affine de X et Y, ( on dit souvent par abus de langage, «dépendance linéaire», étant entendu que l origine des axes a été ramenée sur la moyenne ) Démonstration Seul le point 2 exige démonstration Si ρ = 1 l inégalité de Cauchy-Schwarz devient une égalité et la fonction (x µ 1) est alors proportionelle à la fonction (y µ 2) Par «proportionelle» on entend que le coefficient de proportionalité est une expression qui peut être sortie du signe somme dans l expression du produit scalaire (317) Posons (x µ 1) = α(y µ 2), il vient : Z Z µ 11 = (x µ 1)(y µ 2)dF = α (y µ 2) 2 df = ασ2 2 X Il vient ρ = ασ 2 2/(σ 1σ 2) = ασ 2/σ 1 d où α = ρσ 1/σ 2 Les issues x et y des variables aléatoires sont donc liées par une relation semblable à (320), ce qui veut dire que ces variables sont liées par cette relation, sauf peut-être sur un ensemble tel que l intégrale R df soit nulle Matrice des variances-covariances On regroupe les moments centrés d ordre 2 dans une matrice symétrique V appelée matrice des variances-covariances Elle s écrit de la façon suivante : ( ) µ20 µ V = 11 (321) µ 11 µ 02 ou, avec des notations plus habituelles : ( ) σ 2 V = 1 ρσ 1 σ 2 ρσ 1 σ 2 σ2 2 (322) Cette matrice est définie positive si σ 2 1 0, σ et ρ 1, c est-à-dire si detv 0 X

60 31 UN COUPLE DE VARIABLES ALÉATOIRES Moments des lois marginales Les moments non-centrés et centrés des lois marginales sont égaux aux moments de la loi conjointe ne faisant intervenir que la variable impliquée dans la loi marginale Ceci veut dire que les moments non-centrés et centrés d ordre m de X sont égaux aux µ m0 et µ m0 de la loi conjointe et ceux de Y aux µ 0m µ 0m de cette même loi Démonstration Considérons le moment non-centré µ m0 par exemple, on a : µ m0 = Z + x m df La démonstration se poursuit en explicitant l intégrale double ci-dessus Pour plus de clarté nous allons écrire df = f(x, y)dxdy ce qui est toujours possible si l on introduit les distributions, il vient : µ m0 = = Z + Z + x m dx Z + x m f X(x)dx, f(x, y)dy, qui est bien l expression du moment d ordre m de la loi marginale en X La démonstration est similaire pour les moments µ 0m, µ m0 et µ 0m 319 Variables aléatoires indépendantes Les variables aléatoires X et Y seront dites indépendantes si, et seulement si les événements {X x} et {Y y} sont indépendants quelles que soient les valeurs x et y du domaine X où le couple est défini Par définition de l indépendance des événements {X x} et {Y y} on a : Pr{X x, Y y} = Pr{X x} Pr{Y y}, soit : F(x, y) = F X (x)f Y (y) (323) On peut alors énoncer de façon équivalente que les variables aléatoires X et Y sont indépendantes si, et seulement si leur fonction de répartition conjointe F peut être mise sous la forme du produit cartésien de leurs fonctions de répartition marginales Si la fonction de répartition conjointe admet une densité de probabilité alors, en appliquant la définition (37) à l équation précédente, il vient : soit : f(x, y) = 2 x y F X(x)F Y (y) = d dx F X(x) d dy F Y (y), f(x, y) = f X (x)f Y (y) (324) Deux variables aléatoires possédant une densité de probabilité sont indépendantes si leur densité de probabilité conjointe est égale au produit de leurs densités marginales Réciproquement, si un couple de variables aléatoires possède une densité de probabilité qui peut être mise sous la forme d un produit de deux fonctions : l une ne dépendant que de x et l autre que de y, et que, de plus, ces fonctions possèdent les propriétés des densités de probabilité alors les variables marginales du couple sont indépendantes et leurs densités sont égales à ces deux fonctions En particulier les fonctions entrants dans le produit doivent satisfaire les conditions de positivité et de normalisation ( l intégrale sur le domaine de définition doit être égale à un )

61 44 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Exemple 34 Loi normale 2D Supposons que le couple de variables aléatoires (X, Y ) suive une loi de densité de probabilité donnée par l expression : f(x, y) = 1 n h (x µ1) 2 exp + 2πσ 1σ 2 2σ1 2 (y io µ2)2 (325) 2σ2 2 Cette densité de probabilité peut être mise sous la forme d un produit de deux densités de probabilité portant séparément sur chacune des variables : 1 (x o µ1)2 1 (x o µ2)2 f(x, y) = exp n 2πσ1 2σ1 2 exp n 2πσ2 2σ2 2 (326) Ceci montre que les variables aléatoires X et Y sont indépendantes On a séparé convenablement en deux le terme 1/2πσ 1σ 2, de façon à ce que f(x, y) puisse bien être mis sous la forme d un produit de deux densités Indépendance et corrélation L indépendance implique la non corrélation, mais l inverse n est pas nécessairement vrai La première partie de cette affirmation découle de l identité : µ 11 = µ 11 µ 10 µ 01 Calculons µ 11 : µ 11 = xyf(x, y)dxdy = xf X (x)dx yf Y (y)dy = µ 10µ 01, d où µ 11 = 0 et donc ρ = 0 si µ 10 0 et µ 01 0 Exemple 35 Contre-exemple On considère le couple de variables aléatoires de densité f(x, y) uniforme sur le domaine x + y 1 ( voir figure 35 ) Soit : f(x, y) = ( 1 2 si x + y 1; 0 si x + y > 1 Ce couple de variables aléatoires n est pas corrélé, en effet par raison de symétrie sa moyenne est nulle (µ 1 = µ 2 = 0 ) et de même µ 11 = 0 Il vient que la covariance µ 11 = µ 11 µ 1µ 2 et le coefficient de corrélation ρ sont nuls En revanche, les variables X et Y ne sont pas indépendantes Ce fait est clair en considérant simplement la figure 35, montrons-le cependant en prouvant que f(x, y) n est pas le produit des lois marginales f 1(x) et f 2(y) R x 1 du R (1+u) (1+u) On a pour 1 x < 0 : f 1(x) = d dx 1 + x Pour 0 x 1 on trouverait f 1(x) = 1 x, d où : f 1(x) = ( 1 x si x 1; 0 si x > 1 f(u, v)dv = d dx R x du(1 + u) = 1 Pour la loi de Y on trouve : f 2(y) = ( 1 y si y 1; 0 si y > 1 Il est clair que f(x, y) f 1(x)f 2(y) et les variables aléatoires X et Y ne sont pas indépendantes

62 31 UN COUPLE DE VARIABLES ALÉATOIRES 45 Y X 1 FIG 35 Pour la loi uniforme sur x + y 1, le couple (X, Y ) est non-corrélé mais il n est pas formé de variables aléatoires indépendantes 3110 Lois conditionnelles associées à une loi 2D Le fait de savoir que le couple (X, Y ) appartienne à son domaine de définition X représente l information minimale disponible sur ce couple Dans la pratique on dispose souvent d une information supplémentaire, par exemple que le couple appartient à un ensemble restreint A de X Cette information additionnelle, ou condition, correspond à l événement A = {(X, Y ) A X } Comme dans le cas 1D, le problème qui se pose alors est de déduire la fonction de répartition conditionnelle du couple (X, Y ), c est-à-dire la probabilité de l événement ({X x}, {Y y}) sachant que (X, Y ) A D après la définition de la probabilité conditionnelle ( voir chapitre 12 page 14 ), on a : Pr{X x, Y y A} = Pr{X x, Y y, A} Pr{A} (327) La probabilité Pr{X x, Y y A} est par définition la fonction de répartition conditionnelle du couple soumis à la condition A, on la notera F(x, y A) On obtient F(x, y A) à l aide de la fonction de répartition F du couple : F(x, y A) = D A df (328) A df En introduisant la fonction indicatrice 1 A qui vaut 1 sur le domaine A et 0 ailleurs, on obtient : F(x, y A) = D 1 A df X 1 A df (329) La fonction de répartition conditionnelle dépend de x et de y par l intermédiaire du domaine d intégration D ( illustré sur la figure 31 ) On a distingué dans cette formule la région de l espace A et l événement A = {(x, y) A}, l habitude est de confondre ces deux entités dans la même notation Densité de probabilité conditionelle On obtient la densité de probabilité conditionelle en dérivant (329) par rapport à x et y conformément à la définition (37) Seul le numérateur dépend de x et y, sa dérivée est égale à la densité du couple si (x, y) A, il vient : f(x, y A) = f(x, y)1 A X f(x, y)1 A dxdy (330)

63 46 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Cette formule exprime que la densité de probabilité conditionelle est proportionnelle à la densité de probabilité du couple dans le domaine ou la condition est active et zéro ailleurs : { f(x,y) f(x, y A) = RRX 1A df si (x, y) A; (331) 0 si (x, y) A L intégrale X 1 A df = f(x, y)dxdy est une constante de normalisation A Exemple 36 Un couple de variables aléatoires ( indépendantes ) X, Y suit la loi normale 2D de densité : f(x, y) = 1 2πσ exp 1 2 2σ 2 (x2 + y ) 2 On cherche la densité de probabilité du couple sachant que x 2 + y 2 R 2 La seule difficulté ( relative ) est de calculer la constante de normalisation, c est-à-dire RR f(x, y)dxdy x 2 +y 2 R 2 Le passage en coordonnées polaires permet de l évaluer aisément, elle est égale à 1 exp{ 1 2 R2 /σ 2 }, d où : f(x, y x 2 + y 2 R 2 ) = 1 exp{ 1 x 2 +y 2 } 2 σ 2 2πσ 2 1 exp{ 1 R 2 } 2 σ 2 Le cas dégénéré La formule (327) page précédente ne permet pas de calculer de lois conditionelles lorsque Pr{A} = 0, c est-à-dire quand l événement conditionnant est de mesure nulle ; dans ce cas l équation (327) prend la forme indéterminée 0 0 Les variables X et Y sont alors liées entre elles par une relation g(x, Y ) = 0 et il faut redéfinir la notion de fonction de répartition conditionnelle par passage à la limite On envisage d abord le cas «des coupes» c est-à-dire des relations du type X = x ou Y = y puis le cas d une relation g(x, Y ) = 0 quelconque 3111 Lois conditionnelles d une coupe On s intéresse ici au sens qu il faut donner à la loi de X sachant que Y vaut une certaine valeur y, ou bien aux lois de Y sachant que X vaut x Dans le cas Y = y, par exemple, on considère l événement {y < Y y + y} et on étudie le passage à la limite : y 0 On a : F(x y < Y y + y) déf = = Pr{X x, y < Y y + y}, Pr{y < Y y + y} F(x, y + y) F(x, y) F Y (y + y) F Y (y) D après la «règle de l Hospital», lorsque y 0 le membre de droite tend vers le rapport des dérivées premières du numérateur et du dénominateur ( ou un rapport de dérivées d ordre supérieur si nécessaire ) Nous définirons la variable aléatoire «X sachant que Y = y» comme la variable aléatoire dont la loi est donnée par la limite de ce rapport En supposant que le rapport des dérivées premières tende vers une limite ( ce qui est souvent le cas dans la pratique ), on obtient : F(x Y = y) = y F(x, y)/ y F Y (y) Le dénominateur n est autre que la densité de la loi marginale de Y calculée en y, soit F(x Y = y) = yf(x, y) (332) f Y (y)

64 31 UN COUPLE DE VARIABLES ALÉATOIRES 47 La densité de probabilité conditionelle s obtient par dérivation de l équation (332) page précédente, par rapport à x Seul le numérateur dépend de x et x yf(x, y) est par définition la densité de probabilité f(x, y) du couple, d où : On obtiendrait de même : f(x Y = y) = f(x, y) f Y (y) (333) xf(x, y) F(y X = y) =, f X (x) (334) f(x, y) f(y X = x) = f X (x) (335) L interprétation des formules (333) et (335) est particulièrement simple : la densité conditionelle d une coupe est égale à la densité du couple au niveau de la coupe, normalisée par l intégrale de la densité à ce même niveau ( on a en effet f Y (x) = f(x, y)dy et f X (y) = f(x, y)dx ), c est-à-dire divisée par la «surface» de la coupe S il n y a pas à craindre de confusion, on notera simplement f(x y) et f(y x) les densités conditionnelles des coupes Y = y et X = x, étant sous-entendu que les valeurs y et x sont particulières Avec cette notation on a : f(x y) = f(x, y) f Y (y), f(y x) = f(x, y) f X (x) (336) Les formules précédentes lient entre elles les densités conjointes, marginales et conditionnelles ( d une coupe ) Elles montrent en particulier que si les variables aléatoires X et Y sont indépendantes, alors les densités de probabilité conditionelles sont égales aux densités de probabilité marginales En effet l indépendance implique f(x, y) = f X (x)f Y (y) et il vient : f(x y) = f X (x), f(y x) = f Y (y) (337) Ainsi, pour des variables aléatoires indépendantes, la connaissance de la valeur prise par une des variables aléatoires ne modifie pas la répartition de l autre Ce qui correspond bien à la notion intuitive d indépendance Remarque 31 On réserve souvent, dans les ouvrages, le nom de lois conditionnelles au seules lois conditionnées par des coupes Nous entendons ce terme dans un sens plus large et précisons si besoin est «lois conditionelles d une coupe» Théorème de Bayes et formule des probabilités totales En éliminant f(x, y) entre les deux équations de la formule (336), on trouve : f(x y) = f(y x)f X(x) f Y (y), (338) qui est la traduction de la formule de Bayes ( voir équation (115) page 14 ), dans le langage des densités de probabilité En remplaçant l une ou l autre des densités marginales par les expressions (312) et en utilisant (336), on obtient les formules dites des «probabilités totales» : f(x y) = f(y x)f X (x) f(y x)f X(x)dx, f(y x) = f(x y)f Y (y) f(x y)f Y (y)dy (339)

65 48 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Lois a priori et lois a posteriori Lorsqu une variable aléatoire X suit une loi qui dépend de la détermination préalable d une autre variable aléatoire Y, alors on appelle loi a priori la loi marginale f X (x) de X et loi a posteriori la loi conditionnelle f(x y) de X sachant que Y = y La formule des probabilités totales dans son expression (339) lie entre elles les densités a priori et a posteriori On utilise la formule des probabilités totales dans le cas, très général, où la variable aléatoire Y est une grandeur physique non-directement observable mais déterminant la loi suivie par une grandeur observable X La variable aléatoire Y caractérise en quelque sorte «l état de la nature» La loi a priori f Y (y) est une mesure de notre connaissance sur Y avant toute observation de X, et la loi a posteriori f(y x) rend compte de la connaissance gagnée sur Y après l observation X = x Afin d accroître notre connaissance sur Y à partir d une observation de X, il faut naturellement connaître la loi suivie par X quand Y est connu, c est-à-dire f(x y) Il est alors possible de calculer f(y x) à l aide de la formule des probabilités totales ( en utilisant pour cet exemple la deuxième équation de la formule (339) ) La fonction f(x y) est une représentation du «crédit» que l on peut accorder à l hypothèse suivant laquelle la nature était dans l état y préalablement à l observation x, elle porte le nom de fonction de vraisemblance Moyennes conditionnelles et courbes de régression On trouve l expression de la moyenne et de la variance conditionnelle d une coupe en appliquant aux lois conditionnelles les équations (226) et (229) définissant les moments Il vient : η x = yf(y x) dy, (340) σx 2 = (y η x ) 2 f(y x)dy, (341) et des expressions analogues pour η y et σ 2 y Les moyennes conditionnelles η x et η y sont des fonctions φ Y (x) et φ X (y), appelées la première «courbe de régression de Y par rapport à X», et la deuxième «courbe de régression de X par rapport à Y» 3112 Lois conditionnelles quelconques Soit g cette relation On a g(x, Y ) = 0 La fonction 1 Ω (x, y)/ Ω 1 Ω tend vers la distribution de Dirac δ(g(x, y)) et il vient : F Ω (x, y Ω ) = D δ(g(u, v))df(u, v) (342) δ(g(u, v))df(u, v) Si la loi admet une densité on a : F Ω (x, y Ω ) = Ω D f(u, v)δ(g(u, v))dudv (343) f(u, v)δ(g(u, v))dudv Ω Aux fonctions de répartition ainsi définies, on peut, sous réserve d existence, associer les densités de probabilité : f Ω (x, y Ω ) = 2 x y F(x, y Ω ) (344)

66 31 UN COUPLE DE VARIABLES ALÉATOIRES 49 Si la loi 2D admet une densité de probabilité f, on obtient après dérivation de (343) : Lois conditionnelles d une coupe f Ω (x, y Ω f(x, y)δ(g(x, y)) ) = (345) f(u, v)δ(g(u, v))dudv Ω On réserve, souvent, l appellation de fonction de répartition conditionnelle ou de densité de probabilité conditionnelle au cas où le support de g(x, Y ) se réduit à l équation Y = Cste ou X = Cste, c est-à-dire au cas où l on considère une coupe parallèle aux axes, faite à travers la densité de probabilité bidimensionnelle Etudions ce dernier cas ; la relation g(x, Y ) = 0 s écrit alors Y y 0 = 0 et en introduisant cette relation dans l équation (343) on trouve la fonction de répartition conditionnelle : F(x, y Y = y 0 ) = D f(u, v)δ(v y 0)dudv Ω f(u, v)δ(v y 0)dudv (346) Pour le numérateur, l intégration sur v donne 0 si y est inférieur à y 0, et f(u, y 0 ) dans le cas contraire Pour le dénominateur, cette intégration donne toujours f(u, y 0 ) Il vient donc : F(x, y Y = y 0 ) = x f(u, y 0 )1 [y0, [(u, y)du (347) f(u, y 0 )du La fonction indicatrice du numérateur est la fonction H de Heaviside Elle ne dépend pas de u et peut donc être sortie de l intégrale, d où : F(x, y Y = y 0 ) = x f(u, y 0 )du H(y y 0 ) (348) f(u, y 0 )du La fonction de répartition conditionnelle bidimensionnelle a été mise sous la forme d un produit de deux fonctions de répartition à une dimension F X Y (x Y = y 0 ) et F Y (y) = H(y y 0 ) La première est la fonction de répartition conditionnelle de X, la deuxième est la fonction de répartition marginale de Y, cette dernière rendant compte du fait que Y a été fixé à la valeur y 0 On a donc : x F X Y (x Y = y 0 ) = f(u, y 0)du f(u, y 0)du, (349) le dénominateur n est autre que la densité marginale de Y en y 0, d où : 1 x F X Y (x Y = y 0 ) = f(u, y 0 )du (350) f Y (y 0 ) et la relation similaire pour la densité conditionnelle de la coupe X = x 0 : 1 y F Y X (y X = x 0 ) = f(x 0, v)dv (351) f X (x 0 )

67 50 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES Densité de probabilité conditionnelle d une coupe On obtient les densités de probabilité conditionnelles par dérivation des fonctions de répartition correspondantes Ainsi : et de la même façon : On trouve alors : f X Y (x Y = y 0 ) = x F X Y (x Y = y 0 ), (352) f Y X (y X = x 0 ) = y F Y X(x X = x 0 ) (353) f X Y (x Y = y 0 ) = f Y X (y X = x 0 ) = f(x, y 0 ) f(x, y 0)dx, f(x 0, y) f(x 0, y)dy (354a) (354b) 32 Plusieurs variables aléatoires Pour un nombre fini de variables aléatoires, (X 1,, X n ), on généralise sans peine les notions introduites pour un couple de variables aléatoires Un tel ensemble de variables aléatoires peut aussi être considéré comme les n composantes d un vecteur aléatoire à n dimensions X R n 321 Vecteurs aléatoires et notation matricielle On notera souvent un ensemble de variables aléatoires (X 1,,X n ) par le même symbole en caractère gras privé d indice, dans notre cas X Nous dirons que X est un vecteur aléatoire, étant entendu que X représente les coordonnées du vecteur mis sous la forme d une colonne Le symbole X t désigne le même vecteur, mais ses coordonnées étant mises sous forme d une ligne 322 Fonction de répartition La fonction de répartition F X1X 2 X n est définie par l expression : F X1X 2 X n (x 1, x 2,, x n ) = Pr{X 1 x 1, X 2 x 2,,X n x n }, (355) et possède les propriétés suivantes ( nous la notons simplement F pour plus de commodité ) Propriétés de la fonction de répartition 1 La fonction F est définie sur R n et envoie R n sur [0, 1], F : R n [0, 1] 2 F(x 1,, x n ) est une fonction non-décroissante de chacune des variables 3 F(x 1,, x n ) est continue à droite en chacune des variables 4 F(x 1,, x n ) = 0 si au moins une des variables vaut 5 F(x 1,, x n ) = 1 si toutes les variables valent +

68 32 PLUSIEURS VARIABLES ALÉATOIRES Probabilité d un hyper-rectangle La probabilité pour que les n variables aléatoires X k soient comprises dans les intervalles k; a k < X k b k, c est-à-dire pour que le vecteur aléatoire X «tombe» dans l hyper-rectangle k; a k < x k b k, est donnée par la formule : Pr{ k; a k < X k b k } = 1 1 ǫ 1=0 ǫ 2=0 1 ǫ n=0 ( 1) P n k=1 ǫ k F(c 1,, c n ), (356) où c k = ǫ k a k + (1 ǫ k )b k Les c k sont les coordonnées des sommets de l hyperrectangle et la somme s étend sur les 2 n sommets de cet hyper-rectangle En posant k ; b k = a k + h k, on peut exprimer (356) à l aide de l opérateur aux différences finies k h portant sur la ke variable de F et tel que : Il vient alors : k h F(, x k, ) = F(, x k + h, ) F(, x k, ) (357) Pr{ k; a k < X k a k + h k } = 1 h 1 2 h 2 n h n F(a 1,, a n ) (358) 324 Densité de probabilité Quand elle existe, la densité de probabilité est telle que : F X1X 2 X n (x 1, x 2,,x n ) = x1 x2 xn f X1X 2 X n (u 1, u 2,, u n )du 1 du 2 du n (359) Ce qui permet de calculer f X1X 2 X n connaissant F X1X 2 X n : f X1X 2 X n (x 1, x 2,, x n ) = n x 1 x 2 x n F X1X 2 X n (x 1, x 2,, x n ) (360) La densité de probabilité possède les propriétés suivantes : 1 f X1X 2 X n (x 1, x 2,, x n ) 0 pour presque tous les x 1, x 2,, x n 2 f X 1X 2 X n (x 1, x 2,, x n )dx 1 dx 2 dx n = 1 Pour plus de commodité nous noterons, la plupart du temps, F la fonction de répartition, et f la densité de probabilité 325 Lois marginales Les fonctions de répartition marginales d un ensemble de k < n variables aléatoires s obtiennent par passage à la limite des n k autres variables Par exemple la fonction de répartition de la variable aléatoire X 1 s obtient comme fonction de répartition marginale de F à l aide de la formule suivante : F X1 (x) = F(x,,, ) (361) Les densités de probabilité marginales des k variables aléatoires s expriment à l aide de la densité f X1X 2 X n, quand elle existe, par intégration sur les n k variables aléatoires restantes Par exemple, pour la variable aléatoire X k : f Xk (x) = f X1X 2 X n (x 1,, x k 1, x, x k+1,, x n ) dx 1 dx k 1 dx k+1 dx n (362)

69 52 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES 326 Moments Les moments non-centrés sont définis par la formule : µ n 1n 2 n n = x n1 1 xn2 2 xnn n f X1X 2 X n (x 1, x 2,, x n )dx 1 dx 2 dx n (363) La somme des exposants i n i est l ordre du moment Dans le cas où certains indices n i sont nuls, les moments ainsi calculés sont les moments des variables aléatoires correspondant aux indices non nuls Montrons cela pour le moment µ 10 0 D après ce que nous venons de dire, ce doit être la moyenne µ 1 de la variable aléatoire X 1 En effet : µ 10 0 = x 1 f X1X 2 X n (x 1, x 2,,x n )dx 1 dx 2 dx n, mais l intégration sur les variables x 2,,x n n est autre, d après l équation (362), que la densité marginale de f pour la variable aléatoire X 1 Il reste donc : µ 10 0 = x 1 f X1 (x 1 )dx 1 Ce qui montre que µ 10 0 correspond bien à la moyenne µ X 1 de X 1 On introduit maintenant les moments centrés qui sont par définition : µ n1n 2 n n = (x 1 µ X1 ) n1 (x 2 µ X2 ) n2 (x n µ Xn ) nn f X1X 2 X n (x 1, x 2,, x n )dx 1 dx 2 dx n (364) On démontrerait de la même manière que, par exemple, le moment centré µ 20 0 correspond à la variance de la variable aléatoire X 1 La densité de probabilité de X 1 étant calculée comme densité marginale de f X1X 2 X n 327 Matrice des variances-covariances Les moments d ordre deux sont regroupés dans la matrice des variances-covariances V, d éléments : v ij = (x i µ Xi )(x j µ Xj )f(x 1,, x n )dx 1 dx n (365) Ω Les éléments diagonaux de cette matrice sont les variances des X i et les éléments non-diagonaux v ij i j sont les covariances des couples (X i, X j ) Toujours d après l inégalité de Cauchy-Schwarz on a : v 2 ij v iiv jj Cela montre que la matrice des variances-covariances est définie non-négative Les coefficients de corrélation ρ ij des couples (X i, X j ) sont définis par : ρ ij = v ij vii v jj (366) On pose habituellement v ii = σ 2 i (σ i 0 ), ce qui fait que la covariance s écrit plutôt v ij = ρ ij σ i σ j Les moments des lois marginales de F étant égaux aux moments de F dont les seuls indices non-nuls sont ceux correspondants aux variables aléatoires sur lesquelles

70 32 PLUSIEURS VARIABLES ALÉATOIRES 53 portent les lois marginales, la matrice des variances-covariances de ces lois marginales est donc une sous-matrice extraite de la matrice des variances-covariances de F en supprimant les lignes et les colonnes ne correspondant pas aux variables des lois marginales Si, par exemple, le triplet aléatoire (X 1, X 2, X 3 ) a pour matrice des variances-covariances : V = σ2 1 ρ 12 σ 1 σ 2 ρ 13 σ 1 σ 3 ρ 12 σ 1 σ 2 σ2 2 ρ 23 σ 2 σ 3, ρ 13 σ 1 σ 3 ρ 23 σ 2 σ 3 σ3 2 la matrice des variances-covariances du couple (X 1, X 3 ) s obtient en supprimant la deuxième ligne et la deuxième colonne de V : ( ) σ 2 V 13 = 1 ρ 13 σ 1 σ 3 ρ 13 σ 1 σ 3 σ3 2 Cette remarque s applique naturellement aussi au vecteur colonne représentant la moyenne 328 Lois conditionnelles Le mécanisme qui nous a permis de trouver les lois conditionnelles dans le cas 2D s applique également ici, nous ne le répéterons pas Il en résulte, vis-à-vis d une condition Ω, une formule analogue à l équation (329) Nous ne considérerons plus en détail ici que le cas dégénéré correspondant à une coupe 329 Lois conditionnelles des coupes Comme dans le cas 2D, une coupe correspond à la condition où certaines variables aléatoires d un vecteur (X 1,, X m+n ) sont fixées, alors que les autres restent libres Nous allons supposer, afin d alléger l écriture, que les variables libres correspondent aux indices les plus faibles de la liste des X i Le symbole X 0 représentera l ensemble des m variables aléatoires libres et le symbole X 1 représentera celui des n variables fixées Notons de plus y l ensemble (y 1,, y n ) des valeurs prises par X 1 et par x l ensemble (x 1,,x m ) des valeurs possibles de X 0 Il vient : F X0X 1 (x, y) = F X1 (y)f X0 X 1 (x X 1 = y), (367) où F X0X 1 désigne la loi conjointe des variables X i et F X1 désigne la loi marginale des variables fixées Cette formule nous permet de calculer la loi conditionnelle Si la loi marginale possède une densité, cette formule s écrit : 1 F X0 X 1 (x X 1 = y) = f X1 (y) n y F X 0 X 1 (x, y) (368) La notation n / n y désigne la dérivation par rapport à toutes les variables fixées, c est- -à-dire n / y 1,, y n Si la densité conjointe des variables X i existe, on trouve, en dérivant (368) par rapport aux x i, la formule liant entre elles les densités conjointes, marginales et conditionnelles : f X0 X 1 (x X 1 = y) = n 1 f X1 (y) f X 0X 1 (x, y) (369)

71 54 CHAPITRE 3 PLUSIEURS VARIABLES ALÉATOIRES 3210 Variables aléatoires indépendantes Les variables aléatoires X 1,,X n seront dites «mutuellement indépendantes» ou «indépendantes dans leur ensemble» ou plus simplement «indépendantes», si la fonction de répartition conjointe peut être mise sous la forme du produit des fonction de répartition marginales : F(x 1, x 2,, x n ) = F X1 (x 1 )F X2 (x 2 ) F Xn (x n ) (370) Si les variables aléatoires X 1, X 2,, X n sont indépendantes, alors elles sont deux à deux indépendantes, c est-à-dire : F XiX j (x i, x j ) = F Xi (x i )F Xj (x j ), i, j; i j (371) Démontrons cette propriété pour i = 1, j = 2 Par définition des fonctions de répartition marginales on a : F X1X 2 (x 1, x 2 ) = F(x 1, x 2,,, ) D après (370) cette expression est égale à : F X1 (x 1 )F X2 (x 2 )F X3 ( ) F Xn ( ); mais F Xi ( ) = 1, d où on tire (371) Si les variables aléatoires X 1,, X n sont deux à deux indépendantes, elles ne sont pas nécessairement indépendantes dans leur ensemble En revanche, les coefficients de corrélation ρ ij des couples (X i, X j ), i j sont nuls et la matrice des variances-covariances est diagonale On dit alors que les variables aléatoires sont mutuellement non-corrélées Des variables aléatoires mutuellement non-corrélées ne sont pas nécessairement deux à deux indépendantes 33 Plusieurs vecteurs aléatoires Les notions introduites pour les vecteurs aléatoires se généralisant sans peine à plusieurs vecteurs aléatoires, nous n introduirons ici que la notion nouvelle de matrice de covariance 331 La matrice de covariance Soient deux vecteurs aléatoires X et Y On définit leur matrice de covariance C XY dont les éléments c ij sont donnés par l expression : c ij = (x i µ Xi )(y j µ Yj )df, (372) l intégrale étant calculée à l aide de la loi F du couple (X, Y )

72 Chapitre 4 Changement de variable aléatoire 41 Une variable et une fonction Soit X(ω) une variable aléatoire associée à l événement élémentaire ω A ce même événement élémentaire ω, on fait correspondre une autre variable aléatoire Y (ω) telle que Y = ϕ(x) La fonction ϕ ainsi introduite, définit ce que l on appelle un changement de variable aléatoire Le problème que nous nous posons maintenant est de déterminer la fonction de répartition G de Y et éventuellement sa densité de probabilité g, connaissant la fonction de répartition F de X Par définition la fonction de répartition G(y) de Y est la probabilité pour que Y ne dépasse pas le seuil y On a : G(y) Pr {Y (ω) y} = Pr {ϕ(x(ω)) y}, (41) notre problème sera résolu dès que l on saura trouver les solutions de l inégalité ϕ(x(ω)) y Nous allons donner plusieurs exemples de telles solutions Afin d alléger l exposé, nous noterons à partir de maintenant simplement X la variable aléatoire X(ω) Dans le même but, lorsque nous parlerons d une densité de probabilité, nous supposerons implicitement qu elle existe 411 Variables aléatoires continues Cas où ϕ est univoque, dérivable et croissante Dans ce cas la fonction réciproque ϕ 1 existe et la solution de l inégalité ϕ(x) y est X ϕ 1 (y) Il vient alors d après (41) : G(y) = Pr { X ϕ 1 (y) } = F(ϕ 1 (y)) (42) On obtient la densité de probabilité en dérivant G par rapport à y, et en posant x = ϕ 1 (y) la solution unique de l équation y = ϕ(x), il vient : g(y) = dg dy = df dϕ 1 dx dy (43) 55

73 56 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE La première dérivée est par définition la densité de probabilité f de X et la seconde l inverse de la dérivée de ϕ au point x = ϕ 1 (y), de sorte que l on obtient g par la formule : g(y) = f(x) dϕ (44) dx x=ϕ 1 (y) Cas où ϕ est univoque, dérivable et décroissante Dans ce cas la solution de ϕ(x) y est X ϕ 1 (y) et il vient : G(y) = Pr { X ϕ 1 (y) } = 1 Pr { X < ϕ 1 (y) } L événement X = ϕ 1 (y) étant de probabilité nulle on trouve alors l expression de la fonction de répartition de Y : G(y) = 1 Pr { X ϕ 1 (y) } = 1 F(ϕ 1 (y)), (45) et de sa densité de probabilité : g(y) = f(x) dϕ dx x=ϕ 1 (y) (46) Cas général des changements de variable bijectifs Dans le cas général des changements de variables effectués à l aide d une fonction ϕ univoque, on a en rassemblant en une seule les deux formules précédentes : 1 g(y) = f(x) dϕ dx x=ϕ 1 (y) (47) La table 41 résume les principaux résultats de ce paragraphe Exemple 41 Changement de variable linéaire Y = ax Dans ce cas la fonction ϕ est telle que y = ϕ(x) = ax d où ϕ 1 (y) = y/a En appliquant la formule (47) précédente on obtient alors : dϕ 1 = a et donc g(y) = f(x) dx a d où g(y) = 1 y a f (48) a Cas des fonctions non-univoques Si la fonction ϕ n est pas univoque mais reste dérivable, les valeurs de X satisfaisant l inégalité ϕ(x) y se présentent sous la forme d intervalles disjoints [a k, b k ], en nombre éventuellement infini mais dénombrable On a ϕ(a k ) = ϕ(b k ) = y Le plus petit des a peut être égal à et le plus grand des b à + La figure 41 donne un exemple d un tel changement de variable On obtient alors la fonction de répartition G de la nouvelle variable aléatoire Y = ϕ(x) par la formule : G(y) = k F(b k ) F(a k ); ϕ(a k ) = ϕ(b k ) = y (49)

74 41 UNE VARIABLE ET UNE FONCTION 57 fonction de répartition densité de probabilité X F(x) f(x) Y = ϕ(x) ; ϕ 0 F(x); x = ϕ 1 (y) f(x)[ϕ (x)] 1 ; x = ϕ 1 (y) Y = ϕ(x) ; ϕ < 0 1 F(x); x = ϕ 1 (y) f(x)[ϕ (x)] 1 ; x = ϕ 1 (y) Y = X b F(y + b) f(y + b) Y = ax { F( y a ) a > 0 1 F( y a ) a < 0 1 a f(y a ) TAB 41 Fonction de répartition et densité de probabilité de la nouvelle variable aléatoire Y = ϕ(x) où ϕ est une fonction dérivable La densité de probabilité s obtient par dérivation, ce qui donne la formule : g(y) = k 1 f(x k ) dϕ ϕ(x k ) = y (410) dx x=xk La sommation s étend sur tous les x k solutions de l équation y = ϕ(x k ) Exemple 42 Densité de probabilité du carré d une variable aléatoire On a y = ϕ(x) = x 2 et dϕ/dx = 2x La variable aléatoire Y étant toujours positive, la densité de probabilité g(y) est nulle en dehors de l intervalle y 0 A un y 0 donné, correspondent deux valeurs de x, x 1 = y et x 2 = y, la somme (410) s étend sur ces deux racines x 1 et x 2 Il vient alors : dϕ = 2 y et dϕ = 2 y (411) dx x= y dx x= y et l on obtient ainsi la densité de probabilité de Y : 8 < g(y) = : f( y) + f( y) 2 y y 0 0 y < 0 (412) Si la moyenne et la variance existent, et sont respectivement égales à µ et à σ 2, la variable Y = X 2 a pour moyenne µ 2 + σ 2 Exemple 43 Densité de probabilité du carré d une variable aléatoire normale Soit X une variable aléatoire normale de densité de probabilité donnée par l expression : f(x) = 1 σ µ)2 exp (x (413) 2π 2σ 2 D après l équation (412), la densité de probabilité de X 2 est égale à : g(y) = 1 σ 1 2π y 2 exp y + µ2 µ y cosh (414) 2σ 2 σ 2 Cette loi possède une moyenne µ 2 + σ 2 et une variance 4µ 2 σ 2 + 2σ 4

75 58 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE FIG 41 Exemple de changement de variable aléatoire Y = ϕ(x) continu mais non univoque Le domaine des X satisfaisant l inégalité Y y est formé ici des deux segments disjoints [a 1, b 1 ] [a 2, b 2 ] 412 Uniformisation des variables aléatoires continues Soit X une variable aléatoire continue de densité de probabilité f(x) Considérons le changement de variable : Y = F(X) où F est la fonction de répartition de X Par définition de la fonction de répartition, à une valeur x de la variable aléatoire X correspond une valeur y de la variable aléatoire Y donnée par l expression : y = F(x) = x f(t) dt (415) Les valeurs possibles de Y sont comprises entre F( ) = 0 et F( ) = 1 La variable aléatoire Y ne pouvant pas prendre de valeurs à l extérieur de l intervalle [0, 1], possède donc une densité de probabilité nulle en dehors de cet intervalle La variable aléatoire X étant continue, F est alors strictement croissante et donc univoque On a alors pour toutes les valeurs de y comprises entre 0 et 1 : g(y) = f(x) 1 df dx 1 = f(x) f(x) = 1 (416) Le changement de variable Y = F(X) permet donc de transformer une variable aléatoire continue de densité quelconque, en une variable aléatoire suivant une loi dite uniforme Par définition la loi uniforme sur [0, 1] possède la densité : { 0 si x < 0 ou si x > 1; f(x) = (417) 1 si 0 x 1 Ce changement de variable est souvent utilisé en traitement d images, et constitue la méthode dite de l égalisation d histogramme On l utilise également pour générer des

76 42 PLUSIEURS FONCTIONS DE PLUSIEURS VARIABLES 59 nombres aléatoires suivant la loi F quand on a à sa disposition des nombres suivant la loi uniforme En effet, si les variables aléatoires U i suivent la loi uniforme, les variables aléatoires X i = F 1 (U i ) suivent la loi F Exemple 44 Simulation de la loi exponentielle Une variable aléatoire X suit la loi exponentielle de paramètre λ > 0 si sa fonction de répartition F est donnée par : ( 0 si x < 0; F(x) = (418) 1 exp( λx) si x 0 D après ce que nous venons de voir la variable aléatoire U = F(X) suit la loi uniforme sur [0, 1[ Réciproquement si l on dispose d une variable aléatoire U suivant la loi uniforme sur [0, 1[ alors la variable aléatoire X = F 1 (U) suivra la loi exponentielle Il vient : U = 1 exp( λx), X = ln(1 U)/λ ou, ce qui revient au même, X = ln(u)/λ si U ]0, 1] On dispose ainsi d un moyen commode pour générer une variable aléatoire exponentielle lorsqu on dispose d un générateur de nombres aléatoires suivant la loi uniforme 413 Changement de variable et indépendance Le théorème suivant limite la classe des changements de variables qui préservent l indépendance Dans la pratique il s agit d une limitation très peu contraignante Théorème 41 ( Slutsky ) Si les variables aléatoires (X 1,, X n ) sont indépendantes et si les fonctions ϕ k sont mesurables-borel, alors les variables aléatoires ϕ k (X k ) sont aussi indépendantes On dit qu une fonction ϕ est mesurable-borel si l ensemble des x défini par g(x) < c pour tout c R, est un borélien Une fonction continue est mesurable-borel On trouvera la démonstration de ce théorème au chapitre 4 5 de l ouvrage de Rényi [65] Exemple 45 Si les variables aléatoires indépendantes (X 1,, X n) sont transformées par élévation à la puissance r, alors les variables aléatoires (X r 1,, X r n) sont aussi indépendantes car le changement de variable x x r est continu 42 Plusieurs fonctions de plusieurs variables Au vecteur aléatoire X de composantes (X 1,,X n ), on fait correspondre un autre vecteur aléatoire Y de composantes (Y 1,, Y n ), par l intermédiaire de n fonctions ϕ i, telles que : Y 1 = ϕ 1 (X 1,,X n ), Y 2 = ϕ 2 (X 1,,X n ), Y n = ϕ n (X 1,, X n ) (419) Pour un y : (y 1,,y n ) donné, on notera x (k) : (x (k) 1,,x(k) n ) les solutions du système y i = ϕ i (x (k) 1,, x(k) n ) i, 1 i n Par un raisonnement analogue à celui fait sur le changement d une seule variable aléatoire, on trouverait la formule générale donnant la densité de probabilité de Y : g(y 1,, y n ) = k f(x (k) 1,, x(k) n ) D(y 1,,y n ) 1 D(x 1,,x n ) (420) x=x (k)

77 60 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE L expression D(y 1,,y n )/D(x 1,,x n ), est le jacobien J du changement de variables Exemple 46 Génération de nombres pseudo-aléatoires suivant la loi normale réduite Soient deux variables aléatoires indépendantes U 1 et U 2 suivant la loi uniforme sur ]0, 1] ]0, 1] A partir du couple (U 1, U 2), définissons le nouveau couple (X 1, X 2) par l intermédiaire du changement de variables : x 1 = 2ln u 1 cos(2πu 2), x 2 = 2ln u 1 sin(2πu 2) (421) pce changement de variables est bijectif En effet on obtient la fonction inverse en posant : r = x x 2 2 et 2πu = arccos(x1/r), il vient alors : u 1 = exp( 1 2 r2 ), ( u si x 2 0 ; u 2 = 1 u si x 2 < 0 (422) On a r = 2ln u 1, et le jacobien du changement de variables (421) est : x 1 x 1 1 u 1 u 2 u cos(2πu2) 2πr sin(2πu2) 1r J = = = 2π x 2 x 2 1 u 1 u 2 u sin(2πu2) u 2πr cos(2πu2) 1 1r Il vient : g(x 1, x 2) = f(u 1, u 2) J 1 = u1 2π = 1 2π exp{ 1 2 (x2 1 + x 2 2)} (423) Nous avons donc démontré que le changement de variables (421) transforme un couple de variables aléatoires uniformes indépendantes, en un couple de variables aléatoires normales réduites Les variables aléatoires X 1 et X 2 sont elles-mêmes indépendantes car leur loi conjointe g(x 1, x 2) peut être mise sous la forme du produit de ses lois marginales : g(x 1, x 2) = 1 exp( 1 1 2π 2 x2 1) exp( 1 2π 2 x2 2) 43 Une fonction de plusieurs variables Soient n variables aléatoires (X 1,, X n ) et une seule fonction ϕ définissant une nouvelle variable aléatoire Y = ϕ(x 1,,X n ) Pour connaître la densité de probabilité de Y, on est amené à introduire les variables aléatoires Y i telles que : Y 1 = X 1, Y 2 = X 2, Y n 1 = X n 1, Y n = Y = ϕ(x 1,,X n ) (424) La valeur absolue du jacobien de ce changement de variables est égale à : J = ϕ x n, (425)

78 43 UNE FONCTION DE PLUSIEURS VARIABLES 61 elle nous permet d obtenir g n la densité de probabilité conjointe des variables aléatoires Y 1,,Y n : g n (y 1,,y n 1, y) = k f(x (k) 1,,x(k) n ) ϕ 1 x n, (426) x=x (k) à partir de laquelle on obtient la densité de probabilité de Y comme densité de probabilité marginale : g(y) = g n (y 1,, y n 1, y) dy 1 dy n 1 (427) Nous allons appliquer ces formules dans trois cas importants 431 Somme et différence de deux variables aléatoires Pour la somme on a Y = X 1 + X 2 On suppose connue la densité de probabilité conjointe f 2 (x 1, x 2 ) du couple aléatoire (X 1, X 2 ) On pose donc Y 1 = X 1 et Y 2 = X 1 + X 2 Cette transformation a pour jacobien : J = D(y 1, y 2 ) D(x 1, x 2 ) = = 1 (428) En remplaçant la valeur du jacobien dans l équation (420), on trouve : g 2 (y 1, y 2 ) = f 2 (y 1, y 2 y 1 ) La densité de probabilité de Y est égale à la densité marginale : g(y) = f 2 (u, y u)du (429) Si les variables aléatoires X 1, X 2 sont indépendantes, la densité du couple est égale au produit de ses densités marginales, on a f 2 (x 1, x 2 ) = f X1 (x 1 )f X2 (x 2 ) et la formule précédente s écrit : g(y) = f X1 (u)f X2 (y u)du (430) C est le produit de convolution de f X1 par f X2 Pour la différence Y = X 2 X 1, on obtiendrait de la même façon : g(y) = 432 Produit de deux variables aléatoires f X1 (u)f X2 (y + u)du (431) On a Y = X 1 X 2, et on suppose connue la densité de probabilité conjointe f 2 (x 1, x 2 ) du couple aléatoire (X 1, X 2 ) On pose alors Y 1 = X 1 et Y 2 = X 1 X 2 Cette transformation a pour jacobien : J = D(y 1, y 2 ) D(x 1, x 2 ) = 1 0 x 2 x 1 = x 1 (432)

79 62 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE En remplaçant la valeur du jacobien dans l équation (420), on trouve : g 2 (y 1, y 2 ) = f 2 (y 1, y 2 /y 1 ) 1 y 1 La densité de probabilité de Y est la densité marginale : g(y) = Si les variables aléatoires X 1, X 2 sont indépendantes, on a : g(y) = ( f 2 u, y ) 1 du (433) u u f X1 (u)f X2 ( y u ) 1 du (434) u Exemple 47 Densité de probabilité du produit de deux variables aléatoires normales indépendantes Soient X 1, X 2 deux variables aléatoires normales de moyennes nulles, de variances σ 1 = σ 2 = 1 On trouve la densité de probabilité g(y) de leur produit Y = X 1X 2 en appliquant la formule (434) Il vient : g(y) = = 1 π Z + Z + En posant e t = u2 il vient : y g(y) = 1 π 0 Z + = 1 π K0( y ), 1 exp{ 1 2π 2 u2 } 1 exp{ 1 2π 2 exp{ 1 2 [u2 + y2 u 2 ]} du u exp{ 1 2 y (et + e t )} dt 2 = 1 π y 2 u } du 2 u, Z + 0 exp{ y cosh t}dt, où K 0 est la fonction de Bessel modifiée de 2 e espèce et d ordre 0 Cette densité possède une moyenne nulle et un écart type égal à 1, son graphe est présenté sur la figure Quotient de deux variables aléatoires On a Y = X 2 /X 1 et on suppose connue la densité de probabilité conjointe f 2 (x 1, x 2 ) du couple aléatoire (X 1, X 2 ) On pose alors Y 1 = X 1 et Y 2 = X 2 /X 1 Cette transformation a pour jacobien : J = D(y 1, y 2 ) D(x 1, x 2 ) = 1 0 x 2 1 = 1 x 1 (435) En remplaçant la valeur du jacobien dans l équation (420), on trouve : x 2 1 x 1 g 2 (y 1, y 2 ) = f 2 (y 1, y 1 y 2 ) y 1 La densité de probabilité de Y est la densité marginale : g(y) = f 2 (u, uy) u du (436)

80 44 LE POINT DE VUE DES PROBABILITÉS CONDITIONNELLES 63 FIG 42 Densité de probabilité g(y) du produit de deux variables aléatoires normales réduites X 1 et X 2 On a µ 1 = µ 2 = 0, σ 1 = σ 2 = 1, Y = X 1 X 2 et g(y) = 1 π K 0( y ) où K 0 est la fonction de Bessel modifiée de deuxième espèce et d ordre 0 Si les variables aléatoires X 1, X 2 sont indépendantes on a : g(y) = Ces propriétés sont résumées dans le tableau 42 f X1 (u)f X2 (uy) u du (437) Exemple 48 Densité de probabilité du quotient de deux variables aléatoires normales Soient X 1, X 2 deux variables aléatoires normales réduites indépendantes En tant que variables réduites on a : µ 1 = µ 2 = 0 et σ 1 = σ 2 = 1 En application de la formule (437), on trouve la densité de probabilité du quotient X 1/X 2 : g(y) = 1 2π = 1 2π = 1 π = 1 π Z + Z + Z y 2 e 1 2 u2 e 1 2 (uy)2 u du, e 1 2 u2 (1+y 2) u du, e t(1+y2) dt, La loi suivie par le rapport de deux variables aléatoires normales réduites est une loi de Cauchy, c est-à-dire une loi qui ne possède pas de moments ( et en particulier pas de moyenne ) 44 Le point de vue des probabilités conditionnelles On aurait également pu développer la théorie du changement de variable aléatoire dans le cadre plus formel des probabilités conditionnelles Illustrons cette démarche dans le cas d une fonction d une variable aléatoire Soit Y = ϕ(x) le changement de

81 64 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE X 2 ± X 1 g(y) = X 1 X 2 g(y) = X 2 X 1 g(y) = Variables quelconques f(u, y u)du g(y) = f ( u, y ) 1 du g(y) = u u f(u, uy) u du g(y) = Variables indépendantes f X1 (u)f X2 (y u)du f X1 (u)f X2( y u ) 1 u du f X1 (u)f X2 (uy) u du TAB 42 Densité de probabilité g(y) d une variable aléatoire η égale à l une des quatre opérations sur le couple de variables aléatoires (X 1, X 2 ) La fonction f désigne la densité de probabilité conjointe du couple (X 1, X 2 ), les fonctions f X1 et f X2, désignent les densités de X 1 et X 2 variable et f(x) la densité de X La fonction de répartition G(y) de Y s obtient en sommant la densité f sur le domaine des x où ϕ(x) y ; il s agit donc bien d une fonction de répartition conditionnelle Soit Ω (y) ce domaine On a alors : G(y) = Ω (y) f(x)dx (438) Introduisons la distribution de Heaviside H(y ϕ(x)) qui vaut 0 si y < ϕ(x) et 1 si y ϕ(x) A l aide de cette distribution, l équation précédente peut se mettre sous la forme : G(y) = f(x)h(y ϕ(x))dx, (439) Ω où la sommation s étend maintenant à tout l espace Ω de définition de X La densité de probabilité y s obtient par dérivation de G(y), et en notant que la dérivée de la distribution de Heaviside H est égale à la distribution de Dirac δ de même argument on a : g(y) = f(x)δ(y ϕ(x))dx (440) En sachant que δ(h(x)) se calcule à l aide de la formule : Ω δ(h(x)) = i 1 h δ(x x i ), (441) (x) x=xi où la sommation s étend sur l ensemble des x i tels que h(x i ) = 0 Ici h(x) = y ϕ(x), et l on obtient finalement : g(y) = i f(x i ) ϕ (x) x=xi (442) La sommation s étend cette fois sur l ensemble des x i tels que ϕ(x i ) = y et qui appartiennent au domaine de définition Ω de la variable aléatoire X On retrouve ainsi la formule (47) La démarche est identique, pour le cas de plusieurs variables aléatoires

82 45 EXEMPLES Exemples 451 Module et phase d un couple de variables aléatoires On considère deux variables aléatoires X 1 et X 2, on note x 1 et x 2 les valeurs prises par ces variables aléatoires et f(x 1, x 2 ) la densité de probabilité de ce couple Le module R et la phase Φ sont les coordonnées polaires associées au couple de coordonnées cartésiennes X 1 et X 2 Le changement de variables est donc : x 1 = r cosφ, x 2 = r sin φ (443) Ce changement de variable est bijectif ( voir exemple 46 ) sauf en r = 0 qui est un ensemble de mesure nulle Le jacobien du changement de variables de (r, φ) vers (x 1, x 2 ) est égal à r On trouve alors la densité de probabilité g(r, φ) du couple de variables aléatoires (R, Φ) connaissant la densité de probabilité f(x 1, x 2 ) du couple (X 1, X 2 ) grâce à la formule (420) Il vient : g(r, φ) = rf(x 1, x 2 ) = rf(r cosφ, r sinφ) (444) Les densités de la phase et du module sont les densités marginales de la loi du couple (R, Φ) Nous allons appliquer ce calcul au cas de deux variables aléatoires normales indépendantes 452 Module et phase d un couple de variables aléatoires normales indépendantes Les deux variables aléatoires indépendantes X 1 et X 2 suivent respectivement une loi normale de paramètres µ 1, σ 1 et une loi normale de paramètres µ 2, σ 2 La loi du couple (R, Φ) s obtient par (444), il vient : 1 g(r, φ) = r exp { (r cosφ µ 1) 2 } 1 exp 2πσ1 2πσ2 = 2σ 2 1 r { [ (r cosφ µ1 ) 2 exp 2πσ 1 σ 2 2σ 2 1 Densité de probabilité du module ( loi de Rayleigh-Rice ) { (r sin φ µ 2) 2 2σ 2 2 }, + (r sinφ µ 2) 2 ]} 2σ2 2 (445) Cette densité s obtient en intégrant la phase φ sur tout son domaine de définition Supposons pour simplifier que σ 1 = σ 2 = σ, il vient : g R (r) = r 2πσ 2 2π 0 = r 2πσ 2 exp exp { (r cosφ µ 1) 2 + (r sin φ µ 2 ) 2 } 2σ 2 dφ, ( r2 + µ 2 ) 2π { 2σ 2 exp rµ } σ 2 cos(φ φ 0) dφ, où µ et φ 0 sont les coordonnées polaires du couple (µ 1, µ 2 ), c est-à-dire : µ = µ µ2 2 et µ 1 = µ cosφ 0, µ 2 = µ sinφ 0 La fonction à intégrer étant périodique il vient : 1 2π 2π 0 exp { rµ } σ 2 cos(φ φ 0) dφ = 1 2π 0 2π 0 exp ( rµ σ 2 cosφ ) dφ = I 0 ( rµ σ 2 )

83 66 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE Dans cette expression I 0 représente la fonction de Bessel modifiée d ordre 0 ( voir par exemple la formule de Gradshteyn et Ryzhik [30] ) La densité de probabilité du module R de deux variables aléatoires normales indépendantes et de même écart type σ est alors donnée par l expression : g R (r) = r σ 2 exp ( r2 + µ 2 2σ 2 ) I 0 ( rµ σ 2 ), r 0, (446) où µ est la moyenne quadratique des moyennes µ 1 et µ 2 des deux variables Cette densité de probabilité porte le nom de densité de Rayleigh-Rice Si µ est grand devant σ, la moyenne µ R et la variance σr 2 de la loi de Rayleigh-Rice sont données par les formules asymptotiques suivantes : ) ( ) µ R µ (1 + σ2 2µ 2, σr 2 σ 2 1 σ2 4µ 2 (447) L expression exacte des moments non-centrés µ k de R est donnée au chapitre 322 de l ouvrage de Lévine [49], elle vaut : µ k = (2σ2 ) k 2 Γ(1 + k 2 ) 1F 1 ( k µ2 2, 1, 2σ ), (448) 2 où Γ et 1 F 1 représentent respectivement la fonction eulerienne de seconde espèce et une fonction hypergéométrique dégénérée ( voir appendice A1 ) Densité de probabilité de la phase Nous nous plaçons toujours dans le cas où les variables aléatoires X 1 et X 2 possèdent le même écart type σ La loi suivie par la phase s obtient en intégrant l expression (445) sur le domaine r 0 avec σ 1 = σ 2 = σ Il vient : g Φ (φ) = 1 2πσ 2 0 = 1 2πσ 2 exp } dr, r exp { (r cosφ µ 1) 2 + (r sin φ µ 2 ) 2 2σ 2 ) { ( µ2 2σ 2 r exp r2 2rµ cos(φ φ 0 ) 0 2σ 2 } dr En complétant la forme quadratique apparaissant dans l argument de la seconde exponentielle de façon à former un carré parfait on obtient : g Φ (φ) = 1 µ2 exp{ 2πσ2 2σ 2 sin2 (φ φ 0 )} r exp { (r µ cos(φ φ 0)) 2 } 2σ 2 dr En posant r 0 = µ cos(φ φ 0 ), il vient : g Φ (φ) = 1 2πσ 2 exp{ µ2 r 2 0 2σ 2 } = 1 2πσ 2 exp{ µ2 r 2 0 2σ 2 } L intégrale se scinde en deux parties : r 0 (r + r 0 )exp{ r2 2σ 2 } dr = r r exp { (r r 0) 2 2σ 2 r 0 } dr, (r + r 0 )exp r2 2σ 2 dr r exp{ r2 r0 2σ 2 } dr + r 0 exp{ r2 2σ 2 } dr = σ 2 exp{ r2 0 2σ 2 } + 2πσr 0 Φ( r 0 σ ),

84 46 EXERCICES ET PROBLÈMES 67 où Φ est la fonction de répartition de la loi normale réduite ( Fonction de Laplace ) Finalement : g Φ (φ) = 1 µ2 exp{ 2π 2σ 2 } + r 0 Φ( r 0 r 2 2πσ σ )exp{ µ2 0 2σ 2 }, soit en revenant à la variable φ : g Φ (φ) = 1 µ2 exp{ 2π 2σ 2 }+ µ cos(φ φ 0 ) Φ{ µ cos(φ φ 0) 2πσ σ } exp{ µ2 sin 2 (φ φ 0 ) 2σ 2 } (449) La fonction g Φ est périodique de période 2π, cependant on ne doit considérer qu une seule période, par exemple : φ [0, 2π[ ou φ φ 0 [ π, π[ Sur la période φ φ 0 [ π, π[, la fonction g Φ est symétrique et tous les moments pairs de la variable aléatoire Φ φ 0 sont nuls Si µ = 0 la fonction g Φ est constante et la variable aléatoire associée suit alors une loi uniforme sur la période considérée Dans ce cas les variables aléatoires R et Φ sont indépendantes Si µ est grand devant σ la variable Φ φ 0 suit approximativement une loi normale de moyenne nulle et de variance (σ/µ) 2 On trouvera une étude plus détaillée de cette loi au Chapitre 3 23 de l ouvrage de B Lévine [49] 46 Exercices et problèmes On trouvera au chapitre 8 la définition des lois non encore introduites à ce niveau Exercice 41 Une variable aléatoire Θ suit une loi de densité de probabilité uniforme entre 0 et 2π : f(θ) = 1 Trouver l expression de la densité de probabilité des variables aléatoires 2π X = cos Θ, Y = sin Θ et de Z = tan Θ Exercice 42 Projection stéréographique Soit un cercle de M centre O et un point fixe P du cercle La projection stéréographique de P est le point X intersection de la droite PM avec l axe perpendiculaire au rayon OP ( voir figure ) Montrer que si M est réparti O X uniformément sur le cercle alors la variable aléatoire ξ = OX suit une loi de Cauchy P Exercice 43 Soient 2 variables aléatoires indépendantes X 1 et X 2 suivant chacune la loi normale de moyenne nulle et de variance σ 2 Trouver la fonction de répartition et la densité de probabilité des variables : X 1, X 1 + X 2, X 1 + X 2 et X 1 X 2 Exercice 44 Densité du produit de deux variables aléatoires normales dépendantes Soient X 1, X 2 deux variables aléatoires normales de moyennes nulles, de variances σ 1, σ 2 et de coefficient de corrélation ρ ( voir la définition (611), page 92 ) Montrer que la densité de probabilité g(y) du produit Y = X 1X 2 de ces variables est donnée par l expression : 1 y g(y) = K πσ 1σ 2(1 ρ 2 ) σ 1σ 2(1 ρ 2 ) exp où K 0 est la fonction de Bessel modifiée de 2 e espèce et d ordre 0 ρy σ 1σ 2(1 ρ 2 ), (450) Exercice 45 Trouver la densité de probabilité du produit de 2 variables aléatoires indépendantes et uniformément réparties sur le segment [a, b] tel que 0 < a < b

85 68 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE Exercice 46 Soient n variables aléatoires indépendantes U 1,, U n suivant la loi uniforme entre 1 et 1 Montrer que la densité de probabilité f 3(x) de la loi suivie par la somme de trois de ces variables est égale à : 8 0 si x 3; >< (3 x ) 2 f 3(x) = si 1 x 3, 16 (451) >: 3 x 2 si 0 x 1 8 Montrer par récurrence que la densité de probabilité f n(x) de la loi suivie par la somme de n variables aléatoires U i mutuellement indépendantes, est donnée par la formule : 8 2 >< 1 1 (n+x) X ( 1) f n(x) = k Cn(n k + x 2k) n 1 si x < n, 2 n (n 1)! (452) k=0 >: 0 si x n, où x désigne la partie entière de x ( c est-à-dire le plus grand entier inférieur ou égal à x ) Exercice 47 Soient U 1,, U n des variables aléatoires indépendantes suivant la loi uniforme entre 0 et 1 Montrer que la variable aléatoire X = 2ln(U 1U 2 U n) suit une loi du χ 2 a 2n degrés de liberté Exercice 48 On désire répartir des points uniformément sur une sphère Par uniforme, on entend que la probabilité d obtenir un point dans l angle solide dω est égale à dω On dispose 4π d un générateur de nombres aléatoires fournissant une suite (U 1,, U n) de variables aléatoires indépendantes suivant la loi uniforme entre 0 et 1 Trouver un changement de variable sur les membres U i de la suite de façon à obtenir le résultat souhaité Problème 49 Soient 4 variables aléatoires X 1, X 2, X 3, X 4 indépendantes et suivant toutes la loi exponentielle de paramètre λ = 1 ( voir exemple 44 ) On considère le changement de variables : Q 1 =X 1 + X 2 + X 3 + X 4 Q 1Q 2 =X 2 + X 3 + X 4 Q 1Q 2Q 3 =X 3 + X 4 Q 1Q 2Q 3Q 4 =X 4 (453) Calculer la densité de probabilité conjointe suivie par les 4 variables Q 1, Q 2, Q 3, Q 4 Montrer que les variables aléatoires Q 1, Q 2, Q 3 et Q 4 sont indépendantes et donner leur densité de probabilité En s inspirant de l exemple 44 donner les changements de variables permettant de générer des nombres pseudo-aléatoires suivant les lois de Q 2, Q 3 et Q 4 Trouver également comment simuler la loi de Q 1 Montrer que la densité conditionnelle f(q 2, q 3, q 4 Q 1 = q 1) du triplet (Q 2, Q 3, Q 4) sachant que Q 1 = q 1 > 0 est uniforme sur un domaine de définition que l on précisera Problème 410 Distribution des nombres En base b, un nombre réel quelconque X peut toujours être mis sous la forme d un produit d un nombre compris entre 1/b et 1, par une puissance entière de b le premier nombre est appelé la «mantisse» et le deuxième «l ordre de grandeur» Par exemple en base 10, b = 10 et le nombre X = a pour mantisse : 0123 et pour ordre de grandeur : 10 2 Montrer que si la mantisse de X suit la loi réciproque dite «loi de Benford» de densité de probabilité : r(x) = 1 1 lnb x, 1 b x < 1,

86 46 EXERCICES ET PROBLÈMES 69 alors la mantisse de Z = XY suit également la loi réciproque, et cela quelle que soit la loi suivie par Y Montrer que cette propriété est aussi vraie pour les divisions Z = X/Y et Z = Y/X (Hamming, 1970, [31])

87 70 CHAPITRE 4 CHANGEMENT DE VARIABLE ALÉATOIRE

88 Chapitre 5 Nombres et fonctions caractéristiques 51 L espérance mathématique 511 L espérance mathématique des variables aléatoires discrètes L espérance mathématique d une variable aléatoire discrète X, c est-à-dire d une variable aléatoire dont les valeurs possibles x i sont dénombrables, est par définition la moyenne arithmétique de ces valeurs pondérées par leur probabilité Soient x i, i N les valeurs possibles de X et p i = Pr {X = x i } la probabilité avec laquelle elles apparaissent L espérance mathématique E{X} de X est définie par : E {X} = i N x i p i (51) Cette somme peut être finie ou infinie Dans le cas où elle est infinie elle peut diverger comme le montre le cas où Pr { X = 2 i} = 2 i, i N et pour lequel i x ip i = Dans le cas où la série (51) converge, on exige de plus qu elle converge quel que soit l ordre dans lequel on effectue la sommation L ordre de sommation de la série dépend de la façon dont on «numérote» les issues de X à l aide de l indice i et il est alors légitime de vouloir trouver le même résultat indépendamment de tel ou tel numérotage particulier Une condition nécessaire et suffisante pour qu une série converge quel que soit l ordre de ses termes est qu elle converge absolument En conséquence, les p i étant positifs, l espérance mathématique E{X} n est définie par (51) que si la série pondérée des x i converge, soit : E {X} = x i p i, si x i p i < (52) i N Dans la suite de cet exposé, il sera sous-entendu que toute définition impliquant une série semblable à (51) sera subordonnée à la convergence absolue de cette série Exemple 51 Espérance de l indicatrice d un événement L indicatrice 1 A de l événement A est égale à 1 si A est réalisé et à 0 dans le cas contraire Soit p la probabilité de A On calcule alors l espérance mathématique : i N E {1 A} = 1 p + 0 (1 p) = p (53) 71

89 72 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES Quelques propriétés Nous donnons, à titre d exemple, quelques propriétés concernant la linéarité de l espérance mathématique des variables aléatoires discrètes Si c est une constante, E{X = c} = c Si E{X} et E{Y } existent, on a E{cX} = c E{X} et E{X + Y } = E{X} + E{Y } On donnera plus loin, au chapitre 514, un tableau plus complet de ces propriétés lorsqu on aura défini l espérance mathématique d un variable aléatoire quelconque ( discrète ou continue ) Espérance mathématique conditionnelle L espérance mathématique conditionnelle de la variable aléatoire X vis-à-vis de l événement A est définie par : E{X A} = i x i Pr{X = x i A}, (54) où la somme s étend à tous les indices numérotant les valeurs possibles de X D après cette définition l espérance mathématique conditionnelle de X n est autre que l espérance mathématique de la loi conditionnelle de X Cette remarque nous permet de généraliser le théorème des probabilités totales en un théorème des espérances mathématiques totales Théorème 51 Si {A k }, k N désigne un système complet d événements disjoints et si X est une variable aléatoire discrète dont l espérance mathématique E{X} existe, on a : E{X} = k E{X A k } Pr{A k } (55) La démonstration se fait à l aide du théorème des probabilités totales Soient x i les valeurs prises par X Il vient : E{X} = i x i Pr{X = x i } = i x i Pr{X = x i A k } Pr{A k } (56) Comme E{X} existe, on peut réarranger l ordre des sommations : E{X} = k ce qui, d après (54) s écrit : k x i Pr{X = x i A k } Pr{A k }, (57) i E{X} = k E{X A k } Pr{A k }, (58) On vérifie facilement que ce théorème recouvre aussi celui des probabilités totales en prenant pour variable aléatoire l indicatrice d un certain événement B et en sachant que E{1 B } = Pr{B} et E{1 B A k } = Pr{B A k }

90 51 L ESPÉRANCE MATHÉMATIQUE 73 Espérance d une fonction de la variable aléatoire discrète Soit Y une variable aléatoire définie par le changement de variable Y = ϕ(x) Par définition l espérance mathématique de Y est, si elle existe, égale à E{Y } = j y j Pr{Y = y j } Si on désigne par x (k) j, k = 1, 2, les solutions de l équation y j = ϕ(x), on a : E{Y } y j Pr{Y = y j } = y j Pr{X = x (k) j } j j = jk y j Pr{X = x (k) j } = jk k ϕ(x (k) j )Pr{X = x (k) j } Le changement de variable étant défini pour toutes les valeurs x i de X, la somme double recouvre tous les x i De plus ϕ est une fonction et à un x (k) j ne correspond qu un seul y j, la somme double ne «compte» pas deux fois le même x i En conclusion la somme double est identique à une somme sur tous les x i Il vient alors : ϕ(x (k) j )Pr{X = x (k) j } = ϕ(x i )Pr{X = x i } i jk On peut alors écrire : E{Y } = E{ϕ(X)} pour Y = ϕ(x) (59) Ainsi, pour calculer l espérance de Y = ϕ(x), il n est pas nécessaire de calculer la loi suivie par Y ( c est-à-dire Pr{Y = y i } ), il suffit de calculer l espérance de ϕ(x) Ce résultat très important se généralise aux variables aléatoires quelconques Exemple 52 Contre exemple Supposons que la variable discrète X prenne les valeurs x n = ( ) n+1 n avec les probabilités p n = 6/π 2 /n 2 L espérance de X est donnée par : E{X} = 6 π 2 ( ) La série harmonique alternée converge vers ln 2 mais E{ X } diverge et l espérance mathématique n est alors pas définie Supposons que nous ignorions ce fait et que l on pose E{X} = 6 ln2/π 2 Considérons à présent le changement de variable Y = ϕ(x) où la liste des valeurs des y i est construite de la façon suivante : on prend dans l ordre une seule valeur de la liste des x 2p+1 (positifs) suivie de deux valeurs successives de la liste des x 2p (négatifs) et ainsi de suite On aura : E{ϕ(X)} = E{X} = 6 ln 2, alors que : π2 E{Y } = 6 π ( ), = 6 h π i +, 10 = 6 h 1 π i 10, = 6 1 h1 1 π i 5 = 6 1 π 2 2 ln 2 On a perdu la propriété que, sous réserve d existence, lorsque Y = ϕ(x) alors E{Y } = E{ϕ(X)} 1 1 On montre que l on peut réarranger les termes de la série harmonique alternée de façon à ce qu elle diverge ou converge vers n importe quelle valeur de R En particulier, si on regroupe p termes positifs suivis de q termes négatifs, la série converge vers ln ln p q

91 74 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES 512 L espérance mathématique des variables aléatoires continues La généralisation de la notion d espérance mathématique aux variables aléatoires continues passe par l intermédiaire de la construction d une variable aléatoire discrète associée, puis par passage à la limite Ce passage à la limite conserve pour les variables aléatoires continues les principales propriétés des variables aléatoires discrètes Variable aléatoire discrète associée Soit X une variable aléatoire de fonction de répartition F dont les valeurs possibles appartiennent, par exemple, à tout l axe réel R Limitons-nous à une description plus grossière des valeurs possibles de X en découpant l axe réel en cellules identiques de dimension h ( h > 0 ) Acceptons ensuite une certaine perte de précision dans la description des issues de X en attribuant la même valeur à deux issues différentes mais appartenant à la même cellule Notons cependant que c est bien ce à quoi il faut se résoudre au cours d une expérience physique réelle On dit alors que l on a décrit les issues de X avec la résolution h Supposons, pour simplifier, que nous avons découpé l axe réel à partir de l origine de telle sorte que la cellule numéro k : k contienne toutes les issues de X comprises entre kh et (k+1)h Plus précisément, dans cette cellule k la variable aléatoire X est telle que kh X < (k + 1)h ; nous lui attribuerons alors la valeur kh La probabilité p k = Pr{X k } pour que X appartienne à cet intervalle est telle que : p k = F((k + 1)h) F(kh) + Pr{X = kh} Pr{X = (k + 1)h} (510) Si, comme nous l avons supposé, la variable X est continue, alors les deux dernières probabilités sont nulles Les issues de X ainsi décrites sont les mêmes que celles d une variable aléatoire discrète X h égale au plus grand multiple de h inférieur ou égal à X et prenant la valeur kh avec la probabilité p k, soit : X X h = h, Pr{X h = kh} = p k (511) h L espérance mathématique de X k est par définition égale à : E{X h } = + k= kh Pr{X h = kh} = + k= kh Pr{kh X < (k + 1)h} (512) Nous définirons l espérance mathématique E{X} d une variable aléatoire continue X comme la limite, si elle existe, de E{X k } quand h 0, soit : E{X} = lim + h 0 k= kh Pr{kh X < (k + 1)h} (513) Cette définition coïncide avec l intégrale de Lebesgue de la fonction X(ω) pondérée par la mesure Pr Comme pour les variables aléatoires discrètes, il faut que l espérance mathématique converge vers une valeur qui soit indépendante de l ordre dans lequel on effectue la somme, ce qui impose que l intégrale soit absolument convergente On a alors : E{X} = X(ω) dp pour X(ω) dp < (514) Ω Ω

92 51 L ESPÉRANCE MATHÉMATIQUE 75 Dans le cas des variables aléatoires continues l équation (510) nous montre que la mesure dp est égale à df et l intégrale de Lebesgue se réduit à l intégrale de Stieltjes suivante : E {X} = xdf pour x df < (515) 513 L espérance mathématique des variables aléatoires quelconques Si la variable aléatoire X est mixte, c est-à-dire si sa fonction de répartition F présente des discontinuités, son espérance mathématique est toujours égale à l intégrale de Stieltjes car celle-ci prend en compte les discontinuités de F Cette formulation inclut aussi le cas des variables aléatoires discrètes car dans ce cas F est une fonction «en escalier» présentant les sauts p i = F + (x i ) F (x i ) aux points de discontinuité x i et l intégrale de Stieltjes se réduit alors à une somme : E {X} = i x i p i (516) Si F admet une densité f, l intégrale de Stieltjes se réduit à l intégrale de Riemann classique : E {X} = xf(t) dt pour x f(t)dt < (517) D un point de vue théorique, l espérance mathématique est une fonctionnelle, c està-dire une fonction dont l argument est une fonction et dont le résultat est un scalaire La fonction sur laquelle agit l espérance mathématique est la variable aléatoire X = X(ω) En physique, l espérance mathématique est appelée «moyenne d ensemble», elle est souvent notée X 514 Propriétés de l espérance mathématique Les propriétés de l espérance mathématique sont celles qui découlent des propriétés de l intégrale de Lebesgue Nous en donnons ci-dessous un certain nombre, les plus remarquables concernent la linéarité de l espérance mathématique 1 Si c est une constante, E{X = c} = c En particulier E{E{X}} = E{X} 2 On a E{cX} = c E{X} 3 Si E{X} et E{Y } existent, alors E{X + Y } = E{X} + E{Y } En particulier E{X E{X}} = 0 4 Plus généralement E{X 1 +X 2 + +X n } = E{X 1 }+E{X 2 }+ +E{X n } 5 Plus généralement encore l espérance mathématique est une fonctionnelle linéaire Si les c i sont des constantes et si l espérance des variables aléatoires X i existe, alors l espérance d une combinaison linéaire de ces variables aléatoires existe également et on a : { } E c i X i = c i E {X i } (518) i i

93 76 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES 6 L espérance mathématique du produit de deux variables aléatoires quelconques n est en général pas égale au produit de leur espérance mathématique (E{XY } E{X} E{Y } ) Mais si E{X 2 } et E{Y 2 } existent, on a l inégalité de Cauchy- Schwarz : E{XY } E{X 2 } E{Y 2 } (519) 7 En revanche, si X et Y sont des variables aléatoires indépendantes alors E{XY } = E{X} E{Y } 8 Si X est une variable aléatoire positive ou nulle alors son espérance est aussi positive ou nulle L espérance n est nulle que si X est elle-même une variable aléatoire identiquement nulle : X 0 E{X} 0, (520) X = 0 E{X} = 0 (521) 515 Espérance mathématique conditionnelle La fonction de répartition conditionnelle permet de calculer des espérances mathématiques conditionnelles : E {X A} = xdf X A (522) Espérances mathématiques conditionnelles totales Si les A i représentent les événements d un système complet A recouvrant un sousensemble Ω, on tire facilement de (245) : E {X Ω } = i E {X A i }Pr {A i Ω }, (523) et de (246) dans le cas où Ω est confondu avec l espace des épreuves Ω : E {X} = i E {X A i }Pr {A i } (524) Ces équations peuvent être considérées comme les espérances des variables aléatoires discrètes E {X A i } Cette remarque nous conduit à réécrire les formules (523) et (524) sous la forme : E {X Ω } = E {E {X A} Ω }, (525) et si Ω est tout l ensemble Ω : E {X} = E {E {X A}} (526) L analogie mécanique des formules précédentes exprime simplement le fait que le centre de gravité d une distribution de masse quelconque peut se calculer d abord sur des éléments disjoints de cette distribution, puis comme barycentre des centres de gravité des éléments, les centres de gravité des éléments disjoints étant pondérés par la masse de l élément correspondant

94 52 INÉGALITÉS IMPLIQUANT DES ESPÉRANCES 77 Exemple P 53 Une variable aléatoire X est la somme de N variables aléatoires X n, X = N n=0 Xn Le nombre N est une variable aléatoire discrète indépendante des Xn et Pr{N = n} = p n Les X n possèdent tous la même espérance E{X n} = µ X et on a E{N} = µ N On demande l espérance de X Les événements A n = {N = n} formant un système complet d événements indépendants on peut appliquer les formules (524) ou (526) Il vient : nx E{X N = n} = E{ X i} = E{X} = i=0 nx E{X i} = nµ X, i=0 X X nµ Xp n = µ X np n = µ Xµ N n=0 i=0 516 Espérance d une fonction de la variable aléatoire Comme dans le cas discret, l espérance mathématique d une fonction Y = ϕ(x) de la variable aléatoire X est donnée par l expression : E{Y } = E{ϕ(X)} (527) Là non plus il n est pas nécessaire de calculer la fonction de répartition de Y afin d évaluer son espérance Une égalité du type (527) signifie que la fonctionnelle E{ } peut être envisagée comme l espérance de Y pour la loi suivie par ϕ(x) ou comme l espérance de ϕ(x) pour la loi suivie par X L identité entre ces deux interprétations vient de ce que l on a imposé l absolue convergence de l intégrale définissant l espérance Comme nous l avons vu pour les variables aléatoires discrètes, c est à cette condition que l espérance reste définie quel que soit l ordre dans lequel on effectue les sommations Exemple 54 Espérance du carré d une variable aléatoire Si une variable aléatoire X possède une moyenne µ et une variance σ 2, d après (230) l espérance mathématique de X 2 existe et est égale à µ 2 + σ 2 On a : E{X 2 } = µ 2 + σ 2 avec µ = E{X}, σ 2 = E{(X E{X}) 2 } (528) Si X possède un moment d ordre 4 : µ 4, X 2 possède alors une variance : Var(X 2 ) = µ 4 + 4µ 3µ + 4σ 2 µ 2 σ 4 (529) 52 Inégalités impliquant des espérances Nous n établissons ici que les inégalités du type Cauchy-Schwarz, on trouvera d autres inégalités dans Loève [50] chap II sec 7 et dans l ouvrage inequalities de Hardy, Littlewood et Pòlya [32] 521 L inégalité de Cauchy-Schwarz L inégalité de Cauchy-Schwarz porte sur les valeurs relatives des variances et de la covariance de deux variables aléatoires (X 1, X 2 ), elle fournit en outre une mesure du degré de dépendance linéaire entre ces deux variables

95 78 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES Théorème 52 Si X 1 et X 2 sont des variables aléatoires quelconques et si E{X 2 1} et E{X 2 2 } existent, alors E{X 1X 2 } existe aussi et on a : E{X 1 X 2 } 2 E{X 2 1} E{X 2 2}, (530) l égalité n ayant lieu que si, et seulement si, les variables aléatoires X 1 et X 2 sont linéairement dépendantes, c est-à-dire s il existe deux nombres λ 1 et λ 2 non tous nuls tels que λ 1 X 1 + λ 2 X 2 = 0, presque partout Dans ce cas on a : λ 1 E{X 2 1 } + λ 2 E{X 1 X 2 } = 0, si λ 2 0 (531) λ 2 E{X 2 2} + λ 1 E{X 1 X 2 } = 0, si λ 1 0 (532) Démonstration Considérons la variable aléatoire Y = λ 1X 1 + λ 2X 2, où λ 1, λ 2 sont deux nombres quelconques non tous nuls Introduisons de plus la forme quadratique Q(λ 1, λ 2) = E{(λ 1X 1 + λ 2X 2) 2 } 0, l égalité n ayant lieu que si λ 1X 1 + λ 2X 2 = 0 ( presque partout ) Nous supposerons que λ 2 est différent de zéro Si tel n était pas le cas nous échangerions les rôles joués par λ 1 et λ 2 dans la démonstration Envisageons tout d abord le cas Y 0 : en développant E{Y 2 }, on obtient λ 2 1 E{X 2 1 } + 2λ 1λ 2 E{X 1X 2} + λ 2 2 E{X 2 2 } > 0 C est un trinômes du second degré en λ 1 qui n est positif que si son discriminant est négatif, c est-à-dire si λ 2 2(E{X 1X 2} 2 E{X 2 1 } E{X 2 2 }) < 0 Comme λ 2 0, il vient E{X 1X 2} 2 E{X 2 1 }E{X 2 2 } < 0, ce qui démontre la première partie du théorème Il faut maintenant envisager le cas où les X 1, X 2 sont linéairement dépendants, c est-à-dire Y = 0 Comme nous avons supposé λ 2 0, on peut écrire X 2 = µx 1 (µ = λ 1/λ 2 ) Il vient E{X 2 2 } = µ 2 E{X 2 1 }, E{X 1X 2} = µe{x 2 1 } et E{X 1X 2} 2 E{X 2 1 } E{X 2 2 } = 0 Réciproquement si E{X 1X 2} 2 E{X 2 1 }E{X 2 2 } = 0, cela veut dire que la forme Q s annule pour la racine ( double ) λ 1 = λ 2 E{X 1X 2}/ E{X 2 1 } ce qui n est possible que si Y = λ 1X 1+ λ 2X 2 = 0 ( presque partout ) Ceci établit la dépendance linéaire de X 1 et X 2 pour ce λ 1 Dans le cas où λ 1 0 on trouverait une condition sur λ 2 qui établirait (532) Si l on applique l inégalité de Cauchy-Schwarz pour les variables centrées X 1 µ 1 et X 2 µ 2 ( µ 1 = E{X 1 }, µ 2 = E{X 2 } ) et à la condition que X 1, X 2 possèdent des variances σ 2 1 et σ 2 2 on obtient ρ 2 σ 2 1σ 2 2 σ 2 1σ 2 2 où ρ est le coefficient de corrélation, ρ = E{(X 1 µ 1 )(X 2 µ 2 )}/σ 1 σ 2 Cela implique que ρ = 1 et que, d après (531) ou (532), il existe une relation affine entre X 1 et X 2 : ρ = 1 X 2 µ 2 σ 2 = ρ X 1 µ 1 σ 1 (533) Cela justifie l utilisation du coefficient de corrélation comme mesure de la dépendance linéaire des variables X 1 µ 1 et X 2 µ Les inégalités de Cauchy-Schwarz d ordre n L inégalité de Cauchy-Schwarz est sujette à généralisation en considérant la variable Y = λ 1 X 1 + λ 2 X λ n X n On dispose alors du théorème suivant : Théorème 53 Si les variables aléatoires sont quelconques mais possèdent toutes des moments d ordre 2 : E{X i X j } <, alors la matrice R des moments d ordre 2 est définie non-négative La matrice R est définie positive si, et seulement si, les X i sont linéairement indépendants

96 53 NOMBRES CARACTÉRISTIQUES 79 Avant d entreprendre la démonstration, donnons un exemple pour trois variables aléatoires X 1, X 2 et X 3 Leur matrice R est par définition égale à : R = E{X2 1 } E{X 1X 2 } E{X 1 X 3 } E{X 2 X 1 } E{X2} 2 E{X 2 X 3 } E{X 3 X 1 } E{X 3 X 2 } E{X3 2} Plaçons-nous dans le cas de l indépendance linéaire des X 1, X 2, X 3 L inégalité de Cauchy-Schwarz d ordre 3 nous dit que R est définie positive, ce qui implique, et réciproquement, que ses mineurs principaux sont positifs Exprimons les Il vient : E{X1 2 } > 0, E{X1} 2 E{X 1 X 2 } E{X 2 X 1 } E{X2 2} > 0, E{X1 2 } E{X 1X 2 } E{X 1 X 3 } E{X 2 X 1 } E{X2} 2 E{X 2 X 3 } E{X 3 X 1 } E{X 3 X 2 } E{X3 2} > 0 La première inégalité est triviale, la deuxième est l inégalité de Cauchy-Schwarz classique et la troisième est l inégalité de Cauchy-Schwarz d ordre 3 En introduisant les coefficients de corrélation ρ ij entre les variables X i, X j on obtient : 1 ρ 12 ρ 12 1 > 0, et des inégalités similaires en permutant les indices 1 ρ 12 ρ 13 ρ 12 1 ρ 23 > 0, (534) ρ 13 ρ 23 1 Démonstration On pose Y = P n i=1 λixi et Q(λ1,, λn) = E{Y 2 } 0, l égalité n étant assurée que si Y = 0 presque partout Supposons Y 0 : dans ce cas Q, qui est une forme homogène de degré deux, est définie positive : Q = P n i,j=1 λiλj E{XiXj} > 0 Sa matrice caractéristique dont les termes valent Q/ λ i λ j est également définie positive On a Q/ λ i λ j = E{X ix j}, ce qui établit le théorème direct Réciproquement si la matrice caractéristique est définie positive, Q est positive, ce qui implique E{( P λ ix i) 2 } > 0 ce qui est impossible si les X i sont linéairement dépendants Les X i sont donc linéairement indépendants 53 Nombres caractéristiques 531 Les moments L espérance mathématique nous permet de redéfinir les moments des lois de probabilité Soient µ r et µ r les moments respectivement non-centrés et centrés d ordre r On a : µ r = E{X r } et µ r = E{(X E{X}) r }, r = 1, 2, (535) Pour qu un moment centré ou non-centré d ordre r existe il faut et il suffit que E{ X r } existe, soit : x r df < Si le moment d ordre r existe alors tous les autres moments d ordres inférieurs à r existent aussi

97 80 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES 532 L erreur quadratique moyenne Cette quantité fait référence à une valeur particulière a de R Elle est définie par l expression : q 2 X(a) = E { (X a) 2} (536) Lorsque le point a est pris égal à la moyenne µ = E {X} de la densité, l erreur quadratique moyenne de X est égale à la variance de X L erreur quadratique moyenne de X calculée autour d une valeur a différente de la moyenne de X est toujours supérieure à la variance de X En effet : E { (X a) 2} = E { (X µ + µ a) 2} = E { (X µ) 2} + 2 E {(X µ)(µ a)} + E { (µ a) 2} = E { (X µ) 2} + 2(µ µ)(µ a) + (µ a) 2 = Var(X) + (µ a) 2 La quantité µ a est appelée le biais Le carré du biais : (µ a) 2 est toujours strictement positif si µ a, il n est nul que si µ = a L erreur quadratique moyenne est donc bien minimum lorsqu elle est calculée autour de la moyenne de la variable aléatoire X Ces propriétés analogues au théorème de Huygens de la mécanique sont contenues dans la relation : «Erreur quadratique moyenne = variance + carré du biais» : q 2 X (a) = E{ (X a) 2} = σ 2 + (µ a) 2 (537) C est l équation d une parabole dont le minimum est en µ L expression (537), analogue au théorème de Pythagore, est illustrée par la figure 51 σ q ξ (a) µ biais a ξ FIG 51 Relation «de Pythagore» reliant la variance, le biais et l erreur quadratique moyenne de la variable aléatoire ξ calculée autour de la valeur a 54 Fonctions caractéristiques L espérance mathématique permet de redéfinir la fonction de répartition, la densité de probabilité et d introduire deux nouvelles fonctions importantes 541 La fonction de répartition La fonction de répartition est l espérance de la fonction indicatrice suivante : F(x) = E { 1 ],x] } = x df (538)

98 54 FONCTIONS CARACTÉRISTIQUES La densité de probabilité On trouve la densité de probabilité par dérivation et donc comme espérance des translatées de δ : f(x) = E {δ x } = δ(u x)f(u)du (539) 543 La fonction caractéristique La fonction caractéristique Z est définie comme l espérance des complexes de module unité : Z(ω) = E{e ixω } = Si la densité de probabilité existe, on a : Z(ω) = e iuω df(u) (540) e iuω f(u)du (541) La fonction caractéristique est alors la transformée de Fourier de la densité de probabilité Inversement on trouve la densité de probabilité à partir de la fonction caractéristique grâce à la formule réciproque : 1 2 (f(x+ ) + f(x )) = 1 2π lim L +L La fonction caractéristique possède les propriétés suivantes : L e iux Z(u)du (542) 1 Z(0) = 1, Z(ω) 1, pour ω ], + [ 2 Si le moment d ordre n existe, on a dn Z(ω) dω n = i n E{X n } ω=0 3 La fonction caractéristique est hermitienne : Z( ω) = Z(ω) C est-à-dire que sa partie réelle est symétrique alors que sa partie imaginaire est antisymétrique 4 La fonction caractéristique d une somme de variables aléatoires indépendantes est égale au produit de leurs fonctions caractéristiques : Z X1+X 2 (ω) = Z X1 (ω)z X2 (ω) 544 La fonction génératrice des moments La fonction génératrice des moments M est définie par la transformée de Hilbert de la densité de probabilité : M(x) = E { (1 Xx) 1} = La fonction M tire son nom de la propriété suivante : M(x) = (1 ux) 1 f(u)du (543) x k E { X k} ; Xx < 1 (544) k=0

99 82 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES 55 Espérance des variables aléatoires d un couple L espérance mathématique de chacune des variables aléatoires X et Y d un couple (X, Y ) de fonction de répartition F est par définition calculée à l aide des fonctions de répartition marginales de F : E {X} = xdf X, E {Y } = y df Y, (545) où F X det F Y désignent respectivement la fonction de répartition de X et la fonction de répartition de Y Supposons pour simplifier que la loi F possède une densité f et ne considérons que la variable X On a alors par définition des lois marginales ( voir l équation (312) ) : xdf X = xdx f(x, y)dy = R 2 xf(x, y)dxdy, soit : E {X} = xf(x, y)dxdy, E {Y } = yf(x, y)dxdy (546) R 2 R 2 L espérance de X peut donc être calculée soit avec sa propre loi, soit avec la loi conjointe de X et d une autre variable aléatoire, ou plus généralement de plusieurs autres variables aléatoires De même pour une fonction ϕ des variables aléatoires on a : E {ϕ(x, Y )} = ϕ(x, y)df, (547) R 2 et si la loi possède une densité : E {ϕ(x, Y )} = 551 Espérances conditionnelles des lois 2D R 2 ϕ(x, y)f(x, y)dxdy (548) L espérance mathématique conditionnelle est définie comme l espérance des lois conditionnelles, ainsi : E {ϕ(x, Y ) Ω } = ϕ(u, v)f(u, v Ω )dxdy (549) R Espérance des lois nd Les remarques faites dans le cas 2D se généralisent naturellement au cas nd ; par exemple si la variable aléatoire Y est fonction de plusieurs variables aléatoires X i,

100 56 CARACTÉRISTIQUES NUMÉRIQUES 83 Y = ϕ(x 1,, X n ), on peut montrer que : E {Y } = ϕ(x 1,, x n )f(x 1,, x n )dx 1 dx n (550) R n Soit encore : E {Y } = E {ϕ(x 1,,X n )} (551) 553 Espérance mathématique d une matrice L espérance mathématique d une matrice A dont les éléments sont des variables aléatoires est, par définition, égale à une matrice dont les éléments sont les espérances des éléments de A Avec cette définition la matrice V des variances-covariances s écrit alors : V = E { (X E {X})(X E {X}) t} (552) On établit immédiatement l identité : V = E{XX t } E{X} E{X} t (553) 56 Caractéristiques numériques des fonctions de variables aléatoires Nous avons vu que la densité de probabilité du quotient de deux variables aléatoires normales menait, dans ce cas pourtant simple, à une expression déjà relativement compliquée Dans la pratique, il devient vite impossible de calculer avec exactitude la densité de probabilité d une fonction quelconque de variables aléatoires, et il faut alors se limiter au calcul de certaines de ses caractéristiques numériques comme sa moyenne et son écart type, s ils existent Bien souvent même, il faudra se contenter de valeurs approximatives ou asymptotiques 561 Quantiles d une fonction de la variable aléatoire On trouve facilement l expression des quantiles de la loi suivie par Y connaissant ceux de la loi F suivie par X lorsque le changement de variable aléatoire Y = ϕ(x) est bijectif Soit x α un quantile de la loi F On a par définition du quantile F(x α ) = 1 α et par définition de la fonction de répartition Pr{X x α } = 1 α Supposons que ϕ est une fonction croissante On a Pr{X x α } = Pr{Y ϕ(x α )}, ce qui montre que le quantile d ordre α de la loi suivie par Y est égal à ϕ(x α ) Pour une fonction décroissante et pour des variables aléatoires strictement continues, on trouve que le quantile d ordre α de Y est égal à ϕ(x 1 α ) Le tableau 51 résume ces résultats Variable aléatoire X ϕ(x), ϕ > 0 ϕ(x), ϕ < 0 Quantile d ordre α x α ϕ(x α ) ϕ(x 1 α ) Médiane x 05 ϕ(x 05 ) ϕ(x 05 ) TAB 51 Quantile de la loi suivie par la variable aléatoire ϕ(x) lorsque X est une variable aléatoire continue et que le changement de variable ϕ est bijectif

101 84 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES 562 Moments d une fonction de la variable aléatoire Si Y = ϕ(x) et si X possède une densité f alors que la densité de Y n est pas calculable, les considérations précédentes sur l espérance mathématique nous conduisent, afin d évaluer les moments de Y, à calculer des expressions du type : E {Y n } = sous réserve que de telles expressions existent ϕ(x) n f(x)dx, (554) 563 Moments et changement de variables aléatoires linéaire Considérons le changement de variable linéaire Y = BX, où Y est un vecteur colonne et à m composantes (Y 1,, Y m ) et X un vecteur colonne à n composantes (X 1,,X n ), B est une matrice (m, n) Soient µ X la moyenne de X et V X sa matrice des variances-covariances, nous voulons en déduire la moyenne et la matrice des variances-covariances de Y En utilisant la linéarité de l espérance mathématique le calcul de la moyenne µ Y de Y est immédiat On a : µ Y = E{Y } = E{BX} = B E{X} = Bµ X Pour la matrice des variances-covariances V Y, on a : V Y = E{(Y E{Y })(Y E{Y }) t } = E{Y Y t } E{Y } E{Y } t = E{BXX t B t } E{BX} E{BX} t = B E{XX t }B t B E{X} E{X t }B t = B(E{XX t } E{X} E{X t })B t = BV X B t Si le changement de variable n avait pas été linéaire mais affine Y = BX + a, un calcul similaire aurait conduit aux formules suivantes : µ Y = Bµ X + a, (555) V Y = BV X B t (556) Le tableau 52 résume ces résultats et donne quelques exemples Nous allons appliquer ces formules générales à quelques cas particuliers Combinaison linéaire de variables aléatoires Soient X 1,, X n n variables aléatoires quelconques, et Y une variable aléatoire telle que : n Y = a i X i (557) i=1 Dans ce cas la matrice B est une ligne formée des a i On obtient pour la moyenne : { n } E a i X i = i=1 n a i E {X i } (558) i=1

102 56 CARACTÉRISTIQUES NUMÉRIQUES 85 Moyenne Variance X µ σ 2 ax aµ a 2 σ 2 a 1 X 1 + a 2 X 2 a 1 µ 1 + a 2 µ 2 a 2 1 σ2 1 + a2 2 σ a 1a 2 ρ 12 σ 1 σ 2 X µ V BX Bµ BV B t BX + a Bµ + a BV B t TAB 52 Moyenne et variance ou matrice des variances-covariances des changements de variables aléatoires linéaires La dernière ligne admet naturellement toutes les autres comme cas particuliers et pour la variance : Var( n a i X i ) = i=1 n i=1 j=1 n a i a j Cov(X i, X j ), où on a utilisé la convention que Cov(X i, X i ) = Var(X i ) En tenant compte de la symétrie des covariances, il vient : Var( n a i X i ) = i=1 n n a 2 i Var(X i) + 2 i=1 n i=1 j=i+1 a i a j Cov(X i, X j ) (559) Si les X i sont deux à deux non corrélés, on a pour i j Cov(X i, X j ) = 0, on obtient alors : n n Var( a i X i ) = a 2 i Var(X i) (560) i=1 Dans le cas particulier où les a i = 1, cette dernière équation est connue sous le nom «d égalité de Bienaymé» Exemple 55 Gain d un détecteur parfait Un détecteur de photons donne en sortie un nombre x exprimé en unités arbitraires, mais proportionnel au nombre n de photons détectés La valeur x est appelée le nombre de «pas-codeurs» Il faut plusieurs impacts de photons pour que le détecteur enregistre un pas-codeur et l on demande le nombre de photons détectés par pascodeur On suppose que le détecteur n introduit aucune source de bruit supplémentaire venant s ajouter au bruit de photons Pour résoudre ce problème, on enregistre un échantillon de bruit à partir d une source stationnaire Soient x et x la moyenne et l écart type de cet échantillon Si n est le nombre de photons et α le nombre de photons par pas-codeur n = αx (le gain g est l inverse de α) on a : x E {x} = E n α i=1 = 1 α E {n} et ( x)2 Var(x) = Var ` n α = 1 α 2 Var(n) L émission de photons suivant une loi de Poisson, pour laquelle on a Var(n) = E {n}, il vient alors x = 1 α E {n}, ( x)2 = 1 α 2 E {n} En éliminant E {n} on trouve : α = x ( x) 2 (561) Le facteur de conversion de pas-codeur en photons est donc égal au rapport de la moyenne sur la variance d un échantillon de bruit, mesuré en pas-codeurs, issu d une source stationnaire

103 86 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES Moyenne et variance de la moyenne arithmétique Soient (X 1,, X n ), n variables aléatoires suivant la même loi, de moyenne E {X i } = µ, de variance Var(X i ) = σ 2 et de coefficients de corrélation ρ ij La moyenne arithmétique M est une variable aléatoire définie par : M = 1 n n X i (562) C est une expression identique à (557) à la condition de poser a i = 1 n L équation (558) nous permet alors d obtenir l espérance de M : E {M} = 1 n i=1 n E {X i } soit E {M} = µ (563) i=1 Ce qui démontre que l espérance mathématique de la moyenne arithmétique d un échantillon est égale à la moyenne de la loi Calculons maintenant la variance de la moyenne arithmétique M à l aide de (559) : Var(M) = n i=1 soit, en posant Cov(X i X j ) = ρ ij σ 2 : 1 n 2 Var(X i) + 2 n 2 Var(M) = σ2 n + 2σ2 n 2 n n i=1 j=i+1 n n i=1 j=i+1 Cov(X i, X j ), ρ ij (564) Si les variables aléatoires sont mutuellement non-corrélées (ρ ij = 0 pour i j) on a : Var(M) = σ2 n (565) En particulier, si les X i suivent une loi normale N(µ, σ 2 ), la moyenne arithmétique M suit également une loi normale N(µ, σ 2 /n), de moyenne µ et de variance σ 2 /n 564 Changement quasi-linéaire de variables aléatoires Soient les variables aléatoires (X 1,, X n ), de moyennes µ i et de variances σi 2 On définit une nouvelle variable aléatoire Y par l intermédiaire du changement de variable Y = ϕ(x 1,,X n ) On dira que ce changement de variable est quasi-linéaire, si la fonction ϕ est bien représentée par son approximation affine dans le domaine couvert en pratique par les variations des X i Dans ces conditions, on peut approximer la fonction ϕ par son développement de Taylor autour d un point caractéristique de la répartition des X i, par exemple, autour de la moyenne On a alors : n ( ) ϕ ϕ(x 1,, X n ) ϕ(µ 1,,µ n ) + (X i µ i ) (566) x i i=1 x i=µ i A l aide de cette approximation on peut calculer la moyenne de Y, à condition naturellement que cette moyenne existe En prenant la valeur moyenne de part et d autre de l expression (566), et en remarquant que E {X i µ i } = 0, on obtient : E {Y } ϕ(µ 1,, µ n ) (567)

104 57 EXERCICES ET PROBLÈMES 87 On a en application des formules (556) précédentes où la matrice B est une ligne d éléments ( ϕ x i ) xi=µ i : Var(ϕ(X 1,, X n )) n ( ) ϕ i,j=1 x i x i=µ i ( ) ϕ x j x j=µ j Cov(X i, X j ), (568) et si les variables aléatoires X i sont non-corrélées, on obtient l expression approchée : Var(ϕ(X 1,,X n )) n i=1 ( ϕ x i ) 2 x i=µ i Var(X i ) (569) Cette formule est souvent appelée la «formule de propagation des erreurs» Toutes ces formules ne sont valables que dans la mesure où la variance de Y existe Exemple 56 Moyenne et variance approchées du module de deux variables aléatoires A partir du couple de variables aléatoires (X 1, X 2) on calcule la nouvelle variable aléatoire Y égale au module du couple, Y = p X1 2 + X2 2 Soient µ1 et µ2 les moyennes de X1 et X 2 Supposons que les variations de X 1 et X 2 soient suffisamment faibles autour de leur moyenne pour nous permettre de représenter la fonction module par son approximation affine On trouve en appliquant (567) : E {Y } q µ µ2 2 (570) Pour le calcul des variances, nous supposerons que les variables X 1 et X 2 sont non-corrélées et de variances σ 2 1 et σ 2 2 Les dérivées partielles de ϕ valent ϕ/ x i = x i(x x 2 2) 1 2, et par application de la formule (569), on trouve la variance de Y : Var(Y ) µ2 1σ µ 2 2σ 2 2 µ µ Exercices et problèmes (571) Exercice 51 Montrer que si X est une variable aléatoire à valeurs entières positives ( x N + ), alors on a : X E{X} = Pr{X n} n=1 Exercice 52 Montrer que si l espérance mathématique E{X} d une loi de fonction de répartition F(x) existe alors elle est telle que : E{X} = Z 0 (1 F(x))dx Z 0 F(x)dx (572) Montrer qu alors on peut redéfinir l espérance mathématique comme la valeur µ telle que : Z µ (1 F(x))dx = Z µ F(x)dx (573) Exercice 53 L écart absolu moyen de la variable aléatoire X, calculé autour de a, est défini par E{ X a }, si cette valeur existe Montrer que l on a toujours E{ X a } E{ X x 05 }, où x 05 désigne la médiane de la loi suivie par X Montrer qu il n y a égalité que lorsque a = x 05

105 88 CHAPITRE 5 NOMBRES ET FONCTIONS CARACTÉRISTIQUES Problème 54 Le problème des partis Deux joueurs sont convenus de jouer une partie en n points, c est-à-dire que le premier qui marque n points remporte une certaine somme d argent appelée l enjeu de la partie La partie comporte plusieurs tours, et à chaque tour, il n y a qu un et un seul joueur qui marque un point Le résultat d un tour est soumis au hasard et le jeu est équitable Supposons que, pour une raison fortuite, les deux joueurs sont obligés de se séparer alors que la partie n est pas terminée Le joueur P a obtenu n p points et le joueur Q en a obtenu n q Comment partager l enjeu de façon équitable entre les deux joueurs, compte tenu des points déjà acquis? Ce problème de la partition équitable de l enjeu est connu sous le nom de «problème des partis» et avait été proposé à la réflexion de Pascal par le Chevalier de Méré ( voir Pascal : le triangle arithmétique [59] ) Préciser ce que l on doit entendre par «partage équitable» de l enjeu Si P(p,q) désigne la proportion de l enjeu qui revient au joueur P, montrer que cette valeur est définie par une suite récursive que l on précisera Démontrer la formule trouvée par Pascal lui-même qui est : P(p,q) = q 1 1 X C k 2 p+q 1 p+q 1 k=0 Démontrer finalement que cette formule est aussi égale à : P(p,q) = Z x p 1 (1 x) q 1 dx, B(p, q) 0

106 Chapitre 6 Lois normales 61 Loi normale à une dimension La loi normale ou loi de Gauss a été introduite par de Moivre en 1738, elle a été popularisé en 1809 par Gauss Une variable aléatoire X admet une loi normale, si elle possède une densité de probabilité f(x) donnée par l expression : f(x) = 1 [ σ 2π exp (x ] µ)2 2σ 2 (61) C est une loi à deux paramètres réels : µ et σ, µ est un paramètre de position et σ un paramètre d échelle Le graphe de la loi normale pour µ = 0 et σ = 1 est donné par la figure 61 On note N(µ, σ 2 ) une variable aléatoire qui suit la loi normale de paramètres µ et σ f(x) σ x µ σ FIG 61 Densité de probabilité de la loi normale réduite 89

107 90 CHAPITRE 6 LOIS NORMALES 611 Fonction de répartition La fonction de répartition d une variable aléatoire normale est donnée par l expression : ( x µ ) F(x) = Φ où Φ(x) = 1 x e 1 2 t2 dt (62) σ 2π 612 Fonction caractéristique La fonction caractéristique Z(ω) d une variable aléatoire quelconque est par définition égale à E{e iωx } Il vient pour une variable aléatoire normale : soit : E{e iωx } = 1 + 2πσ e iωx e 1 2 ( x µ σ )2 dx, = e iµω 1 + e iωt e 1 2 ( t σ )2 dt, 2πσ = e iµω e 1 2 σ2 ω 2, Z(ω) = exp{iµω 1 2 σ2 ω 2 } (63) 613 Caractéristiques numériques de la loi normale Moyenne et variance variance de la loi : Les paramètres µ et σ 2 sont respectivement la moyenne et la Le paramètre σ > 0 est l écart type de la loi normale Moments centrés suivantes : E{X} = µ, Var(X) = σ 2 (64) Les moments centrés pour r 2 sont donnés par les expressions µ 2r 1 = 0, µ 2r = (2r)! 2 r r! σ2r = 1 3 (2r 1)σ 2r (65) Par exemple on a µ 3 = 0 et µ 4 = 3σ 4 Asymétrie et aplatissement De l expression des moments centrés, on tire les coefficients d asymétrie γ 1 et d aplatissement γ 2 : γ 1 = 0, γ 2 = 0 (66) Le coefficient d aplatissement, tel qu il apparaît dans l équation (234), a été défini de façon à être nul pour la loi normale Autres caractéristiques numériques donnée par l expression : L écart absolu moyen e est égal à : e = La largeur à mi-hauteur de la loi normale est FWHM = 2σ 2 ln σ (67) x µ df = 2 σ σ (68) π

108 61 LOI NORMALE À UNE DIMENSION 91 FIG 62 Fonction d erreur résiduelle R(k) de la loi normale Cette fonction donne la probabilité pour qu une variable aléatoire normale s écarte de sa moyenne de plus que k fois son écart type Par définition on a R(k) = 1 [Φ(k) Φ( k)], où Φ est la fonction de répartition de la loi normale réduite 614 Quelques propriétés de la loi normale Loi normale réduite La variable aléatoire Y = (X µ)/σ est une variable aléatoire normale de moyenne nulle et de variance unité, elle est appelée variable aléatoire normale réduite et suit une loi normale réduite N(0, 1) Quantiles et intervalle de confiance de la loi normale à résoudre les équations du type : { X µ Pr σ Q α 2 } = 1 α Pour un α donné, cherchons La quantité Q α est un quantile d ordre α/2 de la loi normale réduite L intervalle 2 [ Q α, Q α ] est appelé l intervalle inter-quantile d ordre α On trouve Q α à l aide de la fonction de répartition Φ de la loi normale réduite : Q α = Φ 1( 1 α ) (69) 2 2 Parmi les intervalles inter-quantiles on distingue l intervalle [ Q 025, Q 025 ] appelé «intervalle inter-quartile» On préfère parfois poser γ = 1 α et parler de l intervalle de confiance au niveau γ : [ Q 1 2 γ, Q γ ] La table 61 donne les valeurs de Q γ 2 pour des valeurs typiques de γ

109 92 CHAPITRE 6 LOIS NORMALES 100γ 500% 683% 900% 950% Q 1 2 γ 2 100γ 954% 990% 997% 999% Q 1 2 γ TAB 61 Quantiles permettant de calculer un intervalle de confiance au niveau γ de la loi normale réduite Par exemple, au niveau de confiance γ = 997% est associé l intervalle [ 3, 3] En d autres termes, une valeur x issue d une loi normale réduite sera dans 997% des cas comprise entre 3 et 3 Somme de variables aléatoires normales La somme de deux variables aléatoires normales indépendantes X 1 et X 2 de moyennes µ 1, µ 2 et de variances σ1 2, σ2 2 est également une variable aléatoire normale, de moyenne µ 1 + µ 2 et de variance σ1 2 + σ2 2 La réciproque est également vraie : si la somme de deux variables aléatoires indépendantes suit une loi normale alors ces deux variables suivent aussi un loi normale ( voir H Cramér 1936 [19] ) Cette propriété s exprime de la façon suivante : X 1 N(µ 1, σ 2 1), X 2 N(µ 2, σ 2 2) X 1 +X 2 N(µ 1 + µ 2, σ σ 2 2) (610) La loi normale est dite «indéfiniment divisible» Ce résultat s étend à un nombre quelconque de variables aléatoires normales 62 Loi normale à 2 dimensions Un vecteur aléatoire X = (X 1, X 2 ) admet une loi normale 2D s il possède une densité de probabilité donnée par l expression : 1 f(x 1, x 2 ) = 2πσ 1 σ 2 (1 ρ 2 ) 1 2 [ (x1 µ 1 ) 2 σ 2 1 { exp 1 2(1 ρ 2 ) 2ρ(x 1 µ 1 )(x 2 µ 2 ) σ 1 σ 2 + (x 2 µ 2 ) 2 σ 2 2 ]} (611) C est une loi à cinq paramètres : µ 1, µ 2, σ 1, σ 2 et ρ, (σ 1, σ 2 > 0 et 1 ρ 1 ) Nous ne considérerons que la loi non-dégénérée pour laquelle σ 1 σ 2 (1 ρ 2 ) 0, ce qui revient à dire que le coefficient ρ n est ni égal à 1, ni égal à 1 et que σ 1, σ Fonction caractéristique Par définition on a Z(ω 1, ω 2 ) = E{expi(ω 1 X 1 + ω 2 X 2 )}, il vient : Z(ω 1, ω 2 ) = exp{ 1 2 (σ2 1ω ρσ 1 σ 2 + σ 2 2ω 2 2)} exp{i(ω 1 µ 1 + ω 2 µ 2 )} (612) 622 Lois conditionnelles Nous n envisagerons ici que les lois conditionnelles suivant une coupe parallèle à l axe x 1 ou à l axe x 2 On cherche, par exemple, la loi suivie par X 1 lorsque X 2 est connue et vaut x 2 D après les résultats du paragraphe 3111, la densité de cette

110 62 LOI NORMALE À 2 DIMENSIONS 93 loi conditionnelle est égale à f(x 1, x 2 ) envisagée comme fonction de la seule variable x 1 et normalisée par intégration sur x 1 Si f X1 X 2 désigne cette densité, on a f X1 X 2 (x 1 X 2 = x 2 ) f(x 1, x 2 ) Il vient, en regroupant dans la constante d intégration les termes qui ne dépendent pas de x 1 : f(x 1 X 2 = x 2 ) exp { 1 [ (x1 µ 1 ) 2 2(1 ρ 2 ) σ1 2 2ρ (x 1 µ 1 )(x 2 µ 2 ) ] } σ 1 σ 2 exp { 1 [ (x1 µ 1 ) 2(1 ρ 2 ρ (x 2 µ 2 ) ] 2} ) σ 1 σ 2 exp { 1 [ 2σ1 2(1 (x1 µ 1 ) ρ σ 1 (x 2 µ 2 ) ] 2} ρ2 ) σ 2 exp { 1 [ 2σ1 2(1 x1 (µ 1 + ρ σ 1 (x 2 µ 2 )) ] 2}, ρ2 ) σ 2 ce qui montre que la loi conditionnelle f X1 X 2 est normale, de moyenne µ 1 +ρσ 1 (x 2 µ 2 )/σ 2 et de variance σ 2 1 (1 ρ2 ) Pour une loi normale, la constante de normalisation est égale à l inverse de son écart type multiplié par 2π Il vient alors : f(x 1 X 2 = x 2 ) = 1 2πσ1 (1 ρ 2 ) 1 2 { [x 1 (µ 1 + ρ σ 1 exp σ 2 (x 2 µ 2 ))] 2 2σ 2 1 (1 ρ2 ) (613) L expression de la loi f X2 X 1 de X 2 sachant que X 1 = x 1 s obtient en permutant les indices 1 et 2 dans l équation précédente 623 Caractéristiques numériques de la loi normale 2D Moyenne C est un vecteur colonne : E {X} = ( µ1 } ) (614) µ 2 Moyennes conditionnelles D après les calculs précédents nous avons : E{X 2 X 1 = x 1 } = µ 2 + ρσ 2 σ 1 (x 1 µ 1 ), (615) E{X 1 X 2 = x 2 } = µ 1 + ρσ 1 σ 2 (x 2 µ 2 ) (616) Les droites d équations x 1 = µ 1 + ρσ 1 (x 2 µ 2 ) et x 2 = µ 2 + ρσ 2 (x 1 µ 1 ) sont σ 2 σ 1 les droites de régression, de X 2 par rapport à X 1, et de X 1 par rapport à X 2, ( voir figure 64 ) Matrice des variances-covariances données par l expression : ( ) σ 2 V = 1 ρσ 1 σ 2 ρσ 1 σ 2 σ2 2 C est une matrice (2, 2) dont les valeurs sont, V 1 = 1 1 ρ 2 1 σ 2 1 ρ 1 σ 1 σ 2 σ2 2 ρ σ 1 σ 2 (617)

111 94 CHAPITRE 6 LOIS NORMALES Ces variances sont indépendantes du niveau où l on ef- Variances conditionnelles fectue la coupe : Var(X 1 X 2 = x 2 ) = σ 2 1(1 ρ 2 ), Var(X 2 X 1 = x 1 ) = σ 2 2(1 ρ 2 ) (618) Coefficient de corrélation la loi : Le coefficient de corrélation est égal au paramètre ρ de corr(x 1, X 2 ) = ρ (619) 624 Forme quadratique associée L argument de l exponentielle de l équation (611) est une forme quadratique Q(x 1, x 2 ) : [ 1 (x1 µ 1 ) 2 Q(x 1, x 2 ) = (1 ρ 2 ) σ1 2 2ρ(x 1 µ 1 )(x 2 µ 2 ) + (x 2 µ 2 ) 2 ] σ 1 σ 2 σ2 2 (620) Cette forme est homogène pour les variables (x 1 µ 1 ) et (x 2 µ 2 ) Définissons le vecteur (x µ) comme étant un vecteur colonne de composantes (x i µ i ) Soit A la matrice ( symétrique ) des demi-dérivées secondes de Q : 2 Q 2 Q A = 1 x 2 1 x 1 x Q 2 Q (621) x 2 x 1 x 2 2 La théorie des formes quadratiques nous apprend que la forme Q peut être mise sous la forme matricielle : Q(x 1, x 2 ) = (x µ) t A(x µ) (622) Dans cette écriture le vecteur (x µ) t est un vecteur ligne obtenu par transposition de (x µ) Il est possible de réduire cette forme quadratique à sa forme canonique, grâce à la transformation linéaire U qui diagonalise A La matrice U est formée des vecteurs propres de A, écrits sous forme de colonnes et juxtaposés de façon à obtenir une matrice carrée La matrice A étant symétrique, elle est effectivement diagonalisable De plus ses vecteurs propres sont orthogonaux et il suffit de les normer afin que la matrice U soit orthonormée de façon à ce que l on ait U 1 = U t Il est aisé de constater que A = V 1 La matrice A en tant qu inverse de la matrice définie positive V est elle-même définie positive Soient λ 2 1 λ2 2 les valeurs propres, nécessairement positives, de V Les valeurs propres de A sont alors égales à 1/λ 2 1 et 1/λ 2 2 Soit Λ2 la matrice (diagonale) des valeurs propres de V On a : Λ 2 = U t AU et UΛ 2 U t = A (623) La matrice U définit un changement de base Soit y un vecteur colonne représentant les coordonnées d un vecteur dans cette nouvelle base après translation d un vecteur µ On a par définition de la matrice de changement de base (x µ) = Uy On obtient alors (x µ) t A(x µ) = y t Λ 2 y La forme quadratique (620) s écrit dans cette nouvelle base : Q(x 1, x 2 ) = y2 1 λ 2 + y2 2 1 λ 2 (624) 2

112 62 LOI NORMALE À 2 DIMENSIONS 95 On calcule aisément les valeurs propres λ 2 1 et λ 2 2 de V : λ 2 1,2 = 1 2 (σ2 1 + σ2 2 ± [(σ2 1 σ2 2 )2 + 4ρ 2 σ 2 1 σ2 2 ] 1 2 ) (625) Avec la convention λ 2 1 λ 2 2, λ 2 1 correspond au signe + et λ 2 2 au signe Soit g(y 1, y 2 ) la densité de probabilité de la loi normale exprimée avec les nouvelles variables y La condition g(y) = 1 permet de calculer la constante de normalisation et l on obtient : g(y 1, y 2 ) = { 1 exp 1 ( )} y 2 1 2πλ 1 λ 2 2 λ 2 + y2 2 1 λ 2 (626) 2 Le changement de base correspond au changement de variables aléatoires (X µ) = UY Nous venons donc de montrer que Y possède la densité (626) et que ses composantes Y 1, Y 2 sont normales, indépendantes, de moyennes nulles et ont pour variances λ 2 1 et λ2 2 Calculons maintenant la matrice U qui diagonalise A En tant que matrice unitaire dans R 2, U est une matrice de rotation d angle φ : ( ) cosφ sin φ U = (627) sin φ cosφ Calculons les éléments de cette matrice avec la convention que π 2 < φ π 2, et que le vecteur propre (cosφ, sin φ) correspond à la valeur propre λ 2 1 On trouve alors, à une constante multiplicative près : ( ) ( ) cosφ λ 2 1 σ2 2 (628) sinφ ρσ 1 σ 2 D un point de vue numérique, cette formule est valable dans la plupart des cas, sauf si λ 1 σ2 2 avec ρ 0 Dans ce cas il vaut mieux employer la formule : ( ) ( ) cosφ ρσ1 σ 2 sinφ λ 2 1 (629) σ2 1 On peut également utiliser la formule : tan 2φ = 2ρσ 1σ 2 σ1 2, (630) σ2 2 qui donne deux valeurs de l angle φ différant de π 2 et correspondant au grand axe et au petit axe de l ellipse, mais cette formule, à elle seule, ne permet pas de les distinguer 625 Ellipses d égale probabilité La réduction de la forme quadratique (x µ) t V 1 (x µ) à sa forme canonique (624) a bien mis en évidence que cette forme était définie positive L équation Q(x 1, x 2 ) = k 2 est donc l équation d une ellipse centrée sur la moyenne µ Le nouveau couple de coordonnées (y 1, y 2 ), défini par la matrice de changement de base U, correspond à deux axes passant par le centre de l ellipse et confondus avec le grand axe et le petit axe de l ellipse Le long de cette ellipse, la densité de probabilité de la loi normale 2D est constante et vaut : f(x) = 1 2πσ 1 σ 2 exp{ 1 2 k2 } (631)

113 96 CHAPITRE 6 LOIS NORMALES 1 x x 1 FIG 63 Ellipses de corrélation de la loi normale 2D pour µ 1 = µ 2 = 0, σ 1 = σ 2 = 1 et de coefficient de corrélation prenant successivement les valeurs ρ = 00, 02, 05, 07 et 09 Ces ellipses restent inscrites dans le rectangle ( ici un carré ) de dispersion Les ellipses de corrélation contiennent la probabilité γ = 1 exp{ k 2 /2}, [voir plus loin l équation (645)] Ici, avec k 2 = 1, on a γ = 393% Choisissons la constante k 2 = 1 L ellipse ainsi obtenue est appelée ellipse de corrélation, voir figure 63 Convenons d appeler rectangle de dispersion, le rectangle de côtés parallèles aux axes et circonscrit à l ellipse de corrélation Nous allons montrer que la longueur des côtés de ce rectangle est égale à 2σ 1 et 2σ 2 Pour cela, nous devons chercher le lieu des points stationnaires dx 1 = 0 et dx 2 = 0, sur l ellipse Q(x 1, x 2 ) = 1 Pour simplifier on supposera que l on a translaté les axes sur le centre de l ellipse et qu alors µ 1 = µ 2 = 0 de façon a ce que la forme Q soit homogène pour les variables x 1 et x 2 Sur l ellipse, la forme Q est constante et donc : dq = Q x 1 dx 1 + Q x 2 dx 2 = 0 (632) Cherchons, par exemple, les points tels que dx 1 = 0, dx 2 étant non-nul, la condition (632) impose Q/ x 2 = 0 Remplaçons cela dans la forme quadratique qui, étant homogène, peut s écrire : Q = 1 2 ( x 1 Q x 1 + x 2 Q x 2 ) = 1 (633)

114 62 LOI NORMALE À 2 DIMENSIONS 97 Il vient 1 2 x 1 Q/ x 1 = 1 Nous devons à présent résoudre le système : Ce système a pour solution : 1 2 x Q 1 = x ( 1 x1 x 1 1 ρ 2 σ 2 1 ρ x ) 2 = 1, σ 1 σ 2 ) Q x 2 = 2 1 ρ 2 ( ρ x 1 σ 1 σ 2 + x 2 σ 2 2 = 0 x 1 = ±σ 1, (634) x 2 = ρ σ 2 σ 1 x 1 = ±ρσ 2 (635) De la même façon on trouverait pour le lieu des points tels que dx 2 = 0 : x 1 = ρ σ 1 σ 2 x 2 = ±ρσ 1, (636) x 2 = ±σ 2 (637) Notons que les équations (635) et (637) sont identiques aux droites de régression (615) et (616) La figure 64 présente une interprétation géométrique des propriétés qui viennent d être démontrées x 2 µ 2 D 2 σ 2 ρσ 1 D 1 ρσ 2 σ 1 x 1 µ 1 Q(x 1, x 2 ) = 1 FIG 64 Interprétation géométrique du rectangle de dispersion associé à une loi normale 2D Ce rectangle est circonscrit à l ellipse de corrélation Q(x 1, x 2 ) = 1 et a pour côtés 2σ 1 et 2σ 2 La droite D 1 est la droite de régression de ξ 2 par rapport à ξ 1 et D 2 la droite de régression de ξ 1 par rapport à ξ 2 Sur ce graphique on a σ 1 = 3, σ 2 = 2 et ρ = 05

115 98 CHAPITRE 6 LOIS NORMALES Contenu en probabilité des ellipses d égale probabilité Cherchons maintenant le contenu en probabilité P k 2 des ellipses Q(x 1, x 2 ) = k 2 que nous venons de définir Il faut pour cela évaluer l intégrale suivante : P k 2 = Pr { X 1, X 2 Q(X 1, X 2 ) k 2} = Q(u,v) k 2 f(u, v)dudv (638) La quantité P k 2 étant la probabilité d un certain événement A, elle ne dépend pas d un choix particulier des variables aléatoires choisies pour le représenter à la condition qu il y ait bijection entre ces variables aléatoires Cette dernière condition est automatiquement remplie lorsque le déterminant de la matrice de changement de base n est pas nul Effectuons maintenant une translation de vecteur µ suivie d un changement de base linéaire de matrice U Λ Les nouvelles coordonnées y sont, par définition, telles que (x µ) = UΛy La forme quadratique devient alors : (x µ) t V 1 (x µ) = (UΛy) t V 1 (UΛy) (639) = y t ΛU } t V {{ 1 U } Λy (640) Λ 2 = y t y = y1 2 + y2 2 = k2 (641) Avec ces nouvelles coordonnées, la densité de probabilité vaut maintenant : Il est à présent facile d évaluer P k 2 : f y (y 1, y 2 ) = 1 2π exp{ 1 2 (y2 1 + y 2 2)} (642) P k 2 = 1 exp{ 1 2π 2 (u2 + v 2 )} dudv (643) u 2 +v 2 k 2 Le changement de variable u = r cosϕ, v = r sinϕ, nous permet finalement d écrire : P k 2 = 1 2π d où la probabilité cherchée : 2π 0 dϕ k 0 exp{ 1 2 r2 }r dr, (644) P k 2 = 1 e 1 2 k2 (645) Cette quantité ne dépend pas du coefficient de corrélation ρ ni d aucun autre paramètre de la loi normale Un tel comportement était prévisible, car P k 2, en tant que probabilité, doit être invariante par translation et changement d échelle (qui sont des bijections) ce qui la rend indépendante de µ 1, µ 2 et de σ 1, σ 2, mais aussi par rotation (qui est aussi une bijection) ce qui la rend indépendante de ρ Par ailleurs, sous ces transformations linéaires, une forme quadratique reste une forme quadratique, et on aurait pu se placer dans le cas µ 1 = µ 2 = 0, σ 1 = σ 2 = 1, ρ = 0, ce qui menait directement à l équation (643)

116 62 LOI NORMALE À 2 DIMENSIONS Forme matricielle de la loi normale 2D Nous avons vu que l on pouvait mettre l argument de l exponentielle de la loi normale sous la forme : 1 2 (x µ)t V 1 (x µ), (646) où V est la matrice des variances-covariances du couple de variables aléatoires X 1, X 2 Nous avons également vu que le changement de variable (x µ) = U Λy, où U est la matrice des vecteurs propres de V et Λ la matrice diagonale formée des racines carrées des valeurs propres de V, transformait cet argument en une simple somme de carrés Avec ces nouvelles variables y, la loi normale s écrit maintenant : f Y (y 1, y 2 ) = 1 2π e 1 2 y ty (647) Calculons ce que devient la constante de normalisation au cours du changement de base inverse La probabilité doit être conservée, de telle façon que : f Y (y 1, y 2 )dy 1 dy 2 = f X (x 1, x 2 )dx 1 dx 2, (648) mais dy 1 dy 2 = J dx 1 dx 2, où J est le jacobien du changement de base Le changement de base est ici linéaire et le jacobien est alors égal au déterminant de la matrice de changement de base : d où la forme matricielle de la loi normale 2D : J 1 = det(uλ) = detλ, (649) detλ = det(u t V U) = detv, (650) f(x 1, x 2 ) = 1 2π(detV ) 1 2 exp{ 1 2 (x µ)t V 1 (x µ)} (651) 627 Lois marginales Pour obtenir les densités de probabilité des lois marginales, il faut intégrer f(u, v) sur les demi-plans D x1 et D x2 définis respectivement par les équations u x 1 et v x 2 puis dériver par rapport aux variables x 1 et x 2 : f 1 (x 1 ) = d f(u, v)dudv, (652) dx 1 D x1 f 2 (x 2 ) = d f(u, v)dudv (653) dx 2 D x2 Il n est cependant pas nécessaire de calculer ces intégrales, on peut trouver les densités marginales en utilisant les relations (336) qui lient entre elles les densités 2D, conditionnelles et marginales Pour f 1 par exemple on a : f 1 (x 1 ) = f(x 1, x 2 ) f X2 X 1 (x 2 X 1 = x 1 ) (654)

117 100 CHAPITRE 6 LOIS NORMALES La loi conditionnellef( x 1 ) est donnée par une expression analogue à l équation (613) et il vient en réarrangeant un peu les termes de cette expression : 2πσ2 (1 ρ 2 ) 1 2 f 1 (x 1 ) = 2πσ 1 σ 2 (1 ρ 2 ) 1 2 { [ 1 (x1 µ 1 ) 2 exp 2(1 ρ 2 ) σ1 2 2ρ(x 1 µ 1 )(x 2 µ 2 ) + (x 2 µ 2 ) 2 σ 1 σ 2 σ2 2 { exp 1 2(1 ρ 2 ) [ (x2 µ 2 ) σ 2 ρ (x 1 µ 1 ) σ 1 La plupart des termes des exponentielles disparaissent deux à deux et il reste : f 1 (x 1 ) = { 1 exp 2πσ1 1 2(1 ρ 2 ) D où l expression de la loi marginale de X 1 : f 1 (x 1 ) = 1 { exp 1 2πσ1 2 ]} [ (x1 µ ) ( 2 1 ρ 2 x 1 µ ) ]} 2 1 σ 1 σ 1 (x 1 µ 1 ) 2 De la même façon on trouverait pour la loi marginale de X 2 : f 2 (x 2 ) = 1 { exp 1 2πσ2 2 σ 2 1 (x 2 µ 2 ) 2 σ 2 2 ] 2 } } (655) }, (656) ce qui démontre que les lois marginales de la loi normale 2D sont des lois normales 1D de même moyenne et de même variance que la loi 2D Notons que ces lois ne dépendent pas du coefficient de corrélation ρ 63 Loi normale à n dimensions Un vecteur aléatoire X = (X 1,,X n ) suit une loi normale à n dimensions (nd) s il possède une densité de probabilité donnée par l expression : f(x) = 1 (2π) n 2 (det V ) 1 2 exp{ 1 2 (x µ)t V 1 (x µ)}, (657) où µ désigne un vecteur colonne à n composantes : (µ 1,,µ n ) et V une matrice carrée symétrique définie positive possédant n lignes et n colonnes C est une loi à n(n + 3)/2 paramètres : n paramètres pour µ et n(n + 1)/2 pour V Puisque V est définie positive on a detv > 0 et V 1 existe, l expression (657) a donc un sens La matrice V 1 est également définie positive et l expression Q(x) = (x µ) t V 1 (x µ) représente alors une forme quadratique définie positive homogène en x µ L équation Q(x) = k 2 est celle d un ellipsoïde, l ellipsoïde Q(x) = 1 est dit : ellipsoïde de corrélation On note N(µ, V ) un vecteur aléatoire qui suit une loi normale nd de paramètres µ et V On démontrera au paragraphe 635 que µ et V sont respectivement la moyenne et la matrice des variances-covariances du vecteur X

118 63 LOI NORMALE À N DIMENSIONS Fonction caractéristique nd La fonction caractéristique Z(ω) est l espérance des variables aléatoires complexes e iωtx Il vient : Z(ω) = exp{ 1 2 ωt V ω} exp{iω t µ} (658) 632 Changement de variable linéaire Nous allons montrer qu une combinaison linéaire non-singulière des variables aléatoires normales X reste normale Plus précisément, nous avons le théorème suivant : Théorème 61 Soit X une variable aléatoire normale à n dimensions de moyenne µ et de matrice des variances-covariances V Soit un changement de variable linéaire : Y = BX, où B est une matrice carrée régulière Les nouvelles variables aléatoires sont alors normales à n dimensions, de moyenne Bµ et de matrice des variances-covariances BV B t Soit : [ X = N(µ, V ), det B 0 ] = [ BX = N(Bµ, BV B t )] (659) Démonstration Nous savons, d après les résultats établis en 563 dans le cadre des changements de variables linéaires, que Y possède une moyenne BX et une matrice des variances-covariances BV B t Le seul élément nouveau est que la variable Y reste normale La matrice B étant régulière, B 1 existe et le changement de variables est bijectif On obtient alors la densité f Y de Y à partir de celle de X à l aide de la formule : f Y (y) = f X(x) J 1, où J est le jacobien du changement de variables ( voir équation (420) page 59 ) Ce changement de variables étant linéaire, on a J = det B La forme quadratique (x µ) t V 1 (x µ) devient (B 1 y µ) t V 1 (B 1 y µ) et en posant µ = Bµ il vient (y µ ) t (B 1 ) t V 1 B 1 (y µ ) = (y µ ) t (BV B t ) 1 (y µ ) Ce calcul montre que la forme quadratique en x reste une forme quadratique en y et qu ainsi la loi suivie par Y est normale On vérifie que la constante devant la densité de la loi normale suivie par Y est divisée par detb de sorte que sa densité s écrit bien : f Y (y) = 1 (2π) n 2 (detv ) 1 2 exp{ 1 2 (y µ ) t V 1 (y µ )}, (660) avec µ = Bµ et V = BV B t La table 62 donne les caractéristiques numériques de certains changements de variables linéaires Variable X X-µ BX U t (X-µ) Λ 1 U t (X-µ) Moyenne µ 0 Bµ 0 0 Variances-Covariances V V BV B t Λ 2 I TAB 62 Caractéristiques numériques de certains changements de variable où la variable aléatoire X suit une loi normale à n dimensions ( nd ) La matrice unitaire U est la matrice de changement de base qui diagonalise V, elle est telle que Λ 2 = U t V U La matrice I est la matrice identité et 0 la matrice nulle Les nouvelles variables aléatoires définies par ces transformations suivent toutes la loi normale nd

119 102 CHAPITRE 6 LOIS NORMALES Exemple 61 Somme et différence de deux variables aléatoires normales corrélées Soit X une variable aléatoire suivant la loi normale 2D de moyenne µ et de matrice des variances-covariances V donnée par l expression (617) On cherche la loi suivie par la nouvelle variable aléatoire Y = BX, de composantes Y 1, Y 2 telles que : Y 1 = X 1 + X 2, Y 2 = X 1 X 2 On a alors : B = « D après les résultats ci-dessus, la nouvelle variable aléatoire Y suit une loi normale (2D) de moyenne µ = Bµ et de matrice des variances-covariances V = BV B t (voir table 62) On a pour la moyenne : «««µ 1 1 µ1 µ1 + µ 2 = =, (661) 1 1 µ 1 µ 2 et pour la nouvelle matrice des variances-covariances V : µ 2 «««V 1 1 σ 2 = 1 ρσ 1σ ρσ 1σ 2 σ «V σ 2 = 1 + 2ρσ 1σ 2 + σ2 2 σ1 2 σ2 2 σ1 2 σ2 2 σ1 2 2ρσ 1σ 2 + σ2 2 (662) Les lois suivies par X 1 + X 2 et X 1 X 2 sont les lois marginales de Y, d après le résultat du paragraphe 627 ce sont des lois normales La table 63 donne l expression de la moyenne et de la variance de la somme et de la différence de deux variables aléatoires normales corrélées Variable X 1 X 2 X 1 + X 2 X 1 X 2 Moyenne µ 1 µ 2 µ 1 + µ 2 µ 1 µ 2 Variance σ1 2 σ2 2 σ ρσ 1σ 2 + σ2 2 σ1 2 2ρσ 1σ 2 + σ2 2 TAB 63 Moyenne et variance de la somme et de la différence de deux variables aléatoires normales corrélées, ρ est leur coefficient de corrélation Cette somme et cette différence suivent des lois normales On retrouve le résultat classique dans le cas ρ = Loi normale nd réduite Un vecteur aléatoire X suit la loi normale nd réduite si, dans l expression (657) précédente, µ est nul et V est la matrice identité Sa densité de probabilité s écrit alors : f(x) = 1 (2π) n 2 exp{ 1 2 n n x 2 i } = 1 exp{ 1 2π 2 x2 i } (663) i=1 La dernière égalité montre que les composantes X i du vecteur X suivent la loi normale réduite et sont mutuellement indépendantes i=1 634 Réduction des variables normales quelconques Il est toujours possible de transformer un vecteur aléatoire normal X quelconque en un vecteur Y normal réduit Il suffit pour cela de réduire la forme quadratique Q à sa forme diagonale

120 63 LOI NORMALE À N DIMENSIONS 103 Théorème 62 Soit X un vecteur aléatoire normal de paramètres µ et V Il existe alors une matrice diagonale Λ et une matrice unitaire U telles que le vecteur aléatoire Y défini par le changement de variable : X µ = UΛY, (664) suit la loi normale nd réduite La matrice Λ 2 est la matrice des valeurs propres de V et la matrice U est la matrice unitaire de ses vecteurs propres, Λ et U satisfont donc les relations : U 1 = U t, Λ 2 = U t V U (665) Démonstration La densité de probabilité du vecteur X µ est symétrique en x µ, elle est donc de moyenne nulle, soit : E{X µ} = 0 On passe ensuite des variables X µ aux variables Y par le changement de variable linéaire de matrice : B = Λ 1 U t, la matrice V étant définie positive ses valeurs propres sont strictement positives et par conséquent Λ 1 existe D après le théorème 61, le vecteur Y suit une loi normale de moyenne : E{Y } = Λ 1 U t E{X µ} = 0 et de matrice des variances-covariances : Λ 1 U t V (Λ 1 U t ) t = Λ 1 U t V UΛ 1 Par hypothèse on a les expressions (665) et la matrice des variances-covariances de Y s écrit Λ 1 Λ 2 Λ 1 = I Ce dernier point démontre que la variable aléatoire Y suit effectivement une loi normale réduite Le changement de variable s écrit explicitement : y = Λ 1 U t (x µ), (666) il exprime que pour obtenir les variables y à partir des variables x, il faut d abord procéder à une translation puis à une rotation et enfin à un changement d échelle Au cours de ces transformations l ellipse de corrélation devient un cercle de rayon unité centré sur l origine des axes 635 Caractéristiques numériques de la loi normale à plusieurs variables Moyenne et matrice des variances-covariances Le théorème précédent permet de trouver la signification des paramètres µ et V entrant dans l expression de la densité de probabilité du vecteur aléatoire X Ce sont respectivement la moyenne et la matrice des variances-covariances de X, on a : E{X} = µ, (667) E{(X µ)(x µ) t } = V (668) Démonstration D après le théorème 62 on a E{Y } = 0 et E{Y Y t } = I, il vient pour la moyenne : E{X µ} = E{UΛY } = UΛE{Y } = 0 d où le premier résultat Pour la matrice des variances-covariances, par définition elle est égale à : E{(X E{X})(X E{X}) t } = E{(X µ)(x µ) t } = E{UΛY Y t ΛU t } = UΛE{Y Y t }ΛU t d où E{(X E{X})(X E{X}) t } = UΛ 2 U t = V La matrice V est bien, comme nous l avions annoncé, la matrice des variancescovariances du vecteur aléatoire X

121 104 CHAPITRE 6 LOIS NORMALES Ainsi la loi normale à n dimensions est entièrement déterminée par la donnée de ses moments jusqu à l ordre deux Les éléments µ i du vecteur µ sont les moyennes des lois marginales suivie par les variables X i Les éléments ρ ij σ i σ j de la matrice V sont les covariances des couples (X i, X j ), les ρ ij en sont les coefficients de corrélation et les σ i les écarts types On a : σ 2 1 ρ 12 σ 1 σ 2 ρ 1n σ 1 σ n ρ 12 σ 2 σ 1 σ2 2 ρ 2n σ 2 σ n V = (669) ρ 1n σ n σ1 2 ρ 2n σ 2 σ n σn Lois marginales et conditionnelles Les lois marginales et conditionnelles distinguent certaines composantes du vecteur aléatoire X, en nombre r, dites variables «actives» par rapport aux n r restantes dites «inactives» Rappelons que pour obtenir les lois marginales on intègre sur les variables inactives alors qu on les considère constantes pour obtenir les lois conditionnelles Afin de simplifier l exposé, nous supposons que les variables actives sont les r premières composantes du vecteur X Ce vecteur peut alors être partitionné suivant le schéma : (X 1,, X } {{ } r, X r+1,,x n X 0 } {{ } X 1 ) (670) A cette partition correspond une partition équivalente des valeurs x prises par X et de la moyenne µ respectivement en (x 0, x 1 ) et (µ 0, µ 1 ) La matrice des variances-covariances et son inverse se partitionnent en 4 matrices blocs : V = ( ) V 00 V 01, V 1 = V 10 V 11 ( ) A00 A 01 A 10 A 11 Les matrices V 00 et V 11 sont carrées et symétriques respectivement de format (r, r) et (n r, n r) Les matrices V 01 et V 10 sont rectangulaires, de format (r, n r) et (n r, r), on a V 10 = V t 01 Il existe des propriétés analogues pour les matrices blocs composant V 1 Lois marginales Moments Les moments des variables aléatoires X 0 sont les mêmes, qu ils soient calculés suivant la loi nd ou suivant la loi marginale correspondante, ceci signifie que la moyenne de X 0 est égale à µ 0 et que sa matrice des variances-covariances est égale à V 00 En particulier on a : E{X i } = µ i, Var(X i ) = σ 2 i, Cov(X i, X j ) = ρ ij σ i σ j (671) Densité de probabilité Nous allons maintenant montrer que les lois marginales suivent aussi une loi normale Dans ce but considérons la forme quadratique Q = (x µ) t V 1 (x µ) entrant dans l expression de la loi normale Éliminons les moyennes à l aide du changement de variable bijectif y = x µ et développons Q suivant la partition Il vient : Q = y t 0 A 00y 0 + 2y t 0 A 01y 1 + y t 1 A 11y 1 (672)

122 63 LOI NORMALE À N DIMENSIONS 105 Afin d éliminer le terme croisé y t 0A 01 y 1, effectuons un deuxième changement de variable, lui aussi bijectif : z 1 = y 1 + a Il est immédiat de déterminer que la constante a qui réalise cette élimination est a = A 1 11 A 10y 0 On trouve alors : Q = y t 0(A 00 A 01 A 1 11 A 10)y 0 + z t 1A 11 z 1 Q 0 + Q 1 (673) Nous venons donc de montrer que la loi nd pouvait se mettre sous la forme du produit de deux lois normales, une rd par une (n r)d On obtient la loi marginale en intégrant sur les variables y 1 ou, ce qui revient au même, sur les variables z 1 La deuxième loi normale donne 1 par intégration, de sorte qu il ne reste plus dans l expression de la loi marginale que le premier terme Q 0, ce qui montre que la loi marginale est normale Par ailleurs nous savons que sa matrice des variances-covariances est égale à V 00, ce qui implique nécessairement que : V 1 00 = A 00 A 01 A 1 11 A 10 (674) En revenant aux variables initiales, on trouve la densité de probabilité de la loi marginale suivie par X 0 : f X0 (x 0 ) = 1 (2π) 1 2 dim X0 (det V 00 ) 1 2 exp{ 1 2 (x 0 µ 0 ) t V 1 00 (x 0 µ 0 )}, (675) où dimx 0 est égal à la dimension du vecteur X 0 ( ici dimx 0 = r ) Lois conditionnelles Afin de déterminer, par exemple, la densité conditionnelle de X 1 connaissant X 0 : f X1 X 0, nous allons de nouveau utiliser la relation qui lie la densité de X avec les densités marginales et conditionnelles Cette relation s écrit : f X0 X 1 (x 0, x 1 ) = f X0 (x 0 )f X1 X 0 (x 1 X 0 = x 0 ) (676) Dans cette formule, nous avons noté f X0X 1 la densité de probabilité du vecteur X qui, d après (673) et (674), peut s écrire : 1 f X0 X 1 (x 0, x 1 ) = (2π) n 2 (det V ) 1 2 exp{ 1 2 y 0 t V 1 00 y 0 + z t 1 A 11z 1 }, (677) avec y 0 = x 0 µ 0, y 1 = x 1 µ 1 et z 1 = y 1 + A 1 11 A 10y 0 En divisant la densité nd (677) par la densité marginale (675) on obtient la densité conditionnelle cherchée Après simplification des termes de l exponentielle, il ne reste que la forme quadratique Q 1 = z t 1 A 11z 1, on en déduit l expression de la densité conditionnelle : f X1 X 0 (x 1 X 0 = x 0 ) = (det A 11) 1 2 (2π) n r 2 exp{ 1 2 zt 1 A 11z 1 } (678) En revenant aux variables initiales la forme quadratique Q 1 s écrit : Q 1 (x 1 ) = (x 1 µ 1 + A 1 11 A 10y 0 ) t A 11 (x 1 µ 1 + A 1 11 A 10y 0 ), (679) ce qui montre que la densité conditionnelle f X1 X 0 est celle d une variable aléatoire normale de moyenne µ 1 A 1 11 A 10y 0 et de matrice des variances-covariances A 1 11

123 106 CHAPITRE 6 LOIS NORMALES En interchangeant les indices 0 et 1 et les symboles A et V dans (674) on trouve que : A 1 11 = V 11 V 10 V 1 00 V 01 En exprimant que V V 1 = V 1 V = I avec les blocs, on trouve que A 1 11 A 10 = V 10 V 1 00 Ce qui permet d exprimer la moyenne et la matrice des variances-covariances de la loi conditionnelle en fonction de la moyenne et la matrice des variances-covariances de la loi à n dimensions Ces expressions sont données ci-dessous Moyenne et variances conditionnelles Dans le paragraphe précédent, nous avons obtenu la moyenne et la matrice des variances-covariances de la loi conditionnelle de X 1 sachant que X 0 = x 0 On a pour la moyenne conditionnelle : E{X 1 X 0 = x 0 } = µ 1 + V 10 V 1 00 (x 0 µ 0 ) (680) Soit µ 1 0 cette valeur, il vient pour la matrice des variances-covariances conditionnelle : E{(X 1 µ 1 0 )(X 1 µ 1 0 ) t X 0 = x 0 } = V 11 V 10 V 1 00 V 01 (681) Par permutation des indices 0 et 1, on obtient pour la loi conditionnelle de X 0 sachant que X 1 = x 1 : E{X 0 X 1 = x 1 } = µ 0 + V 01 V 1 11 (x 1 µ 1 ), (682) E{(X 0 µ 0 1 )(X 0 µ 0 1 ) t X 1 = x 1 } = V 00 V 01 V 1 11 V 10 (683) Densité de probabilité conditionelles Les densités conditionelles étant normales, elles sont entièrement déterminées par la donnée de leurs moyennes et de leurs matrices des variances-covariances Ces quantités peuvent être trouvées ci-dessus, il suffit alors de préciser la constante de normalisation que nous donnons en fonction de la matrice V et de ces blocs associés Il vient pour la densité de X 1 connaissant X 0 : [ f X1 X 0 (x 1 x 0 )] : et pour celle de X 0 connaissant X 1 : [ f X0 X 1 (x 0 x 1 )] : 1 [ detv ] , (684) (2π) 1 2 dim X1 detv 1 [ detv ] (685) (2π) 1 2 dim X0 detv Exemple 62 Une seule variable fixée Soit X un vecteur aléatoire normal de moyenne µ = 0 et de matrice des variances-covariances V On demande la moyenne et la matrice des variances-covariances de la loi conditionnelle de X lorsqu une variable est connue Supposons que la variable connue soit la dernière composante de X Réalisons une partition de X suivant le schéma (670), on a X 1 = X n et il vient : V 00 V 01 V 10 V 11 «= 0 µ 0 = 0, µ 1 = 0, σ1 2 ρ 1,n 1σ 1σ n 1 ρ 1nσ 1σ n ρ n 1,1σ n 1σ 1 σn 2 ρ n 1,nσ n 1σ n ρ n1σ nσ 1 ρ n,n 1σ nσ n 1 σn 2 1 C A

124 63 LOI NORMALE À N DIMENSIONS 107 En appliquant les résultats (682) et (683), on trouve la moyenne conditionelle : µ et la matrice des variances-covariances conditionelle : V du vecteur X 0 sachant que X 1 = x n : µ = V 01V 1 11 x n = 0 ρ 1n σ 1 σ n ρ 2n σ 2 σ n σ n 1 ρ n 1,n σ n 1 x n, (686) C A V = V 00 V 01V 1 11 V 10 0 σ1(1 2 ρ 2 1 1n) σ 1σ n 1(ρ 1,n 1 ρ 1nρ n,n 1) B C A σ n 1σ 1(ρ n 1,1 ρ n 1,nρ n1) σn 1(1 2 ρ 2 n 1,n) (687) On constate alors que l effet du conditionnement est de modifier les covariances et les coefficients de corrélations entre les variables restées actives En particulier l écart type des variables actives est réduit du fait de leur corrélation éventuelle avec la variable connue ( inactive ) Si ρ (n) ij désigne le coefficient de corrélation des variables X i et X j connaissant X n, il vient : ρ (n) ij = ρ ij ρ inρ jn [1 ρ 2 in ]1 2 [1 ρ 2 jn ]1 2 (688) Si l on pose x n = σ 2 n dans l équation (686) on obtient µ = V 01 ce qui veut dire qu en ce point les coordonnées de la moyenne conditionelle µ dans l espace R n où se répartit X est identique à la n e colonne de la matrice V des variances-covariances de X 637 Ellipsoïde d égale densité Rappelons que le lieu des points où Q(x) = k 2 est un ellipsoïde Sur cet ellipsoïde la densité de probabilité f(x) de la loi normale nd est constante Cet ellipsoïde est appelé l ellipsoïde d égale densité de probabilité ou plus simplement l ellipsoïde d égale densité Nous avons déjà mentionné que si l on pose k 2 = 1 cet ellipsoïde prend alors le nom d ellipsoïde de corrélation On peut également montrer que l hyper-rectangle (de dispersion) parallèle aux axes x i et circonscrit à l ellipsoïde de corrélation, possède des arêtes de longueurs 2σ i Nous énonçons cette propriété sous une forme équivalente dans le théorème qui suit Théorème 63 Soit X un vecteur aléatoire normal à n dimensions de moyenne µ et de matrice des variances-covariances V Les valeurs extrêmes atteintes par les coordonnées x de l ellipsoïde d égale probabilité d équation : Q(x) = k 2 sont égales à µ i ± kσ i Plus précisément on a : min x i {x i Q(x) = k 2 } = µ i kσ i, où Q(x) = (x µ) t V 1 (x µ) et σ 2 i max x i {x i Q(x) = k 2 } = µ i + kσ i, (689) est le i-ème élément diagonal de V On notera que ces valeurs extrêmes sont indépendantes des coefficients de corrélations ρ ij Démonstration Sans nuire à la généralité de la démonstration nous allons supposer que µ = 0 et chercher les extrema de Q(x) sur l axe x n Considérons la densité conditionnelle de X

125 108 CHAPITRE 6 LOIS NORMALES sachant que X n = kσ n Cette densité est celle d une loi normale de moyenne, dans l espace R n, notée µ n D après le résultat de l exemple 62, µ n a pour coordonnées : µ n = k σ n V n, où V n désigne le n e colonne de la matrice V Évaluons la forme quadratique Q au point µ n, il vient : Q(µ n ) = µ t n V 1 µ n = k2 V t nv 1 V σn 2 n = k2 V t σn 2 n B 0A = k2 1 La densité conditionnelle en tant que densité normale est unimodale et son mode est égal à sa moyenne Le point µ n est alors l unique point où Q(x x n = kσ n) est égal à k 2, il s agit du point de tangence du plan x n = kσ n avec l ellipsoïde Q(x) = k 2 et donc du point extrême de cet ellispoïde On obtient le maximum en x n = kσ n et le minimum en x n = kσ n 638 Composantes principales Considérons la variable aléatoire Y définie par le changement de variables aléatoires (X µ) = UY, notons x et y les valeurs prises par les anciennes (X) et les nouvelles (Y ) variables aléatoires On a (x µ) = Uy De façon triviale, la translation de vecteur µ ne change que la moyenne de la densité qui devient nulle Le changement de base de matrice U suivant la discussion de la section 639 est tel que B = U 1 = U t avec detu = 1 En appliquant les résultats résumés dans la table 62 on trouve que la matrice des variances-covariances de Y est égale à U t V U Cette expression est, d après (665), identique à Λ 2 La densité de Y est donc égale à : f Y (y) = 1 (2π) n 2 detλ exp{ 1 2 yt Λ 2 y}, y t Λ 2 y = n y 2 i λ 2 i=1 i (690) Les composantes Y i de Y suivent bien une loi normale de moyenne nulle et de variance λ 2 i Elles sont également non-corrélées et donc indépendantes dans le cas particulier de la loi normale (voir table 62) Les vecteurs propres orthonormés rangés en colonne dans U sont appelés les «composantes principales» de la loi, ils correspondent aux axes principaux des ellipsoïdes d égale probabilité On note u i ces composantes principales et on les considère en général comme étant rangées dans l ordre croissant des valeurs propres λ i En écrivant le changement de variable à l aide des u i on obtient : X µ = n Y i u i (691) L expression précédente montre que les composantes principales permettent de décomposer le vecteur aléatoire X sur une base orthonormée non aléatoire formée des vecteurs propres de sa matrice des variances-covariances Les coefficients Y i de la décomposition sont des variables aléatoires non-corrélées (et dans le cas normal ils suivent une loi normale et sont donc indépendants), leur moyenne est nulle et leur variance est égale à la valeur propre λ 2 i qui correspond à la composante principale de même indice Cette décomposition en composantes principales ou encore «canonique» jouit de nombreuses propriétés remarquables Par exemple, l hyper-rectangle de dispersion associé à la base des composantes principales est de volume minimum, voir figure 65 i=1

126 63 LOI NORMALE À N DIMENSIONS 109 Cette démonstration simple repose sur le fait qu une matrice définie positive (comme V ) a un déterminant toujours inférieur ou égal au produit de ses éléments diagonaux (voir Bellman 1970, [6]) Cette décomposition possède également plusieurs propriétés optimales vis-à-vis de la troncature de la somme (691) Cette décomposition et ses «bonnes» propriétés se généralisent au cas où la loi suivie par X n est pas normale 639 Loi du χ 2 Un ellipsoïde d égale densité Q(x) = k 2 étant donné, on souhaite calculer la probabilité P k 2 pour qu un point X, suivant la loi normale nd, se trouve à l intérieur de cet ellipsoïde Le point X sera à l intérieur de l ellipsoïde si : χ 2 = (X µ) t V 1 (X µ) k 2 (692) La quantité χ 2 que nous venons d introduire est une variable aléatoire positive On a la relation : P k 2 = Pr { χ 2 k 2}, (693) ce qui exprime que la probabilité cherchée est égale à la fonction de répartition de cette variable aléatoire χ 2 pour l abscisse k 2 Afin de trouver la loi suivie par χ 2, effectuons le changement de variables aléatoires (X µ) = U ΛY étudié plus haut Il vient : χ 2 = Y t Y = n i=1 Y 2 i (694) La variable aléatoire χ 2 est donc la somme des carrés de n variables aléatoires suivant la loi normale réduite Afin de trouver l expression analytique de la fonction de répartition F χ 2 de χ 2 il suffit alors de calculer l intégrale : F χ 2(u) = Pr { χ 2 u } = (2π) n 2 χ 2 u exp{ 1 2 n yi 2 } dy 1 dy n (695) Calculons cette intégrale en coordonnées polaires dans R n Soit r = i y2 i le rayon polaire et Ω l angle solide L étude des intégrales multiples nous apprend d une part que dy 1 dy n = r n 1 drdω, d où : et d autre part, que : F χ 2(u) = (2π) n 2 dω u 0 i=1 e r2 /2 r n 1 dr, (696) dω = 2 Γ( n 2 )π n 2 (697) Dans cette dernière expression, la fonction Γ est la fonction eulérienne de 2 e espèce ( voir annexe A page 331 ) On obtient alors : F χ 2(u) = 2 n 2 +1 Γ( n 2 ) Posons maintenant t = r 2 Il vient : F χ 2(u) = 1 2Γ( n 2 ) u 0 u e t 2 0 e r2 /2 r n 1 dr (698) ( ) n t 2 1 dt (699) 2

127 110 CHAPITRE 6 LOIS NORMALES On trouve la densité de probabilité de la variable aléatoire χ 2 en dérivant F χ 2, soit : f χ 2(u) = 1 ( u ) n 2 1 { 2Γ( n 2 ) exp u }, u 0 (6100) 2 2 Une loi possédant cette densité de probabilité est dite loi du χ 2 à n degrés de liberté 6310 Contenu en probabilité de l ellipsoïde d égale densité A partir de la loi du χ 2 on trouve le contenu en probabilité P k 2 des ellipsoïdes d égale densité Q(x) = k 2, par : P k 2 = Pr { X Q(X) k 2} = F χ 2(k 2 ), (6101) où F χ 2 est la fonction de répartition d une loi du χ 2 dont le nombre de degrés de liberté n est égal à la dimension de l espace où se répartit la variable aléatoire normale X Dans le cas particulier de la loi normale 3D, l expression (6101) prend une forme plus simple : 2 P k 2 = 2Φ(k) 1 π k exp{ 1 2 k2 }, (6102) où Φ est la fonction de répartition de la loi normale 1D réduite 6311 Introduction au test du χ 2 Dans la pratique on utilise la formule (6101) en sens inverse, et elle sert de base à la détection d un signal noyé dans un bruit connu On se donne a priori la probabilité γ pour qu un point tiré au hasard suivant la loi normale nd, tombe dans l ellipsoïde contenant cette probabilité γ On a alors P k 2 γ = γ et l on cherche ensuite la valeur k γ qui correspond à cette probabilité γ On l obtient en inversant l équation (6101) : k 2 γ = F 1 χ 2 (γ) (6103) Puis, étant donné une observation, on calcule à l aide de la formule (692) la valeur du χ 2 qui lui correspond, et on déclare avoir détecté un signal si χ 2 > k 2 γ Ce faisant, et si en fait il n y a pas de signal, on commet une erreur dite de «fausse-alarme» avec une probabilité α égale à 1 γ Cette façon de procéder est connue sous le nom de «test du χ 2», et plus spécifiquement dans le cas 1D et pour γ 0997, sous le nom de «règle des 3 sigmas,» car dans ce cas k γ = 3 La table 64 donne des valeurs de k γ pour différentes valeurs de n et de γ 64 Aspects numériques 641 Quantiles de la loi normale réduite Le quantile Q α de la loi normale réduite est défini par l équation Q α = Φ 1 (1 α), où Φ est la fonction de répartition de la loi normale réduite Par définition, la quantité α est la probabilité pour qu une variable aléatoire dépasse le seuil Q α Le quantile d une loi quelconque, de moyenne µ et d écart type σ est égal à σq α + µ Ce résultat s applique en particulier à la loi normale

128 64 ASPECTS NUMÉRIQUES 111 n k γ=050 k γ 068 k γ=090 k γ=099 k γ 0997 k γ= TAB 64 Table donnant le seuil k γ au delà duquel, suivant le test du χ 2, on refuse l hypothèse que l observation est issue d une loi normale à n dimensions Le test suppose n connu et γ donné On donne ici des valeurs de k γ pour γ = 050, 068, 090, 099, 0997 et 0999 La probabilité de commettre une erreur de type fausse-alarme est de 1 γ Quand n, k 2 γ 1 2 (x 1 γ + 2n 1) 2, où x 1 γ est un quantile de la loi normale réduite Nous prendrons comme approximation de Φ 1 une formule donnée par Abramowitz et Stegun (1970) [2] Cette approximation atteint une précision absolue de ǫ(α) < : Q α = { t R(t) + ǫ(α), t = 2 lnα 0 < α 05, t + R(t) + ǫ(α), t = 2 ln(1 α) 05 < α 10, c 0 + c 1 t + c 2 t 2 R(t) = 1 + d 1 t + d 2 t 2 + d 3 t 3, c 0 = , c 1 = , c 2 = , d 1 = , d 2 = , d 3 = Génération d un couple de variables aléatoires suivant la loi normale 2D A partir d un couple de variables aléatoires X 1, X 2 où chacun des termes suit la loi normale réduite, nous désirons former un couple Y 1, Y 2 suivant la loi normale 2D de moyenne µ et de matrice des variances-covariances V En application directe du changement de variable (666) on trouve : Y 1 = X 1 λ 1 cosφ X 2 λ 2 sinφ + µ 1 Y 2 = X 1 λ 1 sin φ + X 2 λ 2 cosφ + µ 2, où λ 2 1, λ2 2 sont données par la formule (625) et cosφ, sin φ par la formule (628) ou (629) On a simulé les points de la figure 65 page suivante à l aide de ce changement de variables

129 112 CHAPITRE 6 LOIS NORMALES FIG 65 Simulation de points suivant la loi normale 2D de moyenne µ = 0 de variances σ 2 1 = σ 2 2 = 1, et de coefficient de corrélation ρ = 08 On a tracé l ellipse de corrélation, le rectangle de dispersion ( en trait pointillé ) et le rectangle de dispersion correspondant aux axes principaux ( en trait plein ) On a tiré 500 points suivant cette loi On en attendait 1967 en moyenne dans l ellipse de corrélation, ici il y en a Simulation de vecteurs suivant la loi normale nd Le programme RNORMND(X,N,NP, MU,V,SEED, LAMBDA,U,FIRST) retourne dans X un ensemble de N nombres aléatoires suivant la loi normale de moyenne MU et de matrice des variances-covariances V Le programme retourne également dans LAMBDA les éléments diagonaux de la matrice Λ, et dans U les vecteurs propres (composantes principales) de V Les éléments de LAMBDA sont les valeurs singulières de V, c est-à-dire les racines carrées des valeurs propres de V Le paramètre NP est la taille physique des tableaux LAMBDA(NP),V(NP,NP),U(NP,NP) La variable SEED initialise le tirage aléatoire Elle doit être égale soit à un nombre premier assez grand (>1000), soit à 0 auquel cas la série de nombres aléatoires sera répétitive Au premier appel à RNORMND la variable logique FIRST doit être égale à TRUE, on doit ensuite lui donner la valeur FALSE tant que la matrice V reste inchangée Le programme JACOBI est extrait de Numerical Recipes, Press et al(1986) [63] Le programme ci-dessus a été utilisé (voir fig 66) afin de simuler des vecteurs aléatoires de dimension 150, de moyenne nulle (µ = 0) et de matrice V dont les

130 65 EXERCICES ET PROBLÈMES 113 éléments v ij sont tels que v ij = σ 2 ρ i j La matrice V a donc la structure suivante : σ 2 σ 2 ρ σ 2 ρ 2 σ 2 ρ 149 σ 2 ρ σ 2 σ 2 ρ V = σ 2 ρ 2 σ 2 ρ σ 2 (6104) σ 2 ρ 149 σ 2 FIG 66 Simulation de vecteurs suivant la loi normale nd pour n = 150 La moyenne µ est nulle et la matrice des variances-covariances V est donnée par l équation (6104) pour des valeurs de ρ = 09, 05, 0, 05 et 09 Quand ρ = 0, on a un ensemble de 150 variables aléatoires non-corrélées ( et donc indépendantes dans le cas normal ) ; c est ce que l on appelle un «bruit blanc» 65 Exercices et problèmes Exercice 61 Montrer que si les composantes d un vecteur aléatoire X = (X 1,, X n) suivant la loi normale à n dimensions sont 2 à 2 indépendantes, alors elles sont mutuellement indépendantes

131 114 CHAPITRE 6 LOIS NORMALES Exercice 62 Si les variables aléatoires X 1 et X 2 sont indépendantes et suivent la loi normale réduite, montrer que les variables aléatoires Y 1 et Y 2 définies par : Y 1 = exp{ 1 2 (X2 1 + X 2 2)}, Y 2 = 1 X1 arctan, 2π X 2 sont indépendantes et suivent la loi uniforme sur [0, 1] (Box & Muller, 1958, [15]) Exercice 63 Rapport de deux variables aléatoires normales Montrez que le quotient de deux variables aléatoires normales indépendantes N(µ 1, σ 2 1)/N(µ 2, σ 2 2) suit une loi dont la densité de probabilité g(y) est donnée par l expression suivante : g(y) = 1 σ 1σ 2 π σ1 2 + y2 σ2 2 avec h n exp 1 µ σ1 2 Φ 0(z) = 1 Z z 2π 0 o + µ2 2 + n 2πz Φ 0(z) exp 1 (µ 1 µ 2y) 2 oi σ2 2 2 σ1 2 + σ2 2 y2 exp t2 2 dt et z = µ2σ2 1 + yµ 1σ 2 2 σ 1σ 2(σ σ2 2 y2 ) 1 2, (6105) (6106) Montrez que cette loi ne possède pas de moyenne et par conséquent pas de variance non-plus Exercice 64 Effet de sélection Une expérience est décrite par un triplet de variables aléatoires : (X 1, X 2, X 3) que l on suppose normal Les variables X 1 et X 2 sont indépendantes entre elles mais sont corrélées avec X 3 Les coefficients de corrélations de X 1 avec X 3 et de X 2 avec X 3 sont identiques et valent ρ Les variances de X 1, X 2 et X 3 sont respectivement σ 2 1, σ 2 2 et σ 2 3 Donner l expression de la matrice des variances-covariances du triplet (X 1, X 2, X 3) et celle de la matrice des variances-covariances du couple (X 1, X 2) Les conditions expérimentales sont telles que les variables X 1 et X 2 ne sont observables que si X 3 vaut une certaine valeur x 3 Que devient alors la matrice des variances-covariances ( conditionnelle ) du couple (X 1, X 2)? Montrer, en particulier, que ces deux variables apparaissent alors anti-corrélées avec ρ 2 comme coefficient de corrélation [ Note : Si ce conditionnement est ignoré de l expérimentateur, il pourrait déduire d observations du couple (X 1, X 2), que ces variables sont anti-corrélées alors qu en réalité elles sont indépendantes ] Problème 65 Symétrie circulaire On dit qu un couple de variables aléatoires (X, Y ) possède la symétrie circulaire si sa densité de probabilité f ne dépend que de la distance à l origine C est-à-dire si : f(x, y) = g(r), avec r = p x 2 + y 2 Montrer que si les variables aléatoires X et Y possèdent la symétrie circulaire et qu elles sont de plus indépendantes, alors elles suivent chacune une loi normale de moyenne nulle et de même variance ( Papoulis, p133, [56] )

132 Chapitre 7 Inégalités et convergences Ce chapitre traite des suites de variables aléatoires {X 1,,X n, } appartenant à un même espace probabilisé et dont l indice n est indéfini, c est-à-dire en pratique : aussi grand que l on veut Nous noterons {X n } n=1 une telle suite et omettrons le plus souvent les bornes de l indice si la confusion n est pas possible Nous souhaitons donner un sens à des expressions telles que : «la variable aléatoire X n tend vers la variable aléatoire X», ou encore «la loi suivie par la variable aléatoire X n tend vers une loi normale lorsque n» Pour que ces expressions ( et d autres similaires ) aient un sens, il est nécessaire de préciser la notion de convergence dite convergence stochastique d une variable aléatoire vers une autre Afin de dégager les liens qui existent entre les différents types de convergences, nous avons besoin au préalable d établir certaines inégalités 71 Inégalités Nous considérons ci-dessous des inégalités relatives à la théorie de la convergence, on trouvera au chapitre 52 d autres inégalités portant sur des espérances et qui sont elles aussi d une grande importance pratique et théorique 711 L inégalité de Markov Nous établissons d abord le théorème de Markov valable pour des variables aléatoires positives possédant une moyenne Théorème 71 Soit Y une variable aléatoire positive dont la moyenne E{Y } existe et est non nulle On a pour tout λ > 1 : Pr{Y λe{y }} 1 λ (71) Démonstration Par hypothèse la moyenne existe ; soit µ cette moyenne On a : µ = Z 0 y df 0 115

133 116 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES FIG 71 Graphe de la fonction d erreur R(k) = Pr{ X µ /σ k} : probabilité résiduelle au-delà des seuils µ ± kσ, pour des lois possédant une variance σ 2 et donc une moyenne µ D après l inégalité de Bienaymé-Tchébychev la fonction R(k) est bornée supérieurement par 1/k 2 On a porté, en ligne brisée, la fonction R(k) pour la loi de Cauchy qui ne possède pas de moyenne Pour cette loi on a posé µ = 0 et σ = 1 Il en découle les inégalités suivantes : µ Z λµ y df λµ ce qui démontre l inégalité de Markov Z λµ df = λµpr{y λµ}, 712 Les inégalités de type Bienaymé-Tchébychev L inégalité de Bienaymé-Tchébychev Cette inégalité s applique dès qu une loi possède une variance Si la variable aléatoire X possède une variance σ 2 = Var(X), elle possède aussi une moyenne µ = E{X} et par définition son écart type est égal à σ > 0 Dans ces conditions, l inégalité de Bienaymé-Tchébychev stipule que la probabilité pour que X s écarte de sa moyenne de plus que k fois son écart type est inférieure à 1/k 2 C est-à-dire : { X µ } Pr k 1 σ k 2, µ = E{X}, σ = [Var(X)]1 2 (72) En posant h = kσ dans (72) l inégalité s exprime alors sous la forme suivante : Pr{ X µ h} σ2 h 2 (73) On démontre l inégalité de Bienaymé-Tchébychev en posant Y = (X µ) 2 et λ = h 2 dans l inégalité de Markov

134 71 INÉGALITÉS 117 k BT 1/k BT4 3/k 4 (3) BT8 105/k 8 (105) exact R(k) R(k) = 1 [Φ(k) Φ( k)] TAB 71 Bornes supérieures pour l estimation de la fonction d erreur R(k) = Pr{ X E{X} kσ} de la loi normale Les bornes indiquées par BT sont fournies par l inégalité de Bienaymé-Tchébychev aux ordres 2, 4 et 8 Lorsque la borne est supérieure à 1 ( et donc inutilisable ), on a porté le résultat entre parenthèses La borne BT d ordre 2r est donnée par 1 3 (2r 1)/k 2r pour la loi normale Si F désigne la fonction de répartition d une variable aléatoire X continue de moyenne µ et de variance σ 2, on a Pr{ X µ /σ k} = 1 [F(µ+kσ) F(µ kσ)] Introduisons la fonction d erreur R(k) égale à cette dernière expression : c est la probabilité résiduelle au delà des seuils µ ± kσ L inégalité de Bienaymé-Tchébychev nous dit que cette probabilité est majorée par la fonction 1/k 2 La figure 71 illustre cette propriété Se placer dans le cadre des variables aléatoires quelconques ( et non plus simplement continues ) ne pose aucune difficulté de principe mais alourdit considérablement l écriture à cause de la présence éventuelle de bornes discontinues pour µ ± kσ L inégalité de Bienaymé-Tchébychev généralisée Si l on porte dans l inégalité de Markov Y = [g(x)] r, où g est une fonction positive, et λ = h r, on obtient l inégalité de Bienaymé-Tchébychev généralisée : Pr{g(X) h} E{g(X)r } h r pour g > 0 (74) On retrouve (72) en choisissant g(x) = X E{X} et r = 2 Pour r = 4 et pour des lois possédant un moment µ 4 on trouve l inégalité de Bienaymé-Tchébychev d ordre 4 : Pr{ X µ h} µ 4 h 4, µ 4 = E{(X µ) 4 } < (75) Les inégalités de Bienaymé-Tchébychev sont d une grande importance théorique pour établir la convergence d une suite de variables aléatoires, mais elles fournissent des bornes supérieures bien trop grandes pour être utiles dans la pratique Ce défaut est dû à leur généralité : elles s appliquent en effet a toutes les lois dès qu elles possèdent un moment d ordre 2 La table 71 donne les bornes trouvées en utilisant ces inégalités pour la loi normale : on constate que la borne fournie est bien supérieure à la valeur exacte 713 L inégalité de Bernstein Bernstein a amélioré la borne fournie par l inégalité de Bienaymé-Tchébychev dans le cas de variables aléatoires qui sont la somme de variables aléatoires bornées On trouvera la démonstration de cette inégalité au chapitre 7 de l ouvrage de Rényi [65]

135 118 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES Théorème 72 Soient n variables aléatoires indépendantes X i de moyenne µ i, de variance σi 2 et bornées X i µ i H Soit X la somme des X i, X = n i=1 X i En tant que somme cette variable aléatoire X possède une moyenne M = n i=1 µ i et une variance Σ 2 = n i=1 σ2 i Alors pour tout k Σ/H : { X M } Pr k Σ k 2 2 exp{ 2(1 + kh/2σ) 2 } (76) Si les variables aléatoires indépendantes X i possèdent la même moyenne µ et la même variance σ 2, on a M = nµ, Σ 2 = nσ 2 et il vient pour tout k nσ/h : { X nµ } Pr k nσ k 2 2 exp{ 2(1 + kh/2 nσ) 2 } (77) Exemple 71 Borne sur les fluctuations d une proportion expérimentale Une expérience a la probabilité p de réussir et par conséquent la probabilité q = 1 p d échouer La variable X i indicatrice du succès vaut 1 en cas de succès et 0 en cas d échec On désigne par P n = P n i=1 Xi/n la proportion des succès en n épreuves Les variables aléatoires X i/n sont de moyenne µ = p/n, de variance σ 2 = pq/n 2 ( voir en 811 ) et sont bornées X n/n µ max(p/n, q/n) Nous sommes alors dans les conditions d application de la version (77) de l inégalité de Bernstein où on posera ǫ = k nσ On a alors pour 0 < ǫ min(p, q) : nǫ 2 Pr{ P n p ǫ} 2 exp{ 2pq(1 + ǫ/2 min(p,q)) } (78) 2 Cette formule limite la probabilité pour que la proportion expérimentale s écarte de la probabilité théorique Par exemple si p = q = 05 la probabilité pour que le nombre de succès moyen s écarte de 05 de plus que ǫ = 01 en 300 épreuves est d après (78) inférieure à 0014, ce qui s exprime par Pr{ P } 0014 L inégalité de Bienaymé-Tchébychev nous aurait fourni la borne 0083 qui est environ 6 fois moins bonne 72 L égalité entre deux variables aléatoires Avant de se pencher sur le problème de savoir quand une suite de variables aléatoires {X n } tend vers une autre ( en un sens à définir ), il est sans doute bon de se demander ce que signifie l égalité entre variables aléatoires D un point de vue pratique une expression du type X = Y, où X et Y sont des variables aléatoires, peut vouloir signifier au moins deux choses Le plus naturel, semble-t-il, est d exiger que pour presque toutes les issues ω d une expérience aléatoire ( c est-à-dire ω Ω \ N où Pr{N } = 0 ) on ait : X(ω) = Y (ω) En ce sens X = Y si Pr{X = Y } = 1 ou de façon équivalente si Pr{ X Y = 0} = 1 Dans une autre acceptation on dira que X = Y si leurs fonctions de répartition sont égales, c est-à-dire : t, F x (t) = F y (t), sauf peut-être sur un ensemble de mesure nulle Pour des fonctions de répartition cet ensemble négligeable correspond aux points de discontinuité communs à F x et F y La première définition, la plus exigeante, répond à la notion d égalité presque-sûre à laquelle fait écho celle de convergence presque-sûre La seconde est l égalité en loi, elle est plus faible que la précédente mais correspond à des situations fréquentes comme le montre l exemple ci-dessous

136 73 LA CONVERGENCE STOCHASTIQUE 119 Exemple 72 Nous identifions ici une variable aléatoire avec un programme informatique idéal chargé de générer des nombres aléatoires Un expérimentateur a souvent besoin d un générateur de nombres aléatoires suivant, par exemple, la loi normale réduite Pour lui un programme de ce type en vaut bien un autre, peu lui importe que la suite des nombres soit générée de telle où telle façon du moment que ces nombres suivent bien une loi dont la fonction de répartition est celle qu il souhaite ( ici celle de la loi normale réduite ) Ce qu il veut, c est un programme qui appartienne à l ensemble des programmes égaux en loi Par exemple, une expérience aléatoire ω peut consister à déterminer deux nombres U 1 et U 2 suivant la loi uniforme sur [0, 1] A partir de ces deux nombres on construit deux autres variables aléatoires : X = max(u 1, U 2) et Y = U 1 Il est clair que X et Y ne sont pas égales presque-sûrement, en revanche elles sont égales en loi Leur fonctions de répartition sont en effet identiques 73 La convergence stochastique Il existe quatre interprétations classiques de la notion de convergence stochastique : la convergence presque-sûre, la convergence en moyenne quadratique, la convergence en probabilité et la convergence en loi Les deux premières impliquent les deux autres suivant le schéma : Cv presque-sûre Cv en probabilité Cv en loi (79) Cv en moyenne quadratique 731 La convergence en loi On dit qu une variable aléatoire X n de fonction de répartition F n converge en loi vers une variable aléatoire X de fonction de répartition F, si la suite {F n } converge simplement vers F en tous les points où F est continue C est-à-dire : x; F(x + ) = F(x ), lim F n(x) = F(x) (710) n On notera X n loi X, si la suite X n tend vers X suivant la convergence en loi, sousentendu lorsque n Cette convergence veut dire que pour tout point x où F est continue, il est possible de rendre l erreur entre F n (x) et F(x) aussi petite que l on veut dès que n dépasse un certain rang N, soit : x, ǫ > 0, N : [n N] [ F n (x) F(x) ǫ] Exemple 73 La suite de variables aléatoires de Cauchy X n de fonction de répartition F n(x) = 1 arctan( x ) + 1 converge en loi vers la variable certaine X = 0 La fonction de π n 2 répartition de la variable certaine X est la distribution de Heaviside, elle est continue partout sauf en 0 On a bien x 0; lim n F n(x) = H(x) et au point de discontinuité de H on a n, F n(0) = 1 alors que H(0) = 1 ( voir figure 72 page suivante ) 2 L exemple précédent montre qu il faut se garder de tirer des conclusions trop optimistes lorsqu une convergence en loi est établie Si la variable aléatoire X vers laquelle X n tend en loi possède des moments, cela ne veut pas dire qu à partir d un certain n on peut approximer les moments de X n par ceux de X Une suite de variables aléatoires

137 120 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES FIG 72 Convergence en loi d une suite de variables aléatoires de Cauchy de fonction de répartition : F n (x) = 1 π arctan( x n ) vers la loi certaine X = 0 On a tracé les fonctions de répartition pour n = 1,,10 ne possédant de moments à aucun ordre ( comme ici la loi de Cauchy ) peut fort bien converger en loi vers une variable aléatoire qui en possède à tous les ordres ( ici la loi certaine ) Convergence uniforme de F n vers F La convergence en loi ne suppose que la convergence simple aux points de continuité de la fonction de répartition limite F, mais si F est continue, alors la convergence de F n vers F est uniforme Théorème 73 (Pólya) Si la suite {X n } converge en loi vers X et si la fonction de répartition F de X est continue, alors la suite {F n } des fonctions de répartition de X n converge uniformément vers F Cette convergence signifie que l erreur entre F n (x) et F(x) peut être rendue aussi petite que l on veut pour tous les x dès que n dépasse un certain rang N, soit : ou de façon équivalente : ǫ > 0, N : [n N] [ x, F n (x) F(x) ǫ], ǫ > 0, N : [n N] [max x F n(x) F(x) ǫ] Convergence de la fonction caractéristique Il est souvent plus aisé de faire appel à la fonction caractéristique afin d établir la convergence en loi On dispose alors des théorèmes suivants, où ce sont les théorèmes réciproques qui présentent la plus grande utilité pratique Théorème 74 (Lévy) Si la suite de variables aléatoires {X n } converge en loi vers la variable aléatoire X, alors la suite des fonctions caractéristiques {Z n } converge uniformément vers la fonction caractéristique Z de X dans tout intervalle fini [ U, U]

138 73 LA CONVERGENCE STOCHASTIQUE 121 Nous citons maintenant certains théorèmes réciproques Dans ceux-ci, nous supposons que Z n est la fonction caractéristique de la variable aléatoire X n et nous donnons quelques conditions suffisantes de convergence en loi de la suite {X n } vers une variable aléatoire X Théorème 75 (Cramér, 1937) Si la suite {Z n } des fonctions caractéristiques converge pour tout ω vers une fonction Z continue en ω = 0, alors Z est une fonction caractéristique et la suite {X n } converge en loi vers une variable aléatoire X possédant Z comme fonction caractéristique Théorème 76 (Lévy, 1922) Si la suite {Z n } converge uniformément vers Z au voisinage de ω = 0, alors Z est une fonction caractéristique et la suite {X n } converge en loi vers une variable aléatoire X possédant Z comme fonction caractéristique Théorème 77 (Glivenko, 1936) Si la suite {Z n } converge vers une fonction Z qui est une fonction caractéristique, alors la suite {X n } converge en loi vers une variable aléatoire X de fonction caractéristique Z Théorème 78 (Dugué, 1956) Si la suite {Z n } des fonctions caractéristiques converge pour tout ω vers une fonction Z dont la partie réelle est continue en ω = 0, alors Z est une fonction caractéristique et la suite {X n } converge en loi vers une variable aléatoire X possédant Z comme fonction caractéristique 732 La convergence en probabilité On dit que X n converge vers X en probabilité, si : lim Pr { X n X > ǫ} = 0 (711) n On notera cette convergence : X n Pr X Conformément à la notion de limite, l expression (711) veut dire que quelque soient ǫ > 0 et δ > 0 ( aussi petits que l on veut, mais non nuls ), il existe un rang N au-delà duquel la probabilité pour que la variable aléatoire X n X s écarte de 0 à plus de ǫ peut être rendue plus petite que δ, soit : ǫ > 0, δ > 0; N tel que [n N] [Pr{ X n X > ǫ} < δ] Si la variable aléatoire X n X possède une densité de probabilité, ce type de convergence signifie que cette densité se concentre autour de l origine lorsque n : elle tend vers une distribution de Dirac Critères de convergence en probabilité La convergence en probabilité implique la convergence en loi ( voir la démonstration dans le cours de G Calot [17] 14 ), mais la réciproque n est pas nécessairement vraie Une suite de variables aléatoires peut converger en loi vers une autre sans pour cela converger en probabilité La convergence en probabilité exige le calcul de la fonction de répartition de la variable X n X, et pour ce faire il faut connaître celle du couple (X n, X) En revanche, la convergence en loi n exige pas cette connaissance Une suite {X n } peut converger en loi vers X sans même préciser si les variables X n et X sont dépendantes ou indépendantes A partir de cette remarque, il est facile de construire un contre-exemple comme ci-dessous

139 122 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES Exemple 74 Contre-exemple Soit une suite {X n} et une variable aléatoire X ; supposons que toutes ces variables suivent la loi normale réduite et qu elles soient mutuellement indépendantes On a alors X n X ; elles sont même égales puisque leurs fonctions de répartition sont loi identiques Les variables X n X suivent une loi normale de moyenne nulle et de variance égale à deux, on a alors n; Pr{ X n X > ǫ} = 2[1 Φ( ǫ 2 )] valeur indépendante de n et qui ne tend donc pas vers 0 quand n Par conséquent X n ne tend pas vers X en probabilité Cependant si la suite {X n } converge vers une variable certaine la convergence en loi implique celle en probabilité On a les implications suivantes, où a désigne une variable aléatoire certaine ( c est-à-dire de fonction de répartition égale à la distribution de Heaviside H(x a) ) : [X n Pr X] [X n loi X], [X n Pr a] [X loi a] Donnons d autres conditions suffisantes de convergence en probabilité vers une variable certaine La variable aléatoire X n converge en probabilité vers la variable certaine a si : Les variables aléatoires X n possèdent une moyenne et une variance, et cette moyenne tend vers a alors que la variance tend vers 0 : [ E{X n } a, Var(X n ) 0 ] [ X n Pr a ] Les variables X n possèdent un moment absolu par rapport à a d ordre supérieur à 1 et celui-ci tend vers 0 quand n : [ r 1, E{ X n a r } 0 ] [ X n Pr a ] Cette condition suffisante n est pas nécessaire : une suite {X n } peut fort bien converger en probabilité vers a alors qu elle ne possède aucun moment 733 La convergence presque-sûre La notion de convergence presque-sûre correspond à celle d égalité presque-sûre entre deux variables aléatoires Plus précisément : Définition 71 On dit que la suite de variables aléatoires {X n } converge presque-sûrement vers X si : pour presque toutes les issues ω d une expérience aléatoire, la variable aléatoire X n converge simplement vers la variable aléatoire X, lorsque n Soit : [ ω Ω \ N; Pr{N } = 0 ] = [ lim n X n(ω) = X(ω)] On notera cette convergence : X n ps X Cette définition signifie que pour presque tout ω, il est possible de rendre la «distance» entre X n (ω) et X(ω) aussi petite que l on veut dès que n est plus grand qu un certain N, soit : ω Ω \ N, Pr{N } = 0 ; ǫ > 0, N : [ n N ] [ X n (ω) X(ω) ǫ ] Si A n désigne l événement : { X n X < ǫ}, d après la définition ci-dessus le fait ps que X n X est équivalent à liminf A n = Ω \ N, mais liminf A n limsup A n ( voir équation (111) page 7 ) d où liminf A n = limsupa n presque partout La suite

140 73 LA CONVERGENCE STOCHASTIQUE 123 {A n } converge donc presque partout vers lima n, cet ensemble de convergence étant Ω tout entier sauf, peut-être, une partie négligeable Ces considérations autorisent la définition de la convergence presque-sûre sous la forme équivalente : [ X n ps X ] [ ǫ > 0, Pr{ lim n X n X < ǫ} = 1 ] On appelle convergence avec la probabilité un la convergence presque-sûre présentée sous cette forme Critère fondamental de convergence presque-sûre Théorème 79 Une condition nécessaire et suffisante pour qu une suite {X n } de variables aléatoires converge presque-sûrement vers la variable aléatoire X est qu elle satisfasse pour tout ǫ > 0 au moins une des trois conditions suivantes, dès que n est suffisamment grand 1 Jamais de dépassement ne serait-ce que d une seule variable : lim n Pr{ m=0 X n+m X > ǫ} = 0 ; (712) 2 toujours confinement conjoint de toutes les variables : 3 convergence uniforme en probabilité : lim n Pr{ m=0 X n+m X ǫ} = 1 ; (713) lim Pr{max X n+m X > ǫ} = 0 (714) n m Démonstration Montrer tout d abord que (712) (713) (714) est classique Nous le ferons néanmoins, car cela nous donnera l occasion de préciser ce que l on entend par les conditions ci-dessus On adopte la notation A nǫ pour désigner l événement X n X ǫ ; A c nǫ désigne par conséquent l événement X n X > ǫ La condition (712) signifie que quelque soient ǫ > 0 et δ > 0, il existe un N au-delà duquel la probabilité pour qu au moins une des variables aléatoires X n X s éloigne de 0 de plus de ǫ peut-être rendue inférieure à δ C est-à-dire : ǫ, δ > 0, M 0, N tel que [ n N ] [Pr{ M m=0a c nǫ} < δ ] Montrer que (712) et (713) sont équivalentes est une simple application de la règle de de Morgan et du fait que Pr{A + A c } = 1 Il vient : ǫ, δ > 0, M 0, N tel que [ n N ] [Pr{ M m=0a nǫ} 1 δ ] Cela signifie que quelque soient ǫ > 0 et δ > 0 il existe un N au-delà duquel la probabilité pour que toutes les variables aléatoires X n X s approchent de 0 à mieux que ǫ peut être rendue aussi proche de 1 qu on le souhaite L événement { M m=0 X n+m X < ǫ} est identique à l événement {max M m=0 X n+m X < ǫ} La convergence en probabilité de max M m=0 X n+m X implique alors, et réciproquement, la convergence presque-sûre de X n vers X : ps Pr [ X n X ] [max Xn+m X 0] (715) m 0

141 124 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES Nous achevons maintenant la démonstration en prouvant que la convergence presque-sûre est équivalente à la condition (713) X n ps X ǫ > 0, lim inf X n X < ǫ = Ω \ N ( par définition ), ǫ>0 lim inf X n X < ǫ = Ω \ N La dernière équation exprime la condition «ǫ > 0», on sait qu elle est équivalente à «pour toute suite ǫ k monotone décroissante ǫ k 0 quand k», par exemple ǫ k = 1/k avec k entier non nul Cela permet de remplacer ǫ>0 par une intersection dénombrable Il vient, en explicitant «lim inf» : X n ps X k>0 n=1 m=n X n X < 1/k = Ω \ N, k > 0, n=1 m=n X n X < 1/k = Ω \ N ps Ce qui montre que l ensemble de convergence de l événement : {X n X} est effectivement ps mesurable ( il est le résultat d opérations et dénombrables ) On a : Pr{X n X} = Pr{Ω \ N } = 1, d où : X n ps X Pr{X n ps X} = 1 k > 0, Pr{ n=1 m=n X n X < 1/k} = 1 Pour tout k > 0 la suite des événements : m=n X m X < 1/k est monotone croissante, elle tend vers une limite qui est l union de ces événements ( voir chapitre 111 page 7 ), d où : X n ps X k > 0, Pr{ lim n m=n X n X < 1/k} = 1, k > 0, lim n Pr{ m=n X n X < 1/k} = 1 Ce qui démontre le théorème Pour la dernière égalité on a utilisé l axiome de continuité en dans sa forme complémentaire Ce théorème montre que la convergence presque-sûre est une propriété concernant la loi conjointe des ensembles de M variables extraites de la suite {X n } n N ( pour tout M > 0 ), alors que la convergence en probabilité est une propriété des lois marginales de chacune de ces variables Autres critères de convergence presque-sûre Théorème 710 Une condition nécessaire et suffisante pour que la suite {X n } converge presque-sûrement vers la variable aléatoire X est que pour tout ǫ > 0 Pr{limsup X n X > ǫ} = 0 Soit : ǫ > 0, Pr{limsup X n X > ǫ} X n ps X Le théorème suivant établit des conditions simples de convergence presque-sûre de {X n } vers X selon que les variables aléatoires de la suite {X n X} sont quelconques ou indépendantes Théorème 711 Critére basé sur une série 1 Une condition suffisante pour que X n ps X est que la série ci-dessous converge : ps [ Pr{ X n X > ǫ} < ] [X n X] (716) n=1

142 73 LA CONVERGENCE STOCHASTIQUE Si les variables aléatoires X n X sont mutuellement indépendantes, alors la condition précédente devient une condition nécessaire et suffisante Démonstration On envisage les deux points séparément 1 La preuve de la première partie de ce théorème repose sur la convexité de la mesure de probabilité On a, d après cette propriété : [ Pr{ X n+m X > ǫ} m=0 X Pr{ X n+m X > ǫ} Si la série du membre de droite converge, ceci veut dire que pour tout ǫ et δ strictement positifs il existe un N tel que n N implique : m=0 X Pr{ X n+m X > ǫ} δ m=0 Le membre de gauche est alors lui aussi inférieur à δ et la suite {X n} converge presquesûrement vers X 2 La seconde partie est démontrée par l absurde Si les variables aléatoires X n X sont indépendantes il s ensuit, d après le théorème de Slutsky que les variables X n X le P sont aussi Les événements A n = X n X > ǫ sont alors indépendants et si la série n=1 Pr{An} diverge alors, d après le critère zéro-un de Borel-Cantelli ( voir théorème 12 page 18 ) : on a Pr{lim sup A n} = 1 Ceci veut dire d après le théorème 710 ps page ci-contre que X n X La convergence presque-sûre implique la convergence en probabilité, mais la réciproque n est généralement pas vraie On construit des contre-exemples de suites de variables aléatoires convergeant en probabilité mais pas presque-sûrement vers une autre à l aide du théorème 711 Exemple 75 Contre-exemple Soit une suite de variables aléatoires indépendants {X n} n=1 prenant la valeur 0 ou 1 avec les probabilités suivantes : Pr{X n = 0} = 1 1 n, Pr{Xn = 1} = 1 n De toute évidence la suite {X n} converge en probabilité vers la variable certaine X = 0, en revanche P elle ne converge pas presque-sûrement vers cette variable car la série harmonique 1 n=1 diverge n 734 La convergence en moyenne quadratique La convergence en moyenne quadratique est un cas particulier de la convergence en moyenne d ordre r Définition 72 La suite de variables aléatoires {X n } converge en moyenne d ordre r L vers X, X r n X, si lim n E{ X n X r } = 0 En particulier X n converge vers X en moyenne quadratique, si : On notera cette convergence : X n mq X lim E{(X n X) 2 } = 0 (717) n

143 126 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES La convergence en moyenne quadratique implique celle en probabilité En effet en posant Y = (X n X) 2 dans l inégalité de Markov ( voir équation (71) page 115 ) il vient : Pr{ X n X > ǫ} E{(X n X) 2 } ǫ 2, d où [X n mq X ] = [X n Pr X ] 735 Hiérarchie parmi les convergences Les notations introduites ci-dessus permettent d exprimer les propriétés (79) sous la forme suivante : X n ps X X n mq X } X n Pr X X n loi X (718) 736 Critère de Cauchy Pour tous les types de convergences définis ci-dessus, il existe un critère de Cauchy correspondant Ce critère nous permet d établir la convergence d une suite de variables aléatoires sans référence explicite à sa limite : il suffit de montrer qu à partir d un certain rang deux termes quelconques de la suite peuvent être rendus aussi proches l un de l autre qu on le souhaite Cette condition suffisante est aussi nécessaire Exprimons cela pour la convergence en moyenne quadratique de {X n } vers X On a : [ lim n E{(X n X) 2 } = 0] [ m > 0, lim n E{(X n+m X n ) 2 } = 0] (719) 74 Lois des grands nombres Les lois des grands nombres 1 établissent divers critères de convergence de la moyenne arithmétique empirique d une suite {X n } vers un certain nombre Plus précisément, la moyenne arithmétique empirique M n attachée à une suite {X n } est une variable aléatoire ainsi définie : n, M n = 1 n X i (720) n On s intéresse alors à la convergence de {M n } dans quelque sens que ce soit ( convergence en probabilité ou autre ) vers une valeur certaine µ qui est en général l espérance d une certaine loi Remarque 71 Le changement de variable Y = X r permet d adapter les théorèmes qui vont suivre en des théorèmes sur la convergence des moments empiriques d ordre r vers une valeur µ r égale en général à E{X r } En effet l indépendance des variables aléatoires après ce changement de variable est garanti par le théorème de Slutsky i=1 1 Le terme de loi des grands nombres semble avoir été introduit par Poisson dans son ouvrage datant de 1837, voir [61]

144 74 LOIS DES GRANDS NOMBRES P n n FIG 73 Illustration de la loi des grands nombres de Bernoulli On a représenté l évolution du nombre moyen de succès en n épreuves La figure montre deux simulations d une série d épreuves identiques et indépendantes lorsque la probabilité de succès d une épreuve est p = Loi des grands nombres de Bernoulli Cette version de la loi des grands nombre porte sur une suite d épreuves de Bernoulli Une suite d épreuves {A n } est de Bernoulli si les épreuves sont identiques et indépendantes ( comme au jeu de «pile» ou «face» par exemple ) Si p est la probabilité de succès en une épreuve, Bernoulli a montré que le nombre moyen P n de succès en n épreuves convergeait en probabilité vers p On a pu montrer ensuite que la convergence était presque-sûre Introduisons la variable aléatoire indicatrice 1 An qui vaut 1 si l épreuve A n est un succès et 0 si c est un échec C est une variable aléatoire dite de Bernoulli de moyenne p et de variance p(1 p) Le nombre moyen de succès en n épreuves P n est la moyenne arithmétique des 1 Ai : P n = 1 n 1 Ai (721) n Pr La loi des grands nombres de Bernoulli dit que P n p Ce théorème est une simple conséquence de l inégalité de Bienaymé-Tchébychev La figure 73 illustre la convergence de P n vers p Dans l expression (721) n i=1 1 A i, le nombre de succès en n épreuves suit une loi binomiale ( voir chapitre 8 ) Pour les variables binomiales on dispose plus généralement du théorème suivant : Théorème 712 Si les variables aléatoires B(n, p) suivent la loi binomiale, alors la suite { 1 nb(n, p)} converge presque-sûrement vers p lorsque n croît indéfiniment : i=1 [n ] [ 1 ps B(n, p) p] (722) n Ce théorème a pour conséquence que le nombre moyen de succès en n épreuves de Bernoulli converge presque-sûrement vers p : la probabilité de succès en une épreuve Remarquons aussi que la limite p est l espérance de 1 nb(n, p)

145 128 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES 742 Lois faibles des grands nombres Les lois faibles des grands nombres sont des conditions suffisantes de convergence en probabilité ( convergence faible ) de la moyenne arithmétique empirique M n vers un nombre certain µ lorsque n Ces lois précisent également la nature du nombre µ Nous commençons par une version restrictive Théorème 713 Si les variables aléatoires X i sont deux à deux indépendantes et qu elles suivent la même loi de moyenne µ et de variance σ 2, alors leur moyenne arithmétique tend vers µ en probabilité : M n = 1 n n i=1 X i Pr µ (723) Notons que nous n avons supposé que l indépendance deux à deux et non l indépendance mutuelle En revanche les X i doivent suivre la même loi Il existe des versions faisant appel à des hypothèses moins fortes Théorème 714 ( Markov ) Si les variables aléatoires X i sont deux à deux indépendantes, possèdent toutes une moyenne µ i et une variance σi 2 et que de plus : 1 n 1 lim µ i = µ, et lim n σ n n n i 2 n = 0, i=1 alors M n converge en probabilité vers µ Il existe une version encore plus faible où on n exige plus l indépendance deux à deux mais seulement la non corrélation positive forte Théorème 715 ( Bernstein ) Soient des variables aléatoires X i possédant toutes une moyenne µ i et une variance σi 2 Soit ρ ij le coefficient de corrélation des variables X i et X j ( celui-ci existe nécessairement ) Si les trois conditions suivantes sont satisfaites : 1 1 lim n n 2 n, 1 n n µ k = µ ; i=1 i=1 n σi 2 < K où K est une constante indépendante de n ; i=1 3 ρ ij R( i j ), où R(k) est une fonction non négative telle que R(0) = 1 et 1 n telle que lim R(k) = 0 ; n n i=1 alors la moyenne arithmétique empirique M n converge en probabilité vers µ En revenant à l hypothèse que les variables aléatoires X i sont deux à deux indépendantes, on peut abandonner la condition d existence des variances, il suffit que la moyenne existe Théorème 716 ( Khintchine ) Si les variables aléatoires X i sont deux à deux indépendantes et suivent la même loi de moyenne µ, alors leur moyenne arithmétique converge en probabilité vers µ On peut finalement même abandonner la condition d existence de la moyenne µ en la remplaçant par une condition d existence de la moyenne en valeur principale

146 74 LOIS DES GRANDS NOMBRES 129 Théorème 717 ( Kolmogorov ) Si les variables aléatoires X i sont deux à deux indépendantes, suivent la même loi F et qu il existe un nombre µ tel que : L µ = lim x df(x), L L avec lim x(1 [F(x) F( x)]) = 0, x alors la moyenne arithmétique des X i converge en probabilité vers µ Ce dernier théorème veut dire que si la moyenne de la loi suivie par les X i n existe qu en valeur principale et à la condition que l erreur résiduelle tende vers 0 plus vite que 1/x quand x, alors la moyenne arithmétique empirique tend vers cette valeur principale 743 Lois fortes des grands nombres Les lois fortes des grands nombres établissent des conditions suffisantes de convergence presque-sûre de la moyenne arithmétique empirique vers la valeur certaine µ Comme dans le cas des lois faibles, l énoncé précise la nature de cette valeur qui est en général une moyenne Nous donnons d abord la version restrictive Théorème 718 Si les variables aléatoires X i sont mutuellement indépendantes et suivent la même loi de moyenne µ et de variance σ 2, alors leur moyenne arithmétique empirique converge presque-sûrement vers µ : M n = 1 n n i=1 X i ps µ (724) L existence de la variance dans la version restrictive n est en réalité pas nécessaire car on a : Théorème 719 ( Kolmogorov ) Si les variables aléatoires X i sont mutuellement indépendantes et suivent la même loi de moyenne µ, alors leur moyenne arithmétique empirique converge presque-sûrement vers µ Cette condition nécessaire est aussi suffisante et on a : [ i, E{X i } = µ ] [M n = 1 n n i=1 X i ps µ] (725) La condition d indépendance mutuelle est souvent difficile à établir, le théorème suivant permet de s en passer en la remplaçant par une condition de non-corrélation mutuelle En revanche, la condition d existence de la variance σ 2 réapparaît Théorème 720 Si les variables aléatoires X i suivent la même loi de moyenne µ et de variance σ 2 et qu elles sont mutuellement non-corrélées ( i j E{(X i µ)(x j µ)} = 0 ), alors leur moyenne arithmétique empirique converge presque-sûrement vers µ : M n = 1 n n i=1 X i ps µ (726) Démonstration Voir P Brémaud [16] 11 p 227

147 130 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES Si les variables aléatoires X i ne suivent pas la même loi, on a : Théorème 721 ( Kolmogorov ) Si les variables aléatoires X i sont mutuellement indépendantes et suivent chacune une loi de moyenne µ i et de variance σi 2 et si de plus la série n=1 σ2 n /n2 converge, alors : 1 n n (X i µ i ) ps 0 (727) i=1 Démonstration Voir M Loève [51] TI 17 p 250, qui démontre une version légèrement plus forte 744 La loi du logarithme itéré Étant assuré que la suite de variables aléatoires {X n } satisfait aux conditions de la loi forte des grands nombres, intéressons-nous aux fluctuations de M n autour de la valeur µ vers laquelle elle converge Plus précisément, considérons les fluctuations réduites de M n, c est-à-dire la quantité M n µ divisée par son écart type Soit η n cette variable réduite, si σ 2 est la variance des X i, σ 2 /n est la variance de M n d où : η n = n M n µ σ L étude de cette variable fait l objet du chapitre 751 suivant mais nous pouvons admettre que η n peut prendre des valeurs arbitrairement grandes, il suffit pour cela de choisir n assez grand Cependant, dans le cas où les X i sont bornés, les fluctuations extrêmes de η n sont fortement contraintes par l existence de la loi du logarithme itéré, que nous citons ci-dessous sous sa forme la plus forte Théorème 722 ( Khintchine, 1924 [43] ) Si les variables aléatoires X i sont mutuellement indépendantes, suivent la même loi de moyenne µ et de variance σ 2 et si, de plus, elles sont bornées, alors les valeurs extrêmes des fluctuations réduites de leur moyenne arithmétique convergent presque-sûrement vers ± 2 lnlnn : M n µ min n n σ M n µ max n n σ ps 2 lnlnn, ps + 2 lnlnn (728a) (728b) Dans ces expressions M n désigne, comme d habitude, la moyenne arithmétique des X i Exemple 76 Variable de Bernoulli Les issues du lancer d une pièce de monnaie : 0 pour pile et 1 pour face, constituent une suite de variables aléatoires de Bernoulli satisfaisant les conditions du théorème 722 Si la probabilité d obtenir face est p, le nombre moyen M n de «face» obtenus en n lancers est une variable aléatoire de moyenne p et de variance p(1 p)/n ps La loi forte des grands nombres nous dit que : M n µ et la loi du logarithme itéré que les fluctuations réduites de M n sont bornées presque-sûrement par ± 2ln ln n, c est-à-dire : M n p ps min n p n p(1 p) 2ln ln n, max n n M n p p p(1 p) ps 2ln ln n (729)

148 75 THÉORÈME CENTRAL LIMITE 131 On a effectué ( par simulation numérique ) 10 8 lancers d une pièce de monnaie On a calculé le nombre moyen de «face» et la suite {η n} des variable réduite de ce nombre moyen On a finalement reporté sur la figure 74 la suite des valeurs extrêmes {η min,n} et {η max,n} des η n Bien que la convergence de η min,n et η max,n vers leur limite soit presque-sûre, la figure 74 indique qu elle est extrêmement lente FIG 74 Illustration de la loi du logarithme itéré pour une variable aléatoire de Bernoulli ( jeu de «pile» ou «face» ) On a reporté le nombre d épreuves n sur l axe horizontal et sur l axe vertical les valeurs extrêmes atteintes par les fluctuations réduites du nombre moyen de «face» D après la loi du logarithme itéré, ces valeurs convergent presque-sûrement vers ± 2 ln lnn Cette courbe limite est indiquée en pointillés sur la figure 75 Théorème central limite Les lois des grands nombres nous renseignent sur la convergence d une certaine somme de variables aléatoires vers une valeur limite, mais elle ne nous disent pas comment on tend vers cette valeur Il serait souhaitable de connaître la loi asymptotique vers laquelle tend cette somme Les cas où cette loi est connue fait l objet des divers énoncés du théorème central limite 2 Un théorème central limite établit les conditions sous lesquelles une somme de variables aléatoires tend en loi : soit vers la loi normale ; soit vers la loi de Poisson ; soit vers la loi certaine Dans l éventualité où l on peut appliquer l un de ces théorèmes on peut, en vue des applications, approximer la fonction de répartition de la somme de ces variables aléatoires par la fonction de répartition d une certaine variable aléatoire, par exemple normale En pratique, on est dans les conditions d application du théorème central limite si le nombre de variables aléatoires intervenant dans la somme croît 2 L expression «théorème central limite» est la traduction mot-à-mot de l expression allemande «zentralen Grenzwertsatz» qui signifie : théorème établissant une limite dont l importance est centrale ( c est-à-dire grande ) en théorie des probabilités D après Le Cam (1986) [48] cette appellation serait due au mathématicien d origine hongroise G Pólya (1920) [62]

149 132 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES au delà de toute limite et si chaque variable aléatoire individuelle exerce une influence arbitrairement petite au sein de cette somme Nous ne donnerons ici que des théorèmes limites concernant la convergence vers la loi normale Nous noterons Φ la fonction de répartition de la loi normale réduite qui est égale, par définition, à : Φ(x) = 1 2π x exp{ 1 2 t2 } dt (730) Comme la fonction Φ est continue, d après le théorème 73 de Pólya, la convergence en loi d une suite {X n } vers une variable aléatoire normale réduite X N(0, 1), implique que la convergence de la fonction de répartition F n des X n se fait uniformément vers Φ 751 Théorème central limite pour une suite de variables aléatoires indépendantes Afin de simplifier l exposé, nous introduisons la notion de variable aléatoire réduite et de suite normée Variables réduites Si la variable aléatoire X i possède une moyenne µ i et une variance σi 2, on appelle variable aléatoire réduite la variable aléatoire (X i µ i )/σ i C est une variable aléatoire de moyenne nulle et de variance unité Sommes normées Si toutes les variables X i intervenant dans la suite {X n } sont indépendantes, possèdent une moyenne µ i et une variance σi 2 alors nous savons que la somme n i=1 X i de ces variables aléatoires possède une moyenne n i=1 µ i, une variance n i=1 σ2 i et un écart type Σ n = [ n i=1 σ2 i ] 1 2 On fait alors correspondre à chaque terme de la suite {X n } une variable aléatoire η k égale à la somme des X i jusqu à l ordre k et subséquemment réduite : η k = 1 k (X i µ i ), avec Σ k = k σi 2 Σ (731) k i=1 Les η k sont les termes d une suite {η n } appelée suite normée de la suite {X n } Les termes d une suite normée sont de moyenne nulle et de variance unité Passons maintenant à l exposé de quelques théorèmes centraux limites C est tout naturellement aux suites d épreuves de Bernoulli que l on s est tout d abord intéressé Nous donnons pour commencer une version du théorème central limite les concernant Théorème 723 ( de Moivre-Laplace ) Si S n désigne le nombre de succès dans une suite d épreuves de Bernoulli ( épreuves identiques et indépendantes) chaque succès S n np ayant la probabilité p de se réaliser, alors la variable aléatoire réduite np(1 p) converge en loi vers la loi normale réduite Ce résultat a été établi par de Moivre ( 1718 ) et retrouvé par Laplace ( 1812 ), voir [53] et [47] En ce qui concerne la fréquence expérimentale P n d apparition d un événement dans une suite d épreuves de Bernoulli, nous savions d après la loi forte des grands i=1

150 75 THÉORÈME CENTRAL LIMITE 133 nombres que P n converge presque-sûrement vers la probabilité théorique p Ce théorème nous dit maintenant que les écarts de P n par rapport à p peuvent être approximés par une loi normale Plus précisément on a : P n ps p, et n P n p p(1 p) loi N(0, 1) (732) Ce résultat nous permet d estimer l erreur commise en identifiant la probabilité p avec la fréquence théorique P n Cette estimation fait l objet de l exemple suivant Exemple 77 Erreur sur une probabilité empirique Si l on identifie la probabilité d apparition d un événement avec la fréquence expérimentale d apparition P n de cet événement dans une suite d épreuves de Bernoulli, on commet alors une erreur supérieure à ǫ chaque fois que «par hasard» la suite d épreuves nous conduit à estimer p par un nombre P n tel que P n p ǫ Pour évaluer la probabilité de cet événement malheureux il faut calculer : Pr{ P n p ǫ} L inégalité de Bienaymé-Tchébychev, ou mieux celle de Bernstein, nous permet de donner une borne supérieure à cette probabilité, mais le théorème central limite nous donne une bien meilleure approximation Introduisons la notation q = 1 p, d après (732) n(p n p)/ pq loi N(0, 1) Il vient alors : n r n P n p n o Pr{ P n p ǫ} = Pr ǫ pq pq Si la quantité ǫ p n/pq est fixée et finie, c est-à-dire si p 0, p 1, l erreur ǫ et le nombre d épreuves n sont donnés, alors le théorème de de Moivre-Laplace nous permet d écrire que l erreur absolue sur une fréquence expérimentale est approximativement égale à l erreur résiduelle de la loi normale réduite au delà du seuil ǫ p n/pq C est-à-dire : ǫ r n r n Pr{ P n p ǫ} 1 [Φ ǫ Φ ǫ ] = 1 1 pq pq 2π n/pq Z ǫ n/pq e 1 2 t2 dt (733) Ces considérations et d autres similaires justifient l introduction de la notion de probabilité dans le domaine expérimental Nous donnons à présent une version moins restrictive du théorème central limite toujours pour des variables aléatoires identiquement réparties Théorème 724 ( Lévy-Lindeberg ) Si {X n } est une suite de variables aléatoires deux à deux indépendantes, suivant toutes la même loi de moyenne µ et de variance σ 2, alors la suite normée converge en loi vers la loi normale réduite C est-à-dire : n i=1 X i nµ σ loi N(0, 1) (734) n Si les variables aléatoires intervenant dans la somme ne sont pas identiquement réparties ( c est-à-dire si elles ne suivent pas la même loi ), il faut alors disposer d un critère qui mesure l influence d une variable individuelle sur la somme de toutes les variables On sera dans les conditions du théorème central limite si la mesure de cette influence tend vers zéro lorsque le nombre de termes de la somme tend vers l infini Dans l état actuel de nos connaissances nous ne disposons pas, dans le cas général, d un tel critère qui soit une condition nécessaire et suffisante de convergence vers la loi normale ; nous ne disposons que d une condition nécessaire : la condition de petitesse uniforme

151 134 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES Théorème 725 Si la suite {X n } est formée de variables aléatoires X i indépendantes de moyennes µ i et de variances σi 2, alors une condition nécessaire pour que la suite normée converge en loi vers la loi normale réduite est que : lim max σ i = 0 (735) n 1 i n Σ n Dans cette expression Σ n est l écart type de la somme n i=1 X i La condition (735) est la condition de petitesse uniforme Il existe des condition suffisantes et même nécessaires et suffisantes en restreignant le champ d application du théorème central limite ; nous en donnons deux Théorème 726 ( Liapounov ) Si la suite {X n } est formée de variables aléatoires X i deux à deux indépendantes de moyennes µ i et de variances σi 2 et s il existe un nombre δ > 0 tel que : 1 n lim n Σ 2+δ E{ X i µ i 2+δ } = 0, (736) n i=1 alors la suite normée converge en loi vers la loi normale réduite C est-à-dire : n i=1 (X i µ i ) loi ( n ) 1 N(0, 1) (737) i=1 σ2 2 i La condition (736) est la condition de Liapounov Pour δ = 1, par exemple, la condition de Liapounov s écrit : n i=1 lim E{ X i µ i 3 } n ( n ) 3 = 0 (738) i=1 σ2 2 i La condition de petitesse uniforme (735) et la condition de Liapounov (736) sont suffisantes pour que l on puisse approximer les écarts absolus ( et donc aussi les moments ) jusqu à l ordre 2 + δ, de la suite normée par ceux de la loi normale réduite C est-à-dire : lim n x 2+δ df n(x) = x 2+δ dφ(x), (739) où Fn est la fonction de répartition du terme d ordre n de la suite normée Théorème 727 ( Lindeberg-Feller ) Si la suite {X n } est formée de variables aléatoires X i deux à deux indépendantes de moyennes µ i et de variances σi 2, alors la suite normée converge en loi vers la loi normale réduite si, et seulement si, pour tout ǫ > 0 : lim n 1 n Σ 2 n i=1 x µ i >ǫσ n où F i désigne les fonctions de répartition des variables X i (x µ i ) 2 df i (x) = 0, (740) La condition suffisante ( «si» ) est due à Lindeberg, la condition (740) est la condition de Lindeberg La condition nécessaire ( «et seulement si» ) est due à Feller

152 76 EXEMPLES Précision du théorème central limite Le théorème central limite nous permet d établir la convergence uniforme de la suite {Fn} des fonctions de répartition des variables aléatoires constituant la suite normée, mais ils ne nous dit rien quant à la qualité de l approximation de Fn par Φ pour un n fini Liapounov a examiné la vitesse de convergence de Fn vers Φ et ses travaux ont été améliorés par Berry et par Esseen On dispose des deux théorèmes suivants, où la convergence vers la loi normale est assurée par les théorèmes précédents Théorème 728 ( Esseen ) Soit {X n } une suite de variables aléatoires deux à deux indépendantes, où les X i formant la suite possèdent une moyenne µ i et une variance σ 2 i S il existe une valeur 0 < δ 1 telle que tous les E{ X i µ i 2+δ } existent, alors on a l inégalité : sup Fn(x) Φ(x) A 1 x Σ 2+δ n i=1 n E{ X i µ i 2+δ } (741) où Σ n = ( n i=1 σ2 i )1 2 est l écart type des termes de la suite normée et A est une constante Pour δ = 1 l inégalité (741) est l inégalité d Esseen Si l on pose δ = 1 et si les variables aléatoires X i sont également réparties, on obtient alors : Théorème 729 ( Berry-Esseen ) Si les variables aléatoires X i d une suite {X n } suivent la même loi de moyenne µ, de variance σ 2 et d écart absolu d ordre trois e 3 ( i, e 3 = E{ X i µ i 3 }), alors : où B est une constante sup Fn(x) Φ(x) B e 3 x σ 3 n, (742) L inégalité (742) est l inégalité de Berry-Esseen D après les calculs actuels on sait seulement que : 1 2π ( 03989) A et 1 2π ( 03989) B 082 (743) 76 Exemples 761 Méthode de Monte-Carlo Nous allons exposer ci-dessous le principe de l intégration par la méthode de Monte- Carlo à l aide d un exemple simple Supposons que l on désire évaluer numériquement l intégrale suivante : J = π 2 0 cosudu, (744) dans ce cas particulier le résultat est trivial on a J = 1, mais le principe de la méthode s applique à des calculs d intégrales bien plus complexes En écrivant l équation précédente sous la forme : 2 π J = 2 π 2 cosudu, (745) π 0

153 136 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES on peut interpréter 2 πj comme l espérance mathématique de la variable aléatoire X = cos(u) où U est une variable aléatoire uniforme entre 0 et π 2 : U = U(0, π 2 ) Soient (X 1,,X n ) n variables aléatoires calculées, grâce au changement de variable x = cosu, à partir d un ensemble (U 1,, U n ) de n variables aléatoires indépendantes suivant la loi uniforme entre 0 et π 2 Ces variables X i sont indépendantes, elles ont toutes la même moyenne E{X i } = 2 πj et cette moyenne existe On définit alors les variables aléatoires J n par l intermédiaire de la moyenne arithmétique des X i : 2 π J n = 1 n n X i (746) D après la loi forte des grands nombres ces variables convergent presque-sûrement vers la moyenne commune des X i lorsque n : i=1 2 π J ps n E{X i } = 2 π J (747) Ce résultat contient le principe même des méthodes Monte-Carlo : on approxime une certaine quantité J ( ici une intégrale ) par des variables aléatoires J n à la condition que la loi des grands nombres s applique Pour quantifier la qualité de l approximation pour n fixé ou pour calculer n afin que l approximation soit meilleure qu une certaine tolérance, il faut que les J n possèdent une variance de façon à pouvoir utiliser le théorème central limite Dans notre cas les X i possèdent la même moyenne mais aussi la même variance Var(X i ) = σ 2 0 On peut alors appliquer la version de Lévy-Lindeberg du théorème central limite ( théorème 724 ) qui décrit comment se répartissent les erreurs J n J lorsque n : n 1 n n i=1 X i 2 π J σ = 2 π Pour un n assez grand on a alors quelque soit n : n σ (J n J) loi N(0, 1) (748) { 2 n } Pr πσ J n J < ǫ Φ(ǫ) Φ( ǫ) = 2Φ(ǫ) 1, (749) où Φ est la fonction de répartition de la loi normale réduite Reste à calculer σ, c est-àdire : σ 2 = 2 π π 2 0 (cosx 2 π J)2 dx, (750) qui, dans un cas plus complexe, serait une intégrale aussi difficile à calculer que l intégrale originale, on devrait alors se contenter d une approximation Ici le résultat est simple : σ 2 = π 2 Si l on désire une approximation de J meilleure que 5% dans 90% des cas il faut trouver n tel que : Pr{ J n J < 005} = 09 Cet objectif sera atteint dès que l on aura : πσ 2 ǫ < 005 (751) n On a 2Φ(ǫ) 1 = 09 pour ǫ 1645, et la condition précédente s écrit : ( )( ) π n > , (752) 2 005

154 77 EXERCICES ET PROBLÈMES 137 et l approximation souhaitée sera réalisée avec la probabilité 09 dès que n > 252 S il avait fallu approximer σ on aurait pu le faire à l aide de «la formule de propagation des erreurs» ( voir équation (569), page 87 ) Cette formule permet de calculer approximativement la variance de X = ϕ(u) connaissant la moyenne et la variance de U : ( ϕ Var(X) Var(U) u ) 2 (753) u=e{u} Dans l exemple traité on a X = cosu, où U est uniforme sur [0, π 2 ], on a E{U} = π 4 et Var(U) = π2 48 ( voir équation (842), page 147 ) On en déduit σ2 π2 48 sin2 π 4, soit σ 038 alors que la vraie valeur est σ 031 En utilisant cette approximation de σ on aurait trouvé que n devait être supérieur à Exercices et problèmes Exercice 71 Soit X une variable aléatoire positive de fonction de répartition F strictement croissante et possédant une moyenne µ Son 3 e quartile x 025 est par définition tel que F(x 025) = 1 1/4 Montrer que le 3 e quartile de X ne peut être supérieur à quatre fois son espérance mathématique Exercice 72 Borne de Tchernov Par un choix approprié de la variable aléatoire Y dans l inégalité de Markov (71), démontrer l inégalité de Tchernov : Pr{X ǫ} min t 0 exp[ tǫ + ln E{etX }] Si X suit une loi normale réduite calculer la borne fournie par cette inégalité lorsque ǫ vaut 3 [Rep e 9/2 ] Afin d éviter des calculs un peu longs, on pourra consulter les propriétés de la loi log-normale ( voir chapitre 828 page 157 ) Exercice 73 [Ferguson [23] p 6] Soit X n une variable aléatoire uniformément répartie sur l ensemble de points {1/n, 2/n,, 1} Montrez que la suite {X n} converge en loi vers une variable aléatoire X uniforme sur [0, 1] Cette suite converge-t-elle vers X en probabilité? Exercice 74 Un gouvernement décide de pratiquer le contrôle des naissances de la façon suivante : chaque couple de parents a le droit d avoir un enfant jusqu à la naissance d une fille ; la loi leur impose ensuite de ne plus procréer Quel est dans ce pays le nombre moyen de garçons et de filles sachant qu avant ce contrôle des naissances 50% des nouveau-nés, en moyenne, étaient des garçons

155 138 CHAPITRE 7 INÉGALITÉS ET CONVERGENCES

156 Chapitre 8 Lois de probabilité usuelles 81 Lois discrètes On parle de lois discrètes lorsque le domaine de définition de la variable aléatoire en question possède la puissance du dénombrable Il s agit en général de l ensemble des entiers 811 Loi de Bernoulli Une variable aléatoire X est dite de Bernoulli, de paramètre p si Pr{X = 1} = p et Pr{X = 0} = 1 p, soit : Pr{X = x} = p x (1 p) 1 x, X = {0, 1} (81) La loi de Bernoulli sert de modèle à toute expérience dont les issues aléatoires appartiennent à deux classes mutuellement exclusives Le modèle fondateur de la loi de Bernoulli est le jeu de «pile» ou «face» On notera B(1, p) une variable aléatoire qui suit la loi de Bernoulli de paramètre p Fonction caractéristique On rapelle que la fonction caractéristique est l espérance de la variable aléatoire e iωx On obtient directement e iωx = (1 p)e iω0 + pe iω1, d où : Z(ω) = (1 p) + pe iω (82) Caractéristiques numériques de la loi de Bernoulli Les moments non centrés µ k sont tous égaux à p On a alors pour la moyenne et la variance : E {B(1, p)} = p, Var(B(1, p)) = p(1 p) (83) 812 Loi binomiale Une variable aléatoire X est binomiale si : Pr{X = k} = Cn k p k (1 p) n k k = 0, 1, 2,, n (84) 139

157 140 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES où C k n est le coefficient du binôme La loi binomiale possède deux paramètres, un paramètre entier n > 0 et un paramètre réel 0 p 1 Cette loi a été introduite par Jacques Bernoulli en 1713 dans son traité «Ars Conjectandi» [7] La loi binomiale est un modèle de n épreuves indépendantes de Bernoulli, elle donne la probabilité d obtenir k succès en n épreuves, lorsque la probabilité de succès pour une épreuve est p La variable aléatoire X représente le nombre de succès On notera B(n, p) une variable aléatoire qui suit la loi binomiale de paramètres n et p FIG 81 Probabilités de la loi binomiale pour n = 20 et pour deux valeurs du paramètre p Ce graphe permet, par exemple, d évaluer la probabilité d obtenir k fois pile en jetant n = 20 pièces de monnaie lorsque la probabilité pour obtenir pile est p = 05 ( ) et lorsqu elle vaut p = 025 ( ) Fonction de répartition Pour tout x tel que 0 x n, on a : x F(x) = Pr {X x} = Cn k pk (1 p) n k, (85) où x désigne la partie entière de x, c est-à-dire le plus grand entier inférieur ou égal à x La fonction de répartition de la loi binomiale peut aussi s exprimer à l aide de la fonction bêta incomplète normalisée I p, de la façon suivante : 0 si x < 0; F(x) = 1 I p ( x + 1, n x ) si 0 x n ; (86) 1 si x > n Les fonctions eulériennes et les fonctions eulériennes incomplètes sont introduites dans l appendice A1 traitant des fonctions spéciales k=0 Fonction caractéristique Z(ω) = ((1 p) + pe iω ) n (87)

158 81 LOIS DISCRÈTES 141 Caractéristiques numériques de la loi binomiale Moments Les moments centrés s obtiennent grâce à la relation de récurrence : On obtient ainsi : Moyenne et variance µ 0 = 1, µ 1 = 0, µ r+1 = p(1 p)( dµ r dp + nrµ r 1) (88) µ 2 = np(1 p), µ 3 = np(1 p)(1 2p), µ 4 = np(1 p)(1 6p(1 p) + 3np(1 p)) E {B(n, p)} = np, Var(B(n, p)) = np(1 p) (89) La variance d une loi binomiale est toujours inférieure à sa moyenne ( sauf dans les cas dégénérés p = 0 et p = 1 où elles sont égales et nulles ) Asymétrie et aplatissement γ 1 = (1 p) p 1 6p(1 p), γ 2 = (810) np(1 p) np(1 p) Mode Le maximum de la loi binomiale a lieu pour la seule valeur r = p(n + 1) si r p(n + 1), et pour les deux valeurs r et r 1 si r = p(n + 1) Quelques propriétés 1 Si les variables aléatoires X i sont des variables aléatoires indépendantes de Bernoulli de paramètre p, la variable aléatoire X = n i=1 X i est alors binomiale de paramètres n et p, soit avec notre notation : n B i (1, p) = B(n, p), (811) i=1 où B i (1, p) désigne des variables aléatoires de Bernoulli indépendantes 2 Il découle de ce qui précède que la somme de variables aléatoires binomiales indépendantes est également une variable binomiale : n B(n i, p) = B(N, p), avec N = i=1 813 Loi géométrique ou de Pascal n n i (812) Une variable aléatoire X est une variable géométrique ( ou de Pascal ) si : Pr {X = k} = p(1 p) k 1 k = 1, 2,, (813) C est une loi à un seul paramètre réel p, 0 < p < 1 i=1

159 142 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES La loi géométrique donne les probabilités pour que le premier succès d une suite infinie d épreuves de Bernoulli apparaisse au rang k, lorsque la probabilité de succès d une épreuve est p Ces probabilités se suivent dans l ordre de la progression géométrique p(1 + q + q q k 1 + ) où, par commodité, on a posé q = 1 p On note R(1, p) une variable aléatoire suivant la loi de Pascal de paramètre p Une des premières mentions historiques de la loi géométrique se trouve dans la correspondance entre Pascal et Fermat datant de 1654 où est discuté le problème de «déterminer en combien de coups on peut espérer obtenir un double-six quand on joue avec deux dés» Fonction de répartition Pour tout x positif (0 x ), on obtient la fonction de répartition en sommant la série géométrique évoquée ci-dessus jusqu au terme pq x 1 On obtient : F(x) = Pr {X x} = 1 q x, (814) c est aussi la probabilité d obtenir au moins un succès en k = x épreuves Fonction caractéristique Z(ω) = peiω (815) 1 qeiω Les quatre premiers moments non-centrés de la loi géomé- Moments non-centrés trique sont : µ 3 µ 1 = 1 p, µ 2 = 2 p p 2, = 6 6p + p2 p 3, µ 4 = (2 p)(12 12p + p2 ) p 4 Les quatre premiers moments centrés sont : µ 3 = µ 1 = 1 p, µ 2 = 1 p p 2, (1 p)(2 p) p 3, µ 4 = (1 p)(9 9p + p2 ) p 4 On donne également le nom de loi géométrique à la loi suivie par la variable Y = X 1, on a : Pr {Y = k} = p(1 p) k, k = 0, 1,, La variable Y représente alors le nombre d échecs précédant le premier succès au cours d une suite infinie d épreuves de Bernoulli La variable Y peut prendre les valeurs : 0, 1,, Si µ n désigne les moments non-centrés de Y, on a µ n = qµ n, et des relations similaires pour les moments centrés Moyenne, variance, asymétrie et aplatissement À partir des moments non-centrés, on trouve la moyenne µ et la variance σ 2 de la loi géométrique ( variable X ) : µ = 1 p, σ2 = q p 2 Les coefficients d asymétrie et d aplatissement sont donnés par : γ 1 = 2 p 1 p, γ 2 = 6 6p + p2 1 p

160 81 LOIS DISCRÈTES 143 Lorsque les chances de succès sont faibles ( q 1 ), la variance est pratiquement égale au carré de la moyenne ( l écart-type est alors approximativement égal à la moyenne ) Pour la loi de Y seule la moyenne est différente, elle vaut q/p, alors que σ 2, γ 1 et γ 2 sont les mêmes 814 Loi binomiale négative Une variable aléatoire X est une variable binomiale négative si : Pr {X = k} = C r 1 k+r 1 pr (1 p) k k = 0, 1,, (816) C est une loi à deux paramètres, un paramètre réel p, 0 < p < 1 et un paramètre entier r La loi binomiale négative est celle suivie par le nombre d échecs qu il faut subir avant d obtenir le r-ième succès dans une suite d épreuves de Bernoulli indépendantes On note I(r, p) une variable aléatoire suivant la loi binomiale négative On a : I(r, p) = R(r, p) r, (817) r R(r, p) = R i (1, p), (818) i=1 où R(r, p) désigne le nombre d épreuves nécessaires pour obtenir le r-ième succès et R i (1, p) désigne des variable aléatoires géométriques indépendantes Fonction de répartition Par définition la fonction de répartition de I(r, p) est égale à : { F(x) = 0 si x < 0; x k=0 Cr 1 k+r 1 pr q k si 0 x (819) Cette fonction de répartition est aussi égale à la probabilité d obtenir au moins r succès en r + x épreuves On obtient : { 0 si x < 0; F(x) = r+ x k=r Cr+ x k pk q r+ x k si 0 x (820) Sous cette forme, F(x) s exprime à l aide de la fonction bêta incomplète normalisée I p ( voir annexe A1 page 331 ainsi que l équation (1015) page 193 et suivantes ) : { 0 si x < 0 ; F(x) = (821) I p (r, x + 1) si 0 x Deux exemples de cette fonction de répartition sont donnés figure 82 page suivante La fonction caractéristique de la variable binomiale néga- Fonction caractéristique tive I(r, p) est : alors que celle de R(r, p) est donnée par : ( p ) r Z(ω) =, (822) 1 qe iω ( pe iω ) r Z(ω) = (823) 1 qe iω

161 144 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES FIG 82 Fonction de répartition de la loi binomiale négative pour r = 21 et pour deux valeurs du paramètre p : 05 ( ) et 075 ( ) Moyenne et variance On a : E{I(r, p)} = r q p, Var(I(r, p)) = r q p 2 (824) Notons que, sauf pour le cas dégénéré p = 1, la variance d une loi binomiale négative est toujours supérieure à sa moyenne Pour la loi binomiale c était la situation inverse et nous verrons que pour la loi de Poisson il y a égalité 815 Loi de Poisson Une variable aléatoire X est dite de Poisson si : Pr {X = k} = µk k! e µ k = 0, 1, 2,, (825) C est une loi à un seul paramètre réel positif µ > 0, qui est un paramètre de forme La loi de Poisson donne la probabilité de trouver exactement k événements dans un certain intervalle de temps ou à l intérieur d un certain domaine, quand les événements sont indépendants, arrivent à un taux constant et sont en nombre non limité On notera P(µ) une variable aléatoire qui suit la loi de Poisson de paramètre µ La loi qui porte son nom a été introduite par Poisson (1837) [61], elle a attendu Bortkiewicz (1898) [14] puis surtout Gosset (1907) [70] pour être appliquée L étude de Bortkiewicz portait sur le nombre de décès annuels par ruade de cheval dans les corps d armée de la cavalerie prussienne En 1910 Rutherford et Geiger [67] montrent que la désintégration α suit une loi de Poisson Fonction de répartition Pour tout x tel que 0 x, on a : F(x) = Pr {X x} = x k=0 µ k k! e µ, (826)

162 81 LOIS DISCRÈTES 145 FIG 83 Répartition de la loi de Poisson de paramètre µ = 5 d où : F(x) = { 0 si x < 0 1 P( x + 1, µ) si 0 x (827) Dans cette expression P représente la fonction gamma incomplète normalisée Pour µ très grand, on a avec une bonne approximation : ( x F(x) Φ µ ), (828) µ où Φ est la fonction de répartition de la loi normale réduite Fonction caractéristique Z(ω) = exp{µ(e iω 1)} (829) Caractéristiques numériques de la loi de Poisson Moments Les moments centrés sont donnés par la formule de récurrence : µ 0 = 1, µ 1 = 0, µ r+1 = µ( dµ r dµ + rµ r 1) (830) On trouve ainsi : µ 2 = µ, µ 3 = µ, µ 4 = µ + 3µ 2 Moyenne, variance, asymétrie et aplatissement E {P(µ)} = µ, Var(P(µ)) = µ γ 1 = µ 1 2, γ 2 = µ 1 (831) La variance d une loi de Poisson est égale à sa moyenne

163 146 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES Quelques propriétés 1 Si les variables aléatoires X 1 et X 2 sont indépendantes et suivent une loi de Poisson de paramètres respectifs µ 1 et µ 2, alors la variable aléatoire X = X 1 + X 2 suit une loi de Poisson de paramètre µ = µ 1 + µ 2, soit : P(µ 1 ) + P(µ 2 ) = P(µ 1 + µ 2 ) (832) 2 Dans les mêmes conditions que ci-dessus, la loi conditionnelle de X 1 sachant que X 1 + X 2 = n est une loi binomiale de paramètres n et : p = µ 1 µ 1 + µ 2 (833) 3 Si la moyenne µ = np d une variable aléatoire X suivant une loi binomiale est très petite devant le nombre d épreuves n, alors X suit approximativement une loi de Poisson de paramètre µ 816 Loi Hypergéométrique Une variable aléatoire X suit la loi hypergéométrique si : Pr {X = k} = Ck Np Cn k Nq CN n avec q = 1 p (834) C est une loi à trois paramètres positifs N, n et p, on la note : H(N, n, p) Le domaine de définition de X est max(0, n Nq) k min(n, Np), intervalle en dehors duquel les coefficients du binôme ne sont pas définis La loi hypergéométrique est celle des sondages, N représente le nombre total d individus, n le nombre d individus sondés et p désigne la proportion d individus possédant une certaine propriété, les individus sondés sont tous différents Ainsi la loi hypergéométrique correspond à un tirage sans remise dans la population de taille N Dans le même contexte, la loi binomiale correspond à un tirage avec remise La loi hypergéométrique peut également s exprimer de la façon suivante : Moyenne et variance On a : Pr {X = k} = Ck n CNp k N n C Np N E{X} = np, (835) Var(X) = N n npq (836) N 1 La loi hypergéométrique possède la même moyenne que la loi binomiale correspondante En revanche, sa variance est toujours inférieure ( sauf cas trivial ) à celle de cette loi binomiale Quelques propriétés Si X et Y sont des variables aléatoires binomiales indépendantes : X = B(n 1, p) et Y = B(n 2, p) La loi conditionnelle de X sachant que X + Y = n est donnée par la loi hypergéométrique H(N, n, p), avec N = n 1 + n 2 On utilise cette propriété pour décider si deux échantillons sont issus de deux lois binomiales identiques

164 82 LOIS CONTINUES Lois continues On parle de lois continues lorsque le domaine de définition de la variable aléatoire en question possède la puissance du continu et que sa fonction de répartition est absolument continue ( voir chapitre 215 page 25 ) 821 Loi uniforme Une variable aléatoire X suit une loi uniforme, sur l intervalle [a, b[ (a < b) si elle possède une densité de probabilité f(x) donnée par l expression : 1 si x [a, b[ f(x) = b a 0 si x [a, b[ (837) La loi uniforme est l analogue continu des lois discrètes décrivant des épreuves à issues équiprobables On utilise souvent la loi uniforme avec a = 1 2 et b = 1 2 pour représenter les erreurs d arrondi dans les calculs numériq ues On notera U(a, b) une variable aléatoire suivant la loi uniforme entre a et b Fonction de répartition La fonction de répartition de la loi uniforme est donnée par la formule suivante : 0 si x ], a[ x a F(x) = si x [a, b[ (838) b a 1 si x [b, [ Fonction caractéristique Z(ω) = 1 e iωb e iωa b a iω (839) Caractéristiques numériques de la loi uniforme Moments Les moments non-centrés µ r et centrés µ r sont donnés par les formules : µ r = 1 b r+1 a r+1 r + 1 b a ( b a µ 2p = 1 2p = 1 r + 1 i+j=r a i b j, (840) ) 2p, µ2p+1 = 0 (841) Moyenne et variance E {U(a, b)} = b + a (b a)2, Var(U(a, b)) = 2 12 (842)

165 148 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES 822 Loi bêta Une variable aléatoire X suit une loi bêta, si elle possède une densité de probabilité f(x) donnée par l expression : 1 f(x) = B(α, β) xα 1 (1 x) β 1 si x [0, 1] 0 si x [0, 1] (843) C est une loi à deux paramètres strictement positifs α > 0, β > 0 La fonction B est la fonction eulérienne de première espèce La loi bêta sert de modèle aux variables aléatoires dont le domaine de définition est à support borné Des variables aléatoires uniformes, indépendantes et triées par ordre croissant, suivent la loi bêta Fonction caractéristique Z(ω) = Caractéristiques numériques 1 B(α + β) (iω) k B(α + k, β) (844) k! Mode Si α > 1, β > 1 la loi bêta est unimodale et son mode (unique) vaut : k=0 Moments Ils sont donnés par l expression suivante : E { X k} = B(α + k, β) B(α, β) = α 1 α + β 2 (845) α(α + 1) (α + k 1) (α + β)(α + β + 1) (α + β + k 1) (846) Moyenne et variance De l expression des moments on obtient : E {X} = α α + β, Var(X) = αβ (α + β) 2 (α + β + 1) (847) Quelques propriétés 1 Si les variables aléatoires indépendantes (X 1,, X n ) suivent une loi uniforme entre [0, 1], et que les variables aléatoires (X (1) X (2) X (n) ) représentent les variables X k triées par ordre croissant, alors les variables X (k) suivent une loi bêta de paramètres α = k, β = n k Si les variables aléatoires X i, i = 1,,m Y i, i = 1,,n, sont indépendantes et suivent une loi normale N(0, σ 2 ), alors la variable λ : m i=1 λ = X2 i m i=1 X2 i + n i=1 Y i 2, (848) suit une loi bêta de paramètres α = m/2, β = n/2

166 82 LOIS CONTINUES 149 FIG 84 Diverses formes de la densité de probabilité de la loi bêta Les graphiques correspondent aux paramètres suivants : a) α = 05, β = 1, α = 1, β = 03 ; b) α = 03, β = 05, α = 2, β = 3 ; c) α = 1, β = 15, α = 3, β = 1 ; d) α = 05, β = 15, α = 25, β = 03 ; pour α = 1 β = 1, la loi bêta est la loi uniforme sur [0, 1] 823 Loi du χ 2 Une variable aléatoire X suit une loi du χ 2, si elle possède une densité de probabilité f(x) donnée par l expression : 1 ( x ) n 2 1 f(x) = 2Γ( n 2 ) e x 2 si x > si x 0 (849) C est une loi à un seul paramètre réel n strictement positif, appelé le degré de liberté, qui est un paramètre de forme ( voir figure 85 ) La loi du χ 2 a été introduite par

167 150 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES FIG 85 Densité de probabilité de la loi du χ 2 pour n = 1, 2, 3, 4 et 5 degrés de liberté l astronome F R Helmert (1875 a et b) [33, 34] et le nom de «loi du χ 2» lui a été donnée par le statisticien anglais K Pearson Dans le cas où n = 3 la loi du χ 2 est identique à la loi de Maxwell de la théorie cinétique des gaz Fonction de répartition l expression suivante : La fonction de répartition de la loi du χ 2 est donnée par F(x) = { P( n 2, x 2 ) si x 0 0 si x < 0 (850) où P désigne la fonction gamma incomplète normalisée ( voir appendice A1 ) Fonction caractéristique Z(ω) = (1 2iω) n 2 (851) Caractéristiques numériques Les moments centrés µ i de la loi du χ 2 à n degrés de liberté sont donnés par la formule de récurrence suivante : µ 0 = 1, µ 1 = 0, µ j = 2(j 1)(µ j 1 + nµ j 2 ), j 2 (852) A partir des moments centrés on calcule la moyenne, la variance, l asymétrie et l aplatissement : 2 E {X} = n, Var(X) = 2n, γ 1 = 2 n, γ 2 = 12 n (853)

168 82 LOIS CONTINUES 151 Quelques propriétés 1 Somme des carrés de variables aléatoires normales réduites Si les variables aléatoires X i sont indépendantes et suivent la loi normale réduite, alors la variable aléatoire X 2 telle que : n X 2 = Xi 2, suit une loi du χ 2 à n degrés de liberté 2 Somme de variables aléatoires Il découle de la propriété précédente, que si les variables aléatoires indépendantes X 2 n et X 2 m suivent des lois du χ 2 à n et m degrés de liberté, alors la variable aléatoire : i=1 X 2 n+m = X 2 n + X 2 m, suit une loi du χ 2 à n + m degrés de liberté 3 Formule asymptotique La variable aléatoire Z n = (2X 2 n) 1/2 (2n 1) 1/2 tend rapidement vers la loi normale réduite quand n tend vers l infini 824 Loi t de Student Une variable aléatoire X admet une loi de Student, si elle possède une densité de probabilité f(x) donnée par l expression : f(x) = 1 nb( 1 2, n 2 ) ) n+1 (1 + x2 2 n (854) C est une loi à un seul paramètre entier n > 0, appelé le degré de liberté, qui est un paramètre de forme ( voir figure 86 ) Cette loi a été introduite par le statisticien anglais WS Gosset en 1908 [71] Student est le pseudonyme sous lequel son employeur l avait autorisé à publier ses travaux Fonction de répartition par l expression suivante : La fonction de répartition de la loi de Student est donnée où I désigne la fonction bêta incomplète normalisée Caractéristiques numériques de la loi de Student F(x) = I n ( n n+x 2 2, 1 2 ), (855) Moments suivante : Les moments centrés de la loi de Student sont donnés par l expression µ 2r = nr Γ(r )Γ( n 2 r) Γ( 1 2 )Γ( n 2 ), µ 2r+1 = 0 2r < n (856) Moyenne et variance E {X} = 0, n > 1; Var(X) = n n 2, n > 2 (857)

169 152 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES FIG 86 Densité de probabilité de la loi de Student à n = 1, 2 et 5 degrés de liberté La courbe en trait interrompu est la loi normale réduite, forme asymptotique de la loi de Student pour n = Asymétrie et aplatissement γ 1 = 0, n > 3; γ 2 = 6 n 4, n > 4 (858) Quelques propriétés Si X suit une loi normale réduite et Y une loi du χ 2 à n degrés de liberté et si ces variables aléatoires sont indépendantes, alors la variable T = X/ Y/n suit une loi de Student à n degrés de liberté 825 Loi F de Fisher Une variable aléatoire X admet une loi de Fisher si elle possède une densité de probabilité f(x) donnée par l expression : ( ) 1 1 ( f(x) = B ( ν1 2 ν1 ) ν 1 x 1 2, ν2 2 ν ν ) (ν1+ν2) x si x > 0 ν 2 2 ν 2 0 si x 0 (859) C est une loi à deux paramètres réels ν 1 et ν 2 strictement positifs, appelés degré de liberté du numérateur et degré de liberté du dénominateur Ce sont des paramètres de forme ( voir figure 87 ) La loi de Fisher a été introduite par Fisher en 1925 [26] elle est aussi appelée loi de Snedecor

170 82 LOIS CONTINUES 153 FIG 87 Densité de probabilité de la loi de Fisher pour ν 1 = ν 2 = 1, 2, 3, 10, 30 et 100 Fonction de répartition l expression suivante : La fonction de répartition de la loi de Fisher est donnée par F(x) = { 1 I ν 2 ν 2 +ν 1 x ( ν2 2, ν1 2 ) si x 0 0 si x < 0 (860) où I désigne la fonction bêta incomplète normalisée Caractéristiques numériques de la loi de Fisher Moments non-centrés Ils sont donnés par l expression suivante : Moyenne et variance ( ) r µ r = ν2 Γ( 1 2 ν 1 + r)γ( 1 2 ν 2 r) ν 1 Γ( 1 2 ν 1)Γ( 1 2 ν, ν 2 > 2r (861) 2) E {X} = ν 2 ν 2 2, ν 2 > 2; Var(X) = 2ν2 2 (ν 1 + ν 2 2) ν 1 (ν 2 2) 2 (ν 2 4), ν 2 > 4 (862) Quelques propriétés 1 Si les variables aléatoires X 1 et X 2 sont indépendantes et suivent une loi du χ 2 respectivement à ν 1 et ν 2 degrés de liberté, la variable aléatoire X = X 1/ν 1 X 2 /ν 2 suit une loi de Fisher à ν 1 et ν 2 degrés de liberté 2 Si la variable aléatoire X suit une loi bêta de paramètres α, β, alors la variable aléatoire β X suit une loi de Fisher de paramètres 2α, 2β α 1 X

171 154 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES 826 Loi exponentielle Une variable aléatoire X suit une loi exponentielle si elle possède une densité de probabilité f(x) donnée par l expression : f(x) = { λe λx si x > 0 0 si x < 0 (863) C est une loi à un seul paramètre réel λ (λ > 0), qui est un paramètre d échelle ( voir figure 88 ) FIG 88 Densité de probabilité de la loi exponentielle Fonction de répartition F(x) = { 1 e λx si x 0 0 si x < 0 (864) Fonction caractéristique Z(ω) = (1 iω/λ) 1 (865) Caractéristiques numériques de la loi exponentielle Moments non-centrés Ils sont donnés par la formule suivante : Moyenne et variance µ k = k! λ k, (866) E {X} = 1 λ, Var(X) = 1 λ 2, (867)

172 82 LOIS CONTINUES 155 Asymétrie et aplatissement Mode La loi exponentielle possède un mode en 0 Quelques propriétés γ 1 = 2, γ 2 = 6 (868) 1 Absence de mémoire de la loi exponentielle La loi exponentielle est la seule loi qui n a pas de mémoire, c est-à-dire qu elle possède la propriété suivante [Pr{X x} = 1 e λx ] [Pr {X > x + y X > y} = Pr {X > x}] (869) Le terme de droite de cette équivalence est la condition d absence de mémoire On vérifie facilement que cette condition est nécessaire pour que la loi soit exponentielle ( partie de l équivalence ) Le fait que c est aussi une condition suffisante ( partie ) est plus délicat et sa démonstration fait l objet du chapitre Loi exponentielle et loi de Poisson Soit un événement arrivant aléatoirement dans le temps avec un taux moyen λ par unité de temps On suppose que cet événement suit une loi de Poisson, c est-à-dire que dans un temps fini t, la probabilité d obtenir k occurrences de cet événement est donnée par la formule : Pr {N = k} = p k (t) = (λt)k e λt k! La probabilité de ne pas obtenir d événement pendant le temps t est donc : Pr {N = 0} = p 0 (t) = e λt En prenant comme variable aléatoire le temps d arrivée de l événement poissonien, on obtient directement sa fonction de répartition F(t) : F(t) = Pr {X t} = 1 Pr {X > t} = 1 p 0 (t) = 1 e λt et sa densité de probabilité : f(t) = df dt = λe λt Le temps d arrivée d un événement poissonien suit donc une loi exponentielle Nous verrons plus loin ( chapitre 9 ) que la réciproque est également vraie 827 Loi gamma ou loi d Erlang Une variable aléatoire X admet une loi gamma, si elle possède une densité de probabilité f(x) donnée par l expression : λ ν f(x) = Γ(ν) xν 1 e λx si x > 0 0 si x 0 (870)

173 156 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES C est une loi à deux paramètres réels positifs : ν et λ > 0, ν est un paramètre de forme et λ un paramètre d échelle ( voir figure 89 ) Quand ν est un entier la fonction eulérienne Γ est égale à (n 1)! Sous des hypothèses assez générales ( voir chapitre 9 ), le temps T qu il faut attendre avant l arrivée de ν photons, quand on reçoit λ photons par unité de temps, suit une loi gamma de paramètres ν et λ FIG 89 Densité de probabilité de la loi gamma pour le paramètre ν = 1, 2, 3, 4 et 5 Pour ν = 1 la loi gamma est identique à la loi exponentielle Fonction de répartition l expression : La fonction de répartition de la loi gamma est donnée par F(x) = { P(ν, λx) si x 0 0 si x < 0 où P désigne la fonction gamma incomplète normalisée Fonction caractéristique Caractéristiques numériques de la loi gamma (871) Z(ω) = (1 iω/λ) ν (872) Moments Les moments non-centrés µ r existent et valent : µ r = Γ(ν + r) Γ(ν) Moyenne, variance, asymétrie et aplatissement 1 λ r (873) E {X} = ν λ, Var(X) = ν λ 2, γ 1 = 2 ν, γ 2 = 6 ν (874)

174 82 LOIS CONTINUES 157 Mode Le mode de la loi gamma est égal à ν 1 λ Quelques propriétés si ν 1 et à 0 si 0 < ν < 1 1 Si X suit une loi gamma de paramètres ν et λ, la variable aléatoire Y = 2λX suit une loi du χ 2 à n = 2ν degrés de liberté 2 Si les variables aléatoires indépendantes X 1,, X n suivent une loi exponentielle de paramètre λ, la variable aléatoire Y = n i=1 X i suit alors une loi gamma de paramètre λ et de paramètre ν = n 828 Loi log-normale Une variable aléatoire X admet une loi log-normale (ou logarithmiquement normale), si elle possède une densité de probabilité f(x) donnée par l expression : 1 { exp 1 ( lnx µ ) 2 } si x > 0 f(x) = 2πσx 2 σ 0 si x 0 C est une loi à deux paramètres : µ et σ > 0 ( voir figure 810 ) (875) FIG 810 Densité de probabilité de la loi log-normale pour les paramètres µ = 0 et σ = 1 Fonction de répartition La fonction de répartition de la loi log-normale est donnée par l expression : ( lnx µ ) Φ, si x 0; F(x) = σ (876) 0, si x < 0; où Φ désigne la fonction de répartition de la loi normale réduite

175 158 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES Caractéristiques numériques de la loi log-normale Moments La loi log-normale possède des moments à tous les ordres Les moments non-centrés sont donnés par la formule : µ k = exp ( kµ k2 σ 2) (877) Moyenne et variance A l aide de la formule précédente on trouve : E {X} = exp ( µ σ2), Var(X) = (expσ 2 1)exp(2µ + σ 2 ) (878) Asymétrie et aplatissement γ 1 = (exp σ 2 1)(exp σ 2 + 2) 2, γ 2 = (exp σ 2 1)(exp 3σ exp2σ expσ 2 + 6) Mode La loi log-normale est unimodale, de mode exp(µ σ 2 ) Médiane La médiane de la loi est égale à exp µ Quelques propriétés 1 D après les valeurs précédentes, on trouve dans cet ordre : mode < médiane < moyenne 2 Si la variable aléatoire X suit la loi normale réduite, la variable aléatoire Y : suit une loi log-normale de paramètres µ et σ Y = exp(σx + µ) (879) 3 Si les variables aléatoires X 1 et X 2 sont indépendantes et suivent respectivement une loi log-normale de paramètres µ 1, σ 1 et µ 2, σ 2, alors le produit X 1 X 2 est une variable aléatoire suivant une loi log-normale de paramètres µ 1 +µ 2, σ σ2 2 et le quotient X 2 /X 1 est une variable aléatoire qui suit également une loi lognormale de paramètres µ 2 µ 1, σ σ2 2 4 Si la variable aléatoire Y résulte de l effet multiplicatif de n variables aléatoires X i indépendantes strictement positives, de façon que : Y = n i=1 X i, et si les X i suivent une loi identique, il résulte du théorème central limite que Y converge en loi vers une loi log-normale Si les X i ne sont pas identiquement distribués mais s ils satisfont à la condition de petitesse uniforme ( voir théorème 725 ), c est-à-dire si la variation des lnx i est faible devant celle de leur somme, alors Y converge également en loi vers une loi log-normale 829 Loi de Cauchy Une variable aléatoire X admet une loi de Cauchy, si elle possède une densité de probabilité f(x) donnée par l expression : f(x) = 1 π λ λ 2 + (x α) 2 (880)

176 83 LOIS À PLUSIEURS VARIABLES 159 FIG 811 Densité de probabilité de la loi de Cauchy réduite, de paramètres α = 0 et λ = 1 C est une loi à deux paramètres : α et λ (λ > 0), où α est un paramètre de position et λ un paramètre d échelle ( voir figure 811 ) Cette loi qui ne possède aucune bonne propriété est utilisée pour simuler l apparition de mesures aberrantes ou pour tester la fiabilité de certains algorithmes Fonction de répartition F(x) = 1 ( ) x α π arctan + 1 λ 2 (881) Fonction caractéristique Z(ω) = e iαω λω (882) Caractéristiques numériques de la loi de Cauchy Moments Cette loi ne possède aucun moment et n a donc ni moyenne ni variance Médiane et mode La médiane de la loi de Cauchy x 05 est égale à α C est également la valeur de son mode 83 Lois à plusieurs variables 831 Loi multinomiale Un vecteur aléatoire X = (X 1, X 2,, X k ) à valeurs entières, admet la loi multinomiale de paramètres n; p 1, p 2,, p k si : Pr {X = m} = n! m 1!m 2! m k! pm1 1 pm2 2 p m k k (883)

177 160 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES Pr {X = m} Pr {X 1 = m 1, X 2 = m 2,,X k = m k } Les paramètres p i sont tels que : 0 p i 1 k i=1 p i = 1 L ensemble des valeurs possibles m = (m 1, m 2,, m k ) de la variable aléatoire X, est tel que : k i=1 m i = n La loi multinomiale est une généralisation de la loi binomiale au cas où il y a plus de deux issues à une expérience aléatoire Cette loi donne la probabilité d obtenir m i résultats de classe i parmi k classes, au cours de n épreuves indépendantes, lorsque la probabilité d obtenir la classe i est p i Cette loi est, par exemple, utile dans l étude des méthodes de ré-échantillonnage dites méthodes bootstrap Caractéristiques numériques de la loi multinomiale Moyenne C est un vecteur colonne de format (k, 1) : np 1 np 2 E {X} = np k (884) Matrice des variances-covariances C est une matrice (k, k) dont les valeurs sont données par l expression : np 1 (1 p 1 ) np 1 p 2 np 1 p k np 2 p 1 np 2 (1 p 2 ) np 2 p k V = (885) np k p 1 np k p 2 np k (1 p k ) Coefficients de corrélation p i p j ρ ij = (1 p i )(1 p j ) (886) 84 Bibliographie A titre d exercices, on donne ci-dessous d autres lois ; certaines sont extraites du chapitre 6 de l ouvrage de Koroliouk (1983) [45] Il existe un catalogue plus complet que l on trouvera dans les ouvrages de Johnson et al [37, 38] et [39] 85 Exercices et problèmes Exercice 81 Racine carrée d une variable de Poisson Montrer que la variance de la racine carrée d une variable aléatoire de Poisson de moyenne µ est approximativement égale à lorsque le paramètre µ est très grand 1 4 Exercice 82 Loi triangulaire de Simpson Soient X 1 et X 2 deux variables aléatoires indépendantes suivant la loi uniforme sur l intervalle [ a, b ] Montrer que la variable aléatoire 2 2 Y = X 1 + X 2 possède une densité de probabilité f(y) donnée par l expression : 8 < 2 f(y) = b a 2 a + b 2y, si y [a, b]; (b a) 2 (887) : 0, si y [a, b]

178 85 EXERCICES ET PROBLÈMES 161 Montrer que les moments de la loi de Y sont donnés par : E{Y k } = et que la variance de Y vaut : 4 h a k+2 + b k+2 2 (b a) 2 (k + 1)(k + 2) Var(Y ) = (b a)2 24 a + b 2 k+2 i, (888) (889) Exercice 83 Loi bêta de type II Soit X une variable aléatoire suivant une loi bêta de paramètres α et β Par définition la variable aléatoire Y = X suit une loi bêta dite de type 1 X II Démontrer que la densité de probabilité f(y) de Y vaut : 8 < 1 y α 1, si y 0 ; f(y) = B(α, β) (1 + y) α+β : 0, si y < 0 Montrer que la moyenne et la variance de Y sont donnés par les expressions : E {Y } = (890) α α(α + β 1), Var(Y ) = β 1 (β 1) 2 (β 2) (891) Montrer que si la variable aléatoire Y suit une loi bêta de type II de paramètres α, β, alors la variable aléatoire β Y suit une loi de Fisher de paramètres 2α,2β α Exercice 84 Loi du χ Soit X une variable aléatoire suivant la loi du χ 2 à n degrés de liberté Montrer que la variable aléatoire Y = X possède une densité de probabilité donnée par l expression : 8 < 1 exp{ 1 f(y) = 2 n 2 1 Γ( n 2 : )yn 1 2 y2 }, si y > 0; (892) 0, si y 0 La loi de Y porte le nom de loi du χ, pour n = 2 il s agit de la loi de Rayleigh et pour n = 3 de la loi de Maxwell décrivant la vitesse des molécules d un gaz parfait Montrer que les moments de la loi de Y sont égaux à : et que la variance de Y vaut : E{Y k } = 2 k 2 Γ( n+k 2 ) Γ( n 2 ), (893)» Γ( n+1 2 Var(Y ) = n 2 ) 2 Γ( n ) (894) 2

179 162 CHAPITRE 8 LOIS DE PROBABILITÉ USUELLES

180 Chapitre 9 Flux d événements Les flux d événements ou plus simplement, les flux, sont formés d événements arrivant les uns après les autres, séparés par des intervalles de temps aléatoires T i, et susceptibles d être détectés par un dispositif quelconque La branche de la théorie des probabilités concernant les flux est la théorie des files d attente Le schéma général comprend un flux d entrée se présentant pour être servi devant n canaux Les demandeurs servis constituent un flux de sortie et les demandeurs non servis constituent un flux de demandes rejetées ou forment une file d attente Les appels téléphoniques, l apparition de pannes, les requêtes d écriture ou de lecture sur un disque magnétique d ordinateur ou encore les queues devant les guichets peuvent tous être traités suivant ce modèle Pour le domaine qui nous concerne, les événements du flux d entrée pourront être des photons se présentant devant un détecteur et le flux de sortie sera le signal enregistré Certains photons peuvent ne pas être détectés si, par exemple, le détecteur est saturé La figure 91 représente schématiquement un flux d événements On repère les événements constituant un flux soit par les temps ξ n auxquels ils apparaissent, soit par les intervalles de temps T n = ξ n ξ n 1 entre deux événements successifs L étude des flux consiste, dans une large mesure, à trouver les caractéristiques probabilistes de ces variables aléatoires 0 ξ 1 ξ 2 ξ 3 ξ 4 ξ 5 T 1 T 2 T 3 T 4 T 5 T 6 ξ 6 FIG 91 Représentation schématique d un flux d événements Les temps d arrivée des événements sont les variables aléatoires ξ i et les intervalles de temps séparant les événements sont les variables aléatoires T i On a T 1 = ξ 1 et pour i 2, T i = ξ i ξ i 1 91 Les flux simples ou de Poisson On s intéresse le plus souvent à des flux possédant les propriétés suivantes 1 Flux stationnaire Un flux est stationnaire si la probabilité pour qu un nombre quelconque d événements apparaisse pendant l intervalle de temps (t, t + t), 163

181 164 CHAPITRE 9 FLUX D ÉVÉNEMENTS ne dépend que de t et non pas du temps t ( c est le principe d invariance par translation ) Si N désigne la variable aléatoire attachée au nombre d événements susceptibles d apparaitre dans le temps t, on aura : Pr {N = n} = p n ( t) (91) 2 Flux séparable Un flux est séparable ( on dit aussi ordinaire ) si la probabilité pour qu il apparaisse plus d un événement dans le temps t est beaucoup plus petite que la probabilité pour qu il apparaisse un seul événement, soit avec les notations précédentes : Pr {N > 1} lim t 0 Pr {N = 1} = 0 (92) Cela implique que les événements n arrivent pas par couples, triplets, ou suivant tout autre groupement 3 Flux sans post-action Un flux est sans post-action si les variables aléatoires T i sont indépendantes et si de plus le flux est sans mémoire Un flux est sans mémoire si la loi gouvernant les intervalles de temps entre événements obéit à la relation : i, Pr {T i > s + t T i > s} = Pr {T i > t} (93) Cela veut dire que, si l événement ne s est pas produit pendant le temps s, la probabilité pour qu il ne se produise pas pendant un temps t supplémentaire est indépendante du temps précédent s durant lequel il ne s est pas produit Un flux d événements possédant ces trois propriétés est appelé flux simple ou flux de Poisson 911 Loi gouvernant les intervalles de temps T i Nous allons montrer que la seule loi remplissant la condition d absence de mémoire est la loi exponentielle La démonstration s appuie sur celle de Rényi [65] Chapitre 3 13 Démonstration Démontrons pour commencer que si la condition (93) est satisfaite, alors la loi suivie par T i est exponentielle Soit F(t) la fonction de répartition de la loi cherchée et posons G(t) = 1 F(t) On a : G(t) = 1 F(t) = 1 Pr {T i < t} = Pr {T i t} (94) Notons que la variable t désigne maintenant un intervalle de temps entre deux événements La probabilité de l événement {T i = t} étant nulle on a aussi G(t) = Pr {T i > t} Considérons la quantité G(s + t) = Pr {T i > s + t} On a par définition de la probabilité conditionnelle : Pr {T i > s + t} = Pr {T i > s}pr {T i > s + t T i > s} (95) Mais d après la propriété (93), il vient : Pr {T i > s + t} = Pr {T i > s}pr {T i > t}, (96) ce qui s écrit à l aide des fonctions G : G(s + t) = G(s)G(t) Maintenant, en choisissant s = t puis s = 2t, on obtient G(2t) = G 2 (t) et G(3t) = G 3 (t), et par récurrence pour tout entier n N, G(nt) = G n (t) Si l on pose s = nt on obtient G(s) 1/n = G(s/n)

182 91 LES FLUX SIMPLES OU DE POISSON 165 où s et n sont quelconques Choisissons s = mt, il vient G( m n t) = G(t)m/n En posant t = 1 et m/n = r Q + dans l équation précédente, on obtient pour tout rationnel positif r : G(r) = G(1) r La quantité G(1) désigne la probabilité pour que l on n observe pas d événement dans l unité de temps Comme G(1) 1, on peut poser G(1) = e λ et l on a alors pour tout t rationnel positif G(t) = e λt La fonction G étant monotone, l encadrement des réels par les rationnels sur l axe des t se retrouve bijectivement pour G(t) et l on peut poser par continuité pour t R : F(t) = 1 G(t) = 1 e λt (97) Remarquons que seule l hypothèse d absence de mémoire a été utilisée pour déduire ce résultat Afin de trouver le sens qu il convient de donner à la valeur λ, nous allons maintenant faire appel aux hypothèses 1 et 2 Calculons la probabilité pour qu il y ait au moins un événement dans l intervalle de temps t : Pr {T i t} = F( t) F( t) = 1 e λ t = λ t + O(( t) 2 ) (98) D après l hypothèse de stationnarité, cette quantité ne dépend que de t Cela montre que la quantité λ est une constante, indépendante du temps Par ailleurs quand t 0, d après l hypothèse numéro 2 il n y a que deux possibilités : soit il n y a pas d événement dans t, soit on n en observe qu un On observe donc en moyenne dans t : E {N( t)} = 0 (1 λ t) + 1 λ t = λ t, et dans cette expression N( t) est une variable aléatoire égale au nombre d événements dans l intervalle de temps t Il vient alors : E {N( t)} λ = lim t t (99) La constante λ est donc le nombre moyen d événements par unité de temps Nous avons ainsi démontré que les intervalles de temps séparant les événements constituant un flux de Poisson suivaient une loi exponentielle, de fonction de répartition et de densité de probabilité données par : F(t) = (1 e λt )1 t 0, f(t) = λe λt 1 t 0 (910) Il reste à démontrer la propriété réciproque, c est-à-dire que toutes les lois exponentielles répondent à la condition (93) On a d après la définition des probabilités conditionnelles : Pr{T i > s + t T i > s} = Pr{Ti > s + t, Ti > s} Pr{T i > s} Le numérateur de la fraction du second membre se simplifie, car si la condition T i > s + t est satisfaite, alors la condition T i > s est nécessairement satisfaite Il vient donc : Pr {T i > s + t T i > s} = Ce qui s exprime, pour les lois exponentielles : Pr {Ti > s + t} Pr {T i > s} Pr {T i > s + t T i > s} = 1 (1 e λ(t+s) ) 1 (1 e λs ) = e λt = Pr {T i > t}, ce qui correspond bien à la définition de la propriété d absence de mémoire

183 166 CHAPITRE 9 FLUX D ÉVÉNEMENTS FIG 92 Fonctions de répartition du temps d arrivée ξ k du k e événement de Poisson lorsque les événements arrivent au taux λ La loi suivie par la variable aléatoire ξ k est une loi gamma dite aussi loi d Erlang : γ(k, λ) 912 Lois gouvernant les dates d arrivée ξ i des événements Il y a identité entre ξ 1 et T 1 La variable aléatoire ξ 1 suit donc elle aussi une loi exponentielle de paramètre λ Pour calculer la loi suivie par ξ 2 remarquons que c est la somme de deux variables aléatoires par hypothèse indépendantes : ξ 2 = T 2 + T 1 La densité de probabilité f 2 de ξ 2 est alors la convolution de deux densités exponentielles Il vient : f 2 (t) = λe λu 1 u 0 λe λ(t u) 1 t u 0 du t = λ 2 e λt du f 2 (t) = λ 2 te λt 0 Le temps d arrivée du deuxième événement suit donc la loi d Erlang d ordre 2 On démontrerait facilement par récurrence que le temps d arrivée ξ n du n e événement suit une loi d Erlang d ordre n : f n (t) = Ces lois possèdent une moyenne et un variance : λn (n 1)! tn 1 e λt (911) E{ξ n } = n λ, Var(ξ n) = n λ 2 La figure 92 montre quelques unes de ces lois Notons que les variables aléatoires ξ i et ξ j sont corrélées, on a : Cov(ξ i ξ j ) = min(i, j)/λ 2 0 et par conséquent elles ne sont pas indépendantes non plus

184 91 LES FLUX SIMPLES OU DE POISSON Loi gouvernant le nombre d événements observés dans un intervalle de temps donné T Le nombre d événements observés dans l intervalle de temps T est une variable aléatoire que nous noterons N, c est a priori une fonction de T Calculons la probabilité d obtenir exactement n événements dans le temps T Pour cela il faut que ξ n T ce qui assure que l on observe au moins n événements dans T, mais il faut aussi que ξ n+1 > T de façon à en observer exactement n ( voir figure 93 de la présente page ) Par définition ξ n+1 = ξ n + T n+1, les variables aléatoires ξ n et T n+1 sont indépen- 0 ξ 1 ξ 2 ξ n 1 / / ξ n T T 1 T 2 T n T n+1 ξ n+1 FIG 93 Flux d événements correspondant au cas où l on a exactement n événements dans l intervalle de temps T dantes, ce que l on montre facilement par changement de variable sur l ensemble des n + 1 variables indépendantes T i La densité de probabilité f du couple (T n+1, ξ n ) vaut alors : λ n f(s, t) = λe λs (n 1)! tn 1 e λt (912) Le domaine D du plan (T n+1, ξ n ) satisfaisant les conditions ξ n T et ξ n+1 = ξ n + T n+1 > T est illustré par la figure 94 ξ n T ξ n = T ξ n + T n+1 = T D T T n+1 FIG 94 Domaine d intégration D, satisfaisant les conditions ξ n T et ξ n +T n > T Ces conditions correspondent aux cas où l on observe exactement n événements dans le temps T Il est maintenant facile de calculer la probabilité p n associée à l événement {N = n} En effet : p n = Pr {N = n} = f(s, t)dsdt, D

185 168 CHAPITRE 9 FLUX D ÉVÉNEMENTS p n = d où la solution cherchée : λn+1 (n 1)! = λn+1 (n 1)! = λn+1 (n 1)! D T 0 T t n 1 0 T = λn (n 1)! e λt = λn (n 1)! e λt T n n, e λs t n 1 e λt dsdt, t n 1 e λt dt T t e λs ds, 2 e λt 1 λ e λ(t t) dt, 0 t n 1 dt, p n = Pr {N = n} = (λt)n e λt (913) n! Le nombre d événements susceptibles d apparaître dans le temps T suit une loi de Poisson de paramètre µ = λt, et par conséquent de moyenne E{N} = λt et de variance Var(N) = λt Démonstration Soit une variable aléatoire discrète N suivant la loi de Poisson de paramètre µ On a : E{N} = X n=0 n µn n! e µ = X n=1 µ n (n 1)! e µ = µ X n=0 µ n n! e µ = µ Pour la variance on utilise l identité Var(N) = E{N 2 } E{N} 2, en s appuyant sur le calcul préliminaire suivant : X n=1 n(n 1) µn n! e µ = = X n=1 X n=2 Il vient alors E{N 2 } = µ 2 + µ et : n 2 µ n n! e µ X n=1 µ n (n 2)! e µ = µ 2 n µn n! e µ = E{N 2 } E{N}, X n=0 Var(N) = µ 2 + µ µ 2 = µ µ n n! e µ = µ 2 Exemple 91 Bruit de photons Si le modèle corpusculaire de la lumière peut s appliquer, on peut raisonnablement identifier à un flux de Poisson, le flux de photons enregistré par un détecteur parfait quelconque Supposons que la source lumineuse émette des photons à un taux de λ photons par unité de temps Supposons de plus que le détecteur soit effectivement parfait, c està-dire qu il enregistre les impacts des photons sans pertes ni délais aléatoires et qu il n introduit pas d autres sources de bruit Les calculs précédents montrent que les temps T séparant les impacts des photons doivent suivre la loi exponentielle de densité : f(t) = λe λt, de moyenne E{T } = 1/λ et de variance Var(T) = 1/λ 2 Le nombre N d impacts susceptibles d être enregistrés dans un intervalle de temps t suit la loi de Poisson de moyenne E{N} = λ t et de variance Var(N) = λ t Si le détecteur compte les photons par tranche de temps t, le signal enregistré pourra ressembler à celui de la figure 95

186 91 LES FLUX SIMPLES OU DE POISSON 169 N t/ t FIG 95 Exemple du nombre de photons enregistrés par intervalle de temps t, quand on reçoit en moyenne 5 photons dans cet intervalle t La moyenne λ t est en fait le signal que l on cherche à détecter et le bruit parasite peut être quantifié par l écart type λ t, de sorte que le rapport signal sur bruit SN, qui est un critère de qualité de l observation, est donné par l expression : SN = λ t λ t = λ t (914) Le rapport signal sur bruit augmente donc comme t où t est le temps d observation du signal Propriété réciproque Nous allons maintenant établir la propriété réciproque, c està-dire que si un flux est tel que le nombre N(T) d événements observé dans un intervalle de temps T quelconque suit la loi de Poisson, et si les variables aléatoires N(T i ) sont indépendantes pour tous les intervalles T i disjoints, alors le flux est un flux de Poisson Par hypothèse, la variable aléatoire N(T) suit la loi de Poisson : Pr {N(T) = n} = (λt)n e λt, (915) n! où λ est une constante dont la signification est le nombre moyen d événements par unité de temps Montrons que ces hypothèses remplissent les conditions requises par le flux de Poisson 1 Stationnarité Par définition la quantité Pr {N( T) = n} ne dépend pas du temps si λ ne dépend pas lui-même du temps 2 Flux séparable On a les limites suivantes : lim t 0 Pr {N( t) = 0} = 1 λ t lim t 0 Pr {N( t) = 1} = λ t λ2 ( t) 2 lim t 0 Pr {N( t) > 1} = λ2 ( t) 2,

187 170 CHAPITRE 9 FLUX D ÉVÉNEMENTS ce qui montre bien que lim t 0 Pr {N( t) > 1}/ Pr {N( t) = 1} = 0, et que le flux est séparable 3 Flux sans post-action Montrons tout d abord que les intervalles de temps T i entre événements suivent la loi exponentielle En effet il vient : Pr {T i t} = Pr {N(t) = 0} = (λt)0 e λt = e λt, 0! d où la fonction de répartition de T i : F(T i ) = 1 Pr {T i t} = 1 e λt, (916) ce qui montre que T i suit la loi exponentielle et cette loi est bien sans mémoire d après la démonstration du chapitre 911 La propriété d indépendance des T i découle de celle de l indépendance des N(T i ) ; montrons-le rapidement pour un couple disjoint T i, T j On a : Pr {T i < s, T j < t} = Pr {N(s) > 0, N(t) > 0} = Pr {N(s) > 0}Pr {N(t) > 0} = Pr {T i < s}pr {T j < t} Ce dernier point achève la démonstration, et le flux est donc bien un flux de Poisson 914 Quelques lois conditionnelles À partir d un flux de Poisson, on peut envisager de nombreuses lois conditionnelles, nous allons nous concentrer ci-dessous sur celles que l on peut calculer lorsque le nombre N d événements apparaissant dans l intervalle de temps [0, T] est fixé à n Ces lois présentent un grand intérêt pratique pour la simulation des flux de Poisson Loi de ξ k lorsque N = n On cherche à évaluer la quantité : Pr{ξ k t N = n}, c est-à-dire : Pr{ξ k t N = n} = Pr{ξ k t, N = n} Pr{N = n} On a au dénominateur Pr{N = n} = (λt)n n! e λt et pour évaluer le numérateur on introduit les variables indépendantes : ξ k = k i=1 T i, Y = n i=k+1 T i et T n+1 Il vient : Pr{ξ k t, N = n} = Pr{ξ k t, Y T ξ k, T n+1 > T (ξ k + Y )} Le triplet (ξ k, Y, T n+1 ) composé de variables indépendantes possède la densité : f(x, y, s) = à l aide de cette densité on obtient : Pr{ξ k t, N = n} = λk (k 1)! xk 1 e λx λ n k (n k 1)! yk 1 e λy λe λs t 0 dx T x 0 dy ds f(x, y, s) T (x+y) Le calcul se mène de manière analogue à celui qui conduit à la formule (913) page 168 On trouve alors l expression : Pr{ξ k t N = n} = n! (k 1)!(n k)! t/t 0 u k 1 (1 u) n k du, (917)

188 91 LES FLUX SIMPLES OU DE POISSON 171 FIG 96 Fonctions de répartition conditionnelles du temps d arrivée du k e événement de Poisson dans l intervalle [0, T] lorsque le nombre d événements N observés dans cet intervalle est égal à n = 10 La loi suivie par la variable aléatoire ξ k /T est une loi bêta : β(k, n k + 1) qui montre que le temps d arrivée normalisé t/t du k e événement de Poisson, lorsque on en a reçu n dans le temps T, suit une loi bêta de paramètres α = k et β = n k +1 ( voir la loi bêta au chapitre 822 page 148 ) La figure 96 montre les fonctions de répartition conditionnelles de ces temps d arrivée lorsqu on a sélectionné les intervalles [0, T] qui contiennent exactement n = 10 événements La loi bêta est la loi suivie par la k e variable issu du tri par ordre croissant de n variables aléatoires uniformes et indépendantes sur l intervalle [0, 1] Le paragraphe suivant établit une réciproque de cette propriété Choix aléatoire de ξ k lorsque N = n Construisons une variable aléatoire ξ égale à une variable ξ K où l indice K des variables ξ k est choisi au hasard avec la probabilité p k Montrons que la loi suivie par la variable ξ est uniforme si le choix de l indice k est lui aussi uniforme : p k = 1/n Il

189 172 CHAPITRE 9 FLUX D ÉVÉNEMENTS vient : Pr{ξ t N = n} = = = = = n p k Pr{ξ k t N = n}, k=1 n 1 n! u k 1 (1 u) n k du, n (k 1)!(n k)! 0 n (n 1)! t/t u k 1 (1 u) n k du, (k 1)!(n k)! 0 n Cn 1 k 1 uk 1 (1 u) n k du, k=1 k=1 t/t 0 k=1 t/t 0 t/t (1 u + u) n 1 du = t T La variable ξ suit en effet une loi uniforme sur l intervalle [0, T] 92 Flux de Poisson non-stationnaire Nous allons abandonner, dans cette partie, la propriété d invariance du flux par translation de l origine des temps Il est donc maintenant nécessaire de s intéresser au nombre d événements susceptibles de survenir dans l intervalle de temps t 1, t 2 Soit N(t 1, t 2 ) la variable aléatoire associée à ce nombre Nous dirons qu un flux séparable est un flux de Poisson «non-stationnaire» s il possède d abord les propriétés suivantes 1 Indépendance Si t 1 < t 2 t 3 < t 4, alors les variables aléatoires N(t 1, t 2 ) et N(t 3, t 4 ) sont indépendantes C est la propriété d indépendance sur des intervalles de temps disjoints que nous avons déjà vue dans le cas stationnaire 2 Existence d une densité instantanée Quel que soit t, le nombre moyen d événements dans l intervalle t, t + t divisé par t, tend vers une limite quand t tend vers zéro Plus précisément : E {N(t, t + t)} λ(t) = lim (918) t 0 t La quantité λ(t) est appelé la «densité instantanée» du flux d événements C est le taux auquel arrivent les événements constituant le flux Un flux de Poisson non-stationnaire est donc un flux à taux variable 921 L horloge stroboscopique Il existe un moyen simple de transformer un flux à taux variable en un flux à taux fixe Il suffit pour cela de dérègler l horloge qui enregistre les dates d arrivée des événements de façon à ce que le taux d événements rapporté au temps compté par la nouvelle horloge apparaisse constant La nouvelle horloge doit accélèrer lorsque le taux λ(t) augmente et ralentir lorsqu il diminue Ce que l on veut, de façon imagée, c est que le nombre moyen de «tics-tacs» de la nouvelle horloge par unité de temps de l ancienne soit égal au nombre moyen d événements dans la même unité de temps Le temps

190 92 FLUX DE POISSON NON-STATIONNAIRE 173 indiqué par la nouvelle horloge est la somme ( intégrale ) du nombre de ces «tics-tacs» Plus précisément, si on considère le temps Θ définit ainsi : Θ = t 0 λ(u) du, (919) alors les événements arrivent à un taux constant par rapport à Θ et ce taux est égal à un Démonstration Si λ (Θ) désigne le nouveau taux d arrivée des événements par rapport à Θ, on a par définition : λ E {N(Θ,Θ + Θ)} (Θ) = lim Θ 0 Θ Si λ(t) n est pas nul ( ni infini ) la fonction (919) qui fait passer de t à Θ est inversible et continue pour tout t D après le théorème de la fonction inverse, le nombre d événements dans l intervalle (Θ,Θ + Θ) est égal à celui trouvé dans l intervalle (t, t + t), soit : N(Θ,Θ + Θ) = N(t, t + t) Par ailleurs on a Θ = λ(t) t + O( t 2 ), il vient alors : λ E{N(t, t + t)} t (Θ) = lim t 0 t Θ, dθ 1 = λ(t) = λ(t)(λ(t)) 1 = 1 dt Le flux en Θ est donc constant, égal à un événement par unité de Θ 3 Pour que le flux en Θ soit de Poisson il faut, de plus, postuler l absence de mémoire, c est-à-dire : Pr {Θ i > s + t Θ i > s} = Pr {Θ i > t}, (920) où les Θ i désignent les temps d arrivée des événements suivant l horloge Θ Il faut donc rajouter cette condition 3 aux conditions 1 et 2 pour qu un flux à λ variable soit un flux de Poisson non-stationnaire 922 Loi du nombre d événements dans un intervalle t 1, t 2 Dans les conditions précédentes, on trouve facilement que le nombre d événements contenus dans l intervalle t 1, t 2 suit une loi de Poisson de paramètre µ = t 2 t 1 λ(u)du En effet, on a : Pr{N(t 1, t 2 ) = n} = Pr{N(Θ 1, Θ 2 ) = n} = (Θ 2 Θ 1 ) n exp{ (Θ 2 Θ 1 )}, n! = µn t2 n! e µ, avec µ = λ(t)dt (921) t Loi suivie par l intervalle de temps séparant deux événements Le temps t 0 étant donné, la loi suivie par le temps t écoulé avant l apparition d un événement est donnée par 1 e (Θ Θ0), d où on tire immédiatement la fonction de répartition : F t0 (t) = 1 e R t 0 +t t 0 λ(u) du, (922)

191 174 CHAPITRE 9 FLUX D ÉVÉNEMENTS et la densité de probabilité : f t0 (t) = λ(t 0 + t)e R t 0 +t t 0 λ(u) du (923) Comme il se doit, on retrouve bien la loi exponentielle dans le cas où λ(t) = λ =Cste Exemple 92 Source modulée sinusoïdalement Supposons que l on observe une source de lumière dont la densité instantanée de photons est : En appliquant la formule (923) on trouve : λ(t) = λ 0 + λ 1 sin ωt, λ 1 λ 0 f t0 (t) = [λ 0 + λ 1 sin ω(t 0 + t)]exp{ λ 0t 2λ1 ω sin ω(t0 + t 2 ) sin ω t 2 } (924) La figure 97 représente cette fonction pour t 0 = 0, λ 0 = λ 1 = 1 et pour ω = 2π 2 15 f t0 (t) t FIG 97 Densité de probabilité f t0 d un flux modulé sinusoïdalement, suivant la densité d événements λ = 1 + sin2πt On a tracé la densité de probabilité f t0 pour les temps t comptés à partir de l origine t 0 = 0 93 Superposition de flux 931 Définition Considérons une série d événements issus d un flux F 1 apparus aux temps (x 1 1, x 1 2, ) et une autre série d événements issus d un flux F 2, apparus aux temps (x 2 1, x2 2, ), les flux F 1 et F 2 ayant la même origine des temps Reportons ces temps sur le même axe et considérons-les comme les temps d apparition d une nouvelle série d événements Cette procédure est illustrée par la figure 98 Supposons que l on fasse cette opération pour toutes les apparitions possibles des événements constituant les flux F 1 et F 2 ; on obtiendra ainsi toutes les apparitions possibles des événements d un nouveau flux F que l on définira comme étant la somme des flux F 1 et F 2 Cela étant défini, le problème à résoudre maintenant est de connaître les caractéristiques probabilistes de F, connaissant celles de F 1 et F 2

192 93 SUPERPOSITION DE FLUX 175 F 1 0 F 2 0 F = F 1 + F 2 0 x 2 1 x 1 1 x 1 2 y 2 y 3 y 4 y 1 x 2 2 x 2 3 y 5 x 1 3 y 6 x 1 4 y 7 x 2 4 y 8 x 1 5 y 9 x 2 5 y 10 x 1 6 t t t y 11 FIG 98 Représentation schématique de la superposition, ou somme de deux flux 932 Flux indépendants Nous dirons que deux flux F 1 et F 2 sont indépendants, si pour t 11 < t 21 et t 12 < t 22, les variables aléatoires N 1 (t 11, t 21 ) et N 2 (t 12, t 22 ) associées respectivement aux flux F 1 et F 2, sont indépendantes On généralise sans peine cette notion à plusieurs flux, et la condition nécessaire et suffisante pour que n flux soient indépendants est : n Pr{N 1 (t 11, t 21 ), N 2 (t 12, t 22 ),, N n (t 1n, t 2n )} = Pr{N i (t 1i, t 2i )}, (925) pour tous les t 1i < t 2i Rappelons de nouveau que si des flux sont deux à deux indépendants, ils ne sont pas nécessairement indépendants 933 Superposition de flux de Poisson La superposition de deux flux de Poisson indépendants, respectivement de paramètres λ 1 et λ 2, est un flux de Poisson de paramètre λ = λ 1 + λ 2 Montrons que le flux F = F 1 + F 2 est bien de Poisson, c est-à-dire qu il est séparable, que le nombre d événements N dans l intervalle de temps t 1 < t 2 suit la loi de Poisson et que pour deux intervalles de temps disjoints t 1 < t 2 et t 3 < t 4, les variables aléatoires associées N 1 et N 2 correspondant aux nombres d événements susceptibles d y être observées sont des variables aléatoires indépendantes 1 Flux séparable La superposition de deux flux séparables indépendants est séparable 2 Loi de Poisson La somme de deux variables aléatoires indépendantes suivant la loi de Poisson suit également une loi de Poisson, le paramètre de la somme étant égal à la somme des paramètres 3 Indépendance L indépendance des variables aléatoires «comptant» le nombre d événements sur des intervalles de temps disjoints, résulte directement de cette propriété dont jouissent les flux de Poisson et de l indépendance des flux entre eux Notons que nous n avons pas supposé que les flux étaient stationnaires, et donc la somme de deux flux de Poisson non-stationnaires est un flux de Poisson a priori nonstationnaire de paramètre λ(t) = λ 1 (t) + λ 2 (t) 934 Tendance vers le flux de Poisson On montre, sous des hypothèses assez générales, que la somme de n flux indépendants séparables et stationnaires, tend vers un flux de Poisson quand n Le i=1

193 176 CHAPITRE 9 FLUX D ÉVÉNEMENTS flux de Poisson joue vis-à-vis de la somme de flux indépendants, le même rôle que la loi normale joue vis-à-vis de la somme de variables aléatoires indépendantes et de variances finies Remarquons que les flux dont on fait la somme peuvent être à postaction quelconque, et donc que la somme de flux indépendants tend à diluer l effet des post-actions individuelles Exemple 93 Source radioactive Une source radioactive est formée de N noyaux atomiques susceptibles d émettre par exemple des particules α Un noyau individuel dans un état excité ne peut émettre qu une seule particule α Le flux associé à ce seul noyau est nécessairement séparable, il est sans mémoire car la loi qui préside à la désintégration nucléaire est la loi exponentielle ; en revanche, il n est pas stationnaire car le nombre moyen de désintégration(s) par seconde diminue avec le temps comme la loi exponentielle La propriété de post-action n a pas de sens dans le cas présent On montre cependant que l absence de mémoire compensant la non-stationnarité, la superposition d un nombre N de flux associés aux noyaux, tend rapidement vers un flux de Poisson Cet exemple ne répond pas précisément aux conditions énoncées ci-dessus, mais illustre l effet attractif de la loi de Poisson 935 Superposition aléatoire de flux de Poisson Le cas peut se présenter où on superpose des flux de Poisson extraits de façon aléatoire à partir d un certaine population de flux de Poisson Le paramètre λ doit alors être considéré comme une variable aléatoire Donnons un exemple où λ suit une loi gamma de paramètre d échelle τ et de paramètre de forme ν et intéressons nous au nombre N d événements reçus dans le temps T Si g désigne la densité de probabilité de la loi gamma, il vient : Pr{N = n τ, ν} = 0 Pr{N = n λ}g(λ τ, ν)dλ, (λt) n = e λt τν 0 n! Γ(ν) λν 1 e τλ dλ, = T n τ ν λ n e λt λ ν 1 e τλ dλ, n!γ(ν) 0 = T n τ ν λ n+ν 1 e λ(t+τ) dλ, n!γ(ν) 0 au facteur de normalisation près, l intégrale est celle d une loi gamma, on a alors Pr{N = n τ, ν} = T n τ ν Γ(n + ν) n!γ(ν) (T + τ) n+ν, Γ(τ + ν) τ ν T n = Γ(ν)Γ(n + 1) (T + τ) n+ν, ( τ ) ν ( T ) n = Cn+ν 1 τ = I(ν, T + τ T + τ T + τ ) La probabilité de recevoir N événements durant le temps T est une loi binomiale négative, le caractère poissonien du phénomène est perdu, en particulier la variance de N est supérieure à sa moyenne, on observe une surdispersion des événements On a : E{N} = ν τ T(T + τ) T = E{λT } et Var(N) = ν τ 2 T = E{λT } T + τ τ

194 94 FLUX TAMISÉS Flux tamisés On obtient un flux «tamisé» en supprimant certains événements constituant le flux Ce «tamisage» peut être déterministe si par exemple on supprime un point sur deux, ou aléatoire si un événement est supprimé ou non suivant l issue d une certaine variable aléatoire Le nouveau flux ainsi construit est appelé «flux tamisé» 941 Flux d Erlang Pour obtenir un flux d Erlang d ordre k, on supprime k événements successifs d un flux de Poisson et l on conserve le k+1-ième ; on ne conserve donc que les événements dont l indice est divisible par k + 1, voir figure 99 0 ξ 11 ξ 1 ξ 2 ξ 3 ξ 4 ξ 5 ξ 6 ξ 7 ξ 8 ξ 9 ξ 10 η 1 η 2 η 3 t FIG 99 Tamisage déterministe d un flux de Poisson On ne conserve qu un point sur 3, le flux résultant est un flux d Erlang d ordre 2 D après ce que nous avons vu plus haut, la loi qui décrit les intervalles de temps T d un flux d Erlang d ordre k est la loi d Erlang ( ou loi gamma ) dont la densité de probabilité f k est donnée par : f k (t) = λk+1 t k e λt (926) k! On peut retrouver très facilement cette loi en remarquant que pour que la variable aléatoire T se trouve dans l intervalle t, t + dt avec la probabilité f k (t)dt, il faut avoir k événements dans le temps t (ceux qui on été supprimés), ce qui arrive avec la probabilité (λt) k e λt /k!, et qu il faut avoir un événement dans le temps dt suivant, ce qui arrive avec la probabilité λdt Compte tenu des propriétés d indépendance du flux de Poisson : f k (t)dt = (λt)k e λt λdt, (927) k! d où la densité cherchée Cette loi possède une moyenne et une variance données par les expressions : E {T } = k + 1 λ, Var(T) = k + 1 λ 2 (928) Remarquons, pour finir, qu un flux d Erlang possède une post-action car la loi suivie par les intervalles de temps entre événements n est pas exponentielle Cependant, deux intervalles de temps successifs étant indépendants, le flux d Erlang possède ce que l on appelle une post-action «limitée» Exemple 94 Photométrie du 32-ième photon On observe une source en comptant les photons qu elle émet et on enregistre les temps d arrivée de ces photons Afin de réduire la masse des données à enregistrer, on décide de n enregistrer qu un temps d arrivée sur 32 Si la densité de photons λ peut être considérée comme constante entre deux enregistrements, la loi décrivant le temps séparant deux enregistrements est la loi d Erlang d ordre k = 31 Si l on

195 178 CHAPITRE 9 FLUX D ÉVÉNEMENTS veut estimer λ à partir de deux enregistrements consécutifs séparés par le temps t, on prendra ˆλ = (k + 1)/t Il est facile de voir d après (928) que E{ˆλ} = λ et que l écart type de cette estimation est σ = (k + 1) 1 2 /λ Si l on avait conservé tous les k photons séparés par des temps t i, on aurait probablement estimé λ soit comme la moyenne arithmétique des inverses des t i, soit comme l inverse de la moyenne arithmétique des t i Nous verrons plus loin (section 171) que la première estimation est moins bonne que la seconde et que cette dernière est en fait la meilleure possible telle que E{ˆλ} = λ Mais alors cette deuxième estimation est identique à celle trouvée en ne conservant que le k + 1-ième photon et ainsi on ne perd rien vis-à-vis de l estimation de λ en comprimant l information de la façon qui vient d être décrite Le point essentiel est que λ doit pouvoir être considéré comme constant entre deux enregistrements consécutifs 942 Tamisage aléatoire d un flux de Poisson Dans la pratique, il arrive très souvent qu un flux de Poisson soit tamisé de la façon suivante : on garde un événement avec une probabilité p et on le rejette avec une probabilité (1 p) On procède ainsi pour chaque événement constituant le flux et cela de façon indépendante des autres événements Le tamisage du flux est donc subordonné à une variable aléatoire de Bernoulli Si le flux de Poisson était au départ de paramètre λ, le flux tamisé sera également un flux de Poisson mais de paramètre pλ C est en effet un flux séparable, l indépendance sur des intervalles de temps disjoints n est pas modifiée par le tamisage qui est lui même indépendant, et la probabilité p n d observer n événements dans l intervalle de temps t est donnée par : soit finalement : p n = (λt) k e λt Ck n k! pn (1 p) k n, k=n = (pλt) n e λt (1 p) k n Ck n (λt) k n, k! = (pλt)n n! = (pλt)n n! k=n e λt k n (λt)k n (1 p) (k n)!, k=n e λt (1 p) k (λt)k, k! k=0 = (pλt)n e λt e λt(1 p), n! p n = (pλt)n e pλt, (929) n! ce qui montre bien que le flux ainsi tamisé est un flux de Poisson de paramètre pλ On montre ( voir exercice 95 page 185 ) que le coefficient de corrélation entre le flux originel et le flux tamisé aléatoirement est égal à p 1 2 Exemple 95 Tamisage d un flux de photons par une photocathode Un flux de photons se présente comme un flux de Poisson de paramètre λ Les photons sont transformés en photoélectrons par une photocathode dont le rendement est de 20% Le «choix» des photons pouvant être considéré comme aléatoire, le flux de photo-électrons sera un flux de Poisson de paramètre 02λ

196 95 BRUIT DE GRENAILLE Bruit de grenaille FIG 910 Exemple de bruit de grenaille La réponse d un détecteur aux événements d un flux de Poisson n est pas instantanée ni infiniment étroite mais elle se présente sous la forme d une fonction h(t) appelée réponse impulsionnelle du détecteur Sous hypothèse que le détecteur est linéaire et que sa réponse est invariante par translation de l origine des temps, on observera en sortie du détecteur un train d impulsions S(t) donné par l expression : S(t) = + n= h(t ξ n ), où les ξ n désignent les dates d arrivée des événements constituant le flux La fonction S(t) est un processus stochastique appelé bruit de grenaille ( en anglais shot noise ) La réponse du détecteur est dite déterministe si h(t) = 0 pour t < 0 Ainsi la réponse au temps t d un tel détecteur n est formée que de la superposition des réponses impulsionnelles qui précèdent le temps t 951 Moyenne et variance d un bruit de grenaille On cherche pour un temps t fixé mais quelconque quelle est la moyenne et la variance de la variable aléatoire S(t) Théorème 91 ( Théorème de Campbell ) Soit un détecteur linéaire de réponse percutionnelle h(t) soumis en entrée à un flux de Poisson stationnaire au taux λ La moyenne µ(t) et la variance σ 2 (t) du flux en sortie de ce détecteur sont des constantes données par : µ(t) = λ + h(t)dt, à la condition que ces intégrales existent σ 2 (t) = λ + h 2 (t)dt Démonstration Nous donnons la démonstration pour un système déterministe, la démonstration pour un système quelconque suit la même idée mais exige une notation sensiblement plus lourde

197 180 CHAPITRE 9 FLUX D ÉVÉNEMENTS Si le système est déterministe, seuls les événements précédant le temps t contribuent à S(t) Convenons de numéroter les événements en remontant le temps à partir de t, il vient : S(t) = X n 1 h(t ξ n) Par définition la moyenne µ(t) est l espérance de S(t) : nx o µ(t) déf = E{S(t)} = E h(t ξ n) = X E{h(t ξ n)} n 1 n 1 Un flux de Poisson restant de Poisson par renversement du temps, les lois suivies par les variables aléatoires t ξ n sont des lois d Erlang Il vient : µ(t) = X n 1 = = λ = λ Z Z 0 0 Z 0 Z 0 λ n h(u) (n 1)! un 1 e λu du, h(u)λe λu X n 1 h(u)e λu e λu du, h(u) du (λu) n 1 (n 1)! du, La densité de probabilité des lois d Erlang étant bornée, l existence de R µ(t) dt garantit l existence des intégrales et séries considérées ci-dessus 0 La variance de S(t) se calcule grâce à la formule E{S 2 (t)} µ 2 (t) Pour évaluer E{S 2 (t)} introduisons le signal tronqué : S T(t) = S(t)1 t [t T,t] et calculons l espérance de S T(t) comme moyenne des espérances conditionnelles : E{S 2 (t)} = lim T E{S2 T(t)} = lim T X p n E{ST(t) N 2 = n}, où p n est donné par la loi de Poisson p n = (λt)n e λt Lorsque la condition N = n est n! satisfaite, nous avons vu en 914 que les dates ξ i peuvent être identifiées à des variables U i triées par ordre croissant Il vient alors : X E{ST(t)} 2 = p n E{ˆ nx h(t U i) 2} n=0 Les U i sont des variables aléatoires uniformes et indépendantes entre t T et t Posons h i = h(t U i), il vient : E{`P n hi 2} i=1 = P n i=1 E{h2 i } + P n i j E{hihj} Mais les variables hi sont indépendantes et on a E{h ih j} = E{h i}e{h j} = E{h i} 2, de plus les espérances E{h i} et E{h 2 i } ne dépendent pas de i d où : X E{ST(t)} 2 = p nˆ nx nx E{h 2 i } + E{h i} E{h j} n=0 = E{h 2 i } i=1 i=1 n=0 i j X X np n + E{h i} 2 n(n 1)p n, n=1 n=1 = E{h 2 i }λt + E{h i} 2 (λt + (λt) 2 λt) On a utilisé les deux premiers moments µ 1 = λt et µ 2 = λt d une variable aléatoire de Poisson Il reste à évaluer E{h i} et E{h 2 i } : E{h i} = E{h 2 i } = Z t t T Z t t T h(t u) du T = 1 T h 2 (t u) du T = 1 T Z T 0 Z T 0 h(u) du, h 2 (u) du,

198 96 FLUX 2D 181 d où on tire : E{S 2 } = lim T λ Z T 0 h 2 (u) + λ 2ˆZ T 0 h(u) 2 = λ Z 0 h 2 (u) µ(t) 2, et finalement le résultat annoncé Le théorème de Campbell se généralise aux flux de Poisson non-stationnaires de taux instantané λ(t) à l aide du théorème suivant : Théorème 92 Soit un flux de Poisson non-stationnaire de taux λ(t) et h(t) une fonction bornée de R dans R Alors : E{ + i= h(ξ i )} = + λ(s)h(s) ds Les ξ i sont les dates d apparition des événements constituant le flux 96 Flux 2D Un flux à deux dimensions ( 2D ) est formé d événements répartis au hasard sur le plan R 2 On représente un flux 2D comme un ensemble de points dont les coordonnées cartésiennes sont des variables aléatoires, comme illustré par la figure x y FIG 911 Portion de flux 2D vu à travers la fenêtre [0, 1] [0, 1] de R 2 Le flux représenté ici est un flux de densité uniforme de λ = 300 points par unité de surface On peut également repérer le point représentatif d un événement par son rayon vecteur r 961 Caractéristiques locales d un flux 2D Densité en un point On caractérise un flux par la densité d événements en un point r Le nombre d événements N( S) contenu dans une surface S est une variable

199 182 CHAPITRE 9 FLUX D ÉVÉNEMENTS aléatoire discrète qui possède une moyenne A l aide de cette moyenne on introduit la densité du flux en 1 point : E {N S} n 1 (r) = lim (930) S 0 S Densité et fonction de corrélation en deux points La densité en 2 points n 2 (r 1, r 2 ) est, de façon analogue, égale à la moyenne du nombre de points dans deux surfaces disjointes S 1 et S 2 Plus précisément : n 2 (r 1, r 2 ) = E {N S 1, S 2 } lim (931) S 1, S 2 0 S 1 S 2 La «fonction de corrélation en deux points» ξ(r 1, r 2 ) est définie à l aide de la densité en 2 points comme suit : n 2 (r 1, r 2 ) = n 1 (r 1 )n 1 (r 2 )(1 + ξ(r 1, r 2 )) (932) Distance aux plus proches voisins La distance d un point quelconque du plan R 2 au n-ième plus proche voisin est une variable aléatoire que nous noterons D n Elle possède une densité de probabilité que nous noterons f Dn 962 Propriétés globales d un flux 2D Comme pour les flux 1D (sur R) on s intéresse plus particulièrement à des flux 2D possédant certaines propriétés globales dont voici les plus usuelles 1 Flux homogène Un flux 2D est homogène si les événements qui le constituent sont de même nature, ou, si l on préfère, s ils sont indiscernables, sinon sous tous leurs aspects, du moins au regard des propriétés qui nous intéressent 2 Flux séparable Un flux 2D est séparable si la probabilité d observer un événement dans une petite surface S est beaucoup plus grande que celle d observer plus d un événement dans cette même surface Plus précisément un flux est séparable si : Pr {N(r S) > 1} lim S 0 Pr {N(r S) = 1} = 0 (933) 3 Flux uniforme Un flux 2D est uniforme si la densité en un point n 1 (r) ne dépend pas de r Cette propriété est l analogue 2D de la propriété de stationnarité d un flux 1D 4 Flux isotrope Un flux 2D est isotrope si la fonction de corrélation en 2 points ne dépend que du module de la distance entre les 2 points 5 Flux sans action à distance Un flux 2D possède cette propriété si étant donné deux surfaces disjointes quelconques S 1 et S 2, le nombre d événements N qu elles sont susceptibles de contenir sont des variables aléatoires indépendantes Le flux 2D sera donc sans action à distance si : Pr {N(r 1 S 1 ) = m 1, N(r 2 S 2 ) = m 2 } = = Pr {N(r 1 S 1 ) = m 1 )} Pr {N(r 2 S 2 ) = m 2 } (934) Cela implique la relation suivante entre les densités à 1 point et à 2 points : n 2 (r 1, r 2 ) = n 1 (r 1 )n 1 (r 2 ), (935) et sur la fonction de corrélation à 2 points : ξ(r 1, r 2 ) = 0

200 96 FLUX 2D Flux de Poisson 2D Un flux de Poisson 2D est un flux séparable, homogène, uniforme et sans action à distance Dans ces conditions la probabilité p n de trouver n événements dans la surface S est donnée par la loi de Poisson : p n ( S) = (λ S)n e λ S (936) n! La constante λ est la densité moyenne d événements, autrement dit le nombre moyen d événements par unité de surface Densité à n-points La densité à 1-point est le nombre moyen d événements par unité de surface et donc n 1 (r) = λ et elle ne dépend pas de r On montrerait de même que la densité à n-points est égale à λ n, en particulier n 2 (r 1, r 2 ) = λ 2 et la fonction de corrélation à 2 points ξ(r 1, r 2 ) est donc nulle comme prévu Lois de la distance aux plus proches voisins Un point P de rayon vecteur r étant choisi, on cherche à connaître la densité de probabilité de la variable aléatoire D 1 qui est la distance de M au plus proche événement voisin La probabilité pour qu un disque de rayon d de surface S ne contienne pas d événement est donnée par la loi de Poisson : Pr {d < D 1 } = (λ S)0 e λ S = e λ S (937) 0! Sachant que S = πd 2 on en tire la fonction de répartition : et la densité de probabilité : F D1 (d) = Pr {D 1 d} = 1 e λπd2, (938) f D1 (d) = 2λπde λπd2 (939) La figure 912 représente le graphe de cette densité Pour trouver la fonction de répartition de la distance D n au n-ième plus proche voisin, il faut calculer la probabilité pour que le disque de rayon d contienne au moins n événements : (λ S) k F Dn (d) = Pr {D n d} = e λ S, S = πd 2 (940) k! k=n On trouve la densité de probabilité par dérivation par rapport à d, soit : f Dn (d) = 2λπd (λπd2 ) n 1 e λπd2 (941) (n 1)! Cette loi a pour moyenne et pour variance : E {D n } = 1 Γ(n ) ( λπ (n 1)!, Var(D n) = 1 [ Γ(n n ) ]2 ) (942) λπ (n 1)!

201 184 CHAPITRE 9 FLUX D ÉVÉNEMENTS 15 f D1 λ λd FIG 912 Densité de probabilité de la distance d un point quelconque au plus proche événement voisin d un flux de Poisson 2D de densité λ On a Γ(n ) = n 1 2 π, et on trouve en particulier pour la moyenne et la variance de la distance au plus proche voisin : 97 Exercices et problèmes E {D 1 } = 1 2 λ, Var(D 1) = 1 4 π (943) λ π Exercice 91 Lois conditionnelles Soit un flux de Poisson où les événements arrivent avec un taux constant λ On s intéresse aux cas où il y a exactement n événements dans l intervalle de temps T Montrer que la loi gouvernant les dates d arrivée ξ k des événements dans cet intervalle de temps T, se déduit de la loi bêta Plus spécifiquement montrer que : Pr{ξ k t N = n} = Z n! t/t u k 1 (1 u) n k du (k 1)!(n k)! 0 Exercice 92 On désire simuler un flux de Poisson de la façon suivante On tire au hasard un nombre N suivant la loi de Poisson de moyenne µ = λt, on tire ensuite N nombres indépendants U i au hasard suivant la loi uniforme entre 0 et T Les valeurs λ et T sont données Si U (1) désigne le plus petit des U i, montrer que cette variable aléatoire suit la loi exponentielle de paramètre λ dans l intervalle [0, T[ Dans l éventualité où N = 0, on tire alors un nombre au hasard suivant la loi exponentielle de paramètre λ entre T et l infini On pose alors U (1) comme étant égal à ce nombre Montrer qu alors U (1) suit la loi exponentielle sur tout R + Exercice 93 Cascade radioactive On considère un échantillon de matière radioactive entièrement constitué au temps t = 0 d atomes d espèce A 0 Les atomes A 0 se désintègrent en atomes d espèce A 1 qui, à leur tour, se désintègrent en A 2 et ainsi de suite jusqu à l espèce A n qui est stable On suppose que le temps T i de désintégration de A i 1 en A i, (i = 1,, n) suit une loi exponentielle de densité : λ i exp( λ it) Pour simplifier, on supposera que les λ i sont tous différents

202 97 EXERCICES ET PROBLÈMES 185 Si T désigne le temps au bout duquel un atome A 1 devient stable, suite à n désintégrations successives indépendantes, montrer que pour n 2 la densité de probabilité f n(t) de cette variable aléatoire est égale à : 8 0 si t < 0, >< X n f n(t) = ( 1) n 1 exp( λ it) λ 1λ 2 λ n Y si t 0 (944) >: i=1 (λ i λ j) Exercice 94 Paradoxe de Feller [ voir Papoulis, [56] p 363 ] Soit un flux de Poisson où les événements arrivent à un taux constant λ On note ξ n les dates d arrivée des événements comptées à partir d une origine des temps t 0 = 0 et on pose T n = ξ n ξ n 1 On sait que pour un flux de Poisson la loi suivie par le temps T n séparant deux événements consécutifs est une loi exponentielle de densité de probabilité : λ exp{ λt} Maintenant on se place en P au temps t > 0, il existe alors un événement à droite et un événement à gauche de P Soient T D et T G les temps respectifs séparant P de ces événements D après les hypothèses concernant les flux de Poisson stationnaires T D suit une loi exponentielle, par ailleurs un flux de Poisson reste de Poisson par renversement du temps et T G suit également une loi exponentielle Les variables T D et T G sont indépendantes ( absence de mémoire ) et le temps T D T G séparant ces deux événements consécutifs suit alors une loi gamma d ordre deux de densité de probabilité : λ 2 texp{ λt} Ce raisonnement peut se répéter pour t quelconque Le paradoxe est que le temps séparant deux événements consécutifs semble être : soit une loi exponentielle, soit une loi gamma d ordre deux suivant la façon dont on le considère En fait il s agit d un paradoxe apparent car, comme il arrive souvent, les mots cachent des concepts implicites Pouvez-vous expliquer quelle est l origine de ce paradoxe? ( Suggestion : imaginez que vous deviez simuler la situation par la méthode de Monte-Carlo ) Exercice 95 Soit X une variable aléatoire de Poisson X = P(µ) et Y une variable aléatoire résultant du tamisage aléatoire de X au taux p, Y = P(pµ) Montrer que le coefficient de corrélation ρ entre X et Y est égal à p 1 2 j i

203 186 CHAPITRE 9 FLUX D ÉVÉNEMENTS

204 Deuxième partie Statistique des variables aléatoires 187

205

206 Chapitre 10 Les échantillons Un échantillon est un ensemble ordonné de données chiffrées rassemblées en vue de l étude d un phénomène, on note (X 1,, X n ) cet ensemble L indice qui distingue les différentes valeurs est un entier qui court de 1 jusqu à n la taille de l échantillon, il représente l ordre dans lequel les données sont considérées D un point de vue probabiliste, un échantillon est un n-uplet de variables aléatoires, ces variables peuvent être indépendantes ou dépendantes et être issues, ou non, de la même population parente, on dit qu on a affaire à un échantillon de taille n ou à un n-échantillon Parfois il est plus avantageux de considérer les X i comme les n composantes d un vecteur aléatoire X suivant une loi à n dimensions, dans ce dernier cas on interprête (X 1,, X n ) comme un échantillon de taille 1 issu d une population à n dimensions 101 Les échantillons iid L échantillon pour lequel on possède le plus de résultats est l échantillon «indépendant et identiquement réparti», où les X i qui le composent sont des variables aléatoires mutuellement indépendantes et extraites de la même population On dira de manière abrégée qu un tel échantillon est iid d après l anglais : independent and identically distributed On identifiera une série de résultats (x 1,,x n ) obtenus indépendamment les uns des autres, et dans les mêmes conditions expérimentales, avec la réalisation d un échantillon iid de taille n A partir de maintenant et sauf mention expresse du contraire, il ne sera question que d échantillons iid 102 La fonction de vraisemblance En tant qu ensemble de n variables aléatoires le n-échantillon possède, en général, une densité de probabilité : f n (x 1,,x n ; θ 1,, θ k ), où les valeurs θ 1,, θ k désignent les paramètres de la loi D un point de vue probabiliste, cette fonction f n nous permet, les θ j étant supposés connus, de calculer la densité de probabilité associée au point (x 1,,x n ) de R n L approche statistique inverse les rôles joués par les x i et les θ j elle suppose connues les valeurs (x 1,, x n ) et considère f n comme fonction des θ j Cette densité, vue sous cet angle, reçoit le nom de «fonction de vraisemblance» Afin de la distinguer de la densité, on la note L et on écrit L(x 1,, x n θ 1,,θ k ) ou 189

207 190 CHAPITRE 10 LES ÉCHANTILLONS encore L(x θ) en suivant la convention habituelle qui veut qu un symbole en caractère gras désigne un n-uplet de valeurs La fonction de vraisemblance d un n-échantillon iid s exprime simplement à partir de la densité f(x θ) de la population parente Les variables aléatoires X i formant l échantillon étant par hypothèse indépendantes, on a : L(x 1,,x n θ) = n f(x i ; θ) (101) Exemple 101 Fonction de vraisemblance d un échantillon issu de la loi exponentielle On suppose qu un échantillon iid de taille n est issu d une loi exponentielle dont la densité de probabilité f(x) dépend d un paramètre inconnu θ Plus précisément on a : f(x) = i=1 ( 0, si x < θ ; exp( (x θ)), si x θ ; (102) soit : f(x θ) = exp(θ x)1 θ x Cette densité de probabilité est bornée à gauche par θ, aucune valeur de l échantillon ne peut être inférieure à θ Calculons la fonction de vraisemblance, il vient L(x 1,, x n θ) = ny exp(θ x i)1 θ xi, i=1 = exp(nθ P n n i=1 xi) Y 1 θ xi, la fonction Q n i=1 1 θ x i n est pas nulle que si, et seulement si, tous les 1 θ xi ne sont pas nuls, il vient i=1 L(x 1,, x n θ) = exp(nθ P n i=1 xi)1 θ min(x 1,,x n), ou sous forme plus explicite : L(x 1,, x n θ) = ( expˆn(θ 1 n P n i=1 xi), si θ min(x 1,, x n) ; 0, si θ > min(x 1,, x n) (103) La fonction de vraisemblance L est bornée à droite par la plus petite valeur de l échantillon Ce comportement est conforme au fait que le paramètre θ ne peut pas être plus grand que la valeur minimum de l échantillon : θ min(x 1,, X n) La figure 101 représente une réalisation d un échantillon de taille 5 issu d une telle loi ainsi que la fonction de vraisemblance qui en découle Pour des raisons pratique on a avantage à considérer le logarithme de la fonction de vraisemblance plutôt que la fonction de vraisemblance elle-même En effet dès que n est assez grand le produit (101) des densités de probabilité peut vite dépasser les possibilités de représentation d un réel par un ordinateur La fonction : ln L possède par ailleurs d importantes propriétés d ordre théorique qui seront dégagées plus loin En tant que probabilité, la fonction L est positive ou nulle et dans le domaine où L est ( presque-partout) strictement positive, l application L ln L est définie, continue, bijective et croissante Considérer L ou lnl revient alors au même puisque de l une on peut en déduire l autre

208 103 LES ÉCHANTILLONS ORDONNÉS 191 L(x θ) x 4 x 3 x 5 x 1 x 2 0 θ FIG 101 Fonction de vraisemblance d un échantillon de taille 5 issu d une loi exponentielle dont la densité de probabilité est donnée par l équation (102) Le symbole x désigne l ensemble des valeurs (x 1,,x 5 ), le paramètre inconnu de cette loi : θ est inférieur ou égal à la plus petite de ces 5 valeurs, soit ici : x 4 Cette simulation a été faite avec θ = Les échantillons ordonnés On associe à un n-échantillon (X 1,, X n ) un nouvel n-échantillon ordonné que l on note (X (1) X (2) X (n) ), et que l on fabrique ainsi On trie par ordre croissant les valeurs (x 1,, x n ) des réalisations du n-échantillon Soit (x (1) x (2) x (n) ) le résultat de ce tri On considère alors les x (i) comme les réalisations d une certaine variable aléatoire X (i) Il est clair que les variables ordonnées X (i) ne suivent pas nécessairement la même loi que les X i et que de plus elles ne sont pas indépendantes, même si au départ les X i l étaient Dans un premier temps on précise la loi suivie par les X (i) 1031 Loi suivie par les extrema d un échantillon Considérons un échantillon iid de taille n : (X 1,,X n ), dont la population parente admet F pour fonction de répartition Le minimum X (1) et le maximum X (n) de l échantillon sont définis par : X (1) = min(x 1,, X n ), X (n) = max(x 1,, X n ) (104) Calculons les fonctions de répartition : F (1) et F (n) des variables aléatoires X (1) et X (n) Par définition de la fonction de répartition on a : F (1) (x) = Pr { X (1) x }, F (n) (x) = Pr { X (n) x } (105) Nous commençons par la fonction F (n) qui est plus simple à évaluer L événement {X (n) x}, signifie que la plus grande valeur de l échantillon ne dépasse pas le seuil x Pour que cette condition soit satisfaite, il faut et il suffit que toutes les variables X i, i = 1,, n ne dépassent pas le seuil x Les deux événements suivants sont alors

209 192 CHAPITRE 10 LES ÉCHANTILLONS équivalents : {X (n) x} n {X i x} (106) Leurs probabilités associées sont par conséquent égales et comme par définition les événements {X i x} sont indépendants il vient ( axiome P2 d additivité dénombrable ) : n F (n) (x) = Pr {X i x} = (F(x)) n (107) i=1 Pour le calcul de F (1), il faut considérer l événement {X (1) x} Il signifie que la plus petite des valeurs de l échantillon ne dépasse pas le seuil x, les autres valeurs sont supérieures ou égales à X (1) mais elles peuvent dépasser ou ne pas dépasser le seuil x Les deux événements : {X (1) x} et {X (1) > x} forment un système complet d événements incompatibles On a alors Pr { X (1) x } + Pr { X (1) > x } = 1 d où on tire 1 F (1) (x) = Pr { X (1) > x } Pour que X (1) dépasse le seuil x il faut que toutes les variables X i le dépassent aussi, il vient : 1 F (1) (x) = Pr { X (1) > x } = i=1 n Pr {X i > x} = (1 F(x)) n, (108) i=1 Finalement les fonctions de répartition du minimum et du maximum de l échantillon sont données par les expressions : F (1) (x) = 1 (1 F(x)) n, F (n) (x) = (F(x)) n (109a) (109b) Exemple 102 Variables aléatoires indépendantes suivant les lois uniforme et exponentielle Illustrons les résultats précédents avec la loi uniforme sur ]0, 1] pour laquelle on a F(x) = x et donc : F (1) (x) = 1 (1 x) n, F (n) (x) = x n (1010) La figure 102 présente l évolution de ces lois en fonction de la taille de l échantillon Si les variables aléatoires suivent la loi exponentielle de fonction de répartition F(x) = 1 exp( λx) pour x [0, [, on a : F (1) (x) = 1 [exp( λx)] n, F (n) (x) = [1 exp( λx)] n (1011) 1032 Loi suivie par les variables ordonnées Posons nous maintenant le problème de déterminer la loi F (k) suivie par la k e variable ordonnée X (k) Nous allons toujours nous placer dans le cas où l échantillon (X 1,,X n ) est iid et suit une loi de fonction de répartition F(x) Pour cela introduisons la variable aléatoire indicatrice 1 Xi x qui vaut 1 si X i x et 0 si X i > x Cette variable suit une loi de Bernoulli de paramètre p égal, par définition, à la probabilité de l événement {X i x}, soit : p = Pr{X k x} On a donc p = F(x) et 1 Xi x = B(1, F(x)) Introduisons de plus la variable aléatoire de comptage N qui vaut : n N = 1 Xi x (1012) i=1 Cette nouvelle variable compte le nombre de variables X i qui n ont pas dépassé le seuil x Les variables 1 Xi x sont indépendantes car elle ne sont fonctions que des

210 103 LES ÉCHANTILLONS ORDONNÉS Lois du minimum Lois du maximum FIG 102 Fonction de répartition de la loi suivie par le minimum et le maximum d un échantillon suivant la loi uniforme sur ]0, 1] On a tracé ces fonctions pour un échantillon de taille 2 et pour un échantillon de taille 5 On a porté la taille de l échantillon auprès de la fonction de répartition correspondante x variables X i qui sont elles-mêmes indépendantes En tant que somme de n variables aléatoires de Bernoulli indépendantes et de même paramètre p, N suit une loi binomiale d expression : Pr {N = r} = C r n pr (1 p) n r (1013) Pour que l événement {X (k) x} soit réalisé, il faut que l on ait au moins k variables X i inférieures ou égales à x En d autres termes, il faut que le nombre N de variables qui n ont pas dépassé x soit supérieur ou égal à k Cela correspond à l événement {N k}, qui a pour probabilité : Pr {N k} = n Pr {N = r}, (1014) ce qui nous permet, à l aide de l équation (1013), de trouver l expression cherchée : F (k) (x) = r=k n Cn r F r (x)(1 F(x)) n r (1015) r=k L étude des fonctions eulériennes nous permet d écrire ce résultat sous une autre forme En effet on y apprend que : n Cnp r r (1 p) n r n! = (k 1)! (n k)! r=k = nc k 1 n 1 p 0 p 0 u k 1 (1 u) n k du, (1016) u k 1 (1 u) n k du (1017)

211 194 CHAPITRE 10 LES ÉCHANTILLONS Le second membre de cette égalité s exprime à l aide de la fonction bêta incomplète normalisée ( voir annexe A1 page 331 ) qui par définition est égale à : I x (a, b) = 1 B(a, b) x 0 u a 1 (1 u) b 1 du (1018) Nous pouvons alors exprimer la fonction de répartition de X (k) sous la forme : F (k) (x) = I F(x) (k, n k + 1) (1019) Comme le montre l équation (1015), F (k) est un polynôme en F(x) de degré n Pour calculer l expression de F (k) il suffit d avoir à sa disposition une table ou un programme permettant de calculer la fonction bêta incomplète normalisée La valeur de x étant connue, on calcule u = F(x) et l on cherche I u dans la table La table 101 est extraite d une table de I u (a, b) pour a = 15 et b = 10 u I u (15, 10) u I u (15, 10) u I u (15, 10) TAB 101 Extrait d une table de la fonction bêta incomplète I u (a, b) pour des valeurs de u comprises entre 041 et 070, pour a=15 et b=10 Voir Tables of the incomplete beta-function éditées par K Pearson [60] La présente table pourrait servir à déterminer la loi suivie par la a = 15 e variable ordonnée U (15) d un échantillon de taille n = a + b 1 = 24 Exemple 103 Variables uniformes ordonnées Si les variables aléatoires (U 1,, U n) suivent la loi uniforme de fonction de répartition F(u) = u sur [0,1], les variables ordonnées U (k) suivent, d après (1019), une loi de fonction de répartition I u(k, n k + 1) Les variables ordonnées suivent par conséquent une loi bêta : U (k) = β(k, n k + 1) (1020) Si la variable aléatoire X est continue de fonction de répartition F, on peut toujours lui associer la variable aléatoire uniforme U = F(X) Cette remarque nous permet d exprimer les quantiles x α,(k) des variables ordonnées X (k) d après les quantiles de la loi bêta correspondante L ordre étant conservé par l application F, on a : F(X α,(k) ) = u α,(k), où u α,(k) désigne le quantile d ordre α de la loi β(k, n k + 1) Soit, par exemple, un échantillon (X 1,, X n) de taille n = 24 et de population parente exponentielle : F(x) = 1 exp( λx) On désire calculer la médiane x 05,(15) de la 15 e variable ordonnée Par interpolation dans la table 101 on trouve u 05,(15) 06027, d où λx 05,(15) = ln(1 u 05,(15) ) Il y a donc une chance sur deux pour que la 15 e parmi 24 variables exponentielles dépasse le seuil 09231λ 1

212 103 LES ÉCHANTILLONS ORDONNÉS 195 Exemple 104 Apparition de pannes sur des composants fonctionnant en batterie Une expérience dépend du bon fonctionnement d un composant électronique sujet à des pannes La durée de vie moyenne τ de ce composant se trouve être beaucoup trop courte par rapport au temps que doit durer l expérience Afin d assurer le bon déroulement de l expérience, on installe 5 composants identiques, fonctionnant en parallèle Pour que l expérience fonctionne sans interruption, on décide qu au bout du temps T où le 4 e composant tombe en panne, on remplace l ensemble des composants On demande la loi suivie par le temps T au bout duquel il faut remplacer les composants La loi qui préside à l apparition des pannes est, sous des hypothèses assez générales, la loi exponentielle, de fonction de répartition : F(t) = 1 e λt (1021) Dans cette expression λ 1 est la valeur moyenne de la loi, c est-à-dire la durée de vie moyenne d un composant Il vient donc τ = λ 1 Soit T i la variable aléatoire représentant le temps d apparition d une panne sur le composant numéro i, et T (i) les variables aléatoires T i triées par ordre croissant Avec ces définitions, T, temps de remplacement de l ensemble des composants, est égal à T (4) La loi suivie par T a donc pour fonction de répartition Pr {T t} = F (4) (t) qui est donnée par l expression : F (4) (t) = I F(t) (4,2), (1022) dont la forme analytique est donnée par l équation (1018) et vaut : F (4) (t) = Z 5! 1 e t/τ u 3 (1 u) du (1023) (4 1)!(5 4)! 0 = 5(1 e t/τ ) 4 4(1 e t/τ ) 5 (1024) = 1 10e 2t/τ + 20e 3t/τ 15e 4t/τ + 4e 5t/τ (1025) Le graphe de cette fonction est donné par la figure F (4) (t) t/τ FIG 103 Fonction de répartition de la loi suivie par le temps au bout duquel il faut remplacer une batterie de 5 composants fonctionnant en parallèle, quand on décide de la remplacer à la 4 e panne Sur ce graphique, τ est la durée de vie moyenne d un composant

213 196 CHAPITRE 10 LES ÉCHANTILLONS 1033 Loi suivie par un couple de variables ordonnées Loi suivie par le couple formé du minimum et du maximum On cherche la fonction de répartition, notée G, du couple (X (1), X (n) ) soit : G(x, y) = Pr { X (1) x, X (n) y } Considérons l événement {X (n) y}, il se scinde en deux événements complémentaires : {X (1) x, X (n) y} et {X (1) > x, X (n) y}, d où : Pr { X (1) x, X (n) y } = Pr { X (n) y } Pr { X (1) > x, X (n) y } Pour le première probabilité on a Pr { X (n) y } = [F(y)] n, pour la seconde il faut distinguer deux cas Si x > y, alors Pr { X (1) > x, X (n) y } = 0 car le minimum ne peut pas être supérieur au maximum ; si x y, pour que X (1) > x et que X (n) y, il faut et il suffit que toutes les variables X i soient comprises entre x et y Pour une variable on a : Pr {X i > x, X i y} = F(y) F(x), et pour les n variables indépendantes de l échantillon il vient : Pr { X (1) > x, X (n) y } = [F(y) F(x)] n On obtient finalement : G(x, y) = { [F(y)] n si x > y ; [F(y)] n [F(y) F(x)] n si x y (1026) Soit g la densité de probabilité du couple (X (1), X (n) ) Par définition g(x, y) = 2 G(x, y)/ x y Il vient : g(x, y) = { 0 si x > y ; n(n 1)[F(y) F(x)] n 2 f(x)f(y) si x y (1027) Dans cette expression f désigne la densité de probabilité des variables X i Exemple 105 Loi suivie par l empan On appelle empan de l échantillon, la quantité : U = X (n) X (1), c est-à-dire la plus grande étendue couverte par l échantillon Le problème est de calculer la loi de U Si h désigne le densité de probabilité de l empan, on a ( voir chapitre 431 page 61 ) : h(u) = Z 0 g(x,u + x)dx En remplaçant g par sa valeur, on trouve : ( 0 si u 0; h(u) = n(n 1) R [F(x + u) 0 F(x)]n 2 f(x)f(x + u) dx si u > 0 (1028) Dans le cas où les variables ( indépendantes ) suivent la loi uniforme entre 0 et 1 on a la fonction de répartition : 8 >< 0 si x < 0; F(x) = x si 0 x 1 ; >: 1 si x > 1, et la densité de probabilité : ( 0 si x [0, 1] ; f(x) = 1 si x [0, 1]

214 103 LES ÉCHANTILLONS ORDONNÉS 197 FIG 104 Densité de probabilité de l empan d un échantillon iid issu d une loi uniforme entre 0 et 1 Sur ce graphe la taille de l échantillon passe de n = 2 à n = 30 L intégrale permettant de calculer h(u) se réduit à une intégrale de 0 à 1 u, en dehors de cet intervalle la fonction à intégrer est nulle parce que f(x + u) = 0 D où : h(u) = 0 si u [0, 1] et si u [0, 1], on a g(u) = R 1 u (x + u x) n 2 dx, d où 0 ( 0 si u [0,1] ; h(u) = n(n 1)u n 2 (1 u) si u [0,1] Cette densité de probabilité est illustrée sur la figure 104 pour n = 2,, 30 La fonction de répartition de U est donné par : 8 >< 0 si u < 0; H(u) = nu n 1 (n 1)u n si u [0,1] ; >: 1 si u > 1 Cette fonction de répartition est illustrée sur la figure 105 pour n = 2,, 30 Loi générale suivie par un couple de variables ordonnées Pour déterminer le fonction de répartition du couple (X (i), X (j) ) avec i < j, la démarche est la même que ci-dessus On écrit : Pr X (i) x, X (j) y = Pr X (j) y Pr X (i) > x, X (j) y La première quantité est égale à la probabilité de trouver au moins j variables parmi n qui sont plus petites que y Soit : Pr X nx (j) y = CnF(y) k k [1 F(y)] n k = I F(x) (j, n j + 1) k=j Pour la seconde quantité, lorsque x < y, on doit trouver au plus i 1 variables sous le seuil x et au plus n j au dessus du seuil y La loi à considérer est la loi multinomiale de paramètres

215 198 CHAPITRE 10 LES ÉCHANTILLONS FIG 105 Fonction de répartition de l empan d un échantillon iid issu d une loi uniforme entre 0 et 1 Sur ce graphe la taille de l échantillon passe de n = 2 à n = 30 p 1 = F(x), p 2 = F(y) F(x) et p 3 = 1 F(y) ( voir chapitre 831 page 159 ) On obtient alors : Pr X i 1 n j X X (i) > x, X (j) y = k=0 l=0 n! k!(n k l)! l! F(x)k [F(y) F(x)] n k l [1 F(y)] l 104 La fonction de répartition empirique La fonction de répartition empirique F n est une approximation de la fonction de répartition F de la population parente basée sur l échantillon (X 1,, X n ) Nous donnons ci-dessous la définition de cette fonction réservant pour plus tard ( chapitre 18 ) la question d apprécier quantitativement la qualité de cette approximation 1041 Une définition «naturelle» de F n Nous avons vu ( équation (538), page 80 ) que la fonction de répartition pouvait s interpréter comme espérance mathématique de l indicatrice des variables aléatoires X i On a en effet : F(x) = E {1 X x } = x df (1029) En remplaçant l opérateur espérance mathématique E{} par la moyenne arithmétique 1 n n i=1, on obtient une approximation dite «naturelle» de la fonction de répartition, soit : F n (x) = 1 n x 1 Xi x = df n (1030) n i=1 La quantité F n (x) est la proportion de variables qui ne dépassent pas la valeur x On appelle «fonction de répartition empirique» la fonction F n ainsi définie, on lui donne

216 104 LA FONCTION DE RÉPARTITION EMPIRIQUE 199 x 1 x 4 x 3 F 10 (x) x x 5 x 6 FIG 106 Exemple d une réalisation de la fonction de répartition empirique F n (x) d un échantillon normal réduit de taille n = 10 Pour plus de clarté seuls les six premières valeurs de l échantillon ont été identifiées sur l axe des x x parfois aussi le nom de courbe cumulative Cette fonction est la somme de fonctions «en escaliers» présentant un saut d amplitude 1 n pour chaque valeur X i de l échantillon ( voir figure 106 ) Pour chaque valeur de x fixée, F n (x) est une variable aléatoire que nous allons maintenant étudier 1042 Loi suivie par la variable aléatoire F n (x) La variable aléatoire F n (x) est une variable aléatoire discrète, ne pouvant prendre que les valeurs 0, 1 n,, k n,,1 La variable aléatoire nf n(x) est égale au nombre de variables aléatoires qui n ont pas dépassé le seuil x, c est également une variable discrète à valeurs dans {0, 1,, n} On a : nf n (x) = n i=1 1 X i x, les variables aléatoires indicatrices 1 Xi x sont par définition des variables de Bernoulli et nous avons vu plus haut que leur paramètre p était égal à F(x) Elles sont de plus iid car les variables X i sont, par application du théorème de Slutski, elles-mêmes iid La variable nf n (x) est alors la somme de n variables indépendantes de Bernoulli de même paramètre p et suit, par conséquent, la loi binomiale ( nf n (x) est identique à la variable N de l équation (1012) ci-dessus ) : D où on tire pour la variable F n (x) : nf n (x) = B(n, F(x)) (1031) { Pr F n (x) = k } = C k n n(f(x)) k (1 F(x)) n k (1032) On rapelle que E{B(n, p)} = p et que Var(B(n, p)) = np(1 p), d où on tire que la variable aléatoire F n (x) = 1 nb(n, F(x)) possède la moyenne F(x) et la variance

217 200 CHAPITRE 10 LES ÉCHANTILLONS 1 nf(x)(1 F(x)) En effet : E{F n (x)} = 1 n E {nf n(x)} = 1 nf(x) = F(x), (1033) n Var(F n (x)) = 1 n 2 Var(nF n(x)) = 1 n 2 nf(x)(1 F(x)) = 1 F(x)(1 F(x)) n (1034) 1043 Convergence de F n vers F D après la loi forte des grands nombres ( voir théorème 713, page 128 ), la variable aléatoire F n (x) en tant que somme de n variables aléatoires iid converge presque-sûrement vers sa moyenne lorsque n Les calculs précédents ont montré que cette moyenne existe pour tout x et vaut F(x), on a donc : x, F n (x) ps F(x) (1035) La convergence presque-sûre de F n (x) vers F(x) en tout x n assure naturellement pas la convergence uniforme ( presque-sûre ) de la fonction F n vers F, cependant V I Glivenko et F P Cantelli ont pu démontrer le théorème suivant : Théorème 101 ( Glivenko-Cantelli, 1933 ) La fonction de répartition empirique F n issue d un échantillon iid (X 1,, X n ) de fonction de répartition F, converge presque- -sûrement vers F de façon uniforme en x, lorsque n C est-à-dire : sup F n (x) F(x) ps 0 (1036) x On trouvera la démonstration de ce théorème au chapitre 7 8 de l ouvrage de Rényi [65] La version du théorème central limite due à de Moivre concernant la convergence en loi d une variable binomiale vers la loi normale ( voir théorème 723 page 132 ) nous permet de décrire comment F n (x) tend vers F(x) lorsque n : F n (x) F(x) loi n N(0, 1) (1037) F(x)(1 F(x)) Ce qui signifie que les écarts à la courbe théorique tendent à se comporter comme des variables aléatoires normales La figure 1043 représente une réalisation de l écart réduit entre F n (x) et F(x) pour un échantillon de taille 100 extrait d une population parente uniforme Théorème 102 ( Kolmogorov ) 1044 Les méthodes bootstrap 105 Exercices et problèmes Exercice 101 Loi du minimum Trouver la fonction de répartition du minimum X (1) d un échantillon de taille n, en effectuant d abord le changement de variable y = x puis x = y

218 105 EXERCICES ET PROBLÈMES y = n F n(u) F(u) F(u)(1 F(u)) u FIG 107 Écarts réduits entre la fonction de répartition empirique F n (u) et la fonction de répartition d un variable aléatoire uniforme F(u) = u La fonction de répartition empirique a été calculée à l aide d un échantillon de taille 100 Pour x donné, les écarts réduits tendent en loi vers une loi normale N(0, 1) La fonction aléatoire dont une réalisation est représentée ici est ce que l on appelle «un pont brownien» Exercice 102 Fonction de répartition de la plus petite et de la plus grande variable aléatoire d un couple Soit un couple de variables aléatoires (X, Y ) de fonction de répartition F(x, y) et de densité f(x, y) Trouver l expression de la fonction de répartition et de la densité de probabilité des variables aléatoires U = min(x, Y ) et V = max(x, Y ) dans le cas général où les variables X et Y sont dépendantes Donner ces expressions dans le cas où X et Y sont indépendantes et dans le cas où les lois marginales du couple sont identiques Vérifier que ce dernier résultat est compatible avec les formules (109a) et (109b) Exercice 103 M ontrer que si F(x) possède une densité f(x) alors la densité de probabilité correspondant à la fonction de répartition (1015) est donnée par l expression : f (k) (x) = nc k 1 n 1[F(x)] k 1 [1 F(x)] n k f(x) Exercice 104 Variables uniformes Soit (X 1,, X n) un échantillon iid de population parente uniforme sur [0, 1] Montrer que les moyennes des variables ordonnées partagent l intervalle [0, 1] en n + 1 intervalles égaux, c est-à-dire que : E{X (k) } = k n + 1 Soit X (n) la valeur maximum de l échantillon, montrer que sa variance est égale à : Var(X (n) ) = n (n + 1) 2 (n + 2) Montrer que la variable aléatoire n(x (n) 1) converge en loi, lorsque n, vers une variable aléatoire Y qui suit une loi de Weibull de fonction de répartition notée G 2,1(y) telle que : ( n(x (n) 1) loi e y, si y < 0 ; Y, Pr{Y y} = G 2,1(y) = 1, si y 0

219 202 CHAPITRE 10 LES ÉCHANTILLONS Note : Ce résultat est un cas particulier d un théorème général qui établit l existence de deux nombres a n et b n tels que la variable aléatoire a n(x (n) b n) tend en loi vers une variable aléatoire dont la fonction de répartition appartient à seulement trois types ( voir Fisher & Tippett (1928) [27] et Gnedenko (1943) [29] voir aussi Kendall & Stuart [41] chap ) Exercice 105 La courbe de Quetelet Ramassez, un jour d automne, une poignée de feuilles de saule tombées de l arbre Rejetez les feuilles «anormales» ( celles qui sont abimées, tordues ) et triez celles qui restent par ordre de taille croissante en les disposant les unes à côté des autres Si toutes les extrémités sont alignées d un côté, que représente la courbe formée par les autres extrémités? ( van der Waerden 15 [72] ) Exercice 106 Fonction de vraisemblance d un échantillon uniforme La population parente d un échantillon iid de taille n : (X 1,, X n) est la loi uniforme entre 0 et θ (X i = U(0, θ) ) Le paramètre θ est inconnu Donner l expression de la fonction de vraisemblance de cet échantillon et tracer son graphe en fonction de θ pour une réalisation de l échantillon que l on simulera à l aide d un programme Même question mais pour des X i suivant la loi de Cauchy

220 Chapitre 11 Les statistiques associées à l échantillon 111 Statistiques associées à un échantillon Comme nous l avons déjà mentionné, une statistique est une fonction des variables aléatoires composant le n-échantillon Une statistique est donc elle-même une variable aléatoire et obéit à ce titre une certaine loi Si elle possède une densité de probabilité cette dernière peut, en principe, être calculée d après les règles exposées au chapitre concernant le changement de variable aléatoire On distingue habituellement deux types de statistiques : 1) celles qui sont fonction des variables X i de l échantillon, 2) celles qu on appelle statistiques d ordre, et qui sont fonction des variables ordonnées X (i) Nous donnons dans les sections suivantes les statistiques les plus souvent utilisées, mais auparavant nous voulons dégager le lien profond qui existe entre les statistiques et la fonction de répartition empirique 1111 Les statistiques en tant que fonctionnelles Une statistique T est une fonction de l échantillon, nous la notons T = T(X 1,,- X n ), et nous n envisageons, en règle générale, que des statistiques fonctions d échantillons iid Considérons à titre d exemple deux statistiques usuelles : «la moyenne empirique» M et la «médiane empirique» Q 05 Ces statistiques sont définies ainsi : M = 1 n n X i, Q 05 = i=1 { X (p+1), si n = 2p + 1 ; 1 2 (X (p+1) + X (p) ), si n = 2p D après la définition de la fonction de répartition empirique F n et les propriétés de l intégrale de Stieltjes on peut redéfinir M en tant que fonctionnelle de F n Cette fonctionnelle s exprime explicitement à l aide d une intégrale : M = xdf n (111) La statistique Q 05 ne s exprime pas à l aide d une intégrale mais elle n en est pas 203

221 204 CHAPITRE 11 LES STATISTIQUES ASSOCIÉES À L ÉCHANTILLON moins une fonctionnelle de F n, on peut écrire en effet : min{q F n (Q) = n }, 1 Q 05 = 2 (Q a + Q b ), Q a = min{q F n (Q) = n }, Q b = min{q F n (Q) = n }, si n est pair; si n est impair (112) Une fonctionnelle est une application qui à une fonction fait correspondre un nombre, soit A cette application, A : F x R, où F appartient à l ensemble des fonctions qui sont des fonctions de répartition Afin de pouvoir employer les outils de l analyse il faut définir des distances dans les espaces de départ et d arrivée L espace de départ est celui des réels et la distance habituelle est d(x, y) = x y Dans l espace des fonctions il existe plusieurs définitions de la distance, nous considérons ici la distance de Kolmogorov : d K (F, G) = sup F(x) G(x) (113) x Les statistiques M et Q 05 appartiennent, comme l immense majorité des statistiques usuelles, a seulement deux classes suivant la nature de la fonctionnelle qui les définissent ( ces classes ne sont pas disjointes ) Les statistiques de classe I Ce sont les statistiques T = A(F n ) qui dépendent explicitement d une intégrale, soit : T = h ( g(x)df n (x) ), où g est une fonction mesurable-borel et h une fonction continue au voisinage du nombre g(x)df n (x) Grossièrement une fonction est mesurable-borel si elle est intégrable ( une fonction continue est mesurable-borel ) Les statistiques de classe II Ce sont des statistiques définies à l aide d une fonctionnelle continue au voisinage du «point» F n Le voisinage étant défini, pour les fonctions de répartition, au sens de la distance de Kolmogorov 1112 Convergence des statistiques Il est clair que la moyenne empirique et la médiane empirique ne seront des statistiques intéressantes d un point de vue pratique, que si elles convergent respectivement vers la moyenne et vers la médiane de la population parente Ce fait est établi facilement pour M à l aide d une version quelconque de la loi des grands nombres La moyenne empirique M est en effet une variable aléatoire somme de n variables aléatoires indépendantes, et si ces dernières possèdent la même moyenne µ alors on sait, d après la version forte due à Kolmogorov de la loi des grands nombres ( théorème 719, page 129 ), que M converge presque-sûrement vers µ Pour la médiane empirique la convergence est une simple conséquence du théorème de Glivenko-Cantelli lorsque les variables aléatoires de l échantillon sont continues Ne considérons pour simplifier que des échantillons de taille paire, si x 05 désigne la médiane de la population, on a : sup F n (x) F(x) F n (Q 05 ) F(Q 05 ) ps 0, x F n (Q 05 ) F(Q 05 ) = n F(Q 05) ps 0, F(Q 05 ) ps 1 2, Q 05 ps F 1 ( 1 2 ) = x 05

222 112 MOMENTS DE L ÉCHANTILLON 205 Les démonstrations précédentes sont deux cas particuliers d un théorème plus général : Théorème 111 Soit une statistique T = T(X 1,,X n ) calculée à partir d un échantillon iid de taille n et de population parente admettant F comme fonction de répartition Si T est une fonctionnelle de la fonction de répartition empirique : T = A(F n ), et si cette fonctionnelle appartient à au moins une des deux classes précédemment définies, alors T converge presque-sûrement vers A(F) ( si cette dernière quantité existe ) : [A(F) < ] [A(F n ) ps A(F)] (114) On trouvera la démonstration de ce théorème au chapitre 1 3 de l ouvrage de A Borovkov [13] Ce théorème est d une grande importance pratique, en revanche il ne nous dit rien sur la vitesse de convergence de A(F n ) vers A(F) Tout l art du praticien est de trouver des statistiques qui convergent plus rapidement vers leur cible que celles-ci Nous définissons maintenant les moments empiriques de l échantillon 112 Moments de l échantillon On appelle «moments de l échantillon» ou «moments échantillonnés» ou encore «moments empiriques», les statistiques M k définies comme moyenne arithmétique des puissances k des X i : M k = 1 n Xi k, k 1 (115) n i=1 On donne au moment M 1 le nom de moyenne de l échantillon ( ou de moyenne empirique ) et on le note M On introduit également les moments centrés M k de l échantillon, qui sont des statistiques définies par : M k = 1 n n (X i M) k, k 2 (116) i=1 Parmi les moments centrés, on distingue M 2 la variance de l échantillon que l on note S 2 et qui vaut donc : S 2 1 n = (X i M) 2 (117) n i=1 On introduit, de plus, la variance empirique modifiée S 2, qui est d une plus grande importance pratique que S 2, et qui a pour expression : S 2 = 1 n 1 n (X i M) 2 (118) i=1 La moyenne M d un échantillon (X 1,,X n ) est souvent notée X de façon à pouvoir la distinguer de la moyenne d un échantillon différent (Y 1,, Y n ) dont la moyenne empirique sera alors notée Y La taille de l échantillon est, si nécessaire, portée en indice de la statistique considérée, par exemple X n pour la moyenne empirique ou Sn 2 pour la variance empirique modifiée On note les réalisations d une statistique,

223 206 CHAPITRE 11 LES STATISTIQUES ASSOCIÉES À L ÉCHANTILLON par la lettre minuscule qui lui correspond, ainsi x désigne une réalisation de la moyenne X Soit : x = 1 n x i (119) n i=1 Un problème de notation En dépit des règles énoncées ci-dessus, il faut bien reconnaître qu il règne, dans la littérature, une certaine confusion d écriture et de vocabulaire Bien souvent on note de la même façon et on parle de la même manière d une variable aléatoire et de sa réalisation Ainsi on dit souvent «échantillon» quand il s agit en fait d une de ses réalisations, ou encore on dit «moyenne empirique» à propos du scalaire x alors qu on devrait dire «réalisation de la moyenne empirique X» Une telle précision dans le vocabulaire est quelque peu lourde et l on est souvent tenté de commettre ce genre d abus de langage Bien qu en général le contexte dissipe toute équivoque, il est bon d avoir clairement la distinction à l esprit à défaut de toujours la trouver dans ce texte 1121 Convergence des moments empiriques Les moments M k sont de toute évidence des statistiques de classe I, pour les moments centrés M k il suffit de remarquer qu ils s écrivent : M k = (x M) k df n (x) = g(x)dfn (x) avec g(x) = ( x xdf n (x) ) k On a donc, lorsque la taille de l échantillon tend vers l infini : E{ X k } < { M k ps µ k, M k ps µ k (1110) En particulier S 2 ps σ 2 ainsi que S 2 Les fonctions des momemts empiriques convergent aussi vers leur équivalents de la population ( s ils existent ) On a, par exemple, pour les coefficients d asymétrie et d aplatissement empiriques : M 3 M 3/2 2 ps γ 1, M 4 M2 2 3 ps γ 2, (1111) où γ 1 et γ 2 désignent les coefficients d asymétrie et d aplatissement de la population parente Le théorème central limite s applique si les variables aléatoires X k possèdent une variance On a : Var(X k ) = E{(X k E{X k }) 2 } = µ 2k µ 2 k, alors la variance des X k existe si la population parente possède des moments jusqu à l ordre 2k, dans ces conditions on a : E{ X 2k } < n M k µ k Var(X k ) 1 2 On a également pour les moments centrés : = M k µ k Var(M k )1 2 E{ X 2k } < M k µ k Var(M k ) 1 2 loi N(0, 1) (1112) loi N(0, 1) (1113)

224 113 STATISTIQUES D ORDRE Caractéristiques numériques des moments empiriques Espérance et variance de la moyenne empirique Nous avons déjà trouvé ces quantités à titre d exemple ( voir page 86 ) Rappelons ici les résultats L opérateur espérance mathématique étant linéaire on a immédiatement, à condition que la moyenne µ de la population existe : E{M} = µ (1114) Pour la variance de la moyenne empirique on a ( sous réserve d existence de la variance σ 2 de la population ) : Var(M) = σ2 n (1115) Espérance et variance de la variance empirique la variance de S 2 sont données par les expressions : On démontre que l espérance et E{S 2 } = (1 1 n )µ 2, (1116) Var(S 2 ) = µ 4 µ 2 2 n 2(µ 4 2µ 2 2 ) n 2 + µ 4 3µ 2 2 n 3 (1117) Espérance variance et covariance des moments empiriques On démontre également les résultats suivants ( voir Kendall & Stuart [41] chap 104 et 105 ) Sous réserve d existence des moments de la population parente apparaissant dans les expressions ci-dessous, les espérances, les variances et les covariances des moments empiriques sont données par les formules : E{M r } = µ r, (1118) Var(M r) = 1 n (µ 2r µ r2 ), (1119) Cov(M q, M r) = 1 n (µ q+r µ qµ r), (1120) E{M r } = µ r + O(n 1 2 ), (1121) Var(M r ) = 1 n (µ 2r µ 2 r + r2 µ 2 2 µ2 r 1 2rµ r 1µ r+1 ) + O(n 2 ), (1122) Cov(M q, M r ) = 1 n (µ r+q µ r µ q + rqµ 2 µ r 1 µ q 1 rµ r 1 µ q+1 qµ r+1 µ q 1 ) + O(n 2 ) (1123) Il faut remarquer que les variances de M r et de M r ne sont finies que lorsque la loi possède des moments jusqu à l ordre 2r 113 Statistiques d ordre Une statistique d ordre est une statistique calculée à partir de l échantillon ordonné, c est donc une fonction des variables X (i) La variable X (i) elle-même est une statistique d ordre mais il en existe bien d autres, nous en donnons et rappelons quelques unes ci-dessous

225 208 CHAPITRE 11 LES STATISTIQUES ASSOCIÉES À L ÉCHANTILLON Le rang R m est une statistique d ordre égale à la place qu occupe X m dans l échantillon ordonné Si, par exemple, on a observé : (x 4 < x 3 < x 5 < x 1 < x 2 ), le rang de X 3 est alors égal à 2 pour cette réalisation ( r 3 = 2 ) La fréquence empirique N n (x) est égale au nombre de variables de l échantillon qui sont inférieures ou égales à un x donné D après la définition de la fonction de répartition empirique ce nombre est égal à nf n (x), c est une variable binomiale de paramètre p = F(x) : N n (x) = B(n, F(x)) (1124) Les valeurs extrêmes Les variables aléatoires X (1) et X (n) issues d un échantillon de taille n sont des statistiques dites des extrêmes Il s agit ici respectivement du minimum et du maximum de l échantillon : X (1) = min(x 1,,X n ), X (n) = max(x 1,,X n ) (1125) Le point milieu est le point à égale distance des valeurs extrêmes : P = 1 2 (X (n) + X (1) ) (1126) Les étendues E m de l échantillon sont des statistiques définies par : E m = X (n m+1) X (m) (1127) On réserve quelquefois le nom d empan à la statistique E 1, c est-à-dire à la portion de l axe des x comprise entre la plus grande et la plus petite valeur de l échantillon Les écarts et les écarts minimaux Un écart A ij est une statistique égale à X (j) X (i) Un écart minimal d ordre r est égal à : A r = min j i =r A ij, r n 1 (1128) Parmi ceux-ci on distingue A 1, qui peut servir à approximer le mode de la population parente La médiane est un point Q 05 sur l axe des réalisations (axe des x) où il y a autant de valeurs X i qui lui sont strictement inférieures que de valeurs qui lui sont strictement supérieures Avec cette définition, la valeur de la médiane Q 05 dépend de la parité de l échantillon Si l échantillon est de taille impaire n = 2p + 1 on aura de façon unique Q 05 = X (p+1) En revanche, si l échantillon est de taille paire n = 2p, la médiane n est pas définie de façon univoque ; en effet tout point entre X (p) et X (p+1) satisfait à la définition, et, par convention on prendra Q 05 = 1 2 (X (p+1) + X (p) ) Résumons cette définition par la formule suivante : { X(p+1) si n = 2p + 1, Q 05 = (1129) 1 2 (X (p+1) + X (p) ) si n = 2p Les quantiles de l échantillon Un quantile Q α,n d un n-échantillon est défini par la variable aléatoire X (n nα ), où nα désigne la partie entière de nα Le quantile Q α,n est, avec cette définition, la variable ordonnée X (i) pour laquelle on a au plus 100α% de l échantillon ayant une valeur strictement supérieure à X (i) Rappelons que le quantile x α d une population de loi F(x), est défini par l équation F(x α ) = 1 α Si F est continue, ce que nous supposerons, x α est trouvé comme solution unique de x α = F 1 (1 α)

226 114 RÉDUCTION DES DONNÉES 209 Exemple 111 Quantile d un échantillon de petite taille Soit un échantillon ordonné de taille 5 L indice du quantile d ordre 025 est égal à = 4, et donc Q 025,5 = X (4) Considérons les 5 nombres issus d une loi normale réduite : x (1) = 0576, x (2) = 0408, x (3) = 0520, x (4) = 0621, x (5) = 0872 Avec notre définition on a Q 025 = 0621 Il existe bien d autres statistiques basées sur les variables ordonnées Toutes, comme celles que nous venons de voir, sont d une extrême importance, en particulier dans les théories de l estimation non paramétrique et de l estimation fiable 114 Réduction des données 1141 Les statistiques exhaustives Afin de calculer un estimateur T de τ(θ) il n est, dans la plupart des cas, pas nécessaire de connaître séparément chacun des éléments X i du n-échantillon Il suffit de connaître une ou plusieurs fonctions t = g(x 1,,X n ) du n-échantillon Il est clair que si cela est possible, on aura effectué une importante réduction des données Une condition nécessaire et suffisante pour que la fonction g soit une statistique «exhaustive» ( on dit aussi «suffisante» ), est qu il soit possible de mettre la fonction de vraisemblance du n-échantillon sous la forme : L(x θ) = l(t θ)h(x), (1130) pour toutes les réalisations x et t de l échantillon et de la statistique T 1142 Exhaustivité et information L exhaustivité telle qu elle a été définie en (1130) a pour conséquence que la densité de probabilité conditionnelle de x (t étant donnée ), ne dépend pas de θ En effet : f(x t) = t=cste L(x θ) h(x) = L(x θ) dx t=cste h(x) dx (1131) Cela montre que la répartition des x i sur l hyper-surface t = g(x 1,,x n ) ne dépend pas de θ ( ni donc de τ(θ) ), et qu une connaissance détaillée de cette répartition n apporterait par conséquent aucune information supplémentaire sur τ(θ) Nous avons employé ci-dessus le terme d information il convient d être plus précis et d établir le lien qu il existe entre exhaustivité et information Il est immédiat d établir que l information de Fisher calculée à partir de l est la même que celle calculée à partir de L En effet, on a : {( lnl ) 2 } {( lnl ) 2 } I n (θ) = E = E (1132) θ θ La réduction des données n a donc pas fait diminuer l information de Fisher contenue dans l échantillon

227 210 CHAPITRE 11 LES STATISTIQUES ASSOCIÉES À L ÉCHANTILLON Le théorème de Fisher-Neyman Ce théorème montre que, réciproquement, si la probabilité conditionnelle f(x t) de x connaissant t, ne dépend pas de θ, alors il est possible de mettre la fonction de vraisemblance sous la forme (1130) et que la statistique T est donc exhaustive On peut alors choisir, pour définir l exhaustivité, l une ou l autre de ces propriétés : 1) la factorisation de la fonction de vraisemblance, ou 2) l indépendance, vis-à-vis de θ, de la probabilité conditionnelle Statistiques exhaustives et MVB Si t est une statistique exhaustive on a L(x θ) = l(t θ)h(x) d où : lnl θ = lnl(t θ) θ, (1133) qui exprime que lnl/ θ ne dépend que de t et de θ et donc que les estimateurs MVB sont à chercher dans la classe des estimateurs exhaustifs En effet A(θ)(t τ(θ)) est un cas particulier du membre de droite de l équation précédente On montre également que s il existe une statistique T exhaustive pour θ, et un estimateur T 1 de θ, quelconque mais non-biaisé, alors le nouvel estimateur p(t) calculé comme espérance conditionnelle de T 1 connaissant t : p(t) = E {T 1 t} est MV parmi la classe des estimateurs non-biaisés de θ Si au départ T 1 n était fonction que de t, c est qu il était déjà MV Donc s il existe un estimateur non-biaisé et MV de τ(θ), il est à chercher parmi les fonctions d une statistique exhaustive Seules les densités de probabilité de la forme : f(x θ) = exp[a(θ)b(x) + C(x) + D(θ)], (1134) peuvent posséder une statistique exhaustive C est le théorème de Darmois Cette forme englobe la plupart des densités de probabilité usuelles 1143 La fonction score Mentionnons pour finir ce paragraphe, que la variable aléatoire ln L/ θ réduite tend vers une loi normale réduite quand la taille de l échantillon tend vers l infini Plus précisément on a : lnl θ {( lnl ) 2 } loi N(0, 1) (1135) E θ

228 Chapitre 12 Échantillons issus d une population normale Nous ne considérerons dans ce chapitre que des n-échantillons iid extraits d une population parente normale Le cas normal bénéficie déjà d une position privilégiée grâce au théorème central limite, mais en outre, on peut déterminer les lois exactes suivies par la moyenne empirique X n, la variance empirique Sn 2 et on peut montrer que ces deux variables aléatoires sont indépendantes Ces propriétés, d une grande importance pratique, constituent le théorème de Fisher Nous rappelons tout d abord quelques résultats concernant les caractéristique numériques de la moyenne et de la variance empirique Espérance et variance de la moyenne empirique La moyenne empirique, X n d un échantillon extrait d une population quelconque de moyenne µ possède une espérance égale à cette moyenne : E{X n } = µ (121) De plus si l échantillon est iid la loi forte des grands nombres nous dit que X n converge presque-sûrement vers µ et si la variance σ 2 de la population parente existe on a : Var(X n ) = σ2 n (122) Espérance et variance de la variance empirique loi normale, on a µ 2 = σ 2, µ 4 = 3σ 4 et il vient : Dans le cas où les X i suivent une Pour la variance modifiée S 2 = ns 2 /(n 1) on a : E{S 2 } = σ 2 (1 1 ), n (123) Var(S 2 2σ 4 ) = n (1 1 ) n (124) E{S 2 } = σ 2, (125) Var(S 2 ) = 2σ4 n 1 (126) 211

229 212 CHAPITRE 12 ÉCHANTILLONS DE POPULATION NORMALE Nous verrons plus loin qu une des conséquences du théorème de Fisher est que : Cov(X n, S 2 ) = 0 (127) En ce qui concerne la convergence en loi de la moyenne et de la variance empiriques, le théorème central limite nous fournit un résultat asymptotique mais celui de Fisher nous donne beaucoup mieux, il nous donne des expressions exactes pour tout n 121 Le théorème de Fisher Théorème 121 ( Fisher ) Si un n-échantillon iid (X 1,, X n ) est issu d une loi normale de moyenne µ et de variance σ 2, alors : 1 la moyenne empirique X n suit une loi normale de moyenne µ et de variance σ 2 /n 2 la statistique (n 1)S 2 n/σ 2 suit une loi du χ 2 à n 1 degrés de liberté 3 la moyenne empirique X n et la variance empirique Sn 2 sont des variables aléatoires indépendantes La démonstration de ce résultat remarquable va occuper les trois prochaines sections 1211 Loi suivie par la moyenne X n d un échantillon normal Nous noterons donc X n la moyenne du n-échantillon iid : (X 1,,X n ) de population parente normale X i = N(µ, σ 2 ) Son expression X n = 1 n n i=1 X i nous montre que cette variable aléatoire est la somme de n variables aléatoires normales, indépendantes La loi suivie par X n est donc également une loi normale, de moyenne E{X n } = µ et de variance Var(X n ) = σ 2 /n On a : X n = N(µ, σ 2 /n), ou encore en réduisant la variable X n : n X n µ σ = N(0, 1) (128) Nous savions d après le théorème central limite que le membre de gauche de l équation précédente devait tendre en loi vers N(0, 1) mais ici, dans le cas particulier d une population parente normale, il est égal à la loi N(0, 1) 1212 Loi suivie par la variance modifiée Sn 2 d un échantillon normal Nous prendrons Sn 2 comme définition de la variance de l échantillon, son expression est : Sn 2 = 1 n (X i X n ) 2, (129) n 1 i=1 Sn 2 = 1 [ n Xi 2 n 1 1 ( n ) 2 ] X i, (1210) n i=1 cette écriture met en évidence que S 2 n est la somme de variables aléatoires dépendantes Introduisons les variables réduites X i = (X i µ)/σ, elles sont indépendantes i=1

230 121 LE THÉORÈME DE FISHER 213 et suivent une loi normale réduite : X i = N(0, 1) Portons ces nouvelles variables dans l équation (1210) Il vient : S 2 n = i=1 [ σ2 n n 1 i=1 X i 2 1 ( n n i=1 X i ) 2 ] (1211) Cherchons à déterminer la fonction de répartition de l expression entre crochets, et en anticipant un peu la notation sur le résultat, posons : n χ 2 = X i 2 1 ( n ) 2 X i S = (n 1) n 2 n σ 2 (1212) i=1 Les variables aléatoires X i étant indépendantes, leur densité de probabilité conjointe f n est égale au produit de leurs densités Il vient : f n (x 1,, x n ) = n i=1 = 1 (2π) n 2 1 2π exp ( 1 2 x i2 ), ( exp 1 2 n ) x i2 La fonction de répartition F de la variable aléatoire χ 2, F(u) = Pr { χ 2 u }, u 0, s obtient comme fonction de répartition conditionnelle des X i : F(u) = f n (x 1,,x n )dx 1 dx n (1213) χ 2 u La constante de normalisation s obtient en intégrant f n sur tout R n, elle est donc égale à 1 Le bord du domaine d intégration a pour équation χ 2 = u C est une forme quadratique homogène d équation u = x i2 1 n ( x i )2 Cette forme quadratique est, nous allons le voir, l équation d un hyper-cylindre dans R n La matrice caractéristique G de la forme quadratique u a pour éléments g ij = ij u = δ ij u i u j, où δ ij est le symbole de Kronecker, et les u i les composantes du vecteur u = (n 2,,n ) Dans R 3 la matrice G serait égale à l expression suivante : G = (1214) Écrivons G sous forme matricielle On a G = I uu t, avec u t u = 1 La matrice G est un projecteur orthogonal, qui projette R n sur un sous-espace de dimension n 1 le long de la direction indiquée par le vecteur u En tant que projecteur on a G 2 = G et ses valeurs propres sont 0 ou 1 La valeur propre λ 1 = 0 correspond au vecteur propre u, et la valeur propre 1 correspond à un sous-espace propre, dont la dimension est donnée par la trace de la matrice qui est ici égale à n 1 Effectuons un changement de variables unitaire ( une rotation ) où les nouvelles coordonnées y i sont telles que l axe des y 1 correspond au vecteur u Dans cette nouvelle base, la matrice G prend sa forme diagonale G = diag(0, 1,, 1) il s ensuit que la forme quadratique (1212) et l équation du bord du domaine d intégration s écrivent : χ 2 = n i=1 λ i Y 2 i = n i=2 Y 2 i, u = i=1 n yi 2 (1215) i=2

231 214 CHAPITRE 12 ÉCHANTILLONS DE POPULATION NORMALE x 2 y2 X χ y1 H u M x 1 FIG 121 Domaine d intégration pour le calcul de la fonction de répartition de la variance empirique S 2, par l intermédiaire de χ 2 = (n 1)S 2 /σ 2 Le domaine d intégration est un cylindre de rayon u, qui est ici, dans R 2, réduit à deux droites parallèles à la 1 re bissectrice des axes On a Pr { χ 2 u } = F(u), qui est une loi du χ 2 à n 1 degrés de liberté (ici n = 2) Le point X représente une issue quelconque du couple de variables aléatoires indépendantes réduites et centrées : (X 1, X 2 ) On montre que la variable χ 2 est égale au carré de la distance du point X à l axe du cylindre Le segment de droite MH, est égal à la variable n( X n µ)/σ qui suit une loi normale réduite Le produit par n 1 de la cotangente de l angle X MH suit la loi de Student Ce résultat se généralise à R n La dernière équation est bien celle d un cylindre de section circulaire et ayant pour axe : l axe des y 1 La figure 121 donne une interprétation géométrique du calcul du χ 2 Evaluons maintenant l intégrale (1213), en remplaçant f n par sa valeur exprimée avec les nouvelles variables, comme il s agit d un changement de variables unitaire, le jacobien est égal à un Il vient, en extrayant de f n la dépendance par rapport à la première variable : F(u) = (2π) n 1 2 χ 2 u 1 exp ( ) ( 1 2π 2 y2 1 exp 1 2 n i=2 y 2 i ) dy 1 dy n Comme d après l équation (1215) u ne dépend pas de y 1, on peut intégrer y 1 de

232 121 LE THÉORÈME DE FISHER 215 à, et il ne plus reste plus qu à évaluer : F(u) = (2π) n 1 2 χ 2 u ( exp 1 2 n i=2 y 2 i ) dy 2 dy n Cette dernière équation est la fonction de répartition de la somme des carrés de n 1 variables aléatoires normales réduites indépendantes χ 2 = n i=2 Y i 2, ce qui suffit à montrer, d après les résultats du chapitre 639 ( page 109 ), que χ 2 suit une loi du χ 2 à n 1 degrés de liberté On a alors : F(u) = 1 ( 2Γ n 1 2 ) u e t 2 0 ( t 2)n dt (1216) La variable aléatoire χ 2 = (n 1)S 2 n /σ2 admet donc la densité de probabilité : f(u) = 1 ( 2Γ n 1 2 )e u 2 ( u 2) n u 0, (1217) La loi du χ 2 n 1 a pour moyenne n 1 et pour variance 2(n 1) Il vient donc : { } ( ) E (n 1) S2 n σ 2 = n 1, Var (n 1) S2 n σ 2 = 2(n 1), (1218) ce qui nous permet de retrouver l espérance et la variance de la variance de l échantillon modifiée Sn 2 : E { Sn 2 } = σ 2, Var(Sn 2 ) = 2σ4 n 1 (1219) A partir de ces expressions on trouve pour la variance S n2 = (n 1)S 2 n /n : E{S n 2 n 1 } = n σ2, Var(S n 2 n 1 ) = 2 n 2 σ 4 (1220) 1213 Indépendance de X n et S 2 n Calculons la fonction de répartition conjointe des deux variables aléatoires Y n = n(xn µ)/σ et χ 2 = (n 1)S 2 n/σ 2 Elle s obtient comme fonction de répartition conditionnelle dans R n, calculée à partir de la densité f n de l expression (1213) : F(u, v) = F(x 1,,x n χ2 u, Y n v), (1221) F(u, v) = f n (x 1,,x n)dx 1 dx n, (1222) χ 2 u,y n v avec le même changement de variable unitaire qu au paragraphe précédent, où, de même que les produits scalaires, les formes quadratiques χ 2 et u restent invariantes La borne d intégration : v = Y n = n 1 n x n i, (1223) i=1

233 216 CHAPITRE 12 ÉCHANTILLONS DE POPULATION NORMALE est le produit scalaire des vecteurs v = (1/ n,,1/ n) (x 1,,x n), qui dans la transformation deviennent v = (1, 0,,0) (y 1, y 2,, y n ) = y 1, d où v = y 1 Remplaçons ce résultat dans (1222), il vient : v F(u, v) = (2π) n 2 e 1 2 y2 1 dy1 e 1 2 χ2 dy 2 dy n (1224) χ 2 u Cette intégrale se présente bien sous la forme du produit des deux fonctions de répartition des variables Y n et χ 2 : F(u, v) = F Y n (v)f χ 2(u), (1225) ce qui démontre que les variables n(x n µ)/σ et (n 1)S 2 n /σ2 sont indépendantes, et que par conséquent X n et S 2 n le sont également Cela termine la démonstration du théorème de Fisher Notons que sur la figure 121 page 214, la variable Y 1 = n(x n µ)/σ est égale à la longueur du segment de droite MH comptée sur l axe du cylindre 122 La loi de «Student» Nous savons maintenant que les variables aléatoires (n 1)Sn/σ 2 2 et X n sont indépendantes et qu elles suivent respectivement la loi du χ 2 n 1 à n 1 degrés de liberté et la loi normale de moyenne µ et de variance σ 2 /n La loi de Sn 2 dépend du paramètre σ 2 que Sn 2 prétend estimer, ce qui n est pas surprenant, mais la loi de X n dépend de deux paramètres : µ, que X n veut estimer mais aussi de σ 2, ce qui est une difficulté Dans la pratique, on peut tenter d approximer la variable réduite n(x n µ)/σ qui suit la loi normale réduite, par la variable aléatoire T n où l on remplace σ par S n = Sn 2, soit donc : T n = n X n µ (1226) S n Pour résoudre le problème de l estimation de µ il faut calculer la loi suivie par T n, et c est ce calcul qui constitue le célèbre travail de «Student 1» Tentons d exprimer T n en fonction de variables obéissant à des lois connues : T n = n X n µ S n, Avec les notations précédentes on a : = n X n µ σ, σ S n = ( n X n µ )( σ 2 ) n 1 σ (n 1)Sn 2 T n = n 1 Y n χ 2 (1227) La loi de T n apparaît alors comme le produit par n 1 du quotient d une variable aléatoire suivant la loi normale réduite par la racine carrée d une variable aléatoire 1 Voir On the probable error of mean, Student (1908) [71]

234 122 LA LOI DE «STUDENT» 217 suivant la loi du χ 2 n 1 On cherche la loi de T n, c est-à-dire F Tn (t) = Pr {T n t} ; les variables Y n et χ 2 étant indépendantes, cette probabilité est calculée à partir du produit des densités de Y n et de χ 2 Il vient : F Tn (t) = T n t 1 e u ) n 1 y π 2Γ( n 1 2 )( e 1 2 u dudy (1228) 2 C est cette intégrale qu il faut calculer afin de résoudre notre problème Posons f = n 1, l intégrale s écrit alors : F Tn (t) = f ( πγ f 2) y f/u t e 1 2 y2 u f 2 1 e 1 2 u dudy (1229) Posons α égal à la constante située hors de l intégrale, et en remarquant que le domaine d intégration est borné par u > 0 et y = t u/f, on obtient : F Tn (t) = α Effectuons le changement de variable x = y f/u Il vient : F Tn (t) = α 0 0 t u f du e 1 2 y2 u f 2 1 e 1 2 u dy (1230) t du = α du f 0 = α f t dx t 0 e x2 u 2f u f 2 1 e 1 2 u dx, u f 2 1 e 1 x2 2 u(1+ f ) dx, u f 2 1 e 1 x2 2 u(1+ f ) du On a pu inverser l ordre des intégrations car l intégrale double (1228) existe Sachant que 0 u ν 1 e µu du = µ ν Γ(ν) pour µ > 0 et ν > 0, il vient : F Tn (t) = α f t dx [ 1 2(1 + x2 f )] f+1 2 Γ ( f + 1 On trouve finalement la fonction de répartition de T n, en remplaçant la constante α par sa valeur : F Tn (t) = Γ( ) f+1 t ) 2 dx (1 + x2 f+1 2, (1231) πfγ( f f et sa densité de probabilité : 2 ) f Tn (t) = Γ( ) f+1 2 πfγ( f 2 ) 2 ) ) f+1 (1 + t2 2, (1232) f ce qui montre que la variable aléatoire T n suit une loi de Student à f = n 1 degrés de liberté Dans le cas où n = 2, la loi de Student est identique à la loi de Cauchy

235 218 CHAPITRE 12 ÉCHANTILLONS DE POPULATION NORMALE Y X FIG 122 Représentation graphique d un échantillon normal 2D de taille 100 La population parente normale est de moyenne nulle, µ 1 = µ 2 = 0, de variances unité σ1 2 = σ2 2 = 1 et de coefficient de corrélation ρ = Échantillons issus d une loi normale 2D Nous étudions maintenant un n-échantillon((x 1, Y 1 ),, (X n, Y n )) formé de couples de variables aléatoires (X, Y ) suivant la loi normale 2D Il est pratique de représenter, comme sur la figure 122, une réalisation de cet échantillon par des points répartis sur un plan Nous supposons toujours que les couples (X i, Y i ) sont indépendants (échantillon iid) mais, en revanche, les variables X i et Y i ne sont pas nécessairement indépendantes La densité de la loi normale 2D est donnée par l expression : f(x, y) = 1 2πσ 1 σ 2 (1 ρ 2 ) 1 2 [ (x µ1 ) 2 σ 2 1 { exp 1 2(1 ρ 2 ) 2ρ (x µ 1)(y µ 2 ) σ 1 σ 2 + (y µ 2) 2 σ 2 2 ]}, (1233) de sorte que la densité du n-échantillon pour la réalisation ((x 1, y 1 ),, (x n, y n )), est donnée par l expression : 1 { 1 f(x 1, y 1,, x n, y n ) = exp (2πσ 1 σ 2 ) n (1 ρ 2 ) n 2 2(1 ρ 2 ) [ 1 n σ1 2 (x i µ 1 ) 2 2ρ n i µ 1 )(y i µ 2 ) + σ i=1 1 σ 2 i=1(x 1 n σ2 2 (y i µ 2 ) 2]} i=1 (1234)

236 123 ÉCHANTILLONS ISSUS D UNE LOI NORMALE 2D 219 On définit, à l aide des moments échantillonnés de la loi 2D, les cinq statistiques suivantes : X = 1 n X i, Y = 1 n Y i, (1235) n n S 2 1 = 1 n n i=1 R = i=1 (X i X) 2, S 2 2 = 1 n i=1 n (Y i Y ) 2, (1236) i=1 1 n n i=1 (X i X)(Y i Y ) S 1S (1237) 2 La fonction de répartition F 5 de ces cinq variables aléatoires X, Y, S 1, S 2, R est trouvée par intégration de f n sur le domaine D : {X x, Y y, S 1 s 1, S 2 s 2, R r} : F 5 (x, y, s 1, s 2, r) = f n (x 1, y 1,,x n, y n )dx 1 dy 1 dx n dy n (1238) D L intégration se conduit de façon analogue à celle exposée dans le théorème de Fisher, par diagonalisation des formes quadratiques entrant dans f n Le même Fisher (1915) [25] a donné l expression de la densité f 5 et il a montré qu elle pouvait être séparée en deux expressions indépendantes : df 5 = df m df v, avec : 1 df m (x, y) = 2πσ 1 σ 2 (1 ρ 2 ) 1 2 [ (x µ1 ) 2 σ 2 1 { exp n 2(1 ρ 2 ) 2ρ (x µ 1)(y µ 2 ) σ 1 σ 2 + (y µ 2) 2 σ 2 2 ]} dxdy, (1239a) df v (s 1, s 2, r) = nn 1 s n 2 1 s 2n 2 (1 r 2 ) 1 2 (n 4) πσ1 n 1 σ2 n 1 (1 ρ 2 ) 1 2 (n 2) Γ(n 2) { n [ s 2 exp 1 2(1 ρ 2 2ρ rs 1 s 2 + s 2 ) σ 1 σ 2 σ σ 2 2 ]} ds 1 ds 2 dr (1239b) Cette factorisation montre que le couple (X, Y ) d une part, et le triplet (S 1, S 2, R) d autre part, sont indépendants De plus, l équation (1239a) nous dit que le couple X, Y suit une loi normale 2D de moyenne µ 1, µ 2 et de matrice des variances-covariances : σ1 2 n V = ρ σ 1σ 2 n ρ σ 1σ 2 n σ 2 2 (1240) n Le couple X, Y suit donc la même loi que la population parente : il possède la même moyenne, le même coefficient de corrélation, mais ses variances σ1/n, 2 σ2/n 2 sont différentes ; elles tendent d ailleurs vers 0 quand n tend vers l infini Les lois marginales de la loi normale 2D étant normales, X suit donc une loi normale de moyenne µ 1 et de variance σ1 2/n et Y une loi normale de moyenne µ 2 et de variance σ2 2/n Pour obtenir la loi du coefficient de corrélation empirique R, il suffit d intégrer df v par rapport à s 1 et s 2 de zéro à l infini Nous reviendrons sur cette loi au chapitre 1912 page 320

237 220 CHAPITRE 12 ÉCHANTILLONS DE POPULATION NORMALE 124 Exercices et problèmes Exercice 121 Théorème de Fisher Le but de cet exercice est de démontrer d une autre façon la 3 e partie du théorème de Fisher établissant l indépendance de X n et S 2 n Soit un échantillon iid issu de la loi normale N(µ, σ 2 ), on sait que la moyenne empirique X n suit une loi N(µ, σ2 n ) 1 Démontrer que la variable aléatoire X i X n suit une loi normale de moyenne nulle et de variance (n 1)σ 2 /n, c est-à-dire que : X i X n = N(0, n 1 n σ2 ) 2 Montrer que Cov(X n, X i X n) = 0 et en déduire que les variables aléatoires X n et X i X n sont indépendantes 3 Finalement en déduire que X n et S 2 n sont indépendantes

238 Chapitre 13 L estimation ponctuelle 131 Le problème La plupart des problèmes qui se posent à un expérimentateur consistent à estimer, au vu d un échantillon (X 1,,X n ), un ou plusieurs paramètres de la population d où est issu cet ensemble de mesures Plus souvent encore le problème se résume à obtenir la moyenne et l écart type de cette population parente, la moyenne étant interprétée comme la mesure recherchée et l écart type comme la «barre d erreur» affectée à cette mesure Ces valeurs ne sont pas nécessairement des paramètres de la loi mais des fonctions de ces paramètres D une manière générale, on notera θ les paramètres entrant explicitement dans l expression de la loi de la population parente et τ(θ) une fonction de ces paramètres Si le but de l estimation est d effectivement produire un nombre qui est censé approximer θ ou τ(θ), on dira alors que l on a affaire à un problème d estimation ponctuelle Ceci veut dire que parmi toutes les valeurs possibles de θ, il faut arriver à en choisir une, par exemple un point de la droite réelle ( si a priori θ R ) Ce problème s oppose à celui de l estimation d intervalle où l on cherche seulement à localiser θ dans un intervalle de cette même droite, cet autre genre d estimation est traité au chapitre 14 Afin d estimer les paramètres inconnus des populations parentes on utilise des fonctions δ(x 1,, X n ) de l échantillon appelées estimateurs, ce sont des statistiques La tradition veut que l on note θ n un estimateur de θ construit à l aide d un échantillon de taille n et T n un estimateur de τ(θ) ( en général on a T n τ( θ n ) ) On appellera estimation une réalisation de ces estimateurs, un estimateur est une variable aléatoire, alors qu une estimation est un nombre Cependant, estimateurs et estimations seront notés à l aide du même symbole Enfin, pour simplifier, on notera souvent X l échantillon (X 1,, X n ) et x la réalisation (x 1,,x n ) Exemple 131 La moyenne arithmétique de l échantillon X est un estimateur de la moyenne µ de la population parente : bµ n = 1 n nx X i, qui conduit à l estimation : bµ n = 1 n i=1 nx x i (131) Tout le problème de l estimation ponctuelle revient à trouver un bon estimateur, c est-à-dire une manière de combiner les données X qui s approche au plus près de la valeur inconnue τ(θ) ou θ Afin de donner un sens à ces notions intuitives, nous avons besoin d introduire quelques critères objectifs qui permettent de comparer les 221 i=1

239 222 CHAPITRE 13 L ESTIMATION PONCTUELLE estimateurs entre eux Ces critères sont empruntés à ceux de la théorie de la décision dont nous donnons quelques éléments ci-dessous 132 Eléments de théorie de la décision Comme l estimation de τ(θ) recouvre celle de θ, nous ne considérerons que ce premier cas, on notera δ(x) l estimateur de τ(θ) La première chose à faire est de définir une erreur d estimation Définition 131 L erreur commise en estimant τ(θ) par δ(x) est : δ(x) τ(θ) Si l erreur est positive on sur-estime τ(θ), on le sous-estime dans le cas contraire Il faut ensuite envisager les conséquences des erreurs d estimations, c est le rôle de la fonction de pertes qui donne le coût des erreurs de décision Définition 132 La fonction de perte L(θ, t) est une fonction positive dont la valeur est le coût de l erreur d estimation de θ par t Elle n est nulle que si, et seulement si, t = θ Il semble logique que le coût augmente avec δ(x) τ(θ), ainsi on peut choisir : ou plus généralement : L(τ(θ), δ(x)) = δ(x) τ(θ) p, où p > 0, L(τ(θ), δ(x)) = w(θ) δ(x) τ(θ) p, p > 0, w(θ) > 0 Il y a cependant avantage à choisir une fonction L dérivable, convexe et qui soit relativement simple à manipuler Ces raisons militent en faveur de la fonction de pertes quadratique : L(τ(θ), δ(x)) = (δ(x) τ(θ)) 2 (132) Lorsqu il sera nécessaire de faire explicitement référence à une fonction de pertes particulière, nous choisirons la fonction quadratique Un estimateur est une variable aléatoire et pour juger de la performance d un estimateur par rapport à un autre, il faut disposer d une mesure globale prenant en compte toutes les issues possibles de cette variable Le risque est la notion qui répond à cette attente Définition 133 Le risque R est l espérance de la fonction de pertes : R(θ, δ) = E{L(θ, δ(x))}, (133) l espérance porte sur toutes les valeurs possibles de l échantillon X Si la fonction de pertes est la fonction quadratique, le risque attaché à l estimation de τ(θ) par δ(x) n est rien d autre que l erreur quadratique moyenne de δ(x) autour de τ(θ) On a dans ce cas : R(τ(θ), δ(x)) = Var(δ(X)) + [E{δ(X) τ(θ)}] 2, la quantité E{δ(X) τ(θ)} porte le nom de biais Définition 134 Pour l estimation de τ(θ), on dira qu un estimateur δ 1 est meilleur qu un autre δ 2, au sens du risque si : θ, R(τ(θ), δ 1 ) < R(τ(θ), δ 2 )

240 132 ELÉMENTS DE THÉORIE DE LA DÉCISION 223 Un espoir déçu À partir de cette définition, il est légitime de se demander s il existe un estimateur de τ(θ) qui soit uniformément meilleur que tous les autres, c est-à-dire si : δ δ θ, R(τ(θ), δ ) R(τ(θ), δ) En réalité, il n existe aucun estimateur qui réponde à cette attente Considérons l estimateur trivial δ 0 qui consiste à déclarer que, sans égard à la valeur de X, δ 0 (X) = τ(θ 0 ) où θ 0 est une valeur arbitraire Le risque attaché à δ 0 sera en général très grand, sauf si θ = θ 0 auquel cas il sera nul Aucun autre estimateur ne peut avoir un risque nul pour θ 0, l erreur d un estimateur non-trivial n est jamais toujours nulle de même que l espérance des pertes associées ( le risque ) Néanmoins, il existe trois méthodes classiques qui, pour un problème donné, fournissent des raisons objectives de préferer un estimateur parmi un ensemble d autres Le principe d impartialité Le problème avec l estimateur trivial, c est qu il favorise la valeur θ 0 au détriment de toutes les autres, d où l idée de rechercher des estimateurs qui ne possèdent pas ce travers Le moyen le plus classique est de restreindre la recherche du meilleur estimateur à la classe des estimateurs sans biais et d imposer : E{δ(X)} = τ(θ) On montre que dans cette classe il existe des estimateurs préférables à tous les autres au sens du risque, nous verrons plus loin une méthode qui permet d en obtenir Ces estimateurs sont dit : UMVU, de l anglais Uniform Minimum Variance Unbiased, étant sous-entendu que la fonction de pertes est la fonction quadratique Le principe de Bayes Une autre approche, moins ambitieuse, consiste à abandonner l espoir de minimiser le risque pour tous les θ individuellement, et de chercher à minimiser un critère global tenant compte en moyenne du risque sur tous les θ Ceci peut être réalisé à l aide d une fonction de poids π(θ) qui permette de définir un risque moyen ou risque de Bayes R π : R π (δ) = R(τ(θ), δ)π(θ) dθ (134) θ Dans l interprétation bayesienne, θ est une variable aléatoire de densité de probabilité a priori π(θ) Un estimateur de Bayes est un estimateur qui minimise le risque de Bayes Le principe minimax Dans le même ordre d idées, le principe minimax consiste à quantifier la performance globale d un estimateur à l aide du maximun de son risque et de chercher à minimiser cette quantité Un estimateur δ sera un estimateur minimax si : max θ R(τ(θ), δ ) = min δ Le risque minimax R m par définition est égal à : R m (δ) = max R(τ(θ, δ)) θ maxr(τ(θ, δ)) (135) θ On montre que le risque minimax est toujours supérieur ou égal au risque d un estimateur de Bayes quelconque Si le domaine de définition des θ est fini, alors on montre que l estimateur minimax correspond à l estimateur de Bayes suivant la densité a priori π la plus défavorable, c est-à-dire conduisant au risque de Bayes le plus élevé Le principe minimax se révèle être un principe de prudence que l on peut qualifier de pessimiste

241 224 CHAPITRE 13 L ESTIMATION PONCTUELLE 133 Propriétés des estimateurs Les notions évoquées ci-dessus conduisent à étudier de plus près les propriétés que doivent posséder les bons estimateurs 1331 La convergence Définition 135 On dit qu une suite estimateurs { θ n } ou, de façon plus concise, qu un estimateur θ n est convergent lorsque il converge en probabilité vers la valeur qu il prétend estimer Un estimateur convergent doit donc satisfaire le critère suivant : ǫ > 0, lim Pr{ ˆθ n θ ǫ} = 0 (136) n Plus généralement T n est un estimateur convergent de τ(θ) si : ǫ > 0, lim Pr{ T n τ(θ) ǫ} = 0 (137) n Exemple 132 Convergence de la moyenne empirique Si une population possède une moyenne µ et une variance σ 2, alors la moyenne empirique M d un échantillon iid issu de cette population est un estimateur convergent de µ Ce résultat découle de la loi des grands nombres étudiée au chapitre 7 On donne ci-dessous une démonstration directe de la convergence de M vers µ D après cette l inégalité de Bienaymé-Tchébychev on a : n M E{M} o Pr k 1 Var(M) 1/2 k (138) 2 Cette inégalité signifie que la variable aléatoire M ne s écarte de sa moyenne à plus que k fois son écart type qu avec une probabilité inférieure à 1/k 2 Par ailleurs, nous avons déjà démontré que si µ et σ 2 existent alors E{M} = µ et Var(M) = σ 2 /n ( voir page 86 ), il s ensuit : n M µ o Pr σ/ k 1 n k, 2 n Pr M µ k σ o 1 σ, on pose ǫ = k, n k2 n Pr{ M µ ǫ} σ2 nǫ 2 Cette dernière quantité tend vers 0 quand n, ce qui montre que M est bien un estimateur convergent de µ 1332 L absence de biais Définition 136 On dira qu un estimateur θ n de θ ou T n de τ(θ) est non-biaisé si : pour toutes les valeurs possibles de θ E{ θ n } = θ ou E{T n } = τ(θ), (139) Cette notion a été introduite par Gauss en 1821 Outre les considérations théoriques évoquées plus haut, il semble raisonnable de regarder comme une bonne propriété le fait qu «en moyenne» un estimateur soit égal au paramètre qu il veut estimer Cependant, il y a un certain danger à exiger de n avoir affaire qu à des estimateurs non-biaisés, en premier lieu parce qu un estimateur non-biaisé peut ne pas exister L exemple suivant est classique

242 133 PROPRIÉTÉS DES ESTIMATEURS 225 Exemple 133 Cas où il n existe pas d estimateur non-biaisé Soit K une variable aléatoire répartie suivant la loi binomiale B(n, p) Le nombre d épreuves n est connu, mais la probabilité p de succès d une épreuve est inconnue Cependant ce n est pas p que nous cherchons à estimer mais : τ(p) = 1/p Soient t(k) les valeurs prises par l estimateur T de 1/p lorsque l on observe k succès en n épreuves Par définition, pour que T soit non-biaisé il faut que : nx t(k)cnp k k (1 p) n k = 1 p k=0 pour 0 < p 1 Supposons que pour un certain p l estimateur T soit non-biaisé alors la somme de gauche est finie ( ce qui implique en particulier que t(0) est fini ) Maintenant, lorsque p 0 le terme de gauche tend vers t(0) alors que le terme de droite 1/p peut être aussi grand que l on veut, par conséquent T ne peut être non-biaisé pour tous les p 1 Le biais On définit le biais b d un estimateur θ n de θ comme étant égal à la différence entre l espérance mathématique de l estimateur et le paramètre à estimer Soit : b( θ n, θ) = E{ θ n } θ (1310) Quand la confusion n est pas possible on notera le biais simplement b n (θ) D après la définition, un estimateur est non-biaisé ou absolument correct si b n (θ) = 0 La notion de biais correspond à celle d erreur systématique des physiciens Exemple 134 La moyenne empirique M et la variance modifiée S 2 sont des estimateurs non-biaisés de la moyenne µ et de la variance σ 2 de la population parente ( à condition toutefois que ces paramètres existent ) Estimateurs asymptotiquement non-biaisés Comme toujours, lorsqu il s agit de définir des propriétés asymptotiques, il est essentiel de préciser l ordre des opérations vis-à-vis du passage à la limite Dans le cas qui nous intéresse, une suite d estimateurs θ n sera-t-elle déclarée asymptotiquement non-biasée si la limite de l espérance tend vers zéro ou si l espérance de la limite tend vers zéro? Les deux définitions coexistent et on a : Définition 137 Limite de l espérance Une suite d estimateurs { θ n } de θ sera dite «asymptotiquement correcte», si la suite des espérances de θ n tend vers θ C est-à-dire si : lim n E{ θ n } = θ Définition 138 Espérance de la limite Une suite d estimateurs { θ n } de θ sera dite «asymptotiquement correcte», si la suite des écarts : θ n θ, convenablement normalisés, tend en loi vers une variable aléatoire d espérance nulle C est-à-dire si il existe 1 Cet exemple n est pas artificiel, il correspond à la procédure de «capture-recapture» dont le but est d estimer une population d animaux Soit N la population d une espèce animale ( par exemple des poissons dans un lac ) Pour estimer N on capture m animaux que l on marque et relâche La probabilité de recapturer un animal est p = m/n, estimer la population N = m/p revient alors à estimer 1/p En fait, pour estimer 1/p de façon non-biaisée il ne faut pas, comme dans l exemple ci-dessus, capturer un nombre donné m d animaux mais capturer des animaux jusqu au moment où le nombre d animaux capurés est égal à un nombre r donné à l avance Si r + Y désigne le nombre total d animaux qu il a fallu capturer afin d en obtenir r marqués, on montre que (r + Y )/r est le meilleur estimateur non-biaisé de 1/p Dans cette procédure, on suppose soit que N est très grand, soit que l on capture et relâche immédiatement les animaux ( tirage avec remise )

243 226 CHAPITRE 13 L ESTIMATION PONCTUELLE une suite k n telle que : k n ( θ n θ) loi Y et E{Y } = 0 La constante de normalisation k n est souvent proportionelle à n comme dans le cas du théorème central limite Un estimateur peut fort bien être asymptotiquement non-biaisé d après une définition et pas d après l autre Dans la suite de ce texte nous considérerons plutôt la première définition : la limite de l espérance Biais de la variance d un échantillon iid Si la moyenne de la population est connue, la variance de l échantillon est absolument correcte, un calcul direct le montre facilement En effet, soit S 2 = 1 n n i=1 (X i µ) 2 ou, ce qui revient au même, S 2 = (x µ) 2 df n, il vient : E{S 2 } = E{ (x µ) 2 df n }, = E{(X µ) 2 } df n, = σ 2 df n = σ 2 df n, = σ 2 En revanche, si on estime la moyenne de la population par la moyenne de l échantillon, la variance de l échantillon est seulement asymptotiquement correcte Nous avons déjà mentionné ce fait ( voir équation (1116) page 207 ), démontrons-le ici de façon directe La variance de l échantillon est définie par : S 2 = 1 n n (X i M) 2, (1311) i=1 avec comme d habitude M = 1 n n i=1 X i D après la définition de la fonction de répartition empirique F n, il vient : M = xdf n et S 2 = (x M) 2 df n Appliquons le théorème de Huygens à la deuxième intégrale en considérant l écart quadratique moyen autour de µ, il vient : S 2 = (x µ) 2 df n (µ M) 2 L intégrale restante est la variance de l échantillon par rapport à la moyenne de la population parente, pour un échantillon iid cet estimateur est non-biaisé Calculons à présent l espérance mathématique de l expression ci-dessus, en notant que pour un échantillon iid E{M} = µ, il vient : E{S 2 } = E{ (x µ) 2 df n } E{(µ M) 2 }, = σ 2 E{(M E{M}) 2 } = σ 2 Var(M), = σ 2 σ2 n

244 133 PROPRIÉTÉS DES ESTIMATEURS 227 On a ainsi obtenu l espérance de la variance S 2 de l échantillon : E{S 2 } = σ 2 σ2 n (1312) Cette dernière équation montre que S 2 est un estimateur biaisé de σ 2 ; son biais vaut b n (σ 2 ) = E{S 2 } σ 2 = σ 2 /n La variance de l échantillon est donc systématiquement plus petite que la variance de la population Ce résultat était prévisible puisque M peut être interprété comme le centre de gravité de l échantillon et la variance S 2 comme son moment d inertie par rapport à M Or on sait, toujours d après le théorème de Huygens, que le moment d inertie est minimum lorsqu il est calculé par rapport au centre de gravité, il est donc plus petit que celui calculé par rapport à µ qui lui n est pas biaisé, le biais est donc négatif Convergence et absence de biais La convergence fait référence à la fonction de répartition alors que l absence de biais fait référence au moment d ordre un de cette fonction Il n y a aucune raison pour que les propriétés de convergence et d absence de biais soient liés, ce sont des notions indépendantes, Ce fait est illustré par la figure 131, où l évolution de la densité de probabilité de quatre estimateurs hypothétiques θ n est représentée en fonction de la taille de l échantillon n De plus, un estimateur convergent n est pas nécessairement asymptotiquement nonbiaisé que cela soit suivant l une ou l autre définition de l absence asymptotique de biais L exemple suivant le montre pour la définition «limite de l espérance» 2 Exemple 135 Soit { b θ n} une suite d estimateurs de zéro, l estimateur b θ n est une variable aléatoire discrète qui vaut 0 avec la probabilité 1 1/n et n 2 avec la probabilité 1/n La suite d estimateurs est de toute évidence convergente : la probabilité attachée au point qui n est pas en zéro tend vers 0 comme 1/n lorsque n En revanche il est biaisé et son biais ne tend pas vers 0 : E{ b θ n} = 0(1 1/n) + n 2 /n = n La propriété de convergence est plus importante que celle d absence de biais ; il existe d ailleurs des moyens plus ou moins faciles à mettre en œuvre pour corriger du biais, ceux-ci vont faire l objet du chapitre suivant 1333 Les méthodes permettant de corriger du biais Le biais est facilement calculable Si l on désire estimer de façon non-biaisée la variance σ 2 d une population de moyenne µ inconnue, il est facile de voir que l estimateur S 2 de σ 2 : S 2 = 1 n 1 n (x i M) 2 (1313) i=1 n est pas biaisé En effet E{S 2 } = E{ n n 1 S 2 } = n n 1 (σ2 σ 2 /n) = σ 2 En revanche sa variance est plus élevée que celle de l estimateur biaisé S 2 On a en effet : Var(S 2 ) = 2σ4 n 1 > Var(S 2 ) = 2σ 4 n 1 n 2 (1314) 2 Pour «l espérance de la limite» il faut fabriquer un contre-exemple où la loi limite est, par exemple, celle de Cauchy

245 228 CHAPITRE 13 L ESTIMATION PONCTUELLE FIG 131 Illustration de l indépendance entre convergence et absence de biais On a représenté l évolution des densités de probabilité de quatre estimateurs hypothétiques du paramètre θ Les densités de probabilité ont été normalisées arbitrairement

246 133 PROPRIÉTÉS DES ESTIMATEURS 229 En ce qui concerne l estimation de l écart type σ, il y a lieu de faire attention En effet, si g est une fonction convexe, on a l inégalité de Jensen : E{g(X)} g(e{x}) (1315) En particulier on a : E{S 2 } > (E{S}) 2, et on doit alors s attendre à ce que l estimateur S = S 2 soit un estimateur biaisé de σ Dans le cas d une variable aléatoire normale N(µ, σ 2 ) par exemple, l estimateur non-biaisé S de l écart type σ est donné par l expression : [ S 1 = k n (X i M) 2] 1 2 n 1, k n = n 1 2 i Γ( n 1 2 ) Γ( n 2 ), n 2, (1316) où Γ est la fonction eulérienne de 2 e espèce On a la relation de récurrence : π k 2 = 2, k 3 = 2, k n+2 = 1 1 π n 2 k n (1317) Donnons quelques valeurs de k n : k , k , k , k (1318) De façon pratique, on a dès que n est très grand : Le biais n est pas facilement calculable [ S 1 (X i M) 2] 1 2 (1319) n 150 On a alors recours à des méthodes de ré-échantillonnage ou méthodes Bootstrap dont la méthode suivante est l archétype La méthode de Quenouille S il existe un biais de l ordre de 1/n, cette méthode permet de le réduire à l ordre 1/n 2 On suppose qu il est possible de développer la valeur moyenne de l estimateur en série entière de 1/n On extrait la moitié de l échantillon, après avoir éventuellement retiré un point si l échantillon était au départ de taille impaire On a alors : E{ θ n } = θ + 1 n β + O( 1 n 2 ), i E{ θ 2n } = θ + 1 2n β + O( 1 ), d où : n2 E{2 θ 2n θ n } = θ + O( 1 n 2 ) Le biais en 1/n a disparu mais, en général, la variance de ce nouvel estimateur augmentera d un facteur de l ordre de 1/n Une meilleure méthode consisterait à diviser au hasard le 2n-échantillon en deux parts égales, évaluer les estimateurs correspondants θ n et θ n, et calculer le nouvel estimateur : 2 θ 2n 1 2 ( θ n + θ n) (1320)

247 230 CHAPITRE 13 L ESTIMATION PONCTUELLE La méthode du jackknife Il existe une autre méthode qui n augmente la variance que d un terme en 1/n 2, la méthode dite du «jackknife 3» Cette méthode demande plus de calculs, mais à l heure actuelle où le calcul électronique devient de plus en plus rapide et de moins en moins cher, le jackknife est préférable à la méthode de Quenouille Soit donc θ n un estimateur de θ, calculé à partir d un n-échantillon Développons de nouveau sa valeur moyenne en série entière de 1/n : E{ θ n } = θ + k=1 a k n k (1321) On recalcule ensuite les n estimateurs θ i en enlevant chaque fois un point i au n- échantillon et on calcule la moyenne arithmétique de ces estimateurs : θ n 1 = 1 n n θ i (1322) Finalement on construit l estimateur jackknife θ n suivant l expression : i=1 θ n = n θ n (n 1) θ n 1 = θ n + (n 1)( θ n θ n 1 ) (1323) L espérance de cet estimateur vaut : E{ θ n } = E{n θ n (n 1) θ n 1 }, = nθ + n = θ + = θ + k=1 k=2 k=0 a k n k (n 1)θ (n 1) a k n k 1 a k (n 1) k 1, k=1 a k [ 1 n k 1 1 (n 1) k 1 ], = θ a 2 n 2 + O(n 3 ) k=1 a k (n 1) k, Le biais à l ordre 1/n a disparu On montre qu il est également possible de retirer le biais à l ordre 1/n 2 en considérant l estimateur : θ n = n2 θ n (n 1) 2 θ n 1 n 2 (n 1) 2 (1324) Mais la variance de cet estimateur augmente en général d un terme en 1/n Importance pratique des estimateurs non-biaisés On peut légitimement se demander pourquoi il semble si important d obtenir des estimateurs non-biaisés, et pourquoi se donner tant de mal pour corriger d un biais éventuel alors que des estimateurs biaisés peuvent se révéler meilleurs, dans le sens d un moindre écart quadratique moyen, que des estimateurs non-biaisés? Il y a cela une raison pratique illustrée par l exemple suivant 3 Pour plus de détails voir The jackknife a review, Miller (1974) [52]

248 133 PROPRIÉTÉS DES ESTIMATEURS 231 Supposons que p laboratoires collaborent, afin de déterminer la masse θ d une nouvelle particule élémentaire Chaque laboratoire i fournit son estimation θ n, i calculée à partir d un échantillon de taille n Supposons de plus que les différents laboratoires utilisent la même procédure expérimentale, de façon à ce que la suite des résultats θ n 1,, θ n p puisse être considérée comme la réalisation d un p-échantillon iid de θ n La population parente de cet échantillon iid est la densité de probabilité de θ n qui, supposons-le encore, possède une moyenne µ et une variance σ 2 Afin de prendre en compte tous ces résultats, on attribuera très probablement à θ, une valeur égale à la moyenne arithmétique sur i des θ n i, et on donnera une idée de la qualité de cette estimation finale de θ, en calculant l écart type des θ n i Préoccuponsnous seulement de cette moyenne arithmétique que nous notons θ n,p à la manière des physiciens C est un estimateur non-biaisé de la moyenne µ de la population parente ; l écart type de cet estimateur est égal à σ/ p Si l estimateur θ n est non-biaisé, on aura µ = θ et donc E{ θ n,p } = θ En revanche s il est biaisé, on aura µ θ et donc E{ θ n,p } θ Cette situation, après tout, n est pas catastrophique : il vaut peut-être mieux avoir affaire à un estimateur biaisé mais proche de θ, plutôt qu à un estimateur non-biaisé mais de variance très grande autour de θ Mais examinons de plus près une situation extrêmement courante Supposons qu il ne soit pas possible d augmenter la taille n de l échantillon qui a servi à déterminer θ n i, parce que, par exemple, l expérience durerait trop longtemps, deviendrait instable, ou qu elle coûterait trop cher Une façon habituelle de prétendre améliorer la qualité de l estimation finale θ n,p, est d augmenter p, en renouvelant l expérience Voyons ce qui arrive alors : θ n,p est un estimateur convergent et nonbiaisé de µ Ainsi quand p, d après la loi des grands nombres, il convergera vers µ = θ s il est non-biaisé, mais vers µ θ, s il est biaisé ; seul l estimateur non-biaisé sera un estimateur de θ convergent Un estimateur de θ biaisé peut être convergent, cela n empêche pas la moyenne arithmétique de ses réalisations de converger ailleurs que vers la valeur qu il cherche à déterminer C est parce qu il est habituel de faire la moyenne arithmétique d un ensemble de résultats, que l on donne une si grande place aux estimateurs non-biaisés Il faut cependant garder en mémoire que, si c est la taille du n-échantillon qui peut augmenter à volonté, alors les estimateurs biaisés peuvent redevenir intéressants 1334 L efficacité Ordre entre estimateurs convergents Il existe une infinité d estimateurs convergents du même paramètre θ Parmi ceuxci, il semble naturel de préférer celui qui minimise le risque afférent à son choix Si la fonction de pertes est quadratique, alors choisir l estimateur de moindre risque revient à choisir celui de moindre erreur quadratique moyenne Cette erreur quadratique moyenne E{( θ n θ) 2 } s exprime en fonction de la variance de l estimateur θ n et de son biais de la façon classique : E{( θ n θ) 2 } = E{( θ n E{ θ n }) 2 } + (E{ θ n } θ) 2, (1325) = Var( θ n ) + b 2 n(θ) (1326) Si l estimateur est non-biaisé il vient alors E{( θ n θ) 2 } = Var( θ n ), et chercher l estimateur de moindre écart quadratique moyen reviendra à chercher l estimateur de

249 232 CHAPITRE 13 L ESTIMATION PONCTUELLE moindre variance Ce qui conduit à la notion d estimateur optimal Définition 139 Estimateur optimal Un estimateur non-biaisé θ n opt pour θ sera dit optimal si, quel que soit l estimateur θ n, on a : θ n, E{ θ n } = θ et Var( θ n opt ) Var( θ n ) (1327) 1335 L inégalité de Fréchet ou de Rao-Cramér Il est légitime de se poser la question suivante : la variance d un estimateur peut-elle être aussi petite que l on veut? Pour tenter de répondre à cette question, plaçons-nous dans le cas où T est un estimateur absolument correct ( non-biaisé ) d une fonction τ de θ Nous verrons plus loin que l introduction de la fonction τ permet d inclure les estimateurs biaisés pour θ dans la discussion Un tel estimateur T, par hypothèse non-biaisé, a pour moyenne E{T } = τ(θ) et pour variance Var(T) = E{(T τ(θ)) 2 } Pour calculer cette variance, on utilise l opérateur espérance mathématique qui est un opérateur linéaire et auquel on peut associer un produit scalaire Ce produit scalaire, en tant que tel, obéit à l inégalité de Cauchy-Schwarz Soit ψ une fonction du n-échantillon ( noté X ) et du paramètre θ à estimer D après Cauchy-Schwarz on a : E{(T τ(θ)) 2 } E{ψ(X, θ) 2 } [E{(T τ(θ)) ψ(x, θ)}] 2, (1328) d où en tenant compte que E{(T τ(θ)) 2 } = Var(T) : Var(T) [ ] 2 E{(T τ(θ)) ψ(x, θ)} E{ψ(X, θ) 2 (1329) } L égalité n étant obtenue que si, et seulement si, la fonction ψ est proportionnelle à T τ(θ), c est-à-dire si : ψ(x, θ) = A(θ) (T τ(θ)) (1330) L inégalité (1329) permet, en principe, de trouver la borne optimale car : Var(T) max ψ [ ] 2 E{(T τ(θ)) ψ(x, θ)} E{ψ(X, θ) 2 (1331) } Cependant, il est pratiquement impossible pour tout T, τ(θ) et toute population parente d exhiber la borne optimale par le calcul du max Il faut se contenter de trouver une fonction ψ qui fournisse une borne assez grande Si la fonction ψ est mal choisie on trouvera une borne inférieure trop petite, par exemple si ψ ne dépend pas de X on trouvera Var(T) 0 ce que nous savions déjà Afin de trouver un meilleur minorant, il faut trouver un cas d usage courant, où la fonction ψ soit de la forme (1330) cidessus, de façon à ce que la borne soit atteinte Pour ce cas particulier la borne trouvée sera la borne optimale Étudions le cas où le n-échantillon X provient d une loi parente normale de moyenne µ et de variance connue σ 2, le paramètre θ à estimer est la moyenne µ, l estimateur est la moyenne empirique M On suppose de plus que l échantillon est formé à de variables aléatoires indépendantes et identiquement distribuées ( iid )

250 133 PROPRIÉTÉS DES ESTIMATEURS 233 Calculons la fonction de vraisemblance de ce n-échantillon : n 1 L(X θ) = [ σ 2π exp 1 ( Xi θ ) 2 ] (1332) 2 σ i=1 Éliminons le produit en prenant le log de l expression : lnl = n ln(σ 2π) n 1 ( Xi θ ) 2 (1333) 2 σ Éliminons ensuite la constante et le carré, en dérivant par rapport à θ Il vient : lnl θ = 1 σ 2 n i=1 i=1 x i nθ σ 2 = n (M θ) (1334) σ2 On voit alors que, dans le cas particulier de l estimation par la moyenne arithmétique M, de la moyenne µ d une population normale de variance connue, la fonction ln L/ θ est précisément du type (1330) qui transforme l inégalité de Cauchy- Schwarz en une égalité Dans ce cas la borne trouvée est la borne optimale Pour une population quelconque, et pour l estimation d une fonction d un paramètre θ quelconque par une statistique T, on est sûr que la variance de T sera toujours supérieure ou égale à la limite trouvée en remplaçant la fonction ψ par ln L/ θ dans l inégalité de Cauchy-Schwarz Ce ne sera pas la borne optimale mais elle est, à cause du cas qui lui a donné naissance, d une grande importance pratique On la nomme la borne efficace Il reste maintenant à calculer effectivement cette borne et pour cela évaluer les différentes espérances entrant dans l équation (1329) : { E (T τ(θ)) lnl θ Soit en développant le premier terme : { lnl } { E, E T lnl } θ θ }, et E et {( lnl θ ) 2 } (1335) {( lnl ) 2 } E (1336) θ Les espérances sont des intégrales et l intégration doit se faire sur toutes les réalisations x de l échantillon Il vient pour le premier terme : { lnl } lnl 1 E = θ θ L dx = L L L θ L dx = θ dx Sous réserve que l on puisse intervertir intégration et dérivation, il en découle que le premier terme est nul En effet : { lnl } L E = θ θ dx = L dx = 0 (1337) θ Évaluons maintenant le deuxième terme : { E T lnl } = t lnl θ θ L dx = t L θ dx, = tl dx = θ θ E{T },

251 234 CHAPITRE 13 L ESTIMATION PONCTUELLE toujours sous réserve que l on puisse échanger l intégration et la dérivation L estimateur T est non-biaisé, E{T } = τ(θ) et il vient : { E T lnl } = d θ dθ τ(θ) = τ (θ) (1338) Terminons le calcul par le troisième terme : {( lnl ) 2 } ( lnl ) 2L lnl L E = dx = θ θ θ θ dx = lnl 2 θ θ L dx lnl θ 2 L dx = { lnl } 2 θ E lnl } {{ θ } θ 2 L dx = 0 soit : {( lnl ) 2 } { E = E 2 lnl } θ θ 2 (1339) On déduit finalement de tous ces calculs l importante inégalité de Rao-Cramér dite aussi inégalité de Fréchet : [τ (θ)] 2 Var(T) { E 2 lnl } (1340) θ 2 Nous avons vu que le choix relativement arbitraire de la fonction ψ implique que cette borne inférieure n est pas nécessairement atteinte Pour qu elle soit atteinte, il faut et il suffit que : lnl = A(θ)(T τ(θ)), (1341) θ où A(θ) est une fonction quelconque du paramètre à estimer θ Si la variance d un estimateur atteint cette borne, il est dit efficace ou MVB ( de l anglais : Minimum Variance Bound ) Dans les calculs précédents, on a interchangé les opérateurs d intégration et de dérivation partielle Cela est en général possible à condition, par exemple, que les bornes d intégration ne dépendent pas du paramètre θ Cette condition n est d ailleurs pas nécessaire, si aux bornes d intégration la densité de probabilité de la population parente est nulle, et si les dérivées premières par rapport à θ s annulent également, alors dans ce cas l inégalité de Rao-Cramér, telle qu elle est écrite, reste encore valable 1336 Les estimateurs MVB Dans le cas où la borne MVB est atteinte on a donc : lnl θ = A(θ) (T τ(θ)) (1342) En remplaçant directement cette expression dans l équation (1340) on obtient : Var(T) = τ (θ) A(θ), (1343)

252 133 PROPRIÉTÉS DES ESTIMATEURS 235 et si τ(θ) = θ : Var(T) = 1 A(θ) (1344) Ces deux dernières expressions permettent, dans certains cas, de trouver facilement la variance d un estimateur MVB comme le montrent les exemples suivants Exemple 136 Variance de la moyenne arithmétique d une loi normale Pour un n- -échantillon issu d une loi normale de variance connue σ 2 et pour l estimation de la moyenne θ par la moyenne arithmétique T = M, nous avons vu plus haut que l on avait : θ ln L = n σ 2 (M θ) donc A(θ) = n σ 2, d où Var(T) = σ2 n Exemple 137 Variance de la variance échantillonnée d une loi normale Soit une population normale de densité de probabilité : f(x) = 1 2πθ exp` x2 2θ 2 (1345) La moyenne est connue, on peut la supposer nulle ; mais la variance θ 2 est inconnue On a alors : ln L θ = n θ 3 ( 1 n X X 2 i θ 2 ) = n θ 3 (S 2 θ 2 ) (1346) La forme de la fonction ln L/ θ nous conduit naturellement à choisir comme estimateur T de θ 2, la statistique : X Xi 2 S 2 = 1 (1347) n Cet estimateur sera MVB, à la condition qu il soit non-biaisé On s assure facilement de cette dernière condition car en effet : Z E{S 2 } = s 2 L dx = 1 X Z X 2 i L dx = 1 X θ 2 = θ 2, (1348) n n i La fonction τ(θ) = θ 2 admet donc bien S 2 comme estimateur MVB On peut immédiatement calculer sa variance : Var(S 2 ) = τ (θ) 2θ 2θ 4 n = n = n (1349) θ 3 θ 3 On note habituellement σ l écart type ici noté θ, d où : Var(S 2 ) = 2σ4 n (1350) On trouve ainsi directement la variance de la variance échantillonnée d un échantillon normal de moyenne connue 1337 Efficacité et estimateur efficace Soit T un estimateur convergent et sans biais pour l estimation de τ(θ) On mesure son efficacité comme l inverse du rapport de sa variance à la variance limite donnée par la borne MVB : Eff(T) = Var MVB(θ) (1351) Var(T) L estimateur T sera dit efficace si son efficacité est de 1 ( ou 100% ), ou, en d autres termes, s il atteint sa borne MVB Comme nous l avons déjà fait remarquer, la borne MVB n étant pas nécessairement atteinte, un estimateur optimal n est pas nécessairement efficace i

253 236 CHAPITRE 13 L ESTIMATION PONCTUELLE 1338 Cas des estimateurs biaisés Soit T un estimateur biaisé de θ Par définition du biais on a : Si l on choisit la fonction τ(θ) = θ + b(θ), on a alors : E {T } = θ + b(θ) (1352) E {T } = τ(θ), (1353) ce qui montre que T est un estimateur non-biaisé de τ(θ) Appliquons la formule de Rao-Cramér pour cette fonction τ On trouve τ (θ) = 1 + b (θ), et on a également : Var(T) E { [t (θ + b(θ))] 2} = E { (T θ) 2} b 2 (θ) (1354) Le terme E { (T θ) 2} est l erreur quadratique moyenne de T Nous venons de voir qu il est toujours supérieur ou égal à la variance de T On peut écrire finalement : E { (T θ) 2} = Var(T) + b 2 (θ) [1 + b (θ)] 2 { } + b 2 (θ) (1355) E 2 lnl θ 2 S il est vrai que l erreur quadratique moyenne d un estimateur biaisé est toujours plus grande que sa variance, l exemple 138 ci-dessous montre qu il est possible de trouver un estimateur biaisé dont l erreur quadratique moyenne soit plus petite que la plus petite variance associée à la classe des estimateurs non-biaisés Exemple 138 Estimation du paramètre de la loi exponentielle Soit un n-échantillon iid (X 1,, X n) issu d une population suivant la loi exponentielle de moyenne θ : f(x) = 1 θ exp x θ où E{X i} = θ et Var(X i) = θ 2 (1356) Choisissons la moyenne arithmétique X comme estimateur de θ Nous savons que c est un estimateur non-biaisé de la moyenne de la population, et donc E{X} = θ Dans ce cas son erreur quadratique moyenne par rapport à θ est égale à sa variance : E (X θ) 2 = E (X (E X ) 2 Var(X) (1357) Établissons maintenant que X est MVB en calculant ln L/ θ : ln L = nln θ 1 nx X i, (1358) θ ln L θ = n θ + 1 θ 2 n X i=1 i=1 X i = n (X θ) (1359) θ2 Ceci montre que X est bien MVB pour l estimation de θ, d où on tire immédiatement : Var(X) = θ2 n (1360) En revanche l estimateur b X = nx/(n + 1) est biaisé mais son erreur quadratique moyenne est plus petite que la borne MVB θ 2 /n des estimateurs non-biaisés En effet, il est biaisé : mais on a les inégalités suivantes : Var( b X) = E{ X} b = n θ θ, bn(θ) = n + 1 n + 1, (1361) n (n + 1) 2 θ2 < E{( b X θ) 2 } = θ2 n + 1 < Var(X) = θ2 n (1362)

254 133 PROPRIÉTÉS DES ESTIMATEURS 237 Cet exemple montre qu il peut être trop restrictif de se limiter à la recherche du meilleur estimateur possible dans la classe des estimateurs non-biaisés Il peut être plus fructueux de chercher à minimiser l erreur quadratique moyenne, c est-à-dire la dispersion de l estimateur autour de la valeur à estimer, plutôt que de chercher à minimiser la variance en imposant l absence de biais Ce sont des raisons pratiques, du type de celles évoquées plus haut, qui font que les estimateurs de moindre erreur quadratique moyenne ne sont pas très utilisés Se limiter à la classe des estimateurs non-biaisés est aussi une simplification du point de vue mathématique 1339 Borne efficace et information de Fisher Nous avons déjà vu que la quantité non négative : {( ) 2 } } I n (θ) E θ lnl = E { 2 θ 2 lnl, (1363) est appelée «information de Fisher» contenue dans le n-échantillon La variable aléatoire ln L/ θ étant de moyenne nulle, l information de Fisher n est autre que l inverse de la variance de cette variable aléatoire Pour des échantillons indépendants ( iid ), cette grandeur ne dépend que de la taille du n-échantillon et de la densité de probabilité de la population parente et nous avons montré que I n (θ) = ni 1 (θ) Cela signifie que dans le cas où l inégalité de Rao-Cramér s applique, la variance d un estimateur T décroît au plus vite comme 1/n L inégalité s écrit alors : Var(T) (τ (θ)) 2 ni 1 (θ) (1364) Dans l estimation du point milieu d une densité de probabilité uniforme sur ]0, θ], l estimateur 1 2 (X (n) + X (1) ) de la moyenne θ/2 a une variance asymptotique : lim n Var(1 2 (X (n) + X (1) )) = 1 2n 2 (1365) Cette variance asymptotique décroît plus rapidement que la limite de Rao-Cramér parce que nous sommes précisément dans un cas où cette limite ne s applique pas En effet, dans les calculs établissant le résultat de Rao-Cramér, l espérance mathématique s exprime par l intégrale θ dx Dans le cas évoqué ici, le paramètre que l on veut estimer 0 est justement fonction de la borne supérieure de l intégrale On ne peut alors pas inverser l ordre des dérivations et des intégrations et l inégalité de Rao-Cramér ne s applique plus Les inégalités de Bhattacharyya Bhattacharyya (1946) [8, 9, 10] a généralisé l inégalité de Fréchet Rao-Cramér Soit T un estimateur sans biais pour τ(θ) et L la fonction de vraisemblance Définissons la matrice J par ses éléments J kl : J kl = E { 1 L k L θ k 1 L l } L θ l et le vecteur τ des m premières dérivées de τ, d éléments : k, l = 1,,m, (1366) τ k = k τ(θ) θ k, k = 1,,m (1367)

255 238 CHAPITRE 13 L ESTIMATION PONCTUELLE L inégalité d ordre m de Bhattacharyya est donnée par l expression suivante : Var(T) τ t J 1 τ (1368) Il est clair que si m = 1, on retrouve l inégalité de Fréchet Rao-Cramér et la borne MVB Dans le cas où la borne MVB n est pas atteinte, les nouvelles inégalités peuvent donner, pour une certaine valeur de m, une borne inférieure plus grande que la borne MVB Voici à titre d exemple la borne de Bhattacharyya pour m = 2 : Var(T) τ 2 J 11 + (τ J 12 τ J 11 ) 2 J 11 (J 11 J 22 J 2 12 ) (1369) Le premier terme est la borne MVB ( de l ordre de 1/n ), et le deuxième terme est une correction de l ordre de 1/n 2 Les bornes déduites des inégalités de Rao-Cramér et de Bhattacharyya sont adaptées au cas où les erreurs de mesure sont «petites» autour du paramètre estimé On entend par «petites» des erreurs suivant une loi proche de la loi normale Lorsque ces erreurs sont grandes, disons proches de la loi de Cauchy, il existe alors des bornes mieux adaptées, c est-à-dire plus grandes que les bornes de type Rao-Cramér ( voir à ce sujet l article d Abel, 1993 [1] ) 134 Les estimateurs fiables Comme nous l avons déjà vu, il existe, en général, plusieurs estimateurs du même paramètre θ On envisage souvent, entre autres possibilités, la moyenne arithmétique, la médiane ou le point milieu de l échantillon afin d estimer la moyenne d une population Pour la loi normale par exemple, la moyenne arithmétique de l échantillon est nonbiaisée et MVB ; c est donc le meilleur estimateur possible et il n y a pas lieu d en chercher un autre Mais lequel choisir dans le cas où la population parente est de nature inconnue, ou encore dans le cas où elle est connue mais contaminée par des erreurs de mesure de nature inconnue? Pour fixer les idées nous allons choisir trois populations parentes très différentes, et donner les variances asymptotiques des trois estimateurs précédents Ces trois densités étant symétriques, c est en fait la position de l axe de symétrie que l on cherche à déterminer Pour simplifier nous prendrons tous les facteurs d échelle égaux à 1 On obtient le tableau suivant, où les valeurs en caractères gras sont les plus petites possibles : Loi uniforme a Loi normale Loi de Cauchy Médiane Moyenne Milieu 1 4n 1 12n π 2n 1 n 1 π 2 2n 2 24 lnn a Il s agit ici de la loi uniforme entre 0 et 1 π 2 4n On voit sur cet exemple que, si l on n a aucune idée sur ce qu est la population parente sous-jacente, il est plus sûr d utiliser la médiane, afin d obtenir une variance

256 134 LES ESTIMATEURS FIABLES 239 finie dans tous les cas On peut considérer le tableau précédent comme la matrice des pertes d un jeu contre la nature, où dans ce cas d ailleurs on ne peut que perdre On fera le choix de la médiane conformément à la stratégie minimax, c est-à-dire celle qui minimise le maximum des pertes La médiane est un estimateur dit fiable ( ou robuste ) pour cet ensemble de populations Il existe plusieurs autres estimateurs fiables de l axe de symétrie d une population qui suit une loi symétrique Ils sont, suivant leur type, adaptés à un spectre plus ou moins large de populations Donnons-en quelques uns La moyenne tronquée Considérons la moyenne tronquée bilatérale symétrique A partir du n-échantillon ordonné (X (1) X (2) X (n) ), on retire 2q points, les q plus petits et les q plus grands de façon à obtenir le nouvel échantillon (X (q+1) X (n q) ) Le paramètre de troncature est défini ici comme : α = q n, (1370) et la moyenne arithmétique du (n 2q)-échantillon restant sera appelée moyenne symétriquement tronquée à 100α% et notée T α On aura donc : T α = 1 (n 2q) n q i=q+1 X (i) (1371) Notons qu en général on fixe α compris entre 0 et 1, et que l on calcule ensuite q = αn Dans ce cas, la moyenne est tronquée à au plus 100α% et au moins 100(α 1/n)% La moyenne winsorisée La procédure est la même que pour la moyenne tronquée mais on remplace les q plus petites valeurs par X (q+1) et les plus grandes par X (n q), puis on calcule la moyenne : W α = 1 n [ n q i=q+1 ] X (i) + q(x (q+1) + X (n q) ) (1372) La médiane de Hodges-Lehmann On fabrique le nouvel échantillon (Y 11, Y 12,, Y nn ) à partir de l échantillon (X 1,, X n ) suivant la formule : Y ij = 1 2 (X i + X j ), (1373) et l on définit la médiane de Hodges-Lehman HL comme la médiane des Y ij Le point milieu C est la statistique du point situé à égale distance des valeurs extrêmes, et qui vaut donc : P = 1 2 [X (1) + X (n) ] (1374) Exemple 139 Variances asymptotiques de divers estimateurs du paramètre de localisation d une loi de Cauchy Soit un n-échantillon iid issu d une loi de Cauchy de densité de probabilité : 1 f(x) = π[1 + (x θ) 2 ] (1375) Les variances asymptotiques de différents estimateurs de θ sont données par le tableau suivant :

257 240 CHAPITRE 13 L ESTIMATION PONCTUELLE Estimateur Variance asymptotique 2 Maximum de vraisemblance n Moyenne tronquée à 38% 228 n π 2 Médiane 4n 247 n On voit sur ce tableau que la moyenne tronquée à 38% est à peine moins efficace, mais elle est plus facile à calculer que l estimation, dans ce cas optimale, du maximum de vraisemblance Les trois figures suivantes ( figures 132, 133 et 134 ) illustrent graphiquement les performances de six estimateurs calculés à partir d un échantillon de taille n = 30, pour 200 tirages successifs de celui-ci et cela pour trois lois différentes, la loi normale, la loi uniforme, et la loi de Cauchy Sur ces figures, m et s désignent la moyenne et l écart type des 200 valeurs trouvées à partir de l estimateur considéré 135 Exercices et problèmes Exercice 131 Biais de S 2 Sans faire appel au théorème de Huygens calculer le biais de la variance empirique d un échantillon ( voir équation (1312) )

258 135 EXERCICES ET PROBLÈMES 241 FIG 132 Performances de 6 estimateurs de la moyenne d une loi normale Le meilleur estimateur est la moyenne arithmétique

259 242 CHAPITRE 13 L ESTIMATION PONCTUELLE FIG 133 Performances de 6 estimateurs de la moyenne d une loi uniforme Le meilleur estimateur est le point milieu ( la moyenne des valeurs extrêmes )

260 135 EXERCICES ET PROBLÈMES 243 FIG 134 Performances de 6 estimateurs de la médiane d une loi de Cauchy Le meilleur estimateur est ici la moyenne tronquée à 38%

261 244 CHAPITRE 13 L ESTIMATION PONCTUELLE

262 Chapitre 14 L estimation d intervalle Jusqu à présent, à partir d un n-échantillon, nous nous sommes attachés à essayer de trouver une estimation ponctuelle ˆt du paramètre inconnu θ, ou d une fonction τ(θ) de ce paramètre inconnu L estimateur ˆt étant une variable aléatoire, il est bien clair que pour différentes réalisations du n-échantillon, nous trouverons différentes valeurs issues de l estimateur ˆt Si cet estimateur possède des propriétés optimales, ces valeurs issues de ˆt seront certainement proches du paramètre à estimer θ, mais elles ne nous disent pas où se trouve exactement θ Il est naturellement impossible de savoir avec certitude où se trouve θ, mais nous pouvons tenter de le localiser, à l aide de ˆt, en délimitant une région de l espace du ou des paramètres où θ s y trouverait avec la probabilité γ Nous appellerons une telle région intervalle de confiance, et la probabilité γ qui y est attachée, confiance ou niveau de confiance 141 Définition de l intervalle de confiance Il est en général possible de connaître, pour chaque valeur de θ, la densité de probabilité de ˆt, ou du moins sa valeur asymptotique Soit q(t θ) cette densité de probabilité Exemple 141 Loi suivie par la moyenne arithmétique d un échantillon issu d une population normale Un n-échantillon (X 1,, X n) a pour population parente la loi normale N(θ, σ 2 ) de moyenne inconnue θ et de variance connue σ 2 Nous avons déjà vu que la statistique : ˆt = 1 nx X i = X, (141) n i=1 suivait une loi normale de moyenne θ et de variance σ 2 /n On a donc dans ce cas q(t θ) = N(θ, σ 2 /n) Pour un paramètre θ et une valeur γ [0, 1] donnés, q(t θ) étant connu, nous pouvons en principe résoudre une équation du type : Pr { t inf (θ) < ˆt t sup (θ) } = γ (142) C est-à-dire qu il est en général possible de définir une région bornée par t inf et t sup, où les réalisations t de la variable aléatoire ˆt s y trouvent avec la probabilité γ Nous supposerons que l intervalle t inf, t sup contient le paramètre θ Il est bien clair que l équation (142) précédente admet une infinité de solutions Parmi celles-ci on en distingue habituellement trois 245

263 246 CHAPITRE 14 L ESTIMATION D INTERVALLE 1 L intervalle minimal Afin de localiser au mieux la région où peuvent se trouver les réalisations de ˆt, il faut pour un γ donné, minimiser la quantité t sup t inf C est cet intervalle que nous appellerons intervalle minimal Il est facile de montrer que dans la limite où γ 0, on a q(t sup θ) = q(t inf θ), et que cet l intervalle tend vers le mode de la densité de probabilité de ˆt 2 L intervalle bilatéral symétrique C est celui qui, pour un γ donné, est tel que : tinf q(t θ)dt = q(t θ)dt = 1 γ t sup 2 soit, exprimé en fonction des quantiles de q(t θ) : t inf = t γ 2, t sup = t 1 2 γ 2, (143) (144) Dans la limite où γ 0, l intervalle tend vers la médiane de la densité de probabilité de ˆt 3 L intervalle central symétrique On suppose que la moyenne µ de la loi existe, et que l on peut résoudre les équations : µ t inf q(t θ)dt = tsup µ q(t θ)dt = γ 2 (145) Dans la limite où γ 0, l intervalle tend vers la moyenne de la densité de probabilité de ˆt Dans la suite de ce chapitre nous considérerons toujours l intervalle bilatéral symétrique, car c est en général celui qui est le plus facile à calculer Nous sommes donc maintenant capables de résoudre sans ambiguïté l équation : Pr { t inf (θ) < ˆt t sup (θ) } = γ (146) Mais il reste que notre problème est de donner un intervalle qui contienne θ et non ˆt avec la probabilité γ Supposons qu il soit possible d inverser les fonctions t inf (θ) et t sup (θ) pour la valeur ˆt On aurait alors : que nous allons écrire pour plus de clarté : Pr { t 1 sup(ˆt) θ < t 1 inf (ˆt) } = γ, (147) Pr { θ inf (ˆt) θ < θ sup (ˆt) } = γ (148) Mais il faut se garder de mal interpréter cette équation, car pour une réalisation donnée du n-échantillon : soit θ est dans cet intervalle et alors Pr {θ inf θ < θ sup } = 1, soit θ n est pas dans cet intervalle et Pr {θ inf θ < θ sup } = 0 Cela semble être en contradiction avec l équation (148) Mais il faut bien comprendre que les bornes de l intervalle θ inf (ˆt) et θ sup (ˆt) sont des variables aléatoires et que l équation (148) n a de sens que dans ce contexte Cependant, dans la pratique, il faudra bien calculer des valeurs sûres θ inf (t) et θ sup (t) à partir d une réalisation t de la variable aléatoire ˆt Le sens à donner alors à l intervalle de confiance (148) est

264 142 LES GRANDS ÉCHANTILLONS 247 que le paramètre θ sera compris dans l intervalle θ inf (t), θ sup (t) avec la probabilité γ, à condition de renouveler un très grand nombre de fois l expérience conduisant à une valeur t issue de ˆt C est dans le cadre d une telle expérience de pensée, que nous parlerons d intervalle de confiance d un paramètre θ et du coefficient de confiance γ attaché à cet intervalle En d autres termes, si l on choisit γ = 09 par exemple, cela veut dire que 90% du temps, en moyenne, notre paramètre inconnu θ sera bien à l intérieur de l intervalle de confiance θ inf,θ sup déduit à partir des réalisations successives du n-échantillon Illustrons cela graphiquement à l aide de l exemple précédent L estimateur ˆt = X de la moyenne θ d une loi normale suit également une loi normale N(θ, σ 2 /n) Choisissons γ = 068, le paramètre θ étant donné On en déduit : t inf (θ) = θ σ n et t sup (θ) = θ + σ n (149) Portons les valeurs t inf (θ) et t sup (θ) dans le plan t, θ et répétons l opération pour tous les θ possibles, on obtient ainsi deux droites (voir figure 141) Cherchons maintenant à inverser les fonctions t inf et t sup pour toutes les valeurs de ˆt : d où l on déduit l intervalle de confiance : ˆt = t inf (θ sup ) = θ sup σ n (1410) ˆt = t sup (θ inf ) = θ inf + σ n, (1411) θ inf = ˆt σ n θ sup = ˆt + σ n (1412) La vraie moyenne est égale à θ 0, nous l ignorions, mais comme nous avons envisagé tous les θ possibles, nous avons donc construit au passage l intervalle t inf (θ 0 ),t sup (θ 0 ) qui contient ˆt avec la probabilité γ Supposons qu au cours d une expérience réelle, nous ayons observé t 1 qui «par chance» se trouve être entre t inf (θ 0 ) et t sup (θ 0 ) Construisons l intervalle de confiance de θ déduit à partir de ce t 1 C est, sur la figure 141 l intervalle vertical passant par la valeur t 1 Nous voyons bien que cet intervalle contient la vraie valeur θ 0 et que cet événement arrivera chaque fois que ˆt sera dans l intervalle t inf (θ 0 ), t sup (θ 0 ), ce qui se produit avec la probabilité γ En revanche si par «manque de chance» nous avons observé t 2 en dehors de l intervalle t inf (θ 0 ), t sup (θ 0 ), ce qui arrive avec la probabilité 1 γ, l intervalle de confiance ne contiendra pas θ 0 comme on le voit sur la figure 141, et cet événement se produira avec la probabilité 1 γ Dans l exemple choisi on obtient finalement l intervalle de confiance : Pr { ˆt σ n θ < ˆt + σ n } = 068 (1413) Cette interprétation géométrique est applicable chaque fois que l on peut inverser facilement les fonctions t inf (θ) et t sup (θ) 142 Intervalle de confiance pour de grands échantillons Nous avons vu au cours de la démonstration de l inégalité de Rao-Cramèr, que la fonction aléatoire ln L/ θ, où L est la fonction de vraisemblance d un n-échantillon,

265 248 CHAPITRE 14 L ESTIMATION D INTERVALLE θ θ 2sup θ 1 sup θ 2inf θ 0 t inf (θ 0 ) t sup (θ 0 ) σ n σ n t 1 t 2 t θ 1 inf t inf (θ) t sup (θ) FIG 141 Construction graphique de l intervalle de confiance de la moyenne θ 0 d une loi normale, connaissant la variance σ 2 Sur cet exemple, l intervalle de confiance est déterminé à partir de l estimation t 1 ou t 2 issue d un échantillon de taille n et pour le niveau de confiance γ = 0638

266 142 LES GRANDS ÉCHANTILLONS 249 avait les caractéristiques suivantes : { lnl } moyenne : E = 0 θ {( lnl ) 2 } { 2 lnl } variance : E = E θ θ 2 Les moyennes sont calculées sur l espace des échantillons Dans ces conditions, la variable aléatoire : lnl ψ = θ [ {( lnl ) 2, (1414) }]1 2 E θ tend ( en loi ) vers la loi normale réduite N(0, 1) lorsque la taille de l échantillon tend vers l infini Il est possible de se servir de cette propriété afin de construire des intervalles de confiance, comme le montre l exemple suivant emprunté à Kendall et Stuart (1979) Exemple 142 Intervalle de confiance du paramètre d une loi de Poisson Soit X une variable aléatoire discrète x N, suivant une loi de Poisson : f(x;λ) = e λ λ x x! (1415) Cherchons un estimateur de la moyenne λ à partir d un n-échantillon (x 1,, x n) Pour cela calculons ln L/ λ On obtient : lnl λ = n λ ( X λ), (1416) ce qui prouve que la moyenne de l échantillon X est MVB pour l estimation de λ, et donc que X est nécessairement une statistique exhaustive Calculons maintenant l information de Fisher : j ff I n = E 2 ln L, (1417) λ 2 2 lnl λ 2 = n X λ 2, j ff E 2 ln L λ 2 = n λ 2 E X Lorsque la moyenne de la population existe, la moyenne arithmétique X de l échantillon est toujours non-biaisée et donc : I n = n λ 2 E X = n λ 2 λ = n λ (1418) Nous retrouvons ici le résultat bien connu où t étant un estimateur MVB de θ, alors l information de Fisher est donnée par le terme en facteur de (t θ) dans l expression de ln L/ θ, d où ψ : ψ = n λ ( X λ 1 2 λ) = ( n X n 1 2 λ) (1419) λ D après ce que nous avons vu, cette quantité tend vers la loi normale réduite N(0, 1), quand n Choisissons γ = 095, ce qui correspond à l intervalle ±196 pour la loi normale réduite Il vient alors, pour une réalisation x de X : n 1 2 ( x λ) = ±196, λ ( x λ) 2 n λ = 384, λ 2 (2 x + 3,84 n )λ + x2 = 0,

267 250 CHAPITRE 14 L ESTIMATION D INTERVALLE d où l intervalle de confiance sur la moyenne λ : λ inf = x n + n λ sup = x n n Lorsque n devient très grand on néglige les termes en 1/n et il reste : x +, (1420) n x + (1421) n λ = x ± n x 2 x 1 2 = x ± 196 (1422) n Mais Var(x) = λ x que l on notera comme d habitude σ 2, et l on retrouve ainsi l intervalle de confiance de la loi normale : λ = x ± 196 σ n pour γ = 095 (1423) 143 Le point de vue bayesien Supposons que le paramètre inconnu soit maintenant une variable aléatoire θ, dont la densité de probabilité a priori π(θ) est connue Nous connaissons également la densité de probabilité de l estimateur ˆt pour θ fixé que nous avions notée q(t θ) En appliquant la formule de Bayes nous pouvons calculer ψ, la densité de probabilité a posteriori de θ, connaissant une réalisation t de l estimateur ˆt : ψ(θ t) = π(θ)q(t θ) π(θ)q(t θ)dθ (1424) A l aide de cette probabilité a posteriori et γ étant donné on peut définir l intervalle de confiance bayesien comme solution de l équation : Pr {θ inf < θ θ sup } = θsup θ inf ψ(θ t)dθ = γ (1425) Cette équation a également une infinité de solutions et l on choisira un des trois intervalles classiques mentionnés plus haut ( voir page 245 ) 1431 Exemple tiré de la loi normale Soit une réalisation (x 1,, x n ) d un n-échantillon issu d une population normale de moyenne inconnue µ et de variance connue σ 2 égale à 1 La méthode classique donne comme intervalle de confiance pour l estimateur ˆt = X au niveau de confiance γ = 095 : { Pr X 196 < µ < X } = 095 (1426) n n Supposons maintenant que nous sachions parfaitement, pour des raisons physiques par exemple, que µ est compris entre 0 et 1, ce qui entraîne Pr {0 < µ < 1} = 1 La moyenne de l échantillon x peut prendre toutes les valeurs de à +, mais supposons que nous ayons trouvé x = 05, et que la taille de l échantillon soit égale à n = 9 La méthode classique de construction de l intervalle de confiance illustré par la figure 142 nous donnera alors : Pr { 015 < µ < 115} = 095 (1427)

268 143 LE POINT DE VUE BAYESIEN µ x = n n 015 t FIG 142 Extrapolation de l intervalle de confiance sans tenir compte de l information a priori Cela semble être en contradiction avec les limites connues sur µ, puisque cette probabilité semblerait devoir prendre la valeur 1 En fait l interprétation classique est toujours valable : l intervalle aléatoire que nous construisons à partir de la variable aléatoire X contiendra bien µ dans 95% des cas si nous renouvelons indéfiniment l expérience Mais notre embarras devant l interprétation de l intervalle de confiance traduit bien le fait que nous avons délibérément ignoré l information a priori sur µ, à savoir que µ est compris entre 0 et 1 Il est clair sur la figure 142 que nous avons abusivement extrapolé notre méthode de construction de l intervalle de confiance, au delà de la bande interdite [0, 1] Prenons maintenant le point de vue bayesien, en supposant qu après tout, si µ est compris entre 0 et 1, il peut avoir une densité de probabilité a priori constante dans cet intervalle, c est-à-dire : { 0 siµ [0, 1], π(µ) = (1428) 1 siµ [0, 1] D autre part, ˆt = x suit une loi normale N(µ, 1/n), d où l on déduit la densité de probabilité a posteriori : 0 siµ [0, 1], ψ(µ x) = exp [ n 2 (µ x)2] 1 0 exp [ n 2 (µ x)2] dµ siµ [0, 1] (1429) C est une loi normale, centrée sur x, tronquée à l intervalle [0, 1] et normalisée à 1 Dans notre cas cette fonction est symétrique et les trois intervalles de confiance évoqués plus haut sont identiques Un calcul simple nous conduit à l intervalle de confiance bayesien : Pr {005 < µ < 095} = 095 (1430)

269 252 CHAPITRE 14 L ESTIMATION D INTERVALLE Cela est plus satisfaisant que le résultat donné par la méthode classique Le problème de la validité du choix de la densité de probabilité a priori reste néanmoins en suspens 144 Intervalle de confiance n-d 1441 Principe de construction Il s agit maintenant de localiser un ensemble de k paramètres θ 1,, θ k dans l espace P k R n des valeurs possibles de ces paramètres, à l aide des estimateurs ˆt 1,, ˆt k Nous désignerons par θ l ensemble de ces paramètres, et par t l ensemble des estimateurs de ces paramètres La démarche conduisant à définir une région de confiance dans P k est analogue au cas 1D Il faut d abord commencer par calculer la densité de probabilité q( t θ) Cette opération est en principe possible si l on suppose connu l ensemble des θ Il faut délimiter ensuite dans l espace où se répartissent les ˆt i, une région contenant t avec la probabilité γ Là aussi, il existe une infinité de façons de faire cette opération, mais la façon la plus courante consiste à définir des régions bornées par une frontière où la densité q est constante La région ainsi définie est analogue à l intervalle minimal du cas 1D Sur cette frontière, il existe une relation fonctionnelle entre les ˆt i, que l on peut en général écrire Q(ˆt 1,, ˆt k ) = λ, où λ est une certaine constante Une réalisation située à l intérieur de la frontière sera telle que Q(ˆt 1,, ˆt k ) λ (ou Q > λ, mais nous supposerons que c est le cas < λ qui prévaut) On a alors sous cette hypothèse : Pr{Q(ˆt 1,, ˆt k θ) λ} = γ (1431) Il reste maintenant à envisager la relation fonctionnelle Q, comme fonction de θ, les t étant connus, afin d obtenir, dans le plan P k des paramètres, la région de confiance maintenant définie par : Pr{Q(θ 1,, θ k t) λ} = γ (1432) Ce processus peut naturellement conduire à des régions de confiance pathologiques, non connexes par exemple 1442 Le cas de la loi normale 2D Soit un n-échantillon iid formé de couples X i, Y i de variables aléatoires issus d une loi normale 2D de paramètres µ 1, µ 2, σ 1, σ 2 et ρ Supposons que l on connaisse les paramètres σ 1, σ 2 et ρ et que l on cherche une région de confiance pour le couple µ 1, µ 2 Le couple de variables aléatoires X et Ȳ défini par : X = 1 n n X i, i=1 V = Ȳ = 1 n n Y i, (1433) suit une loi normale 2D (voir chapitre 123) de moyenne µ 1, µ 2 de matrice des variances-covariances : σ1 2 ρ σ 1σ 2 n n ρ σ 1σ 2 n σ 2 2 n i=1 (1434)

270 144 INTERVALLE DE CONFIANCE N-D 253 FIG 143 Région de confiance pour l estimation simultanée de la moyenne d une loi normale 2D, lorsque les variances et le coefficient de corrélation sont connus Ces régions sont des ellipses calculées pour des échantillons dont la taille passe progressivement de 1 à 5 Le niveau de confiance γ est égal à 68%, et la vraie valeur de la moyenne est µ 1 = 0, µ 2 = 0 Les valeurs connues sont σ 1 = σ 2 = 1 et ρ = 08 Il en résulte que la relation d égale probabilité Q( X, Ȳ µ 1, µ 2 ) = k 2 est une ellipse d équation : Q = 1 [ ( X µ1 ) 2 1 ρ 2 σ1 2/n 2ρ σ 1 σ 2 /n ( X µ 1 )(Ȳ µ 2) + (Ȳ µ 2) 2 ] σ2 2/n = k 2, (1435) qui contient la probabilité γ donnée par : γ = 1 e 1 2 k2 (1436) La relation Q, envisagée dans le plan µ 1, µ 2 pour une réalisation x, ȳ donnée,q(µ 1, µ 2 x, ȳ), est aussi une forme quadratique définissant une ellipse de confiance associée à la confiance γ La figure 143 montre de telles régions de confiance

271 254 CHAPITRE 14 L ESTIMATION D INTERVALLE 145 Exemples 1451 Intervalle de confiance approximatif d un rapport de deux variables aléatoires indépendantes et normales La variable aléatoire D est égale au rapport de deux variables aléatoires normales indépendantes, X suivant la loi N(α, σα 2) et Y suivant la loi N(β, σ2 β ) On définit le rapport signal sur bruit SN par la quantité : ( ) 2 ( ) 2 α β SN 2 = +, (1437) σ α et l on notera α = α/σ α et β = β/σ β On démontre que l intervalle interquantile symétrique [D n, D +n ], est donné avec une très bonne approximation par la formule suivante α ± nσ (α D ±n = 2 + β 2 n 2 ) 1 α 2 α (1438) β nσ (α 2 + β 2 n 2 ) 1 β 2 L intervalle [ n, n] est l intervalle interquantile symétrique de la loi normale réduite On a γ = Φ(n) Φ( n) = 2Φ(n) 1, où Φ est la fonction de répartition de la loi normale réduite Le tableau suivant donne le contenu en probabilité γ de l intervalle [D n, D +n ], pour certaines valeurs de n β σ β n γ Cette façon de présenter les choses permet de parler de l intervalle de confiance à «n-sigma(s)», étant entendu qu il s agit d une référence à l écart type de la loi normale L approximation sur la valeur d une borne de cet intervalle est meilleure que ǫ = 1 Φ(1 n 2 /SN 2 ), (1439) Posons D 0 = α/β, D 0 = D 0 σ β /σ α et D ±n = D ±n σ β /σ α Il vient D ±n = D 0 ± ((SN/n)2 1) D 0 ((SN/n)2 1) 1 2 (1440) Cette formule ne dépend que de SN/n et, quand cette quantité est donnée, l équation précédente est celle d une hyperbole On ne peut pas inverser la formule précédente, car SN n est pas uniquement fonction de D 0 Cependant, il arrive souvent que l on ait une idée assez précise de la valeur de ce rapport signal sur bruit Dans ces conditions, on trouve l intervalle de confiance sur D 0 : avec Pr {D 0 n D 0 < D 0+n } = 2Φ(n) 1, (1441) D 0 n = D ± σ α σ β ((SN/n) 2 1) ± D σ β σ α ((SN/n) 2 1) 1 2 (1442) où D est le rapport déduit des observations La figure 144, permet de trouver les intervalles de confiance contenant D 0, pour différentes valeurs de SN/n

272 1 146 EXERCICES D0max D D SN=n= D0min FIG 144 Abaque permettant de calculer l intervalle de confiance d un rapport D 0 de deux variables aléatoires normales à partir d une mesure D de ce rapport La quantité σ α est l écart type du numérateur, et σ β l écart type du dénominateur Les courbes sont tracées à rapport signal sur bruit SN constant et la valeur n paramétrise le coefficient de confiance γ en unités de «sigmas» de la loi normale On a la relation γ = 2Φ(n) 1, où Φ est la fonction de répartition de la loi normale réduite Application numérique On a mesuré les intensités de deux raies spectrales, H α = 91 ± 06, H β = 28 ± 03 Cette mesure correspond à un rapport signal sur bruit SN 18, on trouve en appliquant la formule (1441), et pour le niveau de confiance γ = 0954 correspondant à n = 2 Pr {230 D 0 < 528} = 0954 (1443) 146 Exercices Exemple 143 On procède à n expériences où un événement est susceptible de se produire avec la probabilité inconnue x S il se produit, on dira qu il y a eu succès de l expérience, dans le cas contraire, c est un échec On a observé p succès et q échecs, quelle est la probabilité pour que x soit compris entre les valeurs x 1 et x 2? ( Bayes 1763 [4] )

273 256 CHAPITRE 14 L ESTIMATION D INTERVALLE

274 Chapitre 15 Comment obtenir des estimateurs? Jusqu à présent, nous ne nous sommes intéressés qu aux propriétés des estimateurs, sans nous soucier de la façon pratique de les obtenir Il existe, à cette fin, trois méthodes classiques : la méthode des moments, la méthode du maximum de vraisemblance et la méthode des moindres carrés Nous allons exposer ici les deux premières méthodes, et consacrer tout un chapitre à la méthode des moindres carrés 151 La méthode des moments Soit une population parente dépendant de s paramètres et ayant pour densité de probabilité : f(x; θ 1, θ 2,, θ s ) (151) On rappelle que les moments de la population sont définis par : µ ν(θ 1, θ 2,, θ s ) = E {X ν } ; on pose : µ 1 = µ 1 = µ µ ν (θ 1, θ 2,, θ s ) = E {(X µ) ν } ; ν 2 Soit une observation (x 1,,x n ) d un n-échantillon issu de cette population Les moments des observations sont définis par : m ν = 1 n m ν = 1 n n x ν i ; on pose : m 1 = m 1 = m (152) i=1 n (x i m) ν ; ν 2 (153) i=1 La méthode des moments consiste à résoudre le système de s équations à s inconnues obtenu en posant : µ ν (θ 1, θ 2,,θ s ) = m ν ; ν = 1,,s (154) Dans ces égalités, les µ ν sont des scalaires alors que les m ν sont des réalisations des variables aléatoires M ν Pour que la méthode conduise à des résultats, il faut naturellement que les µ ν existent Cela n est pas toujours le cas : la loi de Cauchy, par 257

275 258 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS? exemple, n admet aucun moment à aucun ordre Dans le cas où les µ ν existent, il est souhaitable que m ν se rapproche de µ ν, lorsque le nombre d observations n augmente, et l on demande en fait que la variable aléatoire M ν converge en probabilité vers la valeur µ ν Ce que nous voudrions finalement, c est que cette méthode nous conduise à trouver des estimateurs θ s,n convergents, non-biaisés et efficaces des θ s Cela n est pas toujours réalisé dans la pratique, surtout si ν est grand D autre part, pour des raisons de stabilité numérique, il est préférable de résoudre le système concernant les moments centrés suivant : µ ν (θ 1, θ 2,,θ s ) = m ν ; ν = 1,,s (155) Mais dans ce cas, les estimateurs M ν de µ ν sont biaisés dès que ν 2 Nous avions déjà remarqué ce fait pour la variance Il vaut alors mieux utiliser les observations m 2, m 3 et m 4 des estimateurs non-biaisés suivants : M2 = n n 1 M 2, (156) M3 n 2 = (n 1)(n 2) M 3, (157) M4 = n(n 2 2n + 3) (n 1)(n 2)(n 3) M 3n(2n 3) 3 (n 1)(n 2)(n 3) M2 2 (158) Enfin, pour que les variances des M ν existent, il faut que la population parente possède des moments jusqu à l ordre 2ν Dans ce cas on peut appliquer la loi des grands nombres et l on démontre que les M ν convergent en probabilité vers les µ ν Dans ces conditions, les estimateurs θ s,n trouvés par la méthode des moments sont asymptotiquement corrects, de distribution asymptotiquement normale et de variance décroissant en 1/n ; mais ils sont en général peu efficaces On les utilise habituellement comme point de départ dans la recherche d estimateurs plus efficaces Exemple 151 Estimation des paramètres de la loi de Laplace, par la méthode des moments Cherchons à estimer les paramètres µ et λ de la loi exponentielle double (ou de Laplace) de densité de probabilité : Les moments de la loi sont : f(x; µ, λ) = λ exp( λ x µ ) (159) 2 µ 1 = µ, µ 2 = 2 λ 2 (1510) Si nous cherchons à estimer µ et λ par la méthode des moments, à partir d une observation (x 1,, x n), cette méthode nous conduit à résoudre le système formé des deux équations suivantes : µ = m 1 et 2 λ = 2 m 2 (1511) Ces équations ont pour solutions : µ = 1 nx x i la moyenne arithmétique des observations, n i=1 «1/2 2(n 1) λ = P n i=1 (xi m)2 Mais l estimateur de µ donné par la méthode des moments n est pas le plus efficace La médiane de l échantillon est un estimateur de µ deux fois plus efficace On montre d ailleurs qu il est MVB

276 152 LA MÉTHODE DU MAXIMUM DE VRAISEMBLANCE La méthode du maximum de vraisemblance 1521 Principe de la méthode Soit une observation (x 1,,x n ) d un n-échantillon (X 1,, X n ) La fonction de vraisemblance L(x 1,, x n θ) a été définie comme la densité de probabilité de l observation, les x i étant fixés et le paramètre θ étant considéré comme variable Si le n-échantillon est formé de variables aléatoires indépendantes et identiquement réparties ( échantillon iid ), on aura : L(x 1, x 2,, x n θ) = f(x 1 θ)f(x 2 θ) f(x n θ) (1512) Le principe du maximum de vraisemblance propose de choisir parmi tous les θ possibles, le paramètre θ qui rend la fonction de vraisemblance la plus grande possible C est-à-dire : θ; L(x θ) L(x θ) (1513) En général cette équation peut se résoudre en recherchant la solution du système : L θ = 0 et 2 L θ 2 < 0 (1514) S il y a plusieurs maxima, on choisira le plus grand Cependant, résoudre le système (1514) pour trouver l estimateur du maximum de vraisemblance ne conduit pas toujours au maximum de la fonction de vraisemblance Si, par exemple, le domaine X des valeurs possibles de x est borné, le maximum peut avoir lieu au bord du domaine X, où l on n aura pas nécessairement L/ θ = 0 Il faut donc se livrer à une étude critique des solutions du système (1514), avant de déclarer que l on a trouvé l estimateur du maximum de vraisemblance Dans la pratique, on cherche plutôt à maximiser le logarithme de la fonction de vraisemblance, ce qui conduit à résoudre le système : lnl θ = 0 et 2 lnl θ 2 < 0 (1515) 1522 Propriétés de l estimateur du maximum de vraisemblance Donnons maintenant quelques propriétés des estimateurs du maximum de vraisemblance, que nous noterons estimateur ML Les propriétés que nous allons mentionner ne sont valables que dans le cadre des échantillons iid Dans le cas où les populations parentes ne sont pas identiques, et même si les variables aléatoires formant l échantillon sont indépendantes, l utilisation des résultats qui vont suivre est sujette à caution Fonction d un estimateur ML et biais On montre que si θ est un estimateur ML de θ, τ( θ) est également un estimateur ML de τ(θ), ce que l on peut exprimer par la formule : τ( θ) = τ(θ) (1516) Cela implique que l on doit s attendre à ce que l estimateur ML soit biaisé En effet, le plus souvent E{τ( θ)} τ(e{ θ}) Par exemple, si τ est une fonction convexe, on

277 260 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS? aura d après l inégalité de Jensen : E{τ( θ)} τ(e{ θ}) Si l estimateur ML θ était non-biaisé pour θ (E{ θ} = θ), on aurait : E{τ( θ)} τ(e{ θ}) (1517) τ(θ) (1518) et l estimateur τ( θ) serait biaisé pour τ(θ) En revanche τ( θ) serait non-biaisé pour τ(θ) si τ était une fonction linéaire La version optimiste de cette propriété est que, si l estimateur ML est biaisé pour θ, il est peut-être possible de trouver une fonction τ, pour laquelle τ( θ) est un estimateur non-biaisé de τ(θ) Estimateurs ML et statistiques MVB S il existe un estimateur t MVB de τ(θ) et si la méthode ML donne une solution θ, alors t = τ( θ), et cette solution est unique En d autres termes, la méthode ML fournit l estimateur MVB si celui-ci existe S il existe un estimateur t MVB de τ(θ) on aura d après l équa- Démonstration tion (1342) : lnl θ = A(θ)(t τ(θ)) (1519) La solution de l équation ML doit satisfaire la condition lnl/ θ = 0 pour θ = θ, d où : lnl θ = A( θ)(t τ( θ)) = 0 (1520) θ= θ b La fonction A( θ) étant en général non nulle, la seule solution de l équation précédente, est τ( θ) = t Afin de vérifier que cette solution correspond bien à un maximum, il reste à démontrer que : 2 lnl θ 2 < 0 (1521) θ= θ b Or : 2 lnl θ 2 = A (θ)(t τ(θ)) A(θ)τ (θ) (1522) Mais, τ (θ)/a(θ) = Var(t) > 0 et, en remplaçant θ par θ, on obtient : 2 lnl θ 2 = A ( θ)(t τ( θ)) A 2 ( θ)var(t), θ= θ b d où finalement : 2 lnl θ 2 = A 2 ( θ)var(t) < 0 θ= θ b S il existe donc un estimateur t non-biaisé et MVB pour τ(θ), il est trouvé par la méthode du maximum de vraisemblance

278 152 LA MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 261 Estimateurs ML et statistiques exhaustives S il existe une statistique exhaustive t pour θ, l estimateur ML θ sera une fonction de t En effet si : L(x θ) = l(t θ)h(x) (1523) le paramètre θ étant la seule variable, la solution ML θ qui maximise L maximise également l Alors l équation : l(t θ) = maxl(t θ) (1524) θ définit implicitement θ comme fonction de t De plus, si θ est un estimateur ML de θ et si τ(θ) est un estimateur non-biaisé de θ, alors τ( θ) est un estimateur MV Cela vient du fait que τ(θ) ne dépend que de la statistique exhaustive t et est donc MV comme nous l avons vu au cours de l étude des statistiques exhaustives Propriétés asymptotiques Dans le cas général où il n existe pas de statistique exhaustive, il n existe que des propriétés asymptotiques L estimateur ML est en général convergent et donc asymptotiquement non-biaisé 1523 Loi et variance de l estimateur du maximum de vraisemblance Sous des conditions assez générales, on montre que l estimateur du maximum de vraisemblance θ n a une densité de probabilité f( θ n ) asymptotiquement normale, de moyenne θ et de variance In 1 (θ), c est-à-dire : F( θ n ) loi [ In (θ) 2π ]1 2 ˆθ n { exp I n(θ) (u θ)2 2 } du, (1525) où F( θ n ) est la fonction de répartition de l estimateur du maximum de vraisemblance θ n Autrement dit : In (θ)( θ n θ) loi N(0, 1) (1526) Dans la mesure où la densité de probabilité de θ n possède une moyenne et une variance, cela veut aussi dire que E{ θ n } θ et Var( θ n ) 1/(I n (θ)) et donc que l estimateur ML est asymptotiquement non-biaisé et asymptotiquement efficace MVB On a alors : et si l échantillon est iid : { Var( θ n ) In 1 (θ) = E 2 lnl(x θ) } 1, (1527) θ 2 { Var( θ n ) n 1 I1 1 (θ) = n 1 E 2 lnf(x θ) } 1 (1528) θ 2 Pour calculer la variance asymptotique de l estimateur ML θ n il semble qu il soit nécessaire de calculer une moyenne En fait, ce calcul se simplifie considérablement dans

279 262 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS? le cas limite où n et où les estimateurs θ tendent à devenir MVB On montre, en effet, qu il suffit de ne connaître qu une valeur de l expression dont on fait la moyenne Établissons ce fait pour un estimateur MVB t de τ(θ) La variance de cet estimateur t (MVB) est donnée par la formule de Rao-Cramér appliquée au cas MVB et donnée par l équation (1343) : Var(t) = τ (θ) A(θ) (1529) Par ailleurs, on a déjà vu en (1522), que : 2 lnl θ 2 = A (θ)(t τ(θ)) A(θ)τ (θ) (1530) On peut remplacer t par τ( θ), car si θ est l estimateur fourni par la méthode ML, τ( θ) est également, d après (1516) l estimateur ML de τ(θ) De plus si l estimateur t est MVB, il est trouvé par la méthode ML et donc t = τ( θ) Il vient donc : et : 2 lnl θ 2 = A (θ)(τ( θ) τ(θ)) A(θ)τ (θ), (1531) 2 lnl θ 2 = A(θ)τ (θ) (1532) bθ=θ Exprimons ce résultat en fonction de la variance de t = τ( θ) donnée en (1529) On trouve finalement : Var(τ( θ)) = (τ (θ)) 2 ( 2 lnl θ 2 ) 1 (1533) bθ=θ Il n est plus nécessaire de calculer la moyenne de la variable aléatoire 2 lnl/ θ 2, il suffit simplement de l évaluer en un point Maintenant, si τ( θ) n est pas MVB, mais possède une variance finie quand n, alors, d après ce que nous avons vu plus haut, il est asymptotiquement MVB On aura donc de façon asymptotique : Var(τ( θ)) (τ (θ)) 2 ( 2 lnl θ 2 En prenant la fonction particulière τ(θ) = θ on a aussi : ) 1 (1534) bθ=θ ( 2 ) lnl Var( θ) θ 2 1 (1535) bθ=θ Illustrons ce résultat à l aide d un exemple emprunté à Kendall et Stuart [42] Exemple 152 Estimation ML de l écart type d une population normale de moyenne connue Nous supposerons que la moyenne µ est nulle Avec cette convention la densité de la population est donnée par : f(x) = 1 «exp x2 (1536) 2πθ 2θ 2

280 152 LA MÉTHODE DU MAXIMUM DE VRAISEMBLANCE 263 Soit un échantillon (x 1,, x n) issu de cette population Calculons le logarithme népérien et la dérivée de la fonction de vraisemblance de cet échantillon : ln L(x θ) = n 2 ln L θ ln(2π) nln θ 1 2θ 2 = n θ + 1 X n x 2 θ 3 i = n θ ( 1 3 n i=1 nx x 2 i, (1537) i=1 nx x 2 i θ 2 ) (1538) On sait que la statistique θ b P = ( 1 n x 2 i ) 1 2 est un estimateur convergent de θ ( voir chapitre 1112 page 204 ) L équation (1537) montre que θ b est une statistique exhaustive, mais (1538) montre qu elle n est pas MVB En revanche, en tant que statistique exhaustive, c est aussi l estimateur du maximum de vraisemblance Calculons sa variance, et pour cela, conformément à l équation (1535), calculons la dérivée seconde de ln L :! 2 ln L = n 1 3b θ 2 (1539) θ 2 θ 2 θ 2 Remplaçons maintenant b θ par θ, comme il est prescrit par l équation (1535) Il vient : i=1 Var( b θ) θ2 2n (1540) L écart type σ, d une population normale de loi N(µ, σ 2 ) a donc pour estimateur ML : et sa variance asymptotique vaut : h 1 bσ = n nx (x i µ) 2i1 2, (1541) i=1 Var(bσ) = σ2 2n (1542) Donnons maintenant une formule encore plus approximative, mais très utile dans la pratique Posons θ égal à l écart type de θ On a alors avec cette notation, Var( θ) = θ 2 Posons de plus, pour alléger l écriture, h(θ) = lnl(x θ), et effectuons un développement limité de h autour de θ Il vient : h( θ + θ) = h( θ) + h ( θ) θ h ( θ)( θ) 2 + O( θ) 3 (1543) Mais, h ( θ) = 0, et d après (1535), h ( θ) Var( θ) 1 = ( θ) 2, d où au deuxième ordre en θ : h( θ + θ) h( θ) 1 2 (1544) On trouve alors l écart type θ de l estimation du maximum de vraisemblance θ comme solution de l équation : lnl(x θ + θ) = lnl(x θ) 1 2 (1545) On peut dire aussi, que cet écart type θ est trouvé par l intersection du graphe de la fonction de vraisemblance, avec une droite horizontale au niveau de l ordonnée du maximum moins 1 2 Pour calculer pratiquement un estimateur ML, on est donc amené à maximiser la fonction ln L(θ) Les méthodes les plus performantes pour rechercher le maximum d une fonction, d une ou plusieurs variables, sont les méthodes dites «quasi-newton»

281 264 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS? Ces méthodes reposent sur le calcul de la dérivée seconde de la fonction dont on cherche le maximum Si l on emploie une telle méthode, on aura automatiquement la valeur de (lnl) au maximum θ L inverse de cette quantité, changé de signe, nous donnera alors une approximation de la variance asymptotique de l estimation Ce faisant, on a remplacé θ par θ dans l expression (1535), et il s agit alors d une approximation de la variance asymptotique Dans le cas où l on cherche à estimer conjointement plusieurs paramètres (θ 1,, θ s ), on doit chercher le maximum de la fonction de vraisemblance : lnl(x θ 1,,θ s ) La matrice des variances-covariances de l estimateur ( θ 1,, θ s ) est donnée asymptotiquement par l inverse de la matrice des dérivées secondes de lnl, ou comme on dit du Hessien de lnl Cela peut s exprimer symboliquement par la relation : [V 1 bθ ] ij = 2 lnl θ i θ j bθ=θ (1546) On pourra également se contenter d une expression approchée de V bθ en posant θ = θ dans l expression précédente 153 Exemples 1531 Estimation d un rapport : le décrément de Balmer Le décrément de Balmer D 0 est égal au rapport des intensités des raies H α et H β de l hydrogène atomique Afin d en déterminer la valeur au centre d une galaxie active, on a observé le spectre d émission de l hydrogène au cours de 4 observations du centre de cette galaxie, étalées sur environ un an Les observations sont données par le tableau 151 Les intensités de H α et de H β ont varié pendant cette période, mais H α H β H α /H β 4-dec ± ± jan ± ± sep ± ± jan ± ± TAB 151 Quatre observations de l intensité des raies d émission H α et H β de l hydrogène atomique Le Décrément de Balmer D i est égal au rapport : H α /H β, de l intensité de ces raies en supposant que le décrément de Balmer lui, n a pas varié, on demande qu elle est l estimation du maximum de vraisemblance de D 0? Introduisons maintenant nos notations On notera α i et β i les observations de l intensité des raies H α et H β à l époque t i ; à ces observations correspond la valeur D i du décrément de Balmer Les valeurs moyennes de la loi suivie par les α i et les β i, seront notées µ αi et µ βi, et, par hypothèse, le décrément de Balmer cherché D 0 = µ αi /µ βi ne dépend pas de t i Nous supposerons que les erreurs de mesure sur les intensités des raies suivent une loi normale, ne sont pas corrélées, et ont pour écart type σ αi et σ βi Les écart types sont connus et leur valeurs sont données par le tableau 151 Avec ces

282 153 EXEMPLES 265 notations, les α i et β i sont des variables aléatoires normales respectivement égales à : N(µ αi, σ 2 α i ) et N(µ βi, σ 2 β i ) Les formules (6105) et (6106) nous donnent la densité de probabilité f du rapport D i, en fonction des paramètres µ αi, µ βi, σ 2 α i, σ 2 β i De ces quatre paramètres, seuls σ αi et σ βi sont connus, et on remarquera que la fonction f dépend de µ αi et µ βi séparément et non par le seul intermédiaire de leur rapport Cela nous interdit de considérer f comme la fonction de vraisemblance de D i En d autres termes, D i n est pas une statistique exhaustive Il est utile, pour saisir toute l étendue du problème, de tracer la densité de probabilité f en supposant, ce qui est naturellement faux, que µ αi = α i et µ βi = β i, et c est ce qui a été fait sur la figure 151 Il est manifeste sur cette figure que le mode de cette f(d α i, β i ) 20-sep jan-82 4-dec jan Décrément de Balmer : D FIG 151 Ce graphe représente les densités de probabilité du rapport de l intensité des raies de l hydrogène H α /H β pour quatre observations indépendantes Les densités de probabilité sont identifiées par la date de l observation correspondante densité est systématiquement plus petit que la valeur D 0 = µ αi /µ βi, ce qui veut dire que, le plus souvent, le rapport observé D i = α i /β i sera plus petit que le vrai rapport D 0 On sait par ailleurs que cette densité ne possède pas de moyenne, et il est donc catastrophique d estimer un rapport par la moyenne arithmétique des rapports déduits des observations Ces remarques étant faites, revenons à notre problème d estimation Comme il n est pas possible de passer par l intermédiaire de D i, il faut estimer les µ αi et µ βi séparément Dans le cas qui nous intéresse, on a la relation µ αi = D 0 µ βi, ce qui fait que l on doit estimer cinq paramètres ( les µ αi ou les µ βi et D 0 ), à l aide des huit observations données par le tableau 151 Les lois suivies par les α i et par les β i étant normales et indépendantes, on trouve immédiatement le log de la fonction de vraisemblance des observations, à la constante additive 4 i=1 ln(2πσ α i σ βi ) près que l on peut négliger, soit : ( 4 ) lnl = 1 (α i µ αi ) 2 2 σα 2 + (β i µ βi ) 2 i σβ 2, (1547) i i=1 les µ αi et µ βi, étant soumis aux quatre contraintes F i suivantes : F i (µ αi, µ βi ) = µ αi D 0 µ βi = 0 ; i = 1,,4 (1548)

283 266 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS? Cherchons le maximum par la méthode des multiplicateurs de Lagrange Soient λ i les quatre multiplicateurs, correspondant aux quatre contraintes Les estimateurs cherchés sont solutions du système linéaire suivant : µ αi (lnl λ i F i ) = α i µ αi σ 2 α i λ i = 0 (1549a) µ βi (ln L λ i F i ) = β i µ βi σ 2 β i λ i D0 = 0 (1549b) D 0 (ln L 4 λ i F i ) = i=1 4 λ i µ βi = 0 i=1 (1549c) Nous ne donnerons pas la solution complète du système, nous nous contenterons seulement de l estimation D 0 Il vient : µ αi = D 0 µ βi (1550) µ βi = D 0 σ 2 β i α i + σ 2 α i β i σ 2 α i + D 2 0 σ2 β i (1551) λ i = α i D 0 β i σ 2 α i + D 2 0 σ2 β i, (1552) ce qui montre que l estimation des paramètres µ αi et µ βi, ne dépend que de l estimation de D 0 Remplaçons ces valeurs dans l expression de lnl Il vient : lnl( D 0 α, β) = max D 1 2 = max D λ 2 i (σα 2 i + D 2 σβ 2 i ) (1553) i=1 4 i=1 (α i Dβ i ) 2 σ 2 α i + D 2 σ 2 β i (1554) La figure 152 représente le graphe de cette fonction L estimation du maximum de vraisemblance donne D 0 = 307 L erreur sur cette valeur, erreur due à la présence de bruit dans les observations, et calculée grâce à la formule (1535), est de 038 L estimateur du maximum de vraisemblance de D 0 est donc : Faisons, à propos de cet exemple, plusieurs remarques D 0 = 307 ± 038 (1555) 1 La variance de l estimation du ML est en fait l inverse de la courbure de la fonction lnl, au maximum de celle-ci Plus cette fonction est «piquée» sur l estimation, plus la variance de l estimation sera petite, ce qui est conforme à l intuition 2 On a utilisé une formule asymptotique pour calculer la variance de l estimation C est une approximation dont il faut aussi avoir conscience En fait, dans les conditions physiques normales qu on peut s attendre à trouver au centre d une galaxie, le décrément de Balmer doit avoir une valeur comprise entre 27 et 29 On voit que notre estimation 307 ± 038, n est pas contradictoire avec l hypothèse que le gaz présent au centre de la galaxie observée reste toujours dans des conditions normales, même au cours d une phase active où l intensité de l émission de l hydrogène varie Il faut bien insister sur le peu de crédit qu il faut accorder à un rapport de

284 154 RÉFÉRENCES lnl(α, β D) D Décrément de Balmer : D FIG 152 Estimation du décrément de Balmer du gaz hydrogène présent au centre d une galaxie active variable La courbe représente le logarithme de la fonction de vraisemblance de 4 observations Le vrai décrément D 0 est inconnu mais il est supposé être constant L estimation donnée par la méthode du maximum de vraisemblance D 0 vaut 307 L écart type asymptotique de D 0, estimé à partir de la courbure au sommet de la courbe, σ ˆD0 = ( 2 log L/ D 2 ) 1/2 vaut 038 Notre estimation de D 0 est donc 307 ± 038 Le domaine couvert par ces valeurs est représenté en gras sur l axe horizontal deux mesures, sans une analyse critique des erreurs Ayant mesuré des rapports aussi différents que 25 et 48, on aurait pu en déduire que le décrément de Balmer avait varié de façon significative d une observation à l autre En fait, il n en était probablement rien, et le décrément de Balmer avait très certainement une valeur toujours proche de 29 Le problème de savoir s il était raisonnable de penser que ce rapport était constant, aurait pu être étudié, au préalable, à l aide d un test d hypothèse 154 Références On trouvera des applications de la méthode du maximum de vraisemblance en astrophysique dans, par exemple, Cash (1979) [18] 155 Exercices et problèmes Exercice 151 On tire au hasard un couple de nombres (X, Y ) suivant la loi normale 2D de paramètres µ 1, µ 2, σ 1, σ 2 et ρ On révèle une des deux valeurs du couple, par exemple X = x, donner l estimation du maximum de vraisemblance de la valeur y prise par Y Dans ce cas particulier la loi (marginale) de Y est connue, donner alors l estimation correspondant au maximum de probabilité a posteriori

285 268 CHAPITRE 15 COMMENT OBTENIR DES ESTIMATEURS?

286 Chapitre 16 La méthode des moindres carrés Avec l exposé de la méthode des moindres carrés il intervient un changement de notations qu il est bon de préciser dès maintenant On notait jusqu ici (x 1,,x n ) les n réalisations d un n-échantillon, mais dans l exposé de la méthode des moindres carrés il est traditionnel de les noter (y 1,,y n ), ce qui peut prêter à confusion, d autant plus que les x i joueront ici le rôle de constantes et non plus de variables aléatoires De plus, dans ce chapitre, la notation (y 1,, y n ) désigne indifféremment un n-échantillon ou une réalisation de cet échantillon La confusion n est, en général, pas possible, et le sens à donner à cette notation est précisé par le contexte 161 Le modèle général Supposons que l on dispose d un n-échantillon (y 1,, y n ), que nous noterons sous la forme d un vecteur colonne y Ce vecteur est aléatoire, issu d une population parente à n dimensions que nous ne connaissons pas en détail ( en particulier pas sa loi ), mais qui possède un vecteur moyenne E{y} = µ et une matrice des variances-covariances V Supposons également que les valeurs y i de l échantillon dépendent d un ensemble de k paramètres θ = (θ 1, θ 2,, θ k ), par l intermédiaire de n fonctions f i, connues aux paramètres θ près : y 1 = f 1 (θ, ǫ 1 ), y 2 = f 2 (θ, ǫ 2 ), y n = f n (θ, ǫ n ) (161) Les ǫ i sont les composantes d un vecteur aléatoire ǫ=(ǫ 1,, ǫ n ), représentant un bruit ; c est la présence des ǫ i qui rend les y i aléatoires On admet le plus souvent que E{ǫ} = 0, c est-à-dire que le bruit ou les erreurs de mesure ne présentent pas de biais ou, comme on dit, pas d erreur systématique Un cas fréquent est le cas additif qui consiste à supposer que les f i (θ, ǫ i ) peuvent s écrire sous la forme d une fonction déterministe µ i (θ) plus un bruit ǫ i de moyenne nulle, soit : y i = f i (θ, ǫ i ) = µ i (θ) + ǫ i (162) 269

287 270 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Les fonctions µ i représentent un modèle connu aux k paramètres ajustables θ près Comme E {ǫ i } = 0, on a E {y i } = µ i (θ) Nous appellerons indifféremment moyenne ou signal le vecteur µ(θ) de composantes (µ 1,, µ n ) L estimation de θ revient alors à l estimation de la moyenne de la population parente, cette moyenne étant fonction des paramètres θ Étant donné une réalisation (y 1,, y n ) du n-échantillon constitué de n observations y i, la méthode des moindres carrés propose de choisir l estimation θ du vecteur θ, qui minimise la dispersion des observations autour de leur valeur moyenne On forme donc la quantité S(θ) : n S(θ) = (y i E {y i }) 2, (163) i=1 puis on cherche son minimum, ce qui définit implicitement la valeur de θ L introduction de la fonction S conduit à trouver une solution acceptable «au sens des moindres carrés» du système incompatible (161) La fonction S est ce que l on appelle une fonction de régularisation La quantité S min dépend du n-échantillon (y 1,, y n ) et, à ce titre, est une variable aléatoire Le vecteur θ ainsi trouvé est appelé estimateur des moindres carrés de θ A l estimateur θ correspond un estimateur f i défini par f i = f i ( θ, ǫ i ) Contrairement à la méthode ML, la méthode des moindres carrés n exige pas que la densité de probabilité de la population parente soit connue Cependant, dans le cas le plus général, les estimateurs des moindres carrés ainsi obtenus ne possèdent aucune propriété optimale, ils sont, par exemple, souvent biaisés Il y a toutefois deux exceptions importantes que nous étudierons : le cas normal et le cas linéaire Ces deux cas supposent un modèle additif y = µ + ǫ, c est pourquoi nous allons maintenant caractériser plus finement la méthode des moindres carrés sous l hypothèse que ce modèle est valide Le modèle additif y = µ + ǫ Dans le cas de ce modèle, E{y} = µ, et l équation (163) définissant les θ s écrit alors : S( θ) = min θ S(θ); S(θ) = n (y i µ i ) 2 = (y µ) t (y µ) (164) i=1 Aux estimateurs θ correspondent une estimation µ de µ : µ = µ( θ) et une estimation ǫ de ǫ appelée résidu Par définition du résidu ǫ = y µ C est ce modèle y = µ + ǫ, qu il conviendrait d adopter pour résoudre par la méthode des moindres carrés le problème de la détection d un signal µ noyé dans un bruit de fond additif ǫ Nous n exigeons sur ǫ que la connaissance de sa moyenne : E {ǫ} = 0 et de sa matrice des variances-covariances : V = E{ǫǫ t } = E{(y µ)(y µ) t } 1611 Géométrisation de la méthode des moindres carrés Afin de dégager des relations métriques, il est nécessaire de définir les espaces dans lesquels nos objets sont définis Nous avons affaire à trois espaces : 1 L espace des observations de dimension n que nous noterons O n C est l espace de toutes les observations possibles y O n

288 162 LE CAS NORMAL L espace des paramètres P k, de dimension k Un point θ de cet espace définit de façon unique un modèle µ(θ) 3 La variété dans laquelle se répartissent les différents modèles µ C est un sousensemble de O n qui est l image par les fonctions µ(θ) de l espace des paramètres P k Nous le noterons M k, ( M k = ima(µ(θ)) O n ) Ces espaces et sous-espaces définissent le cadre dans lequel nous devons résoudre notre problème d estimation par la méthode des moindres carrés Selon le principe de cette méthode, nous devons minimiser une quantité S(θ) qui est une somme de carrés dans l espace O n des observations Cette remarque nous incite à munir cet espace d une structure d espace euclidien en introduisant un produit scalaire (x, y) entre deux éléments x, y quelconques de O n, que nous définissons ainsi : x, y O n ; (x y) = x t y = n x i y i (165) Ce produit scalaire induit une norme dite euclidienne sur les observations y O n, notée y ainsi qu une distance d et un angle α [0, π] entre deux observations On a : y O n ; y = (y y), et (166) i=1 x, y O n ; d(x, y) = x y, cosα = (x y) (x x)(y y) (167) Cette norme euclidienne confère à l espace des observations une structure d espace euclidien Dans cet espace, la méthode des moindres carrés devient un problème de recherche du minimum de la norme des résidus ǫ = y µ ou de manière équivalente du minimum de la distance entre les observations y et une estimation µ de leur moyenne : S min = min S(θ) ǫ = min ǫ(θ) θ θ µ = min θ d(y, µ(θ)) (168) 162 Le cas normal C est un cas où y i = µ i (θ) + ǫ i, et où les ǫ i sont des variables aléatoires normales de moyenne E {ǫ} = 0 et de matrice des variances-covariances E {ǫǫ t } = σ 2 I, I étant la matrice identité de format (n, n) Conformément au principe de la méthode des moindres carrés, calculons la moyenne des y i afin de former l expression (163) On a E {y i } = E {µ i (θ) + ǫ i } = µ i (θ) que nous noterons µ i pour simplifier En reportant ce résultat dans (164) on obtient : S min = min θ n (y i µ i (θ)) 2 (169) i=1 Calculons maintenant le logarithme de la fonction de vraisemblance de y Pour cela, nous avons besoin de connaître la densité de probabilité des y i Les y i sont des variables aléatoires normales de moyenne µ i et de variance Var(y i ) = Var(ǫ i ) = σ 2, d où : lnl(y θ) = 1 2 n ln(2πσ2 ) 1 2σ 2 n (y i µ i (θ)) 2 (1610) i=1

289 272 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Cette fonction est maximisée pour θ, précisément lorsque l expression suivante est minimisée : n S(θ) = (y i µ i (θ)) 2 (1611) i=1 Les estimateurs des moindres carrés coïncident alors avec ceux du maximum de vraisemblance 1621 Moindres carrés pondérés A partir de la propriété précédente, on peut généraliser la méthode des moindres carrés au cas où ǫ est un vecteur aléatoire issu d une loi normale à n dimensions telle que : E {ǫ} = 0, E { ǫǫ t} = σ 2 V (1612) Dans cette expression, σ 2 V est la matrice de variances-covariances de ǫ connue à un facteur σ 2 près, et V est la matrice des variances-covariances relatives de ǫ Les y i sont alors des variables aléatoires normales à n-dimensions, de moyenne E {y} = µ et de matrice des variances-covariances E {(y µ)(y µ) t } = E {ǫǫ t } = σ 2 V La fonction de vraisemblance s écrit alors (voir équation (657)) : 1 L(y θ) = (2π) n 2 (σ 2n detv ) 1 2 exp [ 1 2σ 2 (y µ(θ)) t V 1 (y µ(θ)) ], (1613) ln L(y θ) = 1 2 ln[(2π)n (σ 2n detv )] 1 2σ 2 (y µ(θ)) t V 1 (y µ(θ)) (1614) Le premier terme de cette expression ne dépend pas de θ et la méthode du maximum de vraisemblance conduit alors à minimiser la quantité : S(θ) = (y µ(θ)) t V 1 (y µ(θ)) (1615) A titre d exemple, envisageons le cas où la matrice des variances-covariances est diagonale : 1 0 σ1 2 0 σ 2 V = σ 2 0 σn 2 L expression (1615) s écrit à présent : S(θ) =, V 1 = σ (1616) 0 σ 2 n n (y i µ i (θ)) 2 (1617) i=1 Les estimateurs θ du maximum de vraisemblance sont donc trouvés en minimisant l expression : n (y i µ i (θ)) 2 S( θ) = min, (1618) θ i=1 qui ne fait intervenir que les variances relatives σi 2 des observations La méthode qui consiste à trouver des estimateurs en minimisant une expression telle que (1617) est σ 2 i σ 2 i

290 163 LE CAS LINÉAIRE 273 appelée méthode des moindres carrés pondérés ou méthode du moindre χ 2, car la quantité S( θ)/σ 2 suit la loi du χ 2 à n k degrés de liberté lorsque les y i suivent une loi normale Les quantités 1/σ 2 i sont souvent appelées les poids w i des observations, car plus la précision d une mesure y i est grande, moins grande est sa variance, et plus grand doit être le coefficient qui rend compte de son influence dans le calcul de S La matrice V 1 intervient alors comme une matrice de pondération relative qui rend compte de l inégale précision des mesures y et de leurs corrélations éventuelles Dans la pratique, il arrive souvent que l on estime les poids w i, et donc la matrice W = V 1, et que l on cherche à minimiser l expression : S(θ) = (y µ(θ)) t W(y µ(θ)) (1619) La solution θ de cette expression est trouvée par une méthode de minimisation quelconque du genre quasi-newton par exemple, ou comme racine du système : ( µ(θ) ) tw(y µ(θ)) = 0 (1620) θ Mais il faut bien être conscient du fait que si ǫ n est pas une variable aléatoire normale ou plus généralement si sa densité de probabilité n est pas du genre exponentiel : f(x θ) = exp[a(θ)b(x) + C(x) + D(θ)], (1621) il n est absolument pas garanti d obtenir des estimateurs optimaux Cependant, si W est définie positive et si la matrice des variances-covariances de y reste bornée quand n, alors les estimateurs des moindres carrés θ sont convergents 163 Le cas linéaire Dans ce cas, les estimateurs des moindres carrés sont optimaux même pour des échantillons de petite taille Ils sont non-biaisés, obtenus comme combinaison linéaire des observations, et de variance minimum (MV) dans cette classe Ces propriétés constituent le théorème de Gauss-Markov, que nous démontrerons plus loin 1631 Modèle linéaire Le modèle linéaire est du type y = µ + ǫ où µ s exprime linéairement en fonction de k paramètres inconnus θ, c est-à-dire : µ i = k x ij θ j, i = 1,,n (1622) j=1 Il va sans dire que modèle linéaire ne veut pas dire ajustement par une droite des moindres carrés L ajustement d un nuage de points par une parabole est un modèle linéaire En effet l expression : µ i = θ 0 + θ 1 x i + θ 2 x 2 i est bien linéaire par rapport aux θ k, comme l exige le modèle Le système d équations (1622) peut alors être mis sous la forme matricielle : et le modèle linéaire lui-même, sous la forme : Rappelons la signification des termes de ces équations µ = Xθ, (1623) y = Xθ + ǫ (1624)

291 274 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Les vecteurs y et ǫ sont des vecteurs colonne (n, 1), représentant respectivement les données et les composantes aléatoires ( le bruit ) Ils appartiennent à l espace O n des observations de dimension n La matrice X est une matrice rectangulaire (n, k) de coefficients connus appelée la matrice modèle ou encore la matrice de régression Dans un premier temps on supposera que le rang de X est égal à k Le vecteur θ est un vecteur colonne (k, 1), représentant les k paramètres à estimer et permettant de trouver une estimation de µ Le vecteur θ appartient à l espace P k des paramètres Le vecteur µ est dans le sous-espace de O n engendré par les combinaisons linéaires des colonnes de X, c est un vecteur colonne (n, 1) Dans le cas linéaire, l ensemble des modèles M k est donc un sous-espace de dimension k de O n Structure de la matrice modèle X Les coefficients x ij du système (1622) s arrangent dans X sous la forme suivante : x 11 x 12 x 1k x 21 x 22 x 2k X = (1625) x n1 x n2 x nk La matrice X est formée de k colonnes de n scalaires, que nous noterons x j L équation µ = Xθ définissant le modèle peut alors s écrire µ = k j=1 θ jx j, ce qui exprime que µ est une combinaison linéaire des vecteurs x j On peut alors considérer ces derniers comme une base sur laquelle on tente de décomposer µ Les x j ne joueront d ailleurs ce rôle de base que s ils sont linéairement indépendants, c est-à-dire si l équation k j=1 α jx j = 0 implique que les α j sont tous nuls Bien souvent, on obtient les x j par échantillonnage de fonctions continues f j (x) : x ij = f j (x i ) Cet échantillonnage peut être irrégulier ou régulier si x i = x 0 + (i 1) x Les observations y i sont aussi obtenues par échantillonnage d une certaine fonction y(x) pour les mêmes x i Dans cette interprétation, la méthode ici exposée revient à chercher les coefficients θ j de la combinaison linéaire des fonctions de base x j qui approxime au mieux les données y, au sens des moindres carrés La matrice modèle X est formée par la juxtaposition des k vecteurs colonnes x j, version échantillonnée de fonctions de base La figure 161 illustre la façon d envisager les x j que nous venons de décrire 1632 Fonctions à estimer Il arrive fréquemment que l on désire estimer d autres paramètres β j à partir de l estimation des θ i On suppose connue la dépendance des β j en fonction des θ i, soit β j = ϕ j (θ), que nous noterons β = ϕ(θ) Les ϕ j ( et plus improprement les β j ) sont appelées les «fonctions à estimer» Les β j sont en nombre s quelconque et il n est pas nécessaire que ce nombre soit égal au nombre de paramètres θ i Cependant si les fonctions ϕ sont bijectives, alors on a : min y µ(θ) = min y µ(ϕ 1 (β)), (1626) θ β

292 163 LE CAS LINÉAIRE 275 y 1 1 x 1 x x 2 x 2 2 X = 1 x 10 x 2 10 x 0 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 FIG 161 Construction des vecteurs colonnes de la matrice X, dans le modèle linéaire y i = θ 1 + θ 2 x + θ 3 x 2, par échantillonnage des fonctions f 1 (x) = 1, f 2 (x) = x et f 2 (x) = x 2, aux points où les y i sont observés Sur cette figure, l échantillonnage est régulier mais en général il peut être quelconque ce qui conduit à écrire β = ϕ( θ) et l estimation de µ est indépendante de la paramétrisation Si les fonctions ϕ ne sont pas bijectives nous prendrons β = ϕ( θ) comme définition des estimateurs de β au sens des moindres carrés Un cas important est celui où les fonctions ϕ sont linéaires, de matrice C connue, telle que β = Cθ Si C est inversible, on peut réinterpréter le cas linéaire de matrice modèle X en un autre cas linéaire de matrice modèle X β = XC 1 Un choix judicieux de C permet souvent de simplifier la recherche de solutions par la méthode des moindres carrés Le théorème de Gauss-Markov établit l optimalité des estimateurs β dans le cas linéaire, pour β = Cθ et C étant ( sauf cas singulier ) quelconque 1633 Modèle linéaire réduit Le modèle linéaire réduit est un modèle linéaire pour lequel le bruit ǫ est de moyenne nulle, de composantes non-corrélées et de variances égales, c est-à-dire : E {ǫ} = 0, E { ǫǫ t} = σ 2 I (1627) On peut toujours supposer que la relation E{ǫ} = 0 est satisfaite Si tel n était pas le cas, et s il existait une erreur systématique µ indépendante de i ( i, E {ǫ i } = µ ), on pourrait considérer la constante µ comme un paramètre supplémentaire du genre θ, et ré-écrire le système sous la forme : ( θ y = (X 1) + ǫ µ), (1628) où E{ǫ } = 0 et où le 1 dans la formule précédente représente une colonne de 1 adjointe à la matrice X, tandis que µ est une constante insérée sous la colonne des θ S il y avait plusieurs moyennes inconnues µ 1,, µ s, il faudrait adjoindre à la matrice

293 276 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS X autant de colonnes formées de 1 et de 0, et insérer autant de µ i sous la colonne des θ, tout en veillant à ce qu il n y ait pas plus d inconnues que d équations, c est-à-dire que k + s n Sous réserve que cette dernière condition soit remplie, il n y a pas de restriction à étudier le système : y = Xθ + ǫ ; E{ǫ} = 0 (1629) On peut également supposer que la matrice des variances-covariances de ǫ est de la forme : E{ǫǫ t } = σ 2 I, (1630) où la variance σ 2 est peut-être inconnue C est ce qui se passe lorsque les mesures y sont d égale précision De nouveau, si cela n était pas le cas, et si les mesures y étaient de précision inégale et/ou corrélées, on aurait : E { ǫǫ t} = σ 2 V ; V étant connue (1631) Nous allons supposer de plus que V est non singulière, c est-à-dire inversible ( detv 0 ) Le modèle où V est singulière a été envisagé par Kreijger et Neudecker (1977) [46] Afin de se ramener au cas réduit, on peut alors effectuer le changement de variables y 0 = N t y, X 0 = N t X et ǫ 0 = N t ǫ, où N est une matrice non singulière ayant la propriété NN t = V 1 Ce changement de variables est tel que : E {ǫ 0 } = E { N t ǫ } = N t E {ǫ} = 0 E { ǫ 0 ǫ t 0} = E { N t ǫǫ t N } = N t E { ǫǫ t} N = σ 2 N t V N N E { ǫ 0 ǫ t 0} = σ 2 V 1 V N = σ 2 N N 1 N E { ǫ 0 ǫ t 0} = E { ǫ0 ǫ t 0} = σ 2 I Le système d équations devient grâce à ce changement de variables : y 0 = X 0 θ + ǫ 0 ; E {ǫ 0 } = 0 et E { ǫ 0 ǫ t 0} = σ 2 I, (1632) et il est donc bien sous forme réduite Il reste à déterminer la matrice N t Un calcul simple montre que N t = Λ 1 U t, où Λ 2 et U sont les matrices respectivement des valeurs propres et des vecteurs propres de V 1 : V 1 = UΛ 2 U t (1633) Lorsque n on ne peut plus supposer que V reste toujours régulière et qu un tel changement de variables est possible ; le comportement asymptotique des estimateurs des moindres carrés pondérés est alors subordonné au comportement asymptotique de la matrice V 1634 Les équations normales Le changement de variables évoqué plus haut ayant été éventuellement fait, nous allons maintenant chercher la solution du modèle linéaire réduit La méthode des moindres carrés requiert de minimiser la quantité : S(θ) = (y Xθ) t (y Xθ) (1634)

294 163 LE CAS LINÉAIRE 277 Si θ est quelconque, une condition nécessaire pour que θ réalise ce minimum, est qu en θ les dérivées de S par rapport aux θ i soient nulles Notons S le vecteur d éléments S/ θ i et S la matrice d éléments 2 S/ θ i θ j On obtient facilement : S = 2X t (y Xθ), S = 2X t X (1635) La condition S = 0 pour θ = θ, impose X t (y X θ) = 0, ce qui conduit, afin de trouver θ, à résoudre le système linéaire suivant : X t X θ = X t y (1636) Les équations de ce système portent le nom d équations normales Nous ne nous préoccupons pas pour le moment de savoir s il s agit bien d un minimum, ce qui serait assuré si X t X était définie positive Structure de la matrice X t X La matrice X est formée des vecteurs de base x j rangés sous forme de colonnes, comme discuté précédemment La matrice X t, elle, est formée de ces mêmes vecteurs, mais écrits sous forme de lignes Un élément ij de X t X est alors le produit du vecteur ligne x t i par le vecteur colonne x j On a : x t 1x 1 x t 1x 2 x t 1x k X t x t 2 X = x 1 x t 2 x 2 x t 2 x k (1637) x t k x 1 x t k x 2 x t k x k La matrice X t X est donc une matrice carrée, symétrique, dont les éléments sont les produits scalaires des vecteurs de base A la soustraction de leur moyenne près, ces produits scalaires sont les covariances des vecteurs de base, et la matrice X t X peut être assimilée à une matrice des variances-covariances des vecteurs de base En algèbre linéaire une telle matrice s appelle la matrice de Gram de la base des vecteurs colonnes de X, on pourra consulter l ouvrage de Glazman et Liubitch [28] chapiii 3 pour connaître les diverses propriétés d une matrice de Gram Donnons à présent quelques propriétés des équations normales Les équations normales sont compatibles Un système linéaire ( comme celui associé aux équations normales X t X θ = X t y ) est : soit incompatible et alors il n y a aucune valeur de θ susceptible d atteindre le second membre X t y ; soit compatible et il y a au moins une solution θ qui atteint ce second membre Dans cette dernière circonstance, on dit que le second membre est dans l image par X t X de θ et on écrit X t y ima(x t X) Les équations normales ont ceci de particulier qu elles sont obligatoirement compatibles Pour qu un système linéaire soit compatible, il faut et il suffit qu il satisfasse la condition de Fredholm qui exige que toute solution z du système homogène adjoint : (X t X) t z = 0, soit orthogonale au second membre, c est-à-dire z t X t y = 0 Dans le cas des équations normales, la matrice X t X est symétrique et z est aussi solution du système homogène X t Xz = 0, ce qui exprime que z appartient au noyau de X t X ( z ker(x t X) ) Si z est réduit au seul élément nul ( ker(x t X) = {0} ) la condition de Fredholm est automatiquement satisfaite, si le noyau n est pas réduit au seul élément

295 278 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS nul il vient : X t Xz = 0 z t X t Xz = 0 Xz = 0 Xz = 0 X t Xz = 0 Xz = 0 (Xz) t y = 0 z t X t y = 0 (1638) La dernière égalité est la condition de Fredholm et les équations normales sont bien compatibles Nous avons comme conséquence directe de (1638) : Corollaire 161 Le noyau de X t X est confondu avec le noyau de X, c est-à-dire : X t Xz = 0 Xz = 0 (1639) Un élément z du noyau de X exprime la dépendance linéaire des colonnes de X, c est-à-dire des fonctions de bases échantillonnées 1635 Solution du modèle linéaire Nous sommes maintenant en mesure d énoncer le théorème concernant l estimation de θ par θ au sens des moindres carrés Théorème 162 Si θ est un vecteur de paramètres susceptibles de prendre des valeurs quelconques, alors le vecteur θ est un estimateur de θ au sens des moindres carrés si, et seulement si, θ est solution des équations normales C est-à-dire : θ; min S( θ) = S( θ) X t X θ = X t y, (1640) θ e où S( θ) = (y X θ) t (y X θ) Démonstration Nous avons déjà montré que si b θ était un estimateur de θ au sens des moindres carrés alors il était nécessairement solution des équations normales Il reste à démontrer que si bθ est solution des équations normales, alors c est aussi une solution de min eθ S( e θ) Considérons un autre estimateur quelconque b θ + θ Il vient : S( b θ + θ) = (y X( b θ + θ)) t (y X( b θ + θ)) = (y X b θ) t (y X b θ) 2( θ) t X t (y X b θ) + ( θ) t X t X θ = S( b θ) 2( θ) t (X t y X t X b θ) + ( θ) t X t X θ Le deuxième terme du dernier membre est nul car b θ est solution des équations normales ; le troisième terme n est pas négatif car c est un carré Il vient alors S( b θ + θ) S( b θ) et b θ est bien solution de min eθ S( e θ) La condition θ quelconque n est pas anodine : si θ est restreint à un certain domaine de l espace des paramètres, il est possible que la solution des équations normales soit en dehors de ce domaine et on n obtient alors pas l estimateur des moindres carrés comme solution des équations normales On sait que la solution générale d un système linéaire est égale à une solution particulière de l équation avec second membre, plus la solution générale du système sans second membre ( système homogène ) Toutes ces solutions forment un espace vectoriel N dont la dimension est égale à la dimension du noyau C est le théorème bien

296 163 LE CAS LINÉAIRE 279 connu en algèbre linéaire sous le nom de théorème de la «translation du noyau» On peut alors écrire toutes les solutions des équations normales sous la forme : θ = θ 0 + z avec X t X θ 0 = X t y, et X t Xz = 0 (1641) Il n y aura de solution unique que si la solution de X t Xz = 0 est réduite à la seule solution triviale z = 0 On a vu en (1638) que la condition X t Xz = 0 est équivalente à Xz = 0, cette équation n admet pour solution que la solution triviale que si les colonnes de X, qui sont les fonctions de bases, sont linéairement indépendantes On a alors : Théorème 163 Les équations normales possèdent une solution unique si, et seulement si, le système Xz = 0 n admet que la seule solution : z = 0, c est-à-dire si les fonctions de base qui forment les colonnes de la matrice modèle X sont linéairement indépendantes Cas où la solution est unique ( cas régulier ) Si les équations normales admettent une solution unique, l estimateur de θ au sens des moindres carrés : θ est donné par l expression : θ = (X t X) 1 X t y (1642) La matrice X t X est définie positive et avec elle S On retrouve ainsi que la solution (1642) correspond bien à un minimum Dans le cas non réduit où X doit être remplacé par N t X et y par N t y il vient, en se rappelant que NN t = V 1 : S = 2X t V 1 X (1643) θ = (X t V 1 X) 1 X t V 1 y (1644) ou encore, en posant V 1 = W (la matrice des poids relatifs), on obtient : S = 2X t WX (1645) θ = (X t WX) 1 X t Wy (1646) L estimateur θ est une combinaison linéaire des observations y : c est un estimateur linéaire et la méthode des moindres carrés est un cas particulier de l estimation linéaire Cette théorie traite de l estimation de k valeurs à partir d une combinaison linéaire de n observations Dans le cas qui nous intéresse ici on a k < n C est ce qu on appelle une régression ou un lissage Exemple 161 Estimation d une constante Prenons le cas le plus simple de l estimation d un seul paramètre θ, à partir d un ensemble de n mesures y i Le modèle correspondant est donc : i i = 1 n, y i = θ + ǫ i, que l on notera : y = 1θ + ǫ Le symbole 1 représente un vecteur colonne (n, 1) formé uniquement de 1 On a donc X = 1, et : X t X = 1 t 1 = n, (X t X) 1 = 1 n, Xt y = 1 t y = d où l estimation de θ : b θ = 1 n nx y i, i=1 nx y i = ȳ (1647) L estimateur des moindres carrés b θ : n est autre que la moyenne arithmétique des y i i=1

297 280 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Exemple 162 Mesures d inégale précision Supposons que les mesures soient d inégale précision, affectées d un poids relatif w i = 1/σ 2 i si les σ 2 i sont connus, ou de tout autre poids w i jugé raisonnable par l expérimentateur En conservant le modèle y = 1θ + ǫ de l exemple précédent, on aura : X n 1, (1 t W1) 1 = w i 1 t W y = d où i=1 nx w iy i i=1 b θ = P n i=1 wiyi P n i=1 wi (1648) La valeur b θ représente le centre de gravité des y i affectés des poids w i Bases orthonormées Le calcul des solutions (1642) serait grandement simplifié si les vecteurs colonnes de X étaient orthonormés Dans cette éventualité, on aurait X t X = I k et il n y aurait pas d inverse à calculer : θ serait égal à X t y et µ à XX t y On peut atteindre cet objectif avec une autre paramétrisation de µ où les nouveaux paramètres β sont tels que la matrice du modèle correspondant X β soit orthonormée Si l on a pas connaissance a priori d une base orthonormée, il est toujours possible d en obtenir une à partir d une base quelconque à l aide, par exemple, du processus d orthogonalisation de Gram-Schmidt ( voir annexe B35 page 344 ) Ce travail étant fait, et si c est seulement l estimation µ du signal µ qui importe ( et non pas celle des paramètres ), on l obtiendra par µ = X β β; β = X t β y Si néanmoins on désire aussi une estimation des θ on l obtiendra par θ = A β Exemple 163 Base orthogonale pour un échantillonnage régulier Si X désigne un ensemble de 2n points espacés régulièrement : X = {x i x i = iπ, i = n + 1,, 1,0, 1,2,, n}, n alors les fonctions trigonométriques échantillonnées sur X sont orthogonales : X sin jx sin kx = 0, j k; x X X sin jx cos kx = 0; x X X cos jx cos kx = 0, j k x X Cas où il y a plusieurs solutions ( cas singulier ) Avant d exposer la méthode qui permet de traiter un problème singulier de ce type, il importe de comprendre pourquoi on peut se retrouver dans une telle situation D après le théorème 163 il y a plusieurs solutions si, et seulement si, les colonnes de X ne sont pas linéairement indépendantes, ce qui peut arriver à la suite des circonstances suivantes Il y a plus de fonctions de base que de points expérimentaux : les colonnes de X sont alors nécessairement linéairement dépendantes Les fonctions de bases n ont pas été choisies avec soin et il se trouve qu au moins l une d elles est linéairement dépendante des autres Supposons, par exemple,

298 163 LE CAS LINÉAIRE 281 que l on ait choisi de représenter un signal périodique y(t) de période T à l aide du modèle µ(t) : ( 2π ) ( 4π ) µ(t) = θ 0 + θ 1 cos T t + θ 2 cos T t + θ 3 cos 2( 2π ) T t Les fonctions de base sont : 1, cos(2πt/t), cos(4πt/t) et cos 2 (2πt/T) Puisque 2 cos 2 (2πt/T) = 1 + cos(2πt/t), on est assuré, avant même tout échantillonnage du signal et des fonctions de base qui nous délivreraient respectivement le vecteur y et la matrice modèle X, que la quatrième colonne de X sera linéairement dépendante de la première et de la troisième Les fonctions de base sont linéairement indépendantes, mais l échantillonnage n est pas assez serré ou est incapable de les distinguer comme telles Les fonctions de base deviennent linéairement dépendantes vis-à-vis de l échantillonnage Si, dans l exemple précédent, on choisit de représenter le signal périodique y(t) par le modèle suivant : ( 2Nπ ) ( 2Nπ ) µ(t) = θ 0 + θ 1 cos T t + θ 2 sin T t, tout échantillonnage régulier dont le pas t sera un multiple de T/2N donnera des valeurs nulles pour le sinus et égales à un ou moins un pour le cosinus, et la matrice X sera singulière Le pas d échantillonnage critique t c = T/2N pour N fixé s appelle le pas de Shannon La fréquence d échantillonnage 1/ t doit être supérieure à deux fois la fréquence maximale N/T présente dans le modèle 1 Enfin il est possible que les fonctions de base soient en théorie linéairement indépendantes vis-à-vis de l échantillonnage, mais qu en pratique ( numériquement) elles ne le soient pas Ce cas est très répandu lorsque le nombre de fonctions de base et par conséquent le format de la matrice X t X deviennent très grands et que le rapport entre la plus petite et la plus grande valeur propre de X t X dépasse les capacités de la machine Il reste maintenant à caractériser les solutions des équations normales qui, rappelonsle, ne sont connues qu à une solution du système homogène près La solution générale du système homogène n est autre qu une combinaison linéaire quelconque d une base du noyau Il existe plusieurs solutions techniques pour obtenir une base du noyau, l une des plus courantes est d avoir recours à la «décomposition en valeurs singulières» de X t X ( voir par exemple Press et al [63] chap29 ) Pour la solution particulière de l équation avec second membre, on peut choisir parmi toutes les solutions possibles la solution θ 1 dont la norme euclidienne est la plus petite Cette solution s appelle la pseudo-solution normale du système ( en général incompatible ) y = Xθ Par définition de la norme euclidienne, θ 1 est solution de : θ 1 = θ 1 θ t 1 = min θ t θ ; avec X t X θ = X t y (1649) b θ Le théorème suivant caractérise la pseudo-solution normale Théorème 164 La pseudo-solution normale d un système linéaire y = Xθ est l unique solution des équations normales associées X t Xθ = X t y qui possède l une quelconque des propriétés suivantes : 1 On montre ( théorème de Shannon ) que pour garder toute l information contenue dans les données, il faut échantillonner régulièrement à une fréquence supérieure à deux fois la fréquence maximum contenue dans les données et non pas seulement dans le modèle ( Whittaker 1945 [73], Shannon 1949 [69] )

299 282 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS 0 C est par définition la solution des équations normales qui possède la plus petite norme euclidienne 1 C est l unique solution des équations normales qui soit de la forme X t b où b est un vecteur quelconque de l espace O n des observations 2 Elle est la projection orthogonale des solutions des équations normales sur l espace «semblable au second membre» des vecteurs de la forme X t b Démonstration Soit N l espace des solutions des équations normales Puisque ces équations sont compatibles on a d après (1638) z t X t y = 0, ce qui exprime que le vecteur X t y et ( comme y est quelconque ) tous les vecteurs de la forme X t b sont orthogonaux au noyau de X t X Soit I l espace des vecteurs de la forme X t b où b est un vecteur quelconque de O n La compatibilité des équations normales s exprime par I ker(x t X) D après les résultats élémentaires d algèbre linéaire, on sait que tout vecteur est la somme unique d un vecteur d un sous-espace et d un vecteur du sous-espace qui lui est orthogonal Appliquons ce résultat aux solutions des équations normales : b θ N se décompose de façon unique en b θ = b θ 1 + z où b θ 1 I et z ker(x t X) Pour une autre solution b θ N, on a bθ = ( b θ b θ+z)+ b θ 1 Mais b θ b θ+z kerx t X car b θ et b θ sont des solutions des équations normales, z ker X t X et par conséquent b θ 1 est la projection d une solution quelconque des équations normales sur l espace I des vecteurs de la forme X t b Nous voulons à présent montrer que b θ 1 b θ On a b θ = b θ 1 + z = b θ 1 + z car b θ 1 z Par définition une norme est positive ou nulle, en particulier z 0 et donc b θ 1 b θ, l égalité n ayant lieu que si b θ = b θ 1 Exemple 164 Soit le système d une équation à deux inconnues θ 1 + θ 2 = 2 La matrice du modèle est X = (1, 1) et les équations normales associées sont : «θ ««1 1 1 `1 1 = 2 (1650) 1 1 La solution générale de ce système est «θ1 = θ 2 θ 2 «2 + α 0 «1, (1651) +1 où α est un nombre quelconque La pseudo-solution normale est d après 164 la seule solution de (1651) qui soit semblable au second membre de (1650) Cette solution est obtenue pour α = 1 et la pseudo-solution normale de θ 1 + θ 2 = 2 est alors θ 1 = 1 et θ 2 = 1 Matrice pseudo-inverse Il est commode d exprimer les solutions d un système singulier en termes de matrice pseudo-inverse Une matrice pseudo-inverse ou inverse de Moore-Penrose d une matrice A est l inverse de A dans le sous-espace où elle est inversible Pratiquement, si l on veut une solution du système Ax = b où A est singulière de rang r 0, on projette orthogonalement b sur le sous-espace de dimension r des vecteurs propres de A, on résout le système dans ce sous-espace, et on étend la solution à l espace originel en complétant avec des zéros ( voir par exemple Glazman et Liubitch [28] chapix 3 ) Pour notre part nous adopterons la définition suivante Définition 161 La matrice pseudo-inverse d une matrice A de format (n, k) est une matrice notée A ( 1) de format (k, n), dont les colonnes x i sont les pseudo-solutions normales des k équations linéaires à n inconnues de la forme : Ax i = e i, i = 1,,k, (1652)

300 163 LE CAS LINÉAIRE 283 où les e i sont les colonnes de la matrice unité d ordre k Les pseudo-solutions normales étant uniques, la matrice pseudo-inverse est également unique Propriétés Nous donnons sans démonstration quelques propriétés des matrices pseudoinverses, on se reportera par exemple à Beklémichev [5] chap14 ou à l ouvrage d Albert [3] Pour les propriétés des projecteurs on consultera Glazman & Liubitch [28] chapii 8 1 La matrice pseudo-inverse A ( 1) est une inverse généralisée, c est-à-dire qu elle possède la propriété : AA ( 1) A = A (1653) 2 La matrice pseudo-inverse est la seule inverse généralisée qui possède aussi les propriétés suivantes : A ( 1) AA ( 1) = A ( 1), (1654) (AA ( 1) ) t = AA ( 1), (A ( 1) A) t = A ( 1) A (1655) 3 La matrice Q = A ( 1) A est un projecteur, c est-à-dire Q 2 = Q D après (1655), c est aussi une matrice symétrique 4 La matrice P supplémentaire de Q = A ( 1) A, définie par : P = I k A ( 1) A, (1656) où I k est l identité dans l espace des paramètres P k, est une matrice symétrique et est un projecteur sur le noyau de A Les projecteurs P et Q sont, ( comme tout projecteurs supplémentaires ), orthogonaux entre eux, c est-à-dire que P Q = QP = 0 5 On a la relation duale : (A ( 1) ) t = (A t ) ( 1), (1657) avec des propriétés équivalentes aux relations 3 et 4 pour les projecteurs associés Les propriétés qui vont suivre se rapportent à la résolution d un système linéaire Ax = b de n équations à k inconnues A ce système est associé le système normal A t Ax = A t b qui, on le sait, est compatible On note K le noyau de A, c est-à-dire l ensemble des solutions du système homogène Az = 0, cet espace est identique au noyau de A t A On note I l ensemble des vecteurs semblables au second membre des équations normales, c est-à-dire de la forme A t b, où b est quelconque Nous supposons de plus que tous les espaces de vecteurs sont munis du produit scalaire (x y) = x t y La propriété de compatibilité des équations normales nous dit que les espaces I et K sont orthogonaux ( pour le produit scalaire défini plus haut ) et que par conséquent un vecteur x quelconque se décompose de façon unique en une somme x = x 1 + x 0 où x 1 I et x 0 K avec (x 1 x 0 ) = 0 6 La matrice Q est un projecteur orthogonal de x sur l espace I Nous savions déjà que c est un projecteur il est de plus orthogonal sur I c est-à-dire que si x I et z est tel que Qz = 0, alors (z, x) = 0 Cela est conforme à la définition d un projecteur orthogonal qui exige que son noyau soit orthogonal à son image 7 Le projecteur P projette également x orthogonalement sur K

301 284 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS 8 Le vecteur x 1 = A ( 1) b est la pseudo-solution normale du système Ax = b Si ce système est compatible sa solution générale est alors : x = A ( 1) b + (I k A ( 1) A)h, h R k (1658) 9 Si le système est incompatible ses solutions au sens des moindres carrés sont données par (1658), mais on a aussi : x = (A t A) ( 1) b + (I k A ( 1) A)h, h R k (1659) Construction Nous donnons maintenant, toujours sans démonstration, différentes méthodes permettant de calculer une matrice pseudo-inverse On consultera Beklémichev [5] chap XIV 3, pour obtenir les démonstrations des propriétés que nous allons donner 1 Si les colonnes de la matrice A sont linéairement indépendantes, alors : A ( 1) = (A t A) 1 A t (1660) 2 Si les lignes de la matrice A sont linéairement indépendantes, alors : A ( 1) = A t (AA t ) 1 (1661) 3 Il est toujours possible de décomposer une matrice A de format (n, k) et de rang r min(k, n) en un produit de deux matrices de rang r BC, où B est de format (n, r) et C de format (r, k) Une telle décomposition est appelée décomposition squelettique Si A = BC est une décomposition squelettique de A, alors : A ( 1) = C ( 1) B ( 1) = C t (CC t ) 1 (B t B) 1 B t (1662) 4 Il est aussi possible de décomposer la matrice A en un produit de trois matrices A = UDV t, où D est une matrice carrée diagonale de format(k, k) dont les éléments diagonaux sont les valeurs singulières de la matrice A Si A est de rang r, il y a r valeurs singulières non nulles La matrice U est de format (n, k) et ses colonnes de même indice que les valeurs singulières non nulles sont les vecteurs propres ( orthonormés ) de la matrice AA t Alors que la matrice V est une matrice carré de format (k, k) dont les colonnes de même indice que les valeurs singulières non nulles sont les vecteurs propres orthonormés de A t A On a U t U = I k et V t V = I k Cette décomposition s appelle décomposition en valeurs singulières On montre facilement que la pseudo-inverse de D est une matrice carré diagonale D ( 1) dont les éléments diagonaux sont les inverses des valeurs singulières non nulles alors que les valeurs singulières nulles sont laissées nulles On obtient alors A ( 1) de la façon suivante : A ( 1) = V D ( 1) U t pour A = UDV t (1663) 5 Si A est une matrice carré et si P est une matrice projective orthogonale sur le sous-espace kera, c est-à-dire si P possède les propriétés suivantes P 2 = P, P A = A t P = 0, alors on a la relation : A ( 1) = (A + P) 1 P (1664)

302 163 LE CAS LINÉAIRE Si A est carrée et symétrique elle est alors diagonalisable Soit Λ = U t AU sa forme diagonale La matrice pseudo-inverse de A est donnée par : A ( 1) = U(Λ + Π) 1 U t UΠU t, (1665) où Π est la forme diagonale de la matrice projective P C est elle-même une matrice projective dont la diagonale est nécessairement formée de 0 et de 1 Les 0 correspondent aux valeurs propres de A qui ne sont pas nulles et les 1 aux valeurs propres de A qui sont nulles Application à la méthode des moindres carrés Les concepts introduits ci-dessus s appliquent parfaitement à notre problème d estimation L espace K est, d après le corollaire 161, le noyau de X ou de X t X L espace I est celui des vecteurs de la forme X t y où y est quelconque, en d autres termes c est l image de l espace des observations par l application duale de matrice X t L espace des paramètres est décomposé par X en une somme de deux sous-spaces orthogonaux P k = I K, en ce sens qu un vecteur quelconque de P k peut être décomposé de façon unique en une somme d un vecteur de I et d un vecteur de K La matrice pseudo-inverse permet d écrire les solutions θ des équations normales dans le cas singulier ( ce qui inclut aussi le cas régulier ), sous les deux formes équivalentes suivantes : θ = (X t X) ( 1) X t y + P θ, (1666) θ = X ( 1) y + P θ (1667) où θ est un vecteur quelconque de l espace des paramètres et P est un projecteur orthogonal, de format (k, k), sur le noyau de X t X ou de X En pratique, (X t X) ( 1) est plus facile à calculer que X ( 1) La matrice pseudo-inverse de X t X s exprime à l aide de la matrice P : (X t X) ( 1) = (X t X + P ) 1 P, (1668) et réciproquement on trouve les projecteurs grâce aux matrices pseudo-inverses : P = I k Q, Q = (X t X) ( 1) X t X = X ( 1) X (1669) Les solutions, telles qu elles sont exprimées par les équations (1666) et (1667), nous disent que l estimation de θ au sens des moindres carrés peut être mise sous la forme d une somme θ = θ 1 + θ 0, où θ 0 est un vecteur quelconque de l espace K et d un vecteur particulier θ 1 qui, d après le théorème 164, appartient à l espace I semblable au second membre des équations normales Nous avons vu que la compatibilité des équations normales voulait dire que I K Fonctions à estimer Si β sont les fonctions à estimer, elles ne seront définies de façon unique, dans le cas singulier et pour des fonctions linéaires : β = Cθ, que si CP = 0 Dans ce cas on a : β = C θ = C(X t X + P) 1 X t y (1670) Nous souhaitons caractériser toutes les combinaisons linéaires, β = Cθ des θ i qui sont des fonctions à estimer Nous disposons pour cela du théorème suivant :

303 286 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Théorème 165 Le paramètre β = c t θ est estimée de façon unique par la méthode des moindres carrés si, et seulement si, c I Démonstration Si c I on a par définition Qc = c et c t = c t Q car Q est symétrique Posons C = c t, d où CP = CQP = 0 car QP = 0 La matrice C ( formée d une seule ligne ) répond bien à la condition CP = 0 et c t θ est une fonction à estimer Réciproquement si CP = c t P = 0 alors, puisque P est symétrique P c t = 0 Mais par définition I k = P + Q et (P + Q)c = c = Qc et c I Nous savons maintenant à quoi correspond le sous-espace I, c est l ensemble des combinaisons linéaires des θ i qui peuvent être estimées sans ambiguïté par la méthode des moindres carrés L espace I est de dimension r = rg X, il s ensuit qu au plus r combinaisons β j = c t jθ linéairement indépendantes peuvent être estimées de façon unique Par conséquent, la matrice C comporte au plus r lignes De plus les vecteurs c I sont, par définition, de la forme c = X t ỹ, où ỹ est un vecteur quelconque de O n Si on choisit un vecteur de la base canonique, c t est alors égal à une ligne de X et une condition suffisante pour que r combinaisons β j soient r fonctions à estimer linéairement indépendantes est que : k β j = x ji θ i, j = j 1,,j r, (1671) i=1 où les j correspondent aux indices de r lignes linéairement indépendantes de X Les combinaisons linéaires de ces r lignes engendrent toutes les fonctions à estimer de type β = Cθ Exemple 165 Nous traitons ici, à l aide de la matrice pseudo-inverse, d un exemple proposé par Kendall & Stuart [42] ch194 Supposons que nous cherchions à estimer k = 3 paramètres θ à partir de n = 4 observations suivant un modèle linéaire où : X = B A, θ Le modèle est visiblement singulier de rang r = 2, par conséquent la matrice X t X est aussi de rang 2 et son noyau est de dimension 1 Il se trouve que : «X t X 2 2 0A 1 1A A partir de cette décomposition squelettique de X t X on obtient : «(X t X) ( 1) 1 1A 0 1 «« = A, et d après (1669) on trouve le projecteur P qui exprime la dépendance linéaire des colonnes de X : P = A = 1 1A `1 1 1 = zz t, z kerx, θ 1 θ 2 θ 3 A

304 163 LE CAS LINÉAIRE 287 d où la solution générale θ b = (X t X) ( 1) X t y + P h : y bθ B bθ 2 A = A By 2 C y bθ A h 1 1 h 2 A, h 3 y 4 où h 1, h 2 et h 3 sont des nombres quelconques Pour les fonctions à estimer ( ou plutôt : qu il est possible d estimer ), les deux premières lignes de X sont linéairement indépendantes, ce qui donne une première estimation possible :! bβ 1 = bβ «0 1 θ1 b B C bθ 2 A = b 1 + b! θ 2 bθ 1 + θ bθ b = 1 «y1 + y y 2 + y 4 3 Mais toute combinaison linéaire des lignes de C est aussi une fonction à estimer, par exemple :! «0 1 θ1 b bβ B C bθ bβ A = 2b θ 1 + θ b 2 + b! θ 3 bθ 2 θ bθ b = 1 «y1 + y 2 + y 3 + y y 1 y 2 + y 3 y 4 3 En revanche, il n est pas possible d estimer ( de façon linéaire et non ambiguë ) un paramètre unique quelconque θ i, car I 3P = P et aucune ligne de ce projecteur n est nulle Donnons pour terminer la matrice des variances-covariances de b β qui, nous le montrerons, s obtient par (1693) c est-à-dire par V bβ = σ 2 C(X t X) ( 1) C t : 1 «V bβ = σ «V bβ = σ Reparamétrisation du modèle pour les premières, pour les secondes Nous avons déjà évoqué la reparamétrisation du modèle dans le cas régulier lorsque nous avons cherché des bases orthogonales Nous n envisagerons donc ici que le cas singulier Nous savons qu une condition nécessaire et suffisante pour que le modèle soit singulier est que les colonnes de la matrice X soient linéairement dépendantes Cette circonstance nous indique que le modèle choisi, et par conséquent sa paramétrisation en θ, n est pas adaptée Nous voulons maintenant montrer qu il est toujours possible de choisir une autre paramétrisation β = Cθ où la matrice modèle X β qui en découle n est pas singulière Remarquons qu une décomposition squelettique quelconque de X réalise une nouvelle paramétrisation régulière en β En effet on a X = X β C, où X β et C sont de rang r, et µ = Xθ = X β Cθ = X β β Les matrices CC t et X t βx β sont inversibles et il est facile de montrer à partir de la relation (1662) que Q = C t (CC t ) 1 C, P = I k Q et de là que CP = 0 Il reste à trouver, C étant donnée, comment calculer le modèle X β correspondant Il faut résoudre X = X β C qui représente n systèmes linéaires de k équations à r k inconnues ( les r éléments des n lignes de X β ) Ces équations sont compatibles, en effet la condition de Fredholm est satisfaite si Cz = 0 Xz = 0 Les lignes de C forment une base de I z appartient donc au sous-espace orthogonal à I c est-à-dire à K qui est kerx par définition, on a donc Xz = 0

305 288 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS On peut alors résoudre le système en supprimant k r équations, mais on peut aussi donner la solution en termes de pseudo-inverse, il vient : X β = XC ( 1) = XC t (CC t ) 1 (1672) De X = X β C on tire rg X rg X β et de (1672) on tire rg X β rg X, d où rg X β = rg X = r La matrice X t βx β est alors régulière et les r paramètres β sont estimés de façon unique par : β = (X t βx β ) 1 X t βy (1673) Cette reparamétrisation peut toujours être faite On postule d habitude qu elle a bien été faite et on écrit alors le modèle linéaire sous la forme y = X β β + ǫ Cette procédure est justifiée tant que c est le signal µ qui est la quantité dont l estimation importe et que les paramètres ( θ ou β ) ne servent que d intermédiaires pour atteindre ce but Cependant il peut exister des cas où l estimation de θ est aussi requise, la reparamétrisation en β nous donne alors une base de l espace des seules combinaisons linéaires de θ qui peuvent être estimées de façon unique par la méthode des moindres carrés Exemple 166 En reprenant l exemple précédent on trouve pour la première série de paramètres, soit par calcul direct soit en utilisant (1672) : «1 0 X = B1 0 1 C A, C =, X β = B A, alors que l on trouve pour la seconde : 0 1 « C =, X β = 1 B1 1 C 1 1A Interprétation géométrique de la méthode des moindres carrés, dans l espace des observations Rappelons tout d abord les données du problème Le vecteur y des observations est formé de n valeurs connues y i observées aux points x i Ces valeurs sont entachées d une erreur ǫ i de valeur inconnue telle que y i = µ i + ǫ i, les ǫ i sont les composantes d un vecteur de bruit ǫ L observation y et le bruit ǫ sont des vecteurs colonnes susceptibles d appartenir à tout l espace arithmétique : O n, dit «espace des observations» Sous hypothèse qu il est possible de réduire les variables aléatoires ǫ i on a E{ǫ i } = 0 et E{ǫ i ǫ j } = σ 2 δ ij Les valeurs moyennes des observations forment ce qu on nomme un signal µ qu il est, par hypothèse, possible de représenter linéairement à l aide des k paramètres θ j, suivant le modèle µ = Xθ Le vecteur des paramètres θ est susceptible d appartenir à tout l espace arithmétique P k La matrice du modèle : X est de rang rg X = r k et on suppose qu une reparamétrisation quelconque µ = X β β a été faite de façon à ce que la matrice X β soit de rang r Cette matrice définit un sous-espace de dimension r : M r O n où se trouve µ Afin d alléger la notation nous supprimons l indice β de la matrice X β Nous notons β une estimation quelconque de β et les estimateurs des moindres carrés sont

306 163 LE CAS LINÉAIRE 289 notés β et µ Cherchons à présent à dégager les relations métriques qui existent entre toutes les quantités que nous avons introduites On pourra s aider de la figure 162 pour visualiser les résultats Relations entre l observation y et l estimation µ de la moyenne Nous avons introduit une estimation de µ obtenue par l équation µ = X β Remplaçons β par sa valeur, il vient µ = X(X t X) 1 X t y L estimation µ est trouvée comme combinaison linéaire de l observation y Soit H la matrice de cette combinaison linéaire, on a alors : H = X(X t X) 1 X t, µ = Hy (1674) On appelle parfois H la matrice «chapeau», car son rôle est de construire une estimation, de «mettre un chapeau» en quelque sorte Établissons maintenant quelques propriétés de H 1 H est une matrice (n, n) symétrique : H = H t, ce fait est établi facilement En tant que matrice symétrique, H est diagonalisable 2 H est un projecteur, c est-à-dire que H 2 = H En effet, H 2 = X(X t X) 1 X t X(X t X) 1 X t = X(X t X) 1 X t = H Le projecteur H étant symétrique, c est un projecteur orthogonal En tant que projecteur H a pour valeurs propres 0 ou 1, et son rang est égal à sa trace Son rang est égal à la dimension du sous-espace image sur lequel il projette ; c est-à-dire qu il est égal à la multiplicité de la valeur propre 1 Il suffit de considérer la forme diagonale de H pour s en convaincre 3 La trace de H est égale à r = rg X Ce fait est trivial puisque d après (1674) H projette y sur un sous-espace de dimension k Donnons-en, cependant, une démonstration directe On a, trace(h) = trace(x(x t X) 1 X t ) = trace(x t X(X t X) 1 ) = trace(i r ) = r, où la matrice I r désigne la matrice identité de format (r, r) Dans les manipulations sous l opérateur trace, on peut changer l ordre des multiplications matricielles tout en prenant garde à ce qu elles restent cohérentes car X est une matrice rectangulaire 4 On a les relations H µ = µ et Hµ = µ Ces relations sont également évidentes car, par définition, µ et µ appartient à l espace image de H Relations entre l observation y et le résidu ǫ On a par définition, ǫ = y µ, soit ǫ = y Hy = (I H)y Le résidu ǫ est également trouvé comme combinaison linéaire de l observation y Soit B la matrice de la combinaison linéaire correspondante On a B = I H, et donc : ǫ = By (1675) Tournons-nous à présent vers les propriétés de B et donnons, en complément, certaines relations concernant H et B 1 B est symétrique : ce fait découle de la propriété correspondante de H Comme H, B est alors diagonalisable 2 B est un projecteur : B 2 = B En effet, B 2 = (I H)(I H) = I 2H + H 2 = I H = B Ce projecteur est aussi un projecteur orthogonal

307 290 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS y O n B H ǫ ǫ O n µ M r µ M r FIG 162 Interprétation géométrique de la méthode des moindres carrés, et mise en évidence de la relation d orthogonalité Les opérateurs H et B sont des projecteurs Les vecteurs µ et µ, ici colinéaires, appartiennent au même sous-espace M r, de dimension égale au rang de la matrice du modèle r = rg X Naturellement si r > 1, ces vecteurs ne sont pas nécessairement colinéaires 3 La trace de B est égale à n r En effet, trace(b) = trace(i H) = trace(i) trace(h) = n r, r = rg X 4 Les projecteurs H et B, sont orthogonaux l un par rapport à l autre Pour cela il faut vérifier que HB = BH = 0, ce que l on démontre facilement : HB = H(I H) = H H = 0, et de même pour BH 5 On a les relations B ǫ = ǫ et Bǫ = ǫ La première relation est triviale car, par définition, ǫ appartient à l espace image de B Pour la deuxième, on a Bǫ = B(y µ) = ǫ Bµ = ǫ BHµ = ǫ 6 Finalement on a, Bµ = B µ = 0 et H ǫ = 0, ce que l on démontre facilement à l aide de la relation HB = BH = 0 Relation d orthogonalité Établissons maintenant que le vecteur ǫ est orthogonal à µ Il vient : ( µ ǫ) = µ t ǫ = µ t B ǫ = (B µ) t ǫ = 0, (1676) et ces deux vecteurs sont bien orthogonaux Cette propriété correspond au principe d orthogonalité de la théorie de l estimation linéaire que nous avons trouvée ici comme conséquence de la méthode des moindres carrés Si µ est un vecteur quelconque du sous-espace image de H, ỹ ima(h) = M r, on a de la même façon ( µ ǫ) = µ t ǫ =- µ t H t ǫ = µ t H ǫ = 0, soit donc : ( µ ǫ) = 0, µ M r (1677) Le résidu ǫ est donc orthogonal au sous-espace M r auquel appartiennent, en particulier, µ et µ On peut dire alors que l estimation µ est la projection orthogonale de l observation y sur le sous-espace M r de tous les modèles possibles Ces propriétés sont également illustrées par la figure 162

308 163 LE CAS LINÉAIRE 291 Moindres carrés pondérés Dans le cas où l on introduit la matrice de pondération relative V 1, le changement de base de matrice (N t ) 1 nous a montré que l on pouvait se ramener au cas précédent, à la condition naturellement que N soit non-singulière Les projecteurs prennent alors la forme suivante : et le produit scalaire devient : H = X(X t V 1 X) 1 X t V 1, B = I H, (1678) (y 1 y 2 ) = y t 1 V 1 y 2 (1679) 1638 Le théorème de Gauss-Markov dans le cas linéaire de la méthode des moindres carrés Le théorème de Gauss-Markov établit les propriétés optimales de l estimation d une combinaison linéaire Cθ des paramètres, calculée à partir de l estimateur θ Faisons trois remarques préliminaires à propos de la matrice C Cette matrice est supposée connue, mais elle n est pas nécessairement de rang k Elle peut être de rang r k si nous ne nous intéressons qu à un nombre restreint r de combinaisons linéaires des θ i Dans le cas régulier, C peut être quelconque, mais dans le cas singulier il faut que CP = 0, où P est un projecteur orthogonal sur le noyau de X t X donné par l équation (1669) Les résultats du théorème de Gauss-Markov s appliquent naturellement dans le cas régulier à l estimateur des moindres carrés θ pour la valeur particulière de C égale à l identité Ces remarques étant faites, passons maintenant à l énoncé du théorème Théorème 166 (Gauss-Markov) Dans le modèle linéaire y = Xθ + ǫ, où le bruit ǫ suit une loi quelconque de moyenne nulle et de matrice des variances-covariances finie, l estimateur C θ, où θ est l estimateur des moindres carrés de θ, possède les propriétés suivantes : 1 L estimateur β = C θ est non-biaisé pour l estimation de β = Cθ 2 Il a la plus petite variance dans la classe des estimateurs de Cθ non-biaisés et obtenus comme combinaison linéaire de l observation y 3 Les vecteurs aléatoires, C θ et ǫ = y X θ sont non-corrélés Démonstration 1) Soit t un estimateur linéaire quelconque de Cθ On définit T comme étant la matrice permettant de calculer l estimateur à partir des observations On a t = T y, soit t = T Xθ +T ǫ La condition pour que t soit non-biaisé est E{t} = Cθ, c est-à-dire : E{t} = E{T y} = E{T (Xθ + ǫ)} = T Xθ Pour que t soit non-biaisé, il faut que E{t} = Cθ et donc que la matrice T satisfasse l équation : T X = C (1680) Dorénavant, nous ne nous intéresserons qu à des transformations T possédant cette propriété Considérons l estimateur bt = C b θ, où b θ est l estimateur des moindres carrés donné par l équation (1666) Soit T 0 la matrice de la combinaison linéaire de y correspondant à cet estimateur On a, à la condition que CP = 0 : T 0 = C(X t X) ( 1) X t (1681)

309 292 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS Calculons T 0X Il vient en utilisant (1654) : T 0X = C(X t X) ( 1) X t X = C(I k P ) = C (1682) L estimateur bt répond à la condition (1680) et il est donc non-biaisé 2) Vérifions maintenant que bt est MV, c est-à-dire que les éléments diagonaux de sa matrice des variances-covariances sont plus petits que les éléments correspondants de la matrice des variances-covariances de tout autre estimateur t Pour mener à bien ce calcul, évaluons au préalable la covariance de deux estimateurs linéaires non-biaisés quelconques t 1 et t 2 de matrice T 1 et T 2 On a, Cov(t 1, t 2) = E{(t 1 Cθ)(t 2 Cθ) t }, mais t = T y = T Xθ + T ǫ et d après la condition (1680), il vient t = Cθ + T ǫ, d où t Cθ = T ǫ, soit : On a donc finalement : E{(t 1 Cθ)(t 2 Cθ) t } = E{T 1ǫǫ t T t 2} = σ 2 T 1T t 2 (1683) Cov(t 1, t 2) = σ 2 T 1T t 2 (1684) Calculons à présent la variance de t en fonction de la variance de bt En posant t = (t bt) + bt, il vient : V (t) = V (t bt) + V (bt) + Cov(t bt,bt) + Cov(bt, t bt) (1685) Mais Cov(t bt,bt) = Cov(t,bt) V (bt), évaluons ces termes grâce à l équation (1684) On trouve alors : Cov(t,bt) V (bt) = σ 2 T T t 0 σ 2 T 0T t 0 = σ 2 (T T 0)T t 0 = σ 2 (T T 0)X(X t X) ( 1) C t = σ 2 (T X T 0X)(X t X) ( 1) C t = 0 Cette dernière équation est nulle car les estimateurs t et bt étant non-biaisés, leur matrice T obéit alors à la relation (1680), et on a donc T X = T 0X = C Ainsi Cov(t bt,bt) = 0 et de même pour Cov(bt, t bt) = 0, et il reste dans (1685) : V (t) = V (t bt) + V (bt) (1686) Les éléments diagonaux d une matrice des variances-covariances ne sont pas négatifs car ce sont des variances On a donc l inégalité suivante sur les variances [V (t)] ii des estimateurs t i, éléments du vecteur colonne t : [V (t)] ii [V (bt )] ii (1687) Donc les éléments de bt = C b θ sont MV dans la classe des estimateurs linéaires non-biaisés de Cθ On dit que bt est lui-même MV si tous ses éléments sont MV Nous prouvons ainsi par la même occasion que, dans le cas régulier où C = I, l estimateur b θ est également MV parmi tous les estimateurs linéaires de θ Au cours de cette démonstration, nous avons calculé la matrice des variances-covariances V (bt) de l estimateur bt = C b θ, on a V (bt) = σ 2 T T t mais T = C(X t X) ( 1) X t, d où d après (1654) : V (bt) = σ 2 C(X t X) ( 1) C t (1688) 3) Par définition C b θ et bǫ ne sont pas corrélés si Cov(C b θ, bǫ) = 0 L estimateur C b θ est non-biaisé et E{C b θ} = Cθ L estimateur b θ est également non-biaisé et le résidu bǫ est alors de moyenne nulle E{bǫ} = 0 Il vient : Cov(C b θ, bǫ) = E{(C b θ Cθ)bǫ t } = E{C b θbǫ t } Cθ E{bǫ t } = 0 Le premier terme est nul parce que C b θ P k et que bǫ est orthogonal à P k, et le second est également nul parce que bǫ est de moyenne nulle Cela termine la démonstration du théorème de Gauss-Markov dans le cas des estimateurs linéaires non-biaisés d un modèle linéaire

310 163 LE CAS LINÉAIRE Moyenne et variance des estimateurs des moindres carrés La démonstration du théorème de Gauss-Markov nous a fourni la moyenne et la matrice des variances-covariances de la loi suivie par les estimateurs des moindres carrés Explicitons ce résultat en distinguant une fois de plus l estimation de θ dans le cas régulier et l estimation de Cθ dans le cas général Moyenne Comme les estimateurs des θ et β = C θ sont non-biaisé, on a : E{ θ} = θ, E{C θ} = Cθ (1689) A ces estimations non-biaisées correspond une estimation également non-biaisée de µ : E{ µ} = E{XC θ} = X E{C θ} = XCθ = µ Variance des paramètres estimés dans le cas régulier La matrice des variances- -covariances Vˆθ des estimateurs θ, ( à ne pas confondre avec la matrice V des variances-covariances du bruit ǫ ), est donnée par l équation (1688) On a dans le cas réduit : et plus généralement, dans le cas non-réduit : Vˆθ = σ 2 (X t X) 1, (1690) Vˆθ = σ 2 (X t V 1 X) 1 (1691) Notons que d après (1643) ces expressions peuvent également s écrire : Vˆθ = 2σ 2 S 1 (1692) Variance des fonctions à estimer β = Cθ Ceci englobe le cas régulier pour C quelconque et le cas singulier pour CP = 0 On a, toujours d après (1688) : Estimation de la variance σ 2 V Cˆθ = σ 2 C(X t X) ( 1) C t (1693) Nous avons supposé que seule la matrice V des variances-covariances relatives de l observation y était connue Mais il réapparaît alors dans le calcul des variances-covariances des estimateurs θ le facteur σ 2 fixant l échelle absolue des variances-covariances de y La méthode des moindres carrés nous fournit un résidu ǫ, qui est une estimation du bruit ǫ ; grâce à ce résidu, nous pouvons estimer σ 2 Considérons donc le résidu ǫ de l estimation de µ par µ = X β : ǫ = y X θ (1694) Nous avons vu que ǫ = By = Bǫ = ǫ La somme des carrés des résidus, qui est la quantité S min que nous avons minimisée, est égale à S min = (y X β) t (y X β) = ǫ t ǫ = ǫ t B t Bǫ = ǫ t Bǫ, ce qui peut encore s écrire ǫ t Bǫ = trace(ǫ t Bǫ) Comme la matrice B est symétrique (B t = B), elle définit une forme quadratique, et on peut écrire : S min = trace(ǫ t Bǫ) = trace(bǫǫ t ) soit, en prenant la valeur moyenne : E {S min } = E{trace(Bǫǫ t )} = trace(b E{ǫǫ t }) = σ 2 trace(b) = σ 2 (n r),

311 294 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS d où finalement : E {S min } = σ 2 (n r) On peut tirer de cette expression l estimateur s 2 non-biaisé de σ 2 : s 2 = S min n k s 2 = S min n r dans le cas régulier, dans le cas général, (1695) où n est le nombre de valeurs observées, k le nombre de paramètres ajustables et r est le rang de la matrice du modèle ( X ou X β ) Cette formule s applique également dans le cas où les erreurs sont corrélées (E{ǫǫ t } = σ 2 V ) et par conséquent S min = (y X θ) t W(y X θ), avec W t = W = V 1 Exemple 167 Cas de l ajustement d une droite de moindres carrés Le modèle adopté est : y i = θ 0 + θ 1x i + ǫ i, E{ǫ} = 0 ( pas d erreurs systématiques ), E{ǫǫ t } = V = σ 2 I ( mesures d égale précision ) Dans ce cas la matrice modèle X vaut : x 1 1 x 2 X = C A, il vient Xt X = 1 x n (X t X) 1 = D où la solution b θ = (X t X) 1 X t y : 1 n P x 2 i (P x i) 2! bθ 0 1 = bθ 1 n P x 2 i (P x i) 2 P «P «P n P xi xi x 2, X t yi y = P, i xiy i P x 2 i P x i P x i n «P x 2 i P yi P x i P xiy i P y i P xi + n P x iy i «, (1696) soit, en posant : x = 1 n P xi et ȳ = 1 n P yi : bθ 1 = P (xi x)(y i ȳ) P (xi x) 2 et ȳ = b θ 0 + b θ 1 x (1697) La dernière égalité montre que la droite des moindres carrés passe par le centre de gravité du nuage de points de coordonnées (x i, y i) Dans l expression de la pente de cette droite, il faut noter la dissymétrie des rôles joués par les x i et les y i Cela ne doit pas surprendre puisque les y i sont des variables aléatoires alors que les x i sont des valeurs sûres Calculons maintenant la matrice des variances-covariances de l estimateur b θ Nous avons ici Vˆθ = σ 2 (X t X) 1 L expression (X t X) 1 ayant déjà été trouvée quand on a calculé l estimateur b θ, le résultat est immédiat : Vˆθ = σ P 2 1 P «n x 2 i x (1698) (xi x) 2 x 1 En appliquant le résultat (1695) précédent à l ajustement du nuage de points (x i, y i) par la droite des moindres carrés on obtient l estimation non-biaisée de σ 2 : s 2 = 1 n 2 nx (y i θ b 0 θ b 1x i) 2 (1699) i=1

312 163 LE CAS LINÉAIRE Loi suivie par les estimateurs des moindres carrés Nous venons d établir que, quelle que soit la taille n de l échantillon, le vecteur aléatoire θ est de moyenne θ et de matrice des variances-covariances VˆθḊe même pour les fonctions à estimer, le vecteur aléatoire C θ est de moyenne Cθ et de matrice des variances-covariances V Cˆθ Il reste à déterminer la loi asymptotique suivie par ces estimateurs Remarquons que θ est obtenu comme combinaison linéaire des n variables réduites non-corrélées y et que par conséquent on doit s attendre à ce que θ tende assez vite vers la loi normale Cas régulier Dans ce cas la matrice X t X est non-singulière et, si cette matrice reste non-singulière quand n, on pourra appliquer la loi des grands nombres et montrer que θ est un estimateur convergent de θ Sous les mêmes hypothèses, le théorème central limite nous donne la loi asymptotique suivie par θ : il nous dit que n( θn θ) loi N(0, σ 2 Σ 1 1 ) où Σ = lim n n Xt X, si cette limite existe En d autres termes, pour n assez grand, la loi suivie par θ est approximativement normale à k dimensions, de moyenne θ et de matrice des variances-covariances σ 2 (X t X) 1 On ne peut pas étendre cette propriété pour n car les termes de X t X peuvent devenir infinis Pour les fonctions à estimer Sous réserve que la matrice V Cˆθ reste non-singulière quand n on montrerait de même que C θ est un estimateur convergent de Cθ et que loi n(c θ n Cθ) N(0, σ 2 Σ 1 C ) où, si cette limite existe, Σ C = 1 lim n n Xt βx β Cas normal Si l observation y suit une loi normale, alors les mêmes résultats s appliquent mais la loi suivie par les estimateurs θ et C θ est normale pour n fini et non plus seulement asymptotiquement normale pour n Ces résultats sont valables pour le cas réduit, pour le cas non-réduit ( méthode des moindres carrés pondérés ) il faudrait s assurer que le changement de variables qui permet de se ramener au cas réduit soit toujours possible par passage à la limite infinie Région de confiance dans l espace des paramètres La méthode des moindres carrés fournit un estimateur θ du paramètre inconnu θ, cet estimateur dépend de l échantillon et est, comme il se doit, une variable aléatoire Il se pose alors le problème de l estimation de la région où se répartit la variable aléatoire θ lorsque l échantillon (y 1,, y n ) varie Ce problème est celui de l estimation d intervalle qui a été traitée au chapitre 14 et plus particulièrement, dans le cas multidimensionnel, au paragraphe 144 Par définition la zone de confiance Q γ (θ θ) est une portion de l espace des paramètres P k, solution de l équation : Pr{θ Q γ (θ θ)} = γ, Q γ P k, (16100) où γ est une probabilité donnée à l avance En règle générale on choisit γ assez grand, par exemple γ = 090 et on parle d intervalle à 90% de confiance Il existe une infinité

313 296 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS d intervalles de confiance satisfaisant l équation (16100), parmi ceux-ci on choisit celui de plus petite surface c est-à-dire celui dont la frontière est une courbe d iso-densité de probabilité Pour résoudre entièrement le problème de la détermination de l intervalle de confiance, il faut donc connaître la loi suivie par l estimateur θ Cette loi n est connue que dans certains cas particuliers ( dont le plus important est le cas linéaire et normal ), en dehors de ces cas les résultats que nous allons établir ci-dessous ne seront qu approximatifs Valeur de S au voisinage de θ L estimateur des moindres carrés θ est trouvé en minimisant la fonction S(θ) Développons S(θ) en série de Taylor au voisinage du minimum θ pour lequel on a S ( θ) = 0 On obtient, de façon exacte dans le cas linéaire : S(θ) = S( θ) + (θ θ) t S ( θ) (θ θ) t S ( θ)(θ θ), S(θ) = S( θ) (θ θ) t S ( θ)(θ θ), où S est le vecteur gradient de S par rapport aux θ i et S le hessien de S ( matrice des dérivées secondes de S ) Il existe, dans le cas linéaire, une relation entre la matrice des variances-covariances Vˆθ de θ et la valeur du hessien de S en θ Cette relation est donnée par l équation (1692) : Vˆθ = 2σ 2 S ( θ) 1, d où : S(θ) = S( θ) + σ 2 (θ θ) t Vˆθ 1 (θ θ) (16101) Posons θ = θ θ égal à l accroissement des paramètres autour de θ et S = S(θ) S( θ) égal à l accroissement correspondant de la fonction S Il vient : S = σ 2 ( θ) t Vˆθ 1 θ (16102) La matrice Vˆθ étant définie positive l équation (16102) précédente est une forme quadratique définie positive Intervalle de confiance dans le cas linéaire et normal Dans le cas linéaire et normal, la variable aléatoire θ est normale de moyenne nulle et de matrice des variances-covariances Vˆθ La quantité S/σ 2 suit alors une loi du χ 2 à k degrés de liberté ( voir chapitre 639 page 109 ) La zone de confiance est alors entièrement déterminée par l équation : Q(θ θ) = S/σ 2 = k 2 γ, où k γ est une constante qui ne dépend que de la confiance γ et du nombre de paramètres k On trouve k 2 γ en inversant la fonction de répartition de la loi du χ2 à k degrés de liberté : k 2 γ = F 1 χ 2 (γ) (16103) La table 64 page 111, donne la valeur de k γ pour certaines valeurs usuelles de γ et pour quelques valeurs du nombre de degrés de liberté qui ici est égal à k ( le nombre de paramètres )

314 164 RÉSUMÉ DES PROPRIÉTÉS DU MODÈLE LINÉAIRE 297 Interprétation géométrique de l écart type σ mm des estimateurs θ m Supposons que la matrice Vˆθ des variances-covariances de θ est diagonale Les éléments diagonaux de Vˆθ sont les variances des θ i que nous noterons σ 2 ii A partir du minimum θ, déplaçons-nous le long de l axe θ m, c est-à-dire faisons varier θ m en gardant les autres θ i m constants Dans ce cas, θ est un vecteur colonne partout nul sauf à la ligne i = m où il vaut θ m, d après (16102) il vient : S = σ 2 θ2 m σ 2 mm ou S σ 2 = θ2 m σmm 2 (16104) La forme de cette équation suggère une méthode pratique pour calculer les écart types σ ii des θ i Quand on a trouvé le point θ où S(θ) est minimum, on forme la quantité X 2 (θ) = S(θ)/σ 2, et l on se déplace à partir de θ successivement le long de chaque axe θ m d une quantité θ m, jusqu au point P où X 2 ( θ + θ) = X 2 ( θ) + 1 En ce point, d après (16104), la valeur absolue de θ m est égale à l écart type σ mm de θ m Ce que nous avons montré, est que la forme quadratique définie positive : X 2 ( θ) = 1 atteint ses extrêma, suivant chaque axe, pour la valeur σ ii, c est-à-dire : max{ θ i ( θ) t θ Vˆθ 1 θ = 1} = σ ii, i min{ θ i ( θ) t θ Vˆθ 1 θ = 1} = σ ii, i (16105a) (16105b) où σ ii est le i e élément diagonal de la matrice Vˆθ Cette propriété reste valable même si Vˆθ n est pas diagonale mais est une matrice définie positive ( théorème B8 page 346 ) Les équations (16105a) et (16105b) ne dépendent donc pas des corrélations entre les variables θ i ( ce fait est illustré sur la figure 63 page 96 ) Ces considérations conduisent finalement à l interprétation géométrique suivante Afin de trouver l écart type σ mm de l estimateur θ m dans le cas linéaire, il suffit de construire l hyper-parallélépipède rectangle d arêtes parallèles aux axes θ i et circonscrit à l hyper-ellipsoïde X 2 (θ) = Xmin Les arêtes de cet hyper-parallélépipède sont alors de longueur 2σ mm Cette construction est illustrée par la figure 163, dans un cas à k = 2 dimensions Dans le cas linéaire et normal, la confiance γ qu il faut accorder à la zone de confiance déterminée par l hyper-ellipsoïde est donnée par : γ = F χ 2(1) Comme le montre la table 161 cette confiance diminue rapidement avec le nombre de paramètres k ( le nombre de degrés de liberté ) k γ TAB 161 Confiance γ associée à l hyper-ellipsoïde d équation S/σ 2 = S min /σ 2 +1, en fonction du nombre k de paramètres à ajuster 164 Résumé des propriétés du modèle linéaire Dans le modèle linéaire réduit et régulier où : y = Xθ + ǫ, E{ǫ} = 0, E{ǫǫ t } = σ 2 I, detx t X 0, (16106)

315 298 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS θ 2 σ 22 θ 2 σ 11 S σ 2 = Smin σ θ 1 θ 1 FIG 163 Construction géométrique des écart types σ 11, σ 22 des estimateurs des moindres carrés θ 1 et θ 2, à partir de l ellipse d équation S(θ 1, θ 2 )/σ 2 = S min /σ les estimateurs des moindres carrés θ sont linéaires et possèdent les propriétés suivantes : 1 Les estimateurs des moindres carrés sont convergents si la matrice 1 n Xt X est régulière lorsque la taille de l échantillon augmente indéfiniment, c est-à-dire : [ lim det(1 n n Xt Pr X) 0 ] = [ θ θ ] (16107) Le vecteur n( θ θ) est alors asymptotiquement normal : loi n( θ θ) N(0, σ 2 Σ 1 1 ), où Σ = lim n n Xt X (16108) 2 Les estimateurs θ sont non-biaisés : E{ θ} = θ 3 L estimateur s 2 = 1 n k S min de σ 2 est non- biaisé 4 La matrice des variances-covariances de θ est Vˆθ = σ 2 (X t X) 1 5 D après le théorème de Gauss-Markov, l estimateur θ possède la plus petite variance dans la classe des estimateurs linéaires et sans biais de θ Si les erreurs ǫ sont normales, l estimateur θ est un estimateur du maximum de vraisemblance et possède de plus les propriétés suivantes : 6 θ possède la plus petite variance dans la classe des estimateurs sans biais de θ 7 θ suit un loi normale de moyenne θ et de matrice des variances-covariances σ 2 (X t X) 1 c est-à-dire : ( θ-θ)=n(0, σ 2 (X t X) 1 )

316 165 EXERCICES ET PROBLÈMES La variable aléatoire 1 σ 2 ǫ ǫ t, où ǫ = y X θ, suit une loi du χ 2 à n k degrés de liberté 9 Les estimateurs θ et s 2 = 1 n k ǫ ǫt = 1 n k S min sont exhaustifs pour θ et σ 2 10 θ et s 2 sont indépendants 11 La région de confiance autour de θ où se trouve le vrai paramètre avec la probabilité γ est un hyper-ellipsoïde d équation 1 σ 2 (θ θ) t X t X(θ θ) = k 2 γ, où k 2 γ est trouvé en inversant la fonction de répartition de la loi du χ 2 à k degrés de liberté : k 2 γ = F 1 (γ) Les principaux résultats sont aussi indiqués dans les tables 162 et 163 où l on envisage également le cas singulier : La table 162 donne la solution du modèle linéaire y = Xθ + ǫ par la méthode des moindres carrés La table 163 donne la matrice des variances-covariances Vˆθ des estimateurs θ Une estimation non-biaisée de σ 2 est donnée par : s 2 = S min, r = rg X (16109) n r où n est le nombre de valeurs observées et r le rang de la matrice X du modèle σ 2 I σ 2 V θ (X t X) 1 X t y (X t V 1 X) 1 X t V 1 y C θ C(X t X) ( 1) X t y C(X t V 1 X) ( 1) X t V 1 y TAB 162 Solutions du modèle linéaire par la méthode des moindres carrés La notation ( 1) désigne la matrice pseudo-inverse et les fonctions à estimer β = Cθ ne sont définies que si CP = 0, où P est un projecteur orthogonal sur le noyau de X t X( ou de manière équivalente sur le noyau de X ) Une condition nécessaire et suffisante pour que la pseudo-inverse soit égale à l inverse classique est que les colonnes de X soient linéairement indépendantes : dans ce cas C peut être quelconque 165 Exercices et problèmes Exercice 161 Trouver les pseudo-solutions normales des systèmes singuliers suivants : 1) 0x = 0 ; 2) x = a, x = b ; 3) x + y = a Exercice 162 Montrer que les estimateurs b β = X ( 1) X b θ sont non-biaisés pour l estimation de β = X ( 1) Xθ Exercice 163 Démontrer que la somme des carrés des éléments des lignes ( ou des colonnes ) de la matrice H est égale à l élément diagonal correspondant, c est-à-dire P n j=1 h2 ij = h ii

317 300 CHAPITRE 16 LA MÉTHODE DES MOINDRES CARRÉS σ 2 I σ 2 V Vˆθ σ 2 (X t X) 1 σ 2 (X t V 1 X) 1 V Cˆθ σ 2 C(X t X) ( 1) C t σ 2 C(X t V 1 X) ( 1) C t TAB 163 Matrice des variances-covariances des paramètres estimés par la méthode des moindres carrés L introduction de matrices pseudo-inverses appelle les mêmes remarques que pour la table 162 Exercice 164 Sans faire appel au théorème de Gauss-Markov, démontrer que les estimateurs C b θ de Cθ sont non-biaisés Toujours sans faire appel à ce théorème, calculer l expression de la matrice des variances-covariances de ces estimateurs Exercice 165 Ajustement par une fonction quelconque Généraliser les résultats obtenus dans l exemple 167 aux modèles du type y i = θ 0 + θ 1f(x i) + ǫ i, ( par exemple y i = θ 0 + θ 1 ln(x i) + ǫ i ) Montrer que l estimation des θ i est donnée par : bθ 1 = P (x2 x 2)(y 2 ȳ) P (x2 x 2) 2, ȳ = b θ 0 + b θ 1 x 2 Dans ces formules les indices de sommation sont omis, et les expressions du type P x 2 représentent la somme de tous les éléments de la deuxième colonne de la matrice X, tandis que x 2 représente la moyenne des éléments de cette deuxième colonne Avec ces conventions, trouver que la matrice des variances-covariances des estimateurs est donnée par : σ 2 1 P «Vˆθ = P n x 2 2 x 2 (x2 x 2) 2 x 2 1

318 Chapitre 17 Estimation des paramètres de certaines lois 171 Une loi à un paramètre : la loi exponentielle Cherchons, à l aide d une réalisation (x 1,, x n ) d un n-échantillon formé de valeurs indépendantes de la variable aléatoire X, à estimer le paramètre θ de la loi parente supposée être exponentielle : C est une loi de moyenne et de variance : 1711 Estimation ponctuelle Calculons la fonction de vraisemblance : f(x; θ) = 1 θ e x/θ (171) E {X} = θ, Var(X) = θ 2 (172) L(x 1,, x n θ) = 1 θ n exp( 1 θ n ) x i (173) La statistique X i est exhaustive, puisque la fonction de vraisemblance du n-échantillon ne dépend des X i que par l intermédiaire de cette statistique Calculons lnl/ θ : lnl = n lnθ 1 θ Xi, lnl θ i=1 = n θ + 1 Xi θ 2 = n ( 1 Xi θ 2 θ ) n Ce résultat montre de plus que la statistique non-biaisée 1 n Xi = X est efficace MVB pour l estimation de θ C est également, comme on devait s y attendre, la solution donnée par la méthode du maximum de vraisemblance : lnl θ = 0 θ= x et, 2 lnl θ = < 0 (174) θ= x n x 2

319 302 CHAPITRE 17 ESTIMATION DE PARAMÈTRES L information de Fisher contenue dans le n-échantillon est égale à : I n (θ) = n θ 2 (175) La moyenne de l échantillon étant toujours non-biaisée, quand la moyenne de la population existe, on a alors : E { X} = θ (176) On obtient la variance de X, dans le cas MVB, par l inverse de l information de Fisher : Nous prendrons donc comme estimation ponctuelle de θ : Var( X) = θ2 n (177) ˆθ = 1 n 1712 Estimation d intervalle n x i (178) Montrons que la variable aléatoire Y = 2 n i=1 X i/θ suit une loi du χ 2 à 2n degrés de liberté On sait par ailleurs, équation (911), que la variable aléatoire t = n i=1 X i suit une loi gamma, de densité de probabilité : i=1 f(t; θ) = θ n Γ(n) tn 1 e t/θ H(t) où H est la fonction de Heaviside (179) Effectuons le changement de variable Y = 2t/θ La densité de probabilité g(x) de Y, est telle que f(t)dt = g(x)dx Il vient : dt dx = θ 2 et donc θ n g(x) = θ 2 Γ(n) tn 1 e t/θ H(t); mais H(t) = H(x) = 1 ( ) n 1 t e t/θ H(x); et comme t 2Γ(n) θ θ = x 2 1 g(x) = 2 n Γ(n) xn 1 e x/2 H(x) On reconnaît là une loi du χ 2 à 2n degrés de liberté L intervalle bilatéral symétrique de la variable aléatoire Y au niveau γ est donné par l équation : L équation devient : Pr{χ γ 2 Y < χ } = γ, (1710) γ 2 mais, x = 2 θ t, et 1 ˆθ ˆθ = t, soit : x = 2n n θ { Pr χ γ 2 2n ˆθ } θ < χ2 1 2 = γ, γ 2

320 172 LOI NORMALE 303 d où l on déduit l intervalle de confiance sur θ calculé à partir de l estimation ˆθ : 2n Pr {ˆθ χ γ 2 < θ 2n } ˆθ χ 2 = γ (1711) γ 2 Les valeurs telles que χ sont les quantiles de la loi du χ 2 à 2n degrés de liberté γ 2 On rappelle que les quantiles x α d une loi de densité de probabilité f(x) sont définis par l équation : α = x α f(u)du (1712) 172 Une loi à deux paramètres : la loi normale Soit une réalisation (x 1,, x n ) de n valeurs indépendantes de la variable aléatoire X, suivant la loi normale de densité de probabilité : f(x; µ, σ) = 1 (x µ)2 exp 2πσ 2σ 2 (1713) C est une loi à deux paramètres µ et σ, il y a donc lieu d envisager 5 cas possibles 1721 Estimation de la moyenne µ connaissant σ La statistique X = 1 n n i=1 X i est un estimateur convergent, non-biaisé et efficace (MVB) du paramètre µ On a : La variable aléatoire : E { X} = µ, Var( X) = σ 2 y = X µ σ 2 n = n X µ σ n (1714), (1715) est une variable aléatoire normale réduite N(0, 1) On en déduit, la probabilité γ étant donnée, l intervalle de variation bilatéral symétrique de cette variable aléatoire : { Pr y γ < n X } µ y 1 2 σ 2 γ = γ (1716) 2 Les quantités telles que y γ sont trouvées dans une table des quantiles de la loi 2 normale réduite, d où l intervalle de confiance sur µ : { Pr X σ y 1 n 2 γ µ < X σ } y 1 2 n 2 + γ = γ (1717) 2 Comme la loi normale est paire, y 1 2 γ = y γ On obtient alors pour une observation x de X : 2 µ = x ± σ y 1 n 2 γ, avec la confiance γ (1718) 2

321 304 CHAPITRE 17 ESTIMATION DE PARAMÈTRES Application numérique Supposons que nous disposions d un échantillon de taille 10 issu d une loi normale : x 1 = 0621 x 2 = 0544 x 3 = 1252 x 4 = 1470 x 5 = 1131 x 6 = 0830 x 7 = 2036 x 8 = 0135 x 9 = 2041 x 10 = 0840, et que nous sachions par ailleurs que σ = 1 On calcule x = et on obtient, pour deux valeurs de γ, le tableau suivant : γ y 1 2 γ 2 y 001 = y 025 = µ inf µ sup Estimation de µ ne connaissant pas σ La statistique X est encore un estimateur convergent, sans biais et efficace MVB de µ On a : E { X} = µ, Var( X) = σ 2 n (1719) Comme maintenant nous ne connaissons pas σ 2, il faut donc l estimer La statistique : S 2 = 1 n 1 n (x i X) 2, (1720) est un estimateur convergent, sans biais et asymptotiquement efficace de σ 2 On a : La variable aléatoire : E { S 2} = σ 2, y = X µ S 2 n i=1 Var(S 2 ) = 2σ4 n 1 (1721) = n X µ S suit une loi de Student à (n 1) degrés de liberté, d où l on déduit l intervalle de confiance sur µ : { Pr X S t 1 n 2 γ µ < X S } t 1 2 n 2 + γ = γ (1722) 2 Les valeurs telles que t 1 2 γ sont les quantiles de la loi de Student à (n 1) degrés de 2 liberté et, puisque la loi de Student est paire : t γ = t γ Il en résulte, à partir 2 d une observation x et s 2 : µ = x ± s t 1 n 2 γ, avec la confiance γ (1723) 2,

322 172 LOI NORMALE 305 Application numérique On calcule avec les valeurs précédentes x = 03768, s 2 = 15548, s = et l on obtient le tableau suivant : γ t 1 2 γ 2 (f = 9) t 001 =2821 t 025 =0703 µ inf µ sup Estimation de σ 2 connaissant µ La statistique : S 2 = 1 n n (X i µ) 2 (1724) i=1 est un estimateur convergent, sans biais et efficace MVB de σ 2 On a : La variable aléatoire : E {S } 2 = σ 2, Var(S 2 2σ 4 ) = n (1725) χ 2 = n S 2 σ 2, (1726) suit une loi du χ 2 à n degrés de liberté On en déduit l intervalle de confiance sur σ 2 : Pr Les valeurs telles que χ γ 2 { ns 2 χ γ 2 } σ 2 < ns 2 = γ (1727) χ γ 2 sont les quantiles de la loi du χ 2 à n degrés de liberté Application numérique On sait par ailleurs que µ = 0 On calcule alors avec les valeurs précédentes s 2 = , ns 2 = et l on obtient le tableau suivant : γ χ (f = 10) χ 2 γ 001 =23209 χ2 025 = χ (f = 10) χ 2 γ 099 =2558 χ 2 0,75 = σ 2 inf σ 2 sup

323 306 CHAPITRE 17 ESTIMATION DE PARAMÈTRES 1724 Estimation de σ 2 ne connaissant pas µ Le paramètre µ étant inconnu, il faut l estimer La statistique X est encore un estimateur convergent, sans biais et efficace MVB de µ La statistique : S 2 = 1 n (X i n 1 X) 2, (1728) est un estimateur convergent, sans biais et asymptotiquement efficace de σ 2 On a : La variable aléatoire : E { S 2} = σ 2, i=1 Var(S 2 ) = 2σ4 n 1 (1729) χ 2 = (n 1) s2 σ 2, (1730) suit une loi du χ 2 à (n 1) degrés de liberté, d où l on déduit l intervalle de confiance sur σ 2 : Pr Les valeurs telles que χ γ 2 liberté { (n 1)S 2 χ γ 2 σ 2 < } (n 1)S2 χ 2 = γ (1731) γ 2 sont les quantiles de la loi du χ 2 à (n 1) degrés de Application numérique On calcule avec les valeurs précédentes x = 03768, s 2 = 15548, (n 1)s 2 = et l on obtient le tableau suivant : γ χ (f = 9) χ 2 γ 001 =21666 χ = χ (f = 9) χ 2 γ 099 =2088 χ2 075 = σ 2 inf σ 2 sup Estimation simultanée de µ et σ 2 Le couple aléatoire ( X, S 2 ), défini par : X = 1 n X i, S 2 = 1 n (X i n n 1 X) 2, (1732) i=1 est dans ce cas formé de variables aléatoires indépendantes C est un estimateur convergent, sans biais, asymptotiquement efficace, du couple (µ, σ 2 ) ; il possède un vecteur moyenne µ et une matrice des variances-covariances V, donnés par les expressions : µ = ( µ σ 2 ), V = σ 2 n 0 i=1 0 2σ 4 (1733) n 1

324 172 LOI NORMALE 307 La densité de probabilité du couple : ( X, (n 1)S 2 /σ 2 ) est donc le produit d une loi normale N(µ, σ 2 /n) par une loi du χ 2 à (n 1) degrés de liberté Dans le cas où n est petit, il est délicat de trouver analytiquement la région de confiance dans le plan µ, σ 2 ; mais pour n assez grand, cette densité de probabilité tend rapidement vers le produit de deux lois normales : N(µ, σ 2 /n) N(n 1, 2(n 1)), (1734) ce qui donne en se ramenant à ( X, S 2 ) par changement de variables : N(µ, σ 2 /n) N(σ 2, 2σ 4 /(n 1)) (1735) C est une loi normale à deux dimensions de forme quadratique associée : Q( x, s 2 ; µ, σ 2 ) = n( x µ)2 σ 2 + (n 1)(s2 σ 2 ) 2 2σ 4 (1736) Les courbes telles que Q = λ 2 sont des ellipses contenant la probabilité : P(λ) = 1 exp ( λ 2 /2 ) (1737) Au niveau de confiance γ, la région du plan x, s 2 délimitée par l équation Q( x, s 2 µ, σ 2 ) λ 2 est le domaine de variation du couple aléatoire ( x, s 2 ), alors que la région du plan µ, σ 2 délimitée par l équation Q(µ, σ 2 x, s 2 ) λ 2 est la région de confiance du point (µ, σ 2 ) Pour que la région de confiance soit fermée, il faut remplir la condition : (n 1) > 2λ 2 4 ln(1 γ) 1 (1738) Application numérique On calcule, toujours avec les 10 valeurs précédentes x = 03768, s 2 = 15548, (n 1)s 2 = Au niveau γ = 098, λ 2 = 782 et la courbe n est pas fermée ; en revanche au niveau γ = 05, λ 2 = 1386, la courbe est fermée Cette courbe est donnée par la figure 171 Notons qu il faut un échantillon de taille supérieure ou égale à 17 pour que la région de confiance soit fermée au niveau de confiance γ = 098 Les courbes délimitant les régions de confiance sont loin d être des ellipses, ce qui est normal pour un échantillon de si petite taille

325 308 CHAPITRE 17 ESTIMATION DE PARAMÈTRES FIG 171 Région de confiance au niveau γ = 05 de l estimation simultanée de la moyenne et de la variance d une population normale, calculée à partir d un échantillon de taille 10 Le point indique la position de l estimateur ponctuel ( x, s 2 ), et la croix indique les vraies valeurs du couple (µ, σ 2 )

326 Chapitre 18 Estimation de la loi Nous nous intéressons dans ce chapitre à l estimation de la loi suivie par les variables aléatoires X i d un échantillon iid (X 1,,X n ), lorsque l on dispose d une réalisation (x 1,, x n ) de cet échantillon 181 Estimation de la fonction de répartition Soit F(x) la fonction de répartition inconnue de la population parente d où est issu (X 1,, X n ) 1811 L estimateur «naturel» F n Nous avons défini au chapitre 104 la fonction de répartition empirique F n, calculée à partir d un échantillon iid (X 1,, X n ), comme étant pour tout x le nombre de variables X i n ayant pas dépassé le seuil x Soit : F n (x) = 1 n n 1 ],x] (X i ) (181) i=1 Rappelons brièvement les résultats exposés dans ce chapitre 1 La variable aléatoire F n (x) est une variable aléatoire discrètre à valeurs dans {0, 1 n, 2 n,,1} 2 La variable aléatoire nf n (x) suit une loi binomiale de paramètre p = F(x) : nf n (x) = B(n, F(x)) (182) 3 Les variables aléatoires nf n (x) et F n (x) possèdent des moments à tous les ordres En particulier F n (x) possède pour tout x une moyenne et une variance : E{F n (x)} = F(x), Var(F n (x)) = 1 F(x)(1 F(x)) (183) n L estimateur F n (x) est donc non-biaisé pour l estimation de F(x) 4 La variable aléatoire F n (x) converge presque-sûrement vers F(x) lorsque n et cette convergence est uniforme en x ( théorème 102 de Glivenko-Cantelli ) : sup F n (x) F(x) ps 0 (184) x 309

327 310 CHAPITRE 18 ESTIMATION DE LA LOI L estimateur F n (x) est donc convergent pour F(x) Il suffisait d ailleurs que F n (x) converge seulement en probabilité vers F(x) pour être convergent 5 La variable aléatoire F n (x) converge en loi vers une loi normale : F n (x) loi N(F(x), 1 nf(x)(1 F(x))) (185) L estimateur F n (x) est donc asymptotiquement efficace Bien que l estimateur F n (x) présente toutes les caractéristiques d un bon estimateur, la dernière propriété est asymptotique et nous ne savons pas comment, pour n fini, F n (x) converge vers F(x) L équation (185) nous dit que, pour n assez grand, l erreur entre F n et F peut être rendue aussi petite que l on veut avec une probabilité elle aussi arbitrairement petite ; c est-à-dire : { } ǫ, δ > 0, N > 0, tel que Pr max F n (x) F(x) ǫ 1 δ, (186) sup n N x mais elle ne nous renseigne pas sur la façon dont N dépend de ǫ et δ En particulier nous ne savons pas quelle taille N doit avoir l échantillon afin que l on soit sûr, avec une probabilité δ de se tromper, que l écart maximum entre F n et F ne soit pas supérieur à ǫ Ce problème a été abordé par A N Kolmogorov et fait l objet du chapitre suivant 1812 La statistique de Kolmogorov La statistique sup x F n (x) F(x) introduite ci-dessus mesure la «distance» entre les fonctions empirique F n et théorique F Cette distance découle de la norme de la convergence uniforme bien connue en analyse En tant que variable aléatoire nous nommerons cette quantité «statistique de Kolmogorov» et nous la noterons D n : D n = sup F n (x) F(x) (187) x Cette statistique a été utilisée par Smirnov afin de juger de l adéquation de F n avec F dans ce que l on appelle le «test de Kolmogorov-Smirnov» Pour trouver D n, il n est pas nécessaire de chercher le maximum sur tous les x, il suffit de le chercher aux valeurs de l échantillon En effet : D n = max 1 i n ( F n(x + (i) ) F(X (i)), F n (X (i) ) F(X (i)) ) = max ( i 1 i n n F(X (i)), i 1 n F(X (i)) ), ou encore, en considérant le point milieu : D n = max 1 i n ( 2i 1 2n F(X (i)) ) + 1 2n (188) Kolmogorov a montré que la variable aléatoire Z = nd n suivait une loi indépendante de F quand n Plus précisément, on dispose du théorème suivant : Théorème de Kolmogorov Si F est une fonction de répartition continue, alors : { } nsup lim Pr F n (x) F(x) z = K(z), (189) n x

328 182 ESTIMATION D UNE LOI EN PRÉSENCE DE CENSURE 311 où K(z) est une fonction indépendante de F appelée fonction de répartition de Kolmogorov Elle a pour expression : On a aussi pour n fini : K(z) = + k= ( 1) k e 2k2 z 2 (1810) Pr { nd n z } = K(z)(1 2k2 z 3 n + o( 1 )) (1811) n Le graphe de la fonction K(z) est représenté sur la figure K(z) z = nd n FIG 181 Fonction de répartition de Kolmogorov K(z) La statistique D n est la statistique de Kolmogorov et n est la taille de l échantillon 182 Estimation d une loi en présence de données censurées Il arrive souvent, dans la pratique, que l échantillon (X 1,, X n ) à partir duquel on tente d estimer la loi F, soit composé de données hétérogènes : 1) des valeurs qui sont de véritables observations de la variable aléatoire X ; 2) des valeurs qui ne sont que des bornes supérieures (ou inférieures) On peut être tenté de ne garder que les observations au sens strict et d estimer F n par (181) par exemple Cette façon de faire présente l inconvénient de réduire la taille de l échantillon et on se prive par ailleurs d une information qui est en fait exploitable 1821 Modèle de censure Supposons que l on cherche la loi suivie par le temps Y au bout duquel apparaît un certain événement B après un certain autre A Le phénomène A, qui fixe l origine des temps, peut être l explosion d une super-nova et B l apparition d un pulsar On a

329 312 CHAPITRE 18 ESTIMATION DE LA LOI observé un échantillon de n étoiles ou restes de super-novæ,et pour chaque observation i, i = 1,,n il peut se présenter trois types de situations : 1 On a effectivement observé A et B, et donc on peut en déduire une véritable observation Y i de Y 2 On a observé A, mais au moment où l on considère l échantillon, B n a pas encore été observé pour certains éléments du n-échantillon Tout ce que l on sait est que Y i C i, où C i représente le moment de l observation compté à partir de A On est en présence d une «censure droite» 3 L événement A a aussi été précédement observé, mais au moment où l on considère l échantillon, B a eu lieu sans qu il soit lui-même observé On est cette fois en présence d une «censure gauche» Tout ce que l on sait est que Y i C i Il existe d autres types de censures, dues, par exemple, à la non-observation de A, ou encore des censures droites et gauches simultanées Nous allons maintenant préciser ce que l on entend par censure, ne serait-ce que pour simuler le phénomène à l aide d un programme numérique Nous n envisagerons ici que la censure aléatoire à droite : c est dire que nous nous plaçons dans le cas de «censure droite» précédent, où les C i sont des variables aléatoires indépendantes des Y j A partir de certaines observations, on a construit un n-échantillon (T 1,,T n ), composé de données censurées et non-censurées S il n y avait pas de censure, on observerait un autre n-échantillon (Y 1,,Y n ) issu de la population suivant la loi F que l on cherche à estimer L individu i a été observé au temps C i, qui est aussi une variable aléatoire, mais qui suit la loi G En effet il n y a aucune raison pour que la loi suivie par le phénomène et celle qui dicte nos moments d observations soient identiques En cas de censure aléatoire à droite, seuls deux cas sont possibles : ou bien on a observé avant l apparition de B, auquel cas l observation est censurée à droite, ou bien on a effectivement observé B On a alors : T i = min(y i, C i ) (1812) Il est pratique d introduire l indicatrice D i qui dit si l observation est censurée ou non : D i = 1 Yi C i (1813) 1822 L estimateur de Kaplan-Meier Nous allons employer une terminologie classique issue de l étude des durées de vie Suivant cette étude, on cherche à estimer la fonction de survie S(t) = 1 F(t) Pr{T > t} L événement A est l entrée d un individu dans un flux d événements possédant la propriété étudiée, l événement B est la sortie de l individu de ce flux Le temps que l individu passe dans le flux est sa «durée de vie» A chaque instant t, on a affaire à deux sortes d individus : 1 Les individus qui sortent au temps t : ils sont en nombre M(t) Ce nombre n est différent de zéro qu aux instants de sorties observées 2 Les individus «restants» encore appelés individus «à risque», sont ceux qui au temps t ne sont ni sortis ni censurés avant le temps t : ils sont en nombre R(t) Ce sont les sortants potentiels, les autres sont soit sortis, soit perdus de vue

330 183 DENSITÉ DE PROBABILITÉ EMPIRIQUE 313 En utilisant la variable aléatoire D i définie plus haut et qui vaut donc 0 si l observation est censurée et 1 si elle ne l est pas, on a : M(t) = i R(t) = i D i 1 Ti=t, (1814) 1 Ti t (1815) Avec cette notation, l estimateur de Kaplan-Meier pour S(t) est donné par la formule (Kaplan, Meier, (1958) [40]) : Ŝ KM (t) = ( 1 M(T ) i) (1816) R(T i ) T i t Donnons quelques propriétés de cet estimateur Pour une discussion plus complète se reporter à Droesbeke et al, (1989) [21] Sous des hypothèses assez générales, ŜKM converge presque-sûrement uniformément vers S C est l équivalent du théorème de Glivenko-Cantelli en présence de censure La fonction ŜKM ne présente de points de discontinuité qu aux instants de sorties observées Entre ces instants, cette fonction reste constante La discontinuité tient compte des individus censurés, mais au point de discontinuité suivant où ils sont considérés comme étant sortis, ils ne font plus partie du contingent à risque La fonction ŜKM est alors multipliée par un facteur qui est égal à la proportion des individus à risque qui ne sont pas sortis pendant l intervalle précédent (1 la proportion de ceux qui sortent maintenant) Pour des applications de l estimateur de Kaplan-Meier au domaine de l astronomie voir, par exemple, Feigelson et Nelson (1985) [22] ou Schmitt (1985) [68] 183 Densité de probabilité empirique Si l on calcule la dérivée (au sens des distributions) de F n, on obtient une somme de fonctions de Dirac : d dx F n(x) = 1 n δ(x X i ) (1817) n Cette densité de probabilité peut être considérée comme un estimateur de la densité f = df/dx, quand elle existe Cette estimation contient le principe sous-jacent menant aux méthodes «bootstrap» Cependant la fonction ainsi calculée ne possède généralement pas les propriétés connues de la densité f Il est possible, par exemple, que l on sache que f est continue et il serait alors souhaitable de l estimer par une fonction elle aussi continue, ce qui n est pas le cas de l estimateur (1817) ci-dessus i= Estimateurs subordonnés à un noyau Pour résoudre ce problème, on a pensé (Rosenblatt (1956) [66], Parzen (1962) [58]) à convoluer les fonctions δ par un noyau K(x) afin d obtenir les estimateurs : f K,n (x) = 1 n ( ) x Xi K (1818) nh(n) h(n) i=1

331 314 CHAPITRE 18 ESTIMATION DE LA LOI Le paramètre h contrôle le degré de «lissage» appliqué aux fonctions δ : on l appelle souvent la «fenêtre de lissage» On a démontré que si le noyau K(x) et le paramètre h possèdent les propriétés suivantes : lim x K(x) = 0, x lim h(n) = 0, lim n n K(x)dx = 1, (1819) 1 = 0, (1820) nh(n) alors l estimateur f K,n est convergent et asymptotiquement non-biaisé On impose en général la condition 0 < K(x) <, mais elle n est pas nécessaire On peut être guidé dans le choix de K par des considérations sur le comportement à l infini des «ailes» de la densité f Un noyau classique est : qui, pour h(n) = σ/ n, conduit à l estimateur : K(x) = 1 2π exp x2 2, (1821) 1 f n = exp (x X i) 2 2πnσ 2σ 2 /n (1822) i=1 Pour une application de ces estimateurs dans le domaine de l astronomie voir de Jager et al (1986) [36] 184 Caractéristiques numériques de la loi empirique La loi empirique admettant F n pour fonction de répartition possède des caractéristiques numériques que l on calcule comme espérance mathématique d une fonction de la variable aléatoire X Ainsi, pour les moments, on a : E { X k} = x k df n (1823) Il est facile de montrer que les moments E{X k } sont égaux aux moments empiriques M k On a en effet : E { X k} = 1 n X i = M k n (1824) Les caractéristiques numériques ainsi obtenues peuvent servir d estimateurs des caractéristiques numériques de la loi F i=1 185 Histogrammes On a encore l habitude de regouper les variables aléatoires X (i), dans des cellules de même largeur h = x et d en compter le nombre de façon à obtenir une courbe discontinue en «escalier» appelée histogramme Plus précisément, on choisit un intervalle entre deux valeurs extrêmes x min et x max, que l on découpe en k cellules de

332 185 HISTOGRAMMES 315 largeur x = (x max x min )/k A partir du n-échantillon (X 1,,X n ), on fabrique les k + 2 variables aléatoires P i telles que : x i = x min + (i 1) x, (1825) xi+ x 1 n P i = δ(x X (j) )dx, i = 1,,k, (1826) x i n j=1 xmin 1 n P 0 = δ(x X (j) )dx, (1827) n P k+1 = x max 1 n j=1 n δ(x X (j) )dx (1828) j=1 Ces variables aléatoires P i représentent le nombre de X i qui se trouvent dans la i- ème cellule de l histogramme, divisé par la taille n de l échantillon L histogramme de (X 1,, X n ) contient moins d information que la fonction de répartition empirique F n, car on perd l ordre des X (i) dans une cellule 1851 Loi suivie par le nombre de points dans une cellule Le nombre N i de variables aléatoires telles que X i ou, plus rapidement, le nombre de points dans la cellule i, est par définition égal à np i Ce nombre est également une variable aléatoire dont la loi dépend du fait que le nombre total de points n est ou non une variable aléatoire Cas où n n est pas une variable aléatoire Le nombre de points à répartir dans les k + 2 cellules est connu à l avance La probabilité pour qu un point tombe dans la cellule numéro i est donnée par : p i = Pr {x i < X i x i + x} = pour i = 1,,k et, pour i = 0, k + 1, par : p 0 = xmin f(x)dx, p k+1 = xi+ x x i f(x)dx, (1829) x max f(x)dx (1830) La répartition des points sur l axe des x s effectuant de façon indépendante, on obtient finalement une loi binomiale : Pr {N i = n i } = C ni n pni i (1 p i ) n ni (1831) La moyenne et la variance du nombre de point N i dans la cellule i d un histogramme valent donc : E {N i } = np i, Var(N i ) = np i (1 p i ) (1832) L ensemble des points de l histogramme suit alors une loi multinomiale d expression : Pr {N 0 = n 0, N 1 = n 1,, N k+1 = n k+1 } = n! n 0!n 1! n k+1! pn0 0 pn1 1 pn k+1 k+1 (1833)

333 316 CHAPITRE 18 ESTIMATION DE LA LOI En particulier, les variables aléatoires N i et N j, i j sont corrélées, avec pour coefficient de corrélation : p i p j ρ ij = (1 p i )(1 p j ) (1834) Le coefficient de corrélation ρ ij étant négatif, ces variables aléatoires sont en fait anticorrélées, ce qui indique que, par exemple, N i tend à diminuer lorsque N j augmente Ce comportement est naturel puisque le nombre de points à répartir est fixé Cas où n est une variable aléatoire Si le nombre de points observés n n est pas déterminé à l avance, mais est une variable aléatoire N, on trouvera la loi suivie par la variable aléatoire N i comme somme des probabilités conditionnelles suivantes : Pr {N 1 = n 1 } = k=n 1 Pr {N 1 = n 1 N = k}pr {N = k} (1835) En particulier si le nombre de points à distribuer dans les cellules de l histogramme suit une loi de Poisson de paramètre µ tel que E{N} = µ, on aura : Pr {N i = n i } = C ni k pni i (1 p i ) k=n i Un calcul simple montre que finalement : k ni µk k! e µ (1836) Pr {N i = n i } = (µp i) ni e µpi, (1837) n i! où µ est le nombre moyen de points dans l histogramme et p i la probabilité pour qu un point «tombe» dans la i-ème cellule Le nombre de points N i dans la cellule numéro i est donc, dans ce cas, une variable aléatoire de Poisson ayant pour moyenne et pour variance : E {N i } = E {N}p i, Var(N i ) = E {N}p i (1838) Les variables aléatoires N i et N j, i j sont indépendantes 1852 Le χ 2 de Pearson Pearson a montré que la statistique X 2 définie par l expression ci-dessous : X 2 = k+1 i=0 (N i Np i ) 2 Np i (1839) est une variable aléatoire tendant vers une loi du χ 2 à k + 1 degrés de liberté quand N = n est connu à l avance et tend vers l infini, et à k + 2 degrés de liberté quand N est une variable aléatoire dont la moyenne tend vers l infini Rappelons que k + 2 est le nombre de cellules de l histogramme La statistique X 2 est utilisée dans le test du χ 2 qui vise à décider de la conformité de l échantillon (X 1,, X n ) qui a servi à construire l histogramme vis-à-vis de la loi F qui a permis de calculer les p i

334 185 HISTOGRAMMES Taille des cellules La raison qui pousse à construire des histogrammes correspond à un souci de réduction des données La taille x ou le nombre de cellules k + 2 est fixé à partir d un compromis entre les deux objectifs contradictoires suivants : cette taille ne doit pas être trop grande afin de ne pas trop perdre l information sur l ordre des points, elle ne doit pas être trop petite non plus, auquel cas les cellules sont presque toutes vides Concrètement, le meilleur x sera celui qui minimisera une erreur commise lorsque l on approxime la densité f par l histogramme f x La taille des cellules peut donc être implicitement définie par : min x xmax x min f x (x) f(x) 2 dx (1840) Un bon choix de x est alors : x = [ ( xmax )] 1 6/ (n n out ) f (x) 2 3 dx x min (1841) où n out est le nombre de points en dehors de l intervalle [x min, x max ]

335 318 CHAPITRE 18 ESTIMATION DE LA LOI

336 Chapitre 19 Étude de la dépendance On présente souvent les résultats d une expérience comportant plusieurs observations par un ensemble de points dispersés sur un plan rapporté à un repère orthonormé xoy Chaque observation i fournit deux nombres X i et Y i, que l on considère alors comme les coordonnées d un point P i dans ce repère xoy En général, les points se répartissent dans ce plan sous la forme d un «nuage» et ne se regroupent pas sur une courbe telle que ϕ(x, y) = 0 On interprète ce phénomène comme dû au fait qu une au moins des coordonnées X i et/ou Y i, est une variable aléatoire Chaque mesure, en outre, est susceptible d être entachée d erreur On envisage alors, selon qu une ou les deux coordonnées sont aléatoires, ou selon qu il y a présence de bruit ou non, diverses méthodes d analyse des données On distingue couramment l étude de la corrélation, de la régression, et la recherche de dépendance fonctionnelle 191 Étude de la corrélation Suivant ce modèle, on considère les n observations comme le résultat d un échantillonnage dans une population décrite par une loi F à deux dimensions qui est indépendante de l indice i du «tirage» Les variables aléatoires X i et Y i suivent alors quel que soit i les mêmes lois, qui sont les lois marginales de F Ces variables aléatoires peuvent être indépendantes ou dépendantes Une mesure de la dépendance affine est le coefficient de corrélation ρ, défini par : ρ(x, Y ) = Cov(X, Y ) Var(X)Var(Y ) (191) Lorsque ρ ±1, les points (X i, Y i ) tendent à se regrouper de façon à satisfaire la relation affine : Y E{Y } = ρ X E{X} (192) Var(Y ) Var(X) L étude de la corrélation vise à estimer le coefficient de corrélation ρ à partir d un échantillon de taille n, issu de la population 2D, puis à conclure à une plus ou moins grande dépendance affine entre les variables aléatoires X et Y, suivant que ρ est proche de 1 ou de 0 Avant de poursuivre, il faut bien prendre garde aux points suivants : Si l on conclut que ρ = 0, cela signifie que les X i et Y i sont non-corrélés, mais cela ne signifie surtout pas que ces variables aléatoires sont indépendantes En revanche, des variables aléatoires normales non-corrélées sont indépendantes 319

337 320 CHAPITRE 19 ÉTUDE DE LA DÉPENDANCE S il ressort de l analyse de la corrélation que ρ est proche de 1, cela indique une forte tendance affine entre X i et Y i Par exemple si ρ est proche de 1, X i et Y i auront tendance à augmenter ou diminuer en même temps, et en sens contraire si ρ est proche de 1 Mais cela n implique pas nécessairement qu il existe une relation de cause à effet entre les deux variables 1911 Coefficient de corrélation en présence d erreurs de mesure Les variables aléatoires X et Y peuvent être sujettes à des erreurs de mesures, et ces erreurs ont pour effet de modifier le coefficient de corrélation ρ du couple (X, Y ) Si, par exemple, viennent s ajouter à X et à Y des erreurs U et V de moyenne nulle, de variances σu 2, σ2 V non corrélées entre elles et non corrélées avec les X, Y, alors le coefficient de corrélation des mesures ρ est le coefficient de corrélation du couple (X + U, Y + V ) qui est donné par l expression : [( )( )] ρ = ρ 1 + σ2 U σx σ2 1 2 V σy 2 (193) L effet des erreurs de mesures non-corrélées est de diminuer la valeur du coefficient de corrélation 1912 L estimateur «naturel» de ρ En remplaçant les moments de la population par les moments de l échantillon dans (191), on obtient un estimateur R de ρ dit «estimateur naturel» : R = 1 n 1 n n i=1 (X i X)(Y i Ȳ ) n i=1 (X i X) (194) 2 1 n n i=1 (Y i Ȳ )2 Comme ρ, R est compris entre 1 et 1 Nous appellerons R, le «coefficient de corrélation empirique», de l échantillon C est une variable aléatoire que nous allons maintenant étudier 1913 Le cas normal Si la loi parente 2D est normale, sa densité est alors donnée par l expression : f(x, y) = 1 { 1 exp 2πσ X σ Y (1 ρ 2 ) 1 2 2(1 ρ 2 ) [( x µx ) 2 ( x µx )( y µy ) ( y µy ) 2 ]} 2ρ +, (195) σ X σ X σ Y σ Y où µ X, µ Y sont les moyennes de X et Y, σ X, σ Y leurs écart types et ρ leur coefficient de corrélation La densité de probabilité d un n-échantillon (X 1,, X n ) indépendant (iid) est donnée par le produit des densités simples : f n (x 1, y 1,, x n, y n ) = n f(x i, y i ) (196) i=1

338 191 ÉTUDE DE LA CORRÉLATION 321 La fonction de répartition de la loi suivie par R est trouvée en intégrant dans l espace de définition du n-échantillon sur tout le domaine où R est inférieur à un certain seuil r : F R (r ρ) = f n (x 1, y 1,,x n, y n )dx 1 dy 1 dx n dy n (197) R r La densité de probabilité f R de R est, par définition, la dérivée de F R On a : F R (r ρ) = r 1 Fisher (1915) [24] a donné l expression de cette densité : f R (r ρ) = (1 ρ2 ) n 1 2 π(n 3)! f R (u ρ)du, f R (r ρ) = d dr F R(r) (198) (1 r 2 ) n 4 2 d n 2 d(rρ) n 2 arccos( rρ) 1 r2 ρ 2 (199) Une forme numériquement plus maniable est due à Hotelling (1953) [35] : n 2 f R (r ρ) = 2(n 1)B( 1 2, n 1 2 )(1 ρ2 ) 1 2 (n 1) (1 r 2 ) 1 2 (n 4) (1 rρ) 3 2 n F( 1 2, 1 2, n 1 2, 1 2 (1 + rρ)) (1910) Dans cette dernière expression, B est la fonction eulérienne de première espèce, et F est la fonction hypergéométrique La loi suivie par R possède une moyenne et une variance données par : E{R ρ} = ρ [1 (1 ρ2 ) 2 2n Var(R ρ) = (1 ρ)2 n 1 (1 + 11ρ2 2n Les coefficients d asymétrie et d aplatissement sont donnés par : ] + O(n 2 ), (1911) ) + O(n 3 ) (1912) γ 1 = 6ρ + o(n 1 2 ), γ2 = 6(12ρ2 1) + o(n 1 ) (1913) n n L expression (1911) montre que R est un estimateur légèrement biaisé de ρ ; Olkin et Pratt (1958) [55] ont trouvé l estimateur, par ailleurs unique, R 0 non-biaisé de ρ : R 0 = F( 1 2, 1 2, 1 2 (n 2), (1 R2 ))R (1914) De façon pratique, le biais en 1/n est retiré lorsque l on utilise la formule approchée : R 0 (1 + 1 ) R2 R (1915) 2(n 4) L expression (1912) montre que R est un estimateur convergent de ρ, et par conséquent R 0 est également convergent Dans le cas particulier où ρ = 0, la densité de probabilité de R devient : f R (r ρ = 0) = 1 B( 1 2, 1 2 (n 2))(1 r2 ) 1 2 (n 4) (1916)

339 322 CHAPITRE 19 ÉTUDE DE LA DÉPENDANCE f R (r) r FIG 191 Exemple de densités de lois suivies par le coefficient de corrélation empirique R quand la population est non-corrélée (ρ = 0) et pour des échantillons de tailles : 3,4,5,10 et 30 Lorsque la taille de l échantillon est égale à 4, on trouve R avec une densité uniforme entre 1 et 1 Dans ce cas on a : E {R ρ = 0} = 0, Var(R ρ = 0) = 1 n 1, (1917) et l estimateur R est alors non-biaisé Comme le montre la figure 191, les densités de probabilité f R tendent très lentement vers la loi normale Notons que pour un échantillon de taille 4 issu d une population où ρ = 0, R est distribué uniformément entre 1 et Estimation d intervalle Les expressions de f R permettent de calculer des abaques donnant l estimation d intervalle suivant la méthode exposée au chapitre «Estimation d intervalle» Ces abaques servent à trouver un intervalle ]ρ min, ρ max ] qui, pour un coefficient de confiance γ donné, satisfait l équation : Pr {ρ min (R) < ρ ρ max (R)} = γ (1918) Les valeurs ρ min et ρ max, pour γ = 1 2α donné, sont solutions de : 1 α = F R (r ρ min ), α = F R (r ρ max ) (1919) Dans ce cas, il s agit l intervalle bilatéral symétrique 192 La régression L échantillon sur lequel va porter l étude de la régression est toujours un échantillon indépendant et identiquement distribué (iid), issu d une loi à deux dimensions On s intéresse maintenant aux lois conditionnelles et plus spécialement aux lois suivies

340 192 LA RÉGRESSION 323 par une variable, sachant que l autre est connue Ces lois possèdent, le plus souvent, des moyennes conditionnelles η ainsi définies : η Y X = E{Y X = x}, η X Y = E{X Y = y} (1920) La moyenne des Y, sachant que X = x, η Y X, est en général une fonction de x que l on appelle «courbe de régression de Y par rapport à X», et de façon similaire, la moyenne des X sachant que Y = y est appelée «courbe de régression de X par rapport à Y» 1921 La régression linéaire Certaines lois possèdent des courbes de régression à dépendance affine que, par abus de langage, on appelle «linéaire» Pour ces lois, les paramètres de la régression α 1, α 2 et β 1, β 2 sont par définition : E {Y X = x} = α 2 + β 2 x, E {X Y = y} = α 1 + β 1 y (1921) C est, par exemple, le cas de la loi normale 2D de paramètres µ 1, µ 2, σ 1, σ 2 et ρ Cherchons maintenant les relations pouvant exister entre les coefficients α, β de la régression et les caractéristiques numériques de la loi parente, quand elles existent Montrons tout d abord que les droites de régression se coupent au point de coordonnées (µ 1, µ 2 ), correspondant à la moyenne de la loi En effet, si l on pose x = µ 1 dans (1921), on aura E{Y X = µ 1 } = α 2 + β 2 µ 1, mais E{Y X = µ 1 } = µ 2 En posant de même y = µ 2 pour la droite de régression suivant X on trouverait finalement : µ 2 = α 2 + β 2 µ 1, µ 1 = α 1 + β 1 µ 2 (1922) De façon imagée, cela exprime que les droites de régression se coupent au centre de gravité de la loi parente On aurait trouvé le même résultat en raisonnant de la façon suivante : si x est une variable aléatoire suivant la loi marginale en x du couple (X, Y ), on a : µ 2 = E {Y } = E {E {Y x = X}} = E {α 2 + β 2 X} = α 2 + β 2 µ 1, et un résultat similaire pour l autre droite de régression En suivant un raisonnement analogue, on démontre alors à l aide de la covariance µ 11 : µ 11 = E {(X µ 1 )(Y µ 2 )} = E {E {(X µ 1 )(Y µ 2 ) x = X}}, = E {(X µ 1 )E{(Y µ 2 ) x = X}} Évaluons l espérance la plus interne en utilisant (1921) et (1922) Il vient : E {(Y µ 2 ) x = X} = E {Y x = X} µ 2, = α 2 + β 2 X µ 2, = α 2 + β 2 X α 2 β 2 µ 1, = β 2 (X µ 1 ), soit finalement : µ 11 = E { β 2 (X µ 1 ) 2} = β 2 σ 2 1 (1923)

341 324 CHAPITRE 19 ÉTUDE DE LA DÉPENDANCE De façon analogue on montrerait que : µ 11 = E { β 1 (Y µ 2 ) 2} = β 1 σ 2 2, (1924) d où µ 11 = β 1 σ 2 2 = β 2σ 2 1 En introduisant le coefficient de corrélation ρ = µ 11/(σ 1 σ 2 ), il vient : ρ 2 = β 1 β 2 (1925) Cette dernière propriété, en conjonction avec (1923) et (1924), montre que les droites de régression sont confondues si, et seulement si, ρ = 1 et qu elles sont orthogonales et parallèles aux axes si et seulement si les variables aléatoires X et Y sont non-corrélées, cela dans le cadre des lois non-dégénérées où σ 1, σ 2 0 Finalement on tire de (1922), (1923) et (1924) l expression des coefficients de la régression : α 2 = µ 2 ρ σ 2 σ 1 µ 1, β 2 = ρ σ 2 σ 1, (1926) α 1 = µ 1 ρ σ 1 σ 2 µ 2, β 1 = ρ σ 1 σ 2, (1927) soit, en remplaçant dans la définition (1921) des droites de régression : E {Y X = x} = µ 2 + ρ σ 2 σ 1 (x µ 1 ), (1928) E {X Y = y} = µ 1 + ρ σ 1 σ 2 (y µ 2 ) (1929) 1922 Droites de régression empiriques A partir d un n-échantillon iid, on peut calculer les droites de régression empiriques en remplaçant les moments de la loi dans les expressions (1926) et (1927), par les moments empiriques, ce qui conduit aux estimateurs : β 2 = 1 n n i=1 (X i X)(Y i Ȳ ) n i=1 (X i X), Ȳ = α β 2 X, (1930a) 1 n β 1 = 1 n n i=1 (X i X)(Y i Ȳ ) n i=1 (Y i Ȳ, X = α1 + β 1 Ȳ (1930b) )2 1 n Ces expressions sont identiques à celles que l on aurait trouvées si l on avait calculé les coefficients des droites de moindres carrés, respectivement suivant le modèle y = α 2 + β 2 x et suivant le modèle x = α 1 + β 1 y, ( voir les formules (1697) ) 193 Recherche de dépendances fonctionnelles On suppose maintenant que le nuage de points (X i, Y i ) est dû au déplacement aléatoire ( X i, Y i ) de ces points à partir du point (ẋ i, ẏ i ), voir figure 192 La cause de ce déplacement aléatoire est la présence de bruit dans les mesures visant à déterminer (ẋ i, ẏ i ) Supposons en outre que l on ait de bonnes raisons de croire que les points (ẋ i, ẏ i ) obéissent à la relation fonctionnelle ϕ(x, y) = 0, où la fonction ϕ est connue à un certain nombre de paramètres θ k près Une autre façon de présenter les choses est de dire que si les erreurs de mesures tendaient vers 0, alors les points expérimentaux se regrouperaient le long de la courbe ϕ(x, y) = 0

342 193 RECHERCHE DE DÉPENDANCES FONCTIONNELLES 325 y ϕ(x, y) = 0 X i+1, Y i+1 ẋ i+1, ẏ i+1 ẋ i, ẏ i X i Y i X i, Y i FIG 192 Schéma de principe de la recherche d une dépendance fonctionnelle x Si la loi qui préside à l apparition des erreurs de mesures possède une moyenne, il est naturel d identifier le point (ẋ i, ẏ i ) à cette moyenne Le problème qui se pose alors est de trouver des estimateurs θ k des θ k, à partir d un échantillon de taille n (X i, Y i ), i = 1,,n Le logarithme de la fonction de vraisemblance de l échantillon est donnée par l expression : L(θ 1,, θ k ) = lnf ech (x 1, y 1,, x n, y n θ 1,, θ k ), (1931) où f ech est la densité de la loi suivie par l échantillon Le calcul est simplifié si les erreurs de mesures sont indépendantes entre elles On a alors : L = n lnf i (x i, y i θ 1,, θ k ), (1932) i=1 où f i est la densité de la loi suivie par le point (X i, Y i ) Calculons cette expression dans le cas où les erreurs de mesures X i et Y i suivent une loi normale 2D de moyenne (ẋ i, ẏ i ), de variance (σ xi, σ yi ) et de coefficient de corrélation ρ = 0 Il vient, à une constante additive près : L = 1 2 n (x i ẋ i ) 2 i=1 σ 2 xi + (y i ẏ i ) 2 σyi 2 (1933) Dans cette expression les couples (x i, y i ) représentent une réalisation des (X i, Y i ) Les valeurs (ẋ i, ẏ i ) que l on cherche sont soumises à la contrainte ϕ(ẋ i, ẏ i θ 1,,- θ k ) = 0 Le principe du maximum de vraisemblance nous prescrit de choisir, en tant qu estimation des (ẋ i, ẏ i ), les valeurs ( x i, ŷ i ) qui rendent l expression (1933) maximum Finalement le problème à résoudre est de trouver les ( x i, ŷ i ), i = 1,,n et les θ j, j = 1,,k, tels que : L( x 1, ŷ 1,, x n, ŷ n ) = max ex i,ey i 1 2 n (x i x i ) 2 i=1 σ 2 xi + (y i ỹ i ) 2 σ 2 yi, (1934)

343 326 CHAPITRE 19 ÉTUDE DE LA DÉPENDANCE sujets aux n contraintes : ϕ i ( x i, ŷ i θ 1,, θ k ) = 0, i = 1,,n (1935) La méthode classique pour résoudre ce type de problème est la méthode des multiplicateurs de Lagrange Nous allons illustrer son fonctionnement dans le cas où ϕ est affine ( voir également York (1966) [74] ) : ϕ(x, y) = y ax b = 0 (1936) ϕ( x i, ŷ i ) = ŷ i â x i b = 0 i = 1,,n (1937) Ce modèle correspond au cas où l on veut ajuster une droite dans un nuage de points, en tenant compte de l existence d erreurs suivant l axe des x et suivant l axe des y Il vient : L x i λ i ϕ i x i = 0, L n â ϕ i λ i â = 0, i=1 L ϕ i λ i = 0, ŷ i ŷ i i = 1,,n (1938) L n b ϕ i λ i b = 0 (1939) i=1 Les λ i sont les n multiplicateurs de Lagrange correspondant aux n contraintes Ces équations expriment le fait que lorsque L est extremum, le gradient de L est une combinaison linéaire du gradient des ϕ i On a : L = x i x i, x i σ 2 xi ϕ i x i = â, L = y i ŷ i, ŷ i ϕ i ŷ i = 1, σ 2 yi L â = 0, ϕ i â = x i, ϕ i b L b = 0 (1940) = 1 (1941) En remplaçant ces expressions dans (1938), il vient : x i x i σ 2 xi λ i ( â) = 0, (1942) y i ŷ i σ 2 yi λ i (+1) = 0, (1943) ŷ i â x i b = 0 (1944) Supposons maintenant que les coefficients â et b soient connus Le système à résoudre devient alors linéaire : x i σxi 2 0 σ 2 xi â σ 2 yi 0 1 ŷi x i y = i 1 â 0 λ i σyi 2, (1945) b

344 193 RECHERCHE DE DÉPENDANCES FONCTIONNELLES 327 et il a pour solution : ŷ i = â2 σ 2 xi y i + âσ 2 yi x i + bσ 2 yi σ 2 yi + â2 σ 2 xi x i = âσ2 xi y i + σ 2 yi x i â bσ 2 yi σ 2 yi + â2 σ 2 xi λ i = y i âx i b σ 2 yi + â2 σ 2 xi, (1946), (1947) (1948) Il est facile de montrer que x i et ŷ i sont les coordonnées du point de contact avec la droite cherchée, d une ellipse centrée en x i, y i et dont les axes sont dans le rapport σ xi /σ yi La fonction de vraisemblance prend une forme plus simple si l on introduit les poids w i et les résidus z i suivants : w i (a) = 1 σyi 2 + a2 σxi 2, z i = y i (ax i + b) (1949) On a alors : L(x 1, y 1,, x n, y n a, b) = 1 2 n i=1 (y i ax i b) 2 σ 2 yi + a2 σ 2 xi = 1 n w i zi 2 (1950) 2 i=1 On a donc transformé un problème de minimisation avec contraintes, en un problème de minimisation pure Il est possible d aller plus loin en utilisant maintenant les équations (1939) Il vient : n n λ i = 0, λ i x i = 0 (1951) i=1 i=1 On a λ i = w i z i, d où on tire l expression de b : n b = i=1 ŵiy i â n i=1 ŵix i n, (1952) i=1 ŵi où ŵ i = w i (â) Cette dernière équation peut également s écrire : b = ȳ â x, (1953) avec : ȳ = i ŵiy i, x = i ŵi i ŵix i, (1954) i ŵi ce qui montre que la droite cherchée passe par le centre de gravité du nuage de points, chaque point étant affecté du poids ŵ i à déterminer L expression (1949) définissant les poids montre qu ils sont toujours positifs et que, par conséquent, le centre de gravité est dans l enveloppe convexe du nuage de points Il reste à évaluer â que l on tire de λ i x i = 0, et qui montre que â est solution

345 328 CHAPITRE 19 ÉTUDE DE LA DÉPENDANCE du pseudo-polynôme Q(a) suivant : n Q(a) = a 3 σxiw 2 i 2 x 2 i i=1 + a 2 [ 2 + a[ + n σxi 2 w2 i x i(y i b)] i=1 n σxiw 2 i 2 (y i b) 2 i=1 n w i x i (y i b), i=1 n w i x 2 i ] i=1 (1955) et en posant u i = x i x, et v i = y i ȳ, il vient : n Q(a) = a 3 σxiw 2 i 2 u 2 i i=1 n 2a 2 σxi 2 w2 i u iv i + a[ + i=1 n σxiw 2 i 2 vi 2 i=1 n w i u i v i i=1 n w i u 2 i] i=1 (1956) On obtient aisément la solution Q(â) = 0 par itération

346 Troisième partie Appendices 329

347

348 Annexe A Fonctions spéciales A1 Fonctions eulériennes Le domaine que nous étudions fait souvent appel à deux fonctions continûment et indéfiniment différentiables sur leurs domaines de définition respectifs : ce sont les fonctions eulériennes B et Γ Nous ne considérerons ici que les fonctions eulériennes définies sur R + ; dans le cas général, on les définit sur le plan complexe, les pôles 1, 2, 3 exceptés A11 Fonction eulérienne de première espèce On appelle fonction eulérienne de première espèce la fonction B, définie pour tout couple x, y de Ω =]0, [ ]0, [ par : B(x, y) = 1 0 t x 1 (1 t) y 1 dt (A1) On appelle plus couramment «fonction bêta» la fonction B Propriétés de la fonction bêta La fonction B est symétrique B(x, y) = B(y, x) A12 Fonction eulérienne de deuxième espèce On appelle fonction eulérienne de deuxième espèce la fonction Γ, définie sur Ω = ]0, [ par : Γ(x) = 0 t x 1 e t dt (A2) On appelle plus couramment «fonction gamma» la fonction Γ La figure A1 représente le logarithme de la fonction Γ pour 0 < x 5 331

349 332 ANNEXE A FONCTIONS SPÉCIALES 3 2 ln Γ(x) x FIG A1 Logarithme de la fonction Γ Propriétés de la fonction gamma Formule des compléments Pour tout réel 0 < x < 1, on a : Γ(1 x)γ(x) = π sin πx, 0 < x < 1, (A3a) Γ(1 x)γ(1 + x) = πx sin πx, 0 < x < 1 (A3b) Ces relations permettent de connaître la fonction Γ sur 0 < x < 05 quand on la connaît sur 05 < x < 1, et sur 0 < x < 1 quand on la connaît sur 1 < x < 2 Formule de récurrence Pour tout x réel positif, on a : Entiers et demi-entiers Pour tout entier n 0, on a : Γ(x + 1) = xγ(x), x > 0 (A4) Γ(n + 1) = n!, Γ(n ) = (2n)! 1 π = 2 2n n! 2 En particulier pour n = 0 : Γ(1) = 1, et Γ( 1 2 ) = π 3 2 2n 1 π 2 (A5) Limites Pour x on a : Relation entre la fonction bêta et la fonction gamma Pour tout couple de réels positifs x > 0, y > 0, on a : Γ(x lim ) = x (A6) x Γ(x) B(x, y) = Γ(x)Γ(y) Γ(x + y) (A7)

350 A2 FONCTIONS EULÉRIENNES INCOMPLÈTES 333 A2 Fonctions eulériennes incomplètes A21 Fonction bêta incomplète On appelle fonction bêta incomplète, la fonction B x définie pour 0 x 1 et a, b R + : B x (a, b) = x 0 t a 1 (1 t) b 1 dt, et fonction bêta incomplète normalisée, la fonction I x : I x (a, b) = B x(a, b) B(a, b) Propriétés de la fonction bêta incomplète (A8) (A9) I 0 (a, b) = 0, I 1 (a, b) = 1 (A10) Symétrie I x (a, b) = 1 I 1 x (b, a) (A11) Récurrence On a la relation de récurrence suivante : I x (a, b) = xi x (a 1, b) + (1 x)i x (a, b 1) (A12) Relation avec la loi binomiale On a les relations suivantes : r Cnp k k (1 p) n k = 1 I p (r + 1, n r), k=0 n Cn k pk (1 p) n k = I p (r, n r + 1) k=r Ces relations permettent de calculer la fonction de répartition de la loi binomiale A22 Fonction gamma incomplète On appelle fonction gamma incomplète, la fonction γ, définie pour a, x R + : γ(a, x) = x 0 t a 1 e t dt, et fonction gamma incomplète normalisée, la fonction P : P(a, x) = Propriétés de la fonction gamma incomplète γ(a, x) Γ(a) (A13) (A14) (A15) (A16) Relation avec la loi de Poisson On a la relation suivante : r µ k k! e µ = 1 P(r + 1, µ) (A17) k=0 Cette relation permet de calculer la fonction de répartition de la loi de Poisson

351 334 ANNEXE A FONCTIONS SPÉCIALES A3 Fonction hypergéométrique La fonction hypergéométrique F(α, β, γ; z) est définie par la série suivante : F(α, β, γ ; z) = 1 + αβ γ + z 1! α(α + 1)β(β + 1) z 2 + γ(γ + 1) 2! + α(α + 1)(α + j 1)β(β + 1)(β + j 1) z j γ(γ + 1)(γ + j 1) j! +, (A18) où α, β, γ C, sauf un certain domaine précisé ci-dessous A31 Domaine de définition Si α et β ne sont pas des entiers négatifs ou nuls, mais si γ est un entier négatif ou nul, alors F n est pas définie Si α ou β = m, et γ = n (m, n N), alors F n est pas définie si m < n Si α et β sont des entiers négatifs ou nuls, on doit considérer m comme étant égal au plus grand des deux Convergence Dans le domaine des α, β, γ où F est définie, la série (A18) converge dans le disque ouvert z < 1 Sur le cercle unité z = 1, on a les 3 cas suivants : 1 R(α + β γ) < 0 : la série converge absolument sur tout le cercle unité 2 0 R(α + β γ) < 1 : la série converge sur le cercle unité sauf pour z = R(α + β γ) : la série diverge sur tout le cercle unité Dans le domaine des α, β, γ où F est définie et si α ou β sont des entiers négatifs ou nuls, la série (A18) est finie et F est un polynôme en z défini sur tout le plan complexe A32 Propriétés de la fonction hypergéométrique Pour α = β = γ = 1 la série (A18) devient une progression géométrique de raison z Valeurs particulières F(α, β, γ,1) = F(1, 1, 3 2, 1 2 ) = π 2 (A19) Γ(γ)Γ(γ α β), R(α + β γ) < 0 (A20) Γ(γ α)γ(γ β) Équation différentielle La fonction hypergéométrique F(α, β, γ, z) est une solution u 1 de l équation différentielle suivante : z(1 z) d2 u + (γ (α + β + 1)z)du dz2 dz αβu = 0 ; (A21) l autre solution u 2 s exprime, en général, aussi à l aide d une fonction hypergéométrique

352 A4 ASPECTS NUMÉRIQUES 335 A33 Fonction hypergéométrique généralisée L expression de la fonction hypergéométrique généralisée r F s est donnée par la série suivante : rf s (α 1,,α r, γ 1,, γ s ; x) = Γ(γ 1 )Γ(γ s ) Γ(α 1 )Γ(α r ) n=1 Γ(α 1 + n)γ(α r + n) x n Γ(γ 1 + n)γ(γ s + n) n! (A22) Pour r = 2 et s = 1 on obtient la fonction hypergéométrique introduite ci-dessus : 2F 1 (α 1, α 2, γ ; x) = F(α 1, α 2, γ ; x) (A23) A34 Fonction hypergéométrique confluente Pour les valeurs r = s = 1 de r F s on obtient la fonction hypergéométrique confluente ( ou dégénérée ) 1 F 1 : 1F 1 (α, γ ; x) = 1 + α γ x 1! α(α + 1) x 2 + γ(γ + 1) 2! + + α(α + 1)(α + j 1) x j γ(γ + 1)(γ + j 1) j! + (A24) Les valeurs positives et négatives de cette fonction sont reliées entre elles par la formule : 1F 1 (α, γ ; x) = e x 1F 1 (γ α, γ ; x) (A25) Pour les grandes valeurs négatives de x on a le développement asymptotique suivant : 1F 1 (α, γ ; x) Γ(γ) 1 [ α(α γ + 1) Γ(γ α) x α x + α(α γ + 1)(α γ + 2) 2x 2 + ] (A26) Si les paramètres α et β sont entiers ou demi-entiers alors 1 F 1 peut s exprimer à l aide de fonctions usuelles Ainsi, par exemple : 1F 1 ( 1 2, 1 ; x) = e 1 2 x I 0 ( 1 2 x), (A27) 1F 1 ( 1 2, 1 2, 1 2 x2 ) = e 1 π 2 x2 + x [2Φ(x) 1], (A28) 2 où I 0 est la fonction de Bessel modifiée d ordre 0 et Φ est la fonction de Laplace ( fonction de répartition d une variable aléatoire normale réduite ) A4 Aspects numériques Les programmes cités ci-dessous peuvent être trouvés dans l ouvrage Numerical Recipes, de Press et al (1986) [63] On y trouvera également les détails des méthodes numériques utilisées

353 336 ANNEXE A FONCTIONS SPÉCIALES A41 Fonction gamma La fonction Γ devient très vite plus grande que le plus grand réel représentable par un ordinateur, aussi préfère-t-on calculer le logarithme de cette fonction Dans la pratique, la fonction Γ apparaît dans des rapports de grands nombres et ce rapport est souvent de l ordre de l unité C est donc bien la fonction ln Γ qui est vraiment utile Le programme GAMMLN(X) calcule la fonction ln Γ(x) Sa précision est de l ordre de ǫ = Elle est meilleure pour x > 1 que pour 0 < x < 1 Dans ce dernier domaine on s aidera de la formule (A3b) et on calculera : A42 Fonction bêta ln Γ(x) = ln π(1 x) ln Γ(2 x) sinπ(1 x) On calcule facilement la fonction B à l aide du programme précédent et de la formule (A7) Le programme BETA(X,Y) calcule cette fonction bêta : B(x, y) A43 Fonction gamma incomplète Le programme GAMMP(A,X) calcule la fonction gamma incomplète normalisée P(a, x) A44 Fonction bêta incomplète Le programme BETAI(A,B,X) calcule la fonction bêta incomplète normalisée I x (a, b)

354 Annexe B Outils mathématiques B1 Matrices Afin d alléger l exposé nous ne considérons que les matrices à éléments réels Une matrice A à n lignes et m colonnes est un élément de R n,m On note x un vecteur colonne et x t un vecteur ligne Un vecteur unitaire u est un vecteur tel que u t u = 1 B11 Matrices définies positives Définition B1 Une matrice carrée M R n,n est dite définie positive si, et seulement si, x 0 R n, la forme quadratique x t Mx est positive On note M > 0 pour indiquer que M est définie positive, on a alors : M > 0 x R n, x t Mx = n M ij x i x j > 0 i,j=1 Dans cette définition, la seule restriction sur M est qu elle soit carrée Il est cependant possible de ne considérer que les matrices symétriques car l expression x t Mx est invariante si l on ajoute à M une matrice antisymétrique En effet, si B t = B on a : x t Bx = (x t Bx) t = x t B t x = x t Bx = 0 On donne ci-dessous un ensemble de conditions nécessaires et suffisantes pour qu une matrice symétrique soit définie positive Théorème B1 Pour qu une matrice A réelle et symétrique soit définie positive, il faut et il suffit qu une des conditions suivantes soit satisfaite 0 x 0 R n, x t Ax > 0 1 A possède des valeurs propres positives : λ 1 λ 2 λ n > 0 2 Les éléments diagonaux a ii de A sont positifs et les éléments en dehors de la diagonale a i j satisfont l inégalité : a 2 ij < a iia jj 3 Les déterminants principaux de A sont positifs C est-à-dire : a 11 > 0, a 11 a 12 a 21 a 22 > 0, a 11 a 12 a 13 a 21 a 22 a 23 > 0, deta > 0 a 31 a 32 a

355 338 ANNEXE B OUTILS MATHÉMATIQUES Définition B2 Une matrice carrée M est dite semi-définie positive ( où définie nonnégative ) si, et seulement si, x la forme quadratique x t Mx est positive ou nulle et il existe au moins un vecteur z 0 tel que z t Mz = 0 On note M 0 une matrice semi-définie positive De la même façon que pour les matrices définies positives on peut, pour les matrices semi-définies positives, ne s intéresser qu à la classe des matrices symétriques Il existe de très nombreux théorèmes concernant les matrices symétriques définies positives et semi-définies positives ( on consultera, par exemple, l appendice A de Rao & Toutenburg [64] ) B12 Matrices projectives Définition B3 Une matrice carrée A est dite matrice projective si : A 2 déf = AA = A Une matrice projective symétrique est appelée projecteur orthogonal, dans tous les autres cas c est un projecteur oblique Théorème B2 Soit A R n,n une matrice projective de rang rg A = r n On a : 0 A 2 = A, 1 Les valeurs propres de A valent 0 ou 1, 2 La trace de A est égale à son rang, tracea = rg A, 3 Si A est de rang n, alors A = I, 4 B = I A est aussi une matrice projective, on a AB = BA = 0 La matrice I uu t, où u est un vecteur unitaire, est un projecteur orthogonal ( dans le plan perpendiculaire au vecteur u ) B13 Inverses généralisées Définition B4 Soit une matrice rectangulaire A R m,n On appelle inverse généralisée la matrice rectangulaire A R n,m, telle que : AA A = A Une matrice A quelconque admet toujours une inverse généralisée, mais elle n est pas nécessairement unique En multipliant l expression précédente à gauche et à droite par A, on montre que les matrices carrées A A et AA sont des matrices projectives Théorème B3 ( Moore-Penrose ) Étant donné une matrice A quelconque, il existe une et une seule matrice A ( 1), appelée matrice pseudo-inverse de A, vérifiant les conditions suivantes : AA ( 1) A = A A ( 1) AA ( 1) = A ( 1) (A ( 1) A) t = A ( 1) A (AA ( 1) ) t = AA ( 1)

356 B2 ÉLÉMENTS DE TOPOLOGIE 339 B2 Éléments de topologie B21 Espaces topologiques On dit qu un ensemble E est un espace topologique si on a pu y définir la notion de partie ouverte Une partie ouverte, ou plus simplement un ouvert, est un élément d une famille O de parties de E possédant les propriétés suivantes : O1 E O, O, (E et le vide sont ouverts ), O2 A i O n i=1 A i O, ( une intersection finie d ouverts est ouverte ), O3 A x O x A x O, ( une réunion quelconque d ouverts est ouverte ) Par «réunion quelconque» on entend toute réunion finie ou infinie dénombrable ou non On appelle topologie une famille d ouverts, et partie fermée ( ou fermé ) toute partie de E dont le complémentaire est ouvert Il résulte de cette définition que E et sont à la fois ouverts et fermés B22 Espaces métriques Un espace métrique est un ensemble quelconque E muni d une distance entre un couple (x, y) de ses éléments Une distance est une application d de E E dans R qui est d abord un écart, c est-à-dire x, y, z E : 1 d(x, y) = d(y, x) ( symétrie ), 2 d(x, y) d(x, z) + d(z, y) ( inégalité triangulaire, ) 3 d(x, y) 0 ( non négativité ) Un écart peut être nul même si x y Pour que d soit une distance la condition 3 précédente doit être remplacée par : 3 d(x, y) = 0 = x = y ( non dégénérescence ) La non négativité devient alors une conséquence de la définition On appelle boule ouverte de centre O E et de rayon r > 0, la partie de E suivante : B O (r) = {x d(o, x) < r} Une boule ouverte est un ouvert, tout espace métrique est donc un espace topologique B3 Structures algébriques B31 Espaces vectoriels Un espace vectoriel E sur un corps K ( K = R ou K = C ) est un ensemble pour lequel existe une addition entre éléments de E et une multiplication d un élément du corps par un élément de E Ces opérations doivent satisfaire les axiomes suivants : 1 Il faut qu elles soient stables, c est-à-dire, x, y E, α K : x + y E et α x E 2 L ensemble E doit être un groupe abélien pour l addition C est-à-dire x, y, z E : x + y = y + x, ( x + y) + z = x + ( y + z), et il doit exister un élément neutre 0 et un inverse x appartenant à E, tels que : x + 0 = 0, x + x = 0

357 340 ANNEXE B OUTILS MATHÉMATIQUES 3 La multiplication par un élément du corps doit posséder les propriétés suivantes, α, β K, x, y E : (α + β) x = α x + β x, α( x + y) = α x + α y, α(β x) = (αβ) x, 1 x = x Les éléments d un espace vectoriel s appellent des vecteurs, on les note habituellement par des lettres minuscules de l alphabet latin : x, y, E Les éléments du corps sont des nombres, on les note habituellement par des lettres minuscules de l alphabet grec : α, β, K Le corps lui-même est appelé espace numérique Enveloppe linéaire Soit M un sous-ensemble non vide de E ( M E ) On appelle enveloppe linéaire de M l ensemble, span(m), de toutes les combinaisons linéaires finies des vecteurs de M : α i K, span(m) déf = i α i x i où i x i M On pose span( ) = L ensemble M est un sous-espace vectoriel si, et seulement si, span(m) = M et M Indépendance linéaire Les vecteurs x 1,, x n d un espace vectoriels sont dits linéairement indépendants si, et seulement si, : α i K, α 1 x α n x n = 0 = i, α i = 0 Ainsi il n est pas possible d exprimer linéairement le vecteur x i à l aide des autres vecteurs x j i La dimension de E, dim(e), est le nombre maximum ( s il existe ) de vecteurs de E linéairement indépendants Si ce nombre existe E est dit de dimension finie, E est dit de dimension infinie si n N il existe n vecteurs de E linéairement indépendants Par définition, la dimension du sous-espace vectoriel réduit au seul élément nul est nulle (dim({ 0}) = 0 ) Bases d un espace vectoriel Si E est de dimension finie ( dim E = n ), on appelle base de E un ensemble de n vecteurs de E linéairement indépendants Les vecteurs de E peuvent se décomposer de façon unique sur une base { e 1,, e n } de E : x E, x = α 1 e α n e n Les nombres α 1,,α n sont appelés les composantes du vecteur x par rapport à la base { e 1,, e n } Changement de base Soit une base = { e 1,, e n } d un espace vectoriel de dimension n, supposons que l on trouve une nouvelle base = { e 1,, e n} par l intermédiaire des n combinaisons linéaires suivantes : n e i = a j i e j i, j = 1,,n j=1

358 B3 STRUCTURES ALGÉBRIQUES 341 Si les x i désignent les composantes d un vecteur x sur la base et les x j sur la base, il vient : n x i = a i jx j, j=1 On range les a i j dans une matrice carrée A de la façon suivante : a 1 1 a 1 2 a 1 n a 2 1 a 2 2 a 2 n A = a n 1 a n 2 a n n Avec cette convention, la colonne numéro i de A est formée des composantes du nouveau vecteur e i suivant l ancienne base Cette matrice, dite de changement de base permet de calculer les anciennes composantes de x en fonction des nouvelles alors qu elle est définie comme permettant de calculer la nouvelle base à partir de l ancienne Pour cette raison les composantes d un vecteur définies par l enveloppe linéaire de la base, sont dites contravariantes Pour connaître les nouvelles composantes en fonction des anciennes il faut que la matrice inverse de A existe, c est-à-dire : deta 0, alors les vecteurs e i forment effectivement une base de l espace vectoriel Si B = A 1, on a : n x i = b i j xj, soit, en notation matricielle x = Bx j=1 Suivant la convention tensorielle, on note des composantes contravariantes avec un indice supérieur Cette convention n est malheureusement pas respectée en statistique où l on utilise plutôt la notation matricielle B32 L espace dual Formes linéaires Une forme ( ou fonctionnelle ) f est une application d un espace vectoriel E dans l espace numérique C ( ou R ) On note f( x) le résultat de cette application Dans le cas particulier des formes linéaires, définies ci-dessous, ce nombre est noté f, x Une forme f est une forme linéaire si : 1 f, x + y = f, x + f, y, 2 f, λ x = λ f, x L addition entre formes linéaires et la multiplication par un nombre sont définies de la façon suivante : f + g, x = f, x + g, y, λf, x = λ f, x Les formes linéaires munies de ces deux opérations, forment un espace vectoriel appelé espace dual de E, on le note E Bases de l espace dual Si E est un espace vectoriel de dimension finie, l espace dual E possède alors la même dimension que E : dime = dime Si = { e 1,, e n } est une base de E, l ensemble = {e 1,, e n }, où e i = e i, e j = δ ij est une base de E Toutes les formes linéaires f sur E s exprime alors linéairement en fonction de la base, on a : n f E, f = f i e i avec f i = f, e i i=1

359 342 ANNEXE B OUTILS MATHÉMATIQUES La suite ordonnée (f 1,, f n ) des composantes de f par rapport à la base est un vecteur noté f Changement de base Soit A la matrice de changement de base qui fait passer de l ancienne base à la nouvelle base On trouve les nouvelles composantes f i de f en fonction des anciennes f j, de la façon suivante : f i = n a j i f j, soit f t = f t A j=1 Les composantes de f varient en fonction de la matrice de changement de base, comme la base elle-même, pour cette raison elles sont dites covariantes Suivant la convention tensorielle on note des composantes covariantes avec un indice inférieur B33 Espace vectoriels normés Un espace vectoriel E sur K est dit normé s il possède une norme Une norme est une application ν de E dans R, notée qui possède d abord les propriétés d une semi-norme, c est-à-dire λ K, x E : 1 λ x = λ x ( homogénéité absolue ), 2 x + y x + y ( inégalité de convexité ) Il découle immédiatement de ces premières propriétés : x 0, 0 = 0, x = x et x y x ± y x + y La semi-norme d un vecteur peut être nulle sans que ce vecteur soit nul Pour être une norme ν doit en outre posséder la propriété suivante : 3 x = 0 = x = 0 ( non dégénérescence ) Un espace normé est un espace métrique, en effet d( x, y) = x y est une distance dans E La réciproque n est en général pas vraie Pour qu une distance d entre deux éléments d un espace vectoriel soit engendrée par une norme il faut et il suffit qu elle remplisse les deux conditions supplémentaires suivantes : 1 d( x + z, y + z) = d( x, y) ( invariance par translation ), 2 d(λ x, λ y) = λ d( x, y) ( homogénéité absolue ) Dans ces conditions, il existe alors une et une seule norme telle que d( x, y) = x y B34 Formes hermitiennes et produit scalaire Forme antilinéaire Une forme antilinéaire ( à symétrie hermitienne ) sur un espace vectoriel E construit sur un corps K est une application qui à un couple ( x, y) de vecteurs de E fait correspondre un élément de K ( un réel ou plus généralement un complexe ) C est une application de E E vers K qui doit satisfaire les axiomes suivants, λ K et x, y, z E : 1 ( x y) = ( y x) ( symétrie hermitienne ), 2 ( x λ y) = λ( x y) ( homogénéité ), 3 ( x y + z) = ( x y) + ( x z) ( linéarité à droite ) La notation z désigne le complexe conjugé de z Il vient des axiomes que ( x y) est anti-linéaire à gauche : (λ x y) = λ( x y), ( x + y z) = ( x z) + ( y z)

360 B3 STRUCTURES ALGÉBRIQUES 343 Forme hermitienne On appelle forme hermitienne la quantité ( x x) déduite de la forme antilinéaire L égalité : ( x y) = 1 4 [( x+ y x+ y) ( x y x y)]+ i [( x+i y x+i y) ( x i y x i y)], 4 montre qu il y a équivalence entre l existence d une forme antilinéaire à symétrie hermitienne et d une forme hermitienne On a : ( 0 0) = 0, mais la réciproque n est pas nécessairement vraie Forme définie Pour être une forme définie ( x x) doit en outre satisfaire l axiome : 4 x 0 = ( x x) 0, ( forme définie ), On a alors l équivalence suivante : ( x x) = 0 x = 0 Théorème B4 ( Cauchy-Schwarz ) Soient x et y deux vecteurs appartenant à un espace vectoriel E et ( x y) une forme définie Alors : ( x y) 2 ( x x)( y y), (B1) l égalité n ayant lieu que si, et seulement si, x et y sont linéairement dépendants Par conséquent : ( x x)( y y) 0, ce qui implique qu une forme définie est : soit définie positive, soit définie négative Produit scalaire 5 x E ( x x) 0 Un produit scalaire est une forme définie positive Matrice de Gram Soit Γ = { x 1,, x k } un ensemble de k vecteur de E On appelle «matrice de Gram» de Γ la matrice G dont les éléments g ij sont égaux aux produits scalaires des vecteurs de Γ On a : ( x 1 x 1 ) ( x 1 x k ) G = ( x k x 1 ) ( x k x k ) La matrice G est définie non-négative, on a detg 0 et de plus : Théorème B5 Pour qu un ensemble de vecteurs soit composé de vecteurs linéairement indépendants, il faut et il suffit que sa matrice de Gram ne soit pas singulière [ k α i x i = 0 i, α i = 0 ] detg 0 i=1 Si l ensemble est réduit à seulement deux vecteurs x et y, le théorème précédent exprime l inégalité de Cauchy-Schwarz

361 344 ANNEXE B OUTILS MATHÉMATIQUES B35 Espaces préhilbertien L existence d un produit scalaire confère à un espace vectoriel de dimension finie ou infinie une structure d espace préhilbertien ( un espace hibertien est un espace préhilbertien complet ) Un espace préhilbertien est normé par l intermédiaire de la norme : x = ( x x) 1 2 (B2) La réciproque n est, en général, pas vraie On a cependant le théorème suivant : Théorème B6 Un espace vectoriel normé E est un espace préhilbertien si, et seulement si, la norme satisfait l égalité du parallélogramme : x + y 2 + x y 2 = 2( x 2 + y 2 ) (B3) Orthogonalité Par définition deux vecteurs x, y E sont dit orthogonaux ( x y ) si, et seulement si, leur produit scalaire est nul : ( x y) = 0 x y Le seul vecteur orthogonal à tous les vecteurs de E est le vecteur nul : y E, ( y x) = 0 x = 0 Théorème B7 (Pythagore) Soit E un espace vectoriel muni d un produit scalaire, on a : x, y E, ( x y) = 0 = x + y 2 = x 2 + y 2, où est la norme induite par le produit scalaire La réciproque n est vraie que dans les espaces réels où : ( x y) R Systèmes orthonormés Un ensemble U fini ou infini de vecteurs d un espace préhilbertien E s appelle un système orthonormé si : u i, u j U, ( u i u j ) = δ ij, où δ ij est le symbole de Kronecker ( i, j N, δ ii = 1, δ i j = 0 ) On démontre grâce au processus d orthogonalisation de Gram-Schmidt que dans un espace préhilbertien E il existe toujours un système orthonormé ayant une infinité dénombrable d éléments Dans le cas des espaces de dimension n finie, un système orthonormé de n éléments constitue une base Soient { v 1,, v n } n vecteurs linéairement indépendants de E, on trouve le premier vecteur u 1 par : le deuxième est trouvé par : u 1 = v 1 v 1, u 2 = v 2 ( u 1 v 2 ) u 1, u 2 = u 2 u 2 On répète le processus pour tous les i n en appliquant la formule : i 1 u i = v i ( u j v i ) u j, j=1 u i = u i u i

362 B3 STRUCTURES ALGÉBRIQUES 345 B36 Espaces unitaires On réserve le nom d espace unitaire aux espaces préhilbertiens de dimension finie Dans un espace unitaire E, il est possible d exprimer la forme générale prise par les formes antilinéaires par l intermédiaire du tenseur métrique Tenseur métrique Soit = { e 1,, e n } une base de E et x, y E On a x = n i=1 x i e i, y = n j=1 y j e j et il vient, ( x y) = n i,j=1 x iy j ( e i e j ) On pose g ij = ( e i e j ), les g ij sont les éléments du tenseur métrique La symétrie hermitienne impose : g ji = g ij Réciproquement, si l on se donne n 2 nombres g ij tels que g ji = g ij, la forme ( x y) = ij g ijx i y j, où les x i et les y i sont les composantes de x et y par rapport à une certaine base, est une forme antilinéaire Le théorème B1 donne une série de conditions nécessaires et suffisantes pour que des g ij, définissant une forme antilinéaire, définissent de plus un produit scalaire Une de ces conditions est que g ij 2 < g ii g jj Norme induite Dans le cas d une base orthonormée on a g ij = δ ij, le produit scalaire s écrit alors ( x y) = x 1 y x n y n et la norme induite : x déf = ( x x) 1 2 = [ x x n 2]1 2 On peut considérer l ensemble des composantes de x par rapport à une base comme étant un vecteur La formule ci-dessus montre que la norme induite par le produit scalaire est identique à la norme euclidienne du vecteur des composantes de x par rapport à une base orthonormée B37 Espaces vectoriels arithmétiques On appelle espace vectoriel arithmétique, un espace vectoriel dont les vecteurs sont des suites ordonnées de n nombres Cet espace est noté R n ou C n suivant que ces nombres sont des nombres réels ou des nombres complexes Par exemple, dans un espace vectoriel de dimension finie n, les composantes d un vecteur par rapport à une base forment une suite ordonnée de n nombres et constituent un vecteur d un espace arithmétique Normes Dans un espace arithmétique toutes les quantités suivantes sont des normes : n N +, [ x 1 n + + x n n] 1 n déf = x n, sup x i déf = x i Produit scalaire subordonné Une matrice symétrique définie positive A définit un produit scalaire ( ) A appelé produit scalaire subordonné à la matrice A On a : ( x y) A = ij a ij x i y j = x t Ay L inégalité de Cauchy-Schwarz s applique à ce produit scalaire, nous en donnons plusieurs formes équivalentes dans le théorème suivant

363 346 ANNEXE B OUTILS MATHÉMATIQUES Théorème B8 Si x et y sont des vecteurs d un espace vectoriel arithmétique R n et si A R n,n est une matrice symétrique définie positive, alors on a les propriétés suivantes : 0 (x t y) 2 (x t x)(y t y), 1 (x t Ay) 2 (x t Ax)(y t Ay), 2 (x t y) 2 (x t Ax)(yA 1 y), (x t y) 2 3 sup x 0 x t Ax = yt A 1 y, 4 sup (x t y) 2 = y t A 1 y x t Ax=1 B4 Applications linéaires Une application A : X Y, d un espace vectoriel X dans un autre espace vectoriel Y, est une application linéaire si, et seulement si, elle possède les propriétés suivantes : 1 A( x + y) = A x + A y, 2 A(λ x) = λa x Continuité L application A est continue en x 0 si A x A x 0 < ǫ dès que x x 0 < η(ǫ, x 0 ) Si η ne dépend pas de x 0, la continuité est uniforme Théorème B9 Soit A : X Y une application linéaire, alors les propositions suivantes sont équivalentes : 1 A est continue à l origine, 2 m; A x m x, ( application bornée ), 3 A est continue uniformément Définition B5 Noyau L ensemble des solutions de l équationa z = 0 constitue un sous-espace vectoriel, on l appelle noyau de l application A et on le note kera kera déf = { z A z = 0} Définition B6 Image L ensemble des vecteurs x de la forme y = A x est un sousespace vectoriel, on le note imaa C est l ensemble de tous les vecteurs de Y qui peuvent être «atteints» par A y ima A x Y ; A x = y Définition B7 Rang On appelle rang de l application linéaire A la dimension de imaa, ( si celle est finie ) On note rg A le rang de A : rg A déf = dimimaa Théorème B10 Fredholm Pour que l équation A x = b admette une solution unique pour tout b de E, il faut et il suffit que l équation homogène : A z = 0, n admette que la solution triviale z = 0

364 B4 APPLICATIONS LINÉAIRES 347 B41 Application adjointe Pour toute application linéaire continue, A : X Y, il existe une application linéaire continue A telle que : f, Ax = A f, x, f Y, x X L application A est appelée application adjointe de A On a (λa) = λa, (A + B) = A + B, (AB) = B A B42 Espaces de dimensions finies Forme matricielle Il est possible de représenter, à l aide d une matrice, toutes les applications linéaires d un espace de dimension finie dans un autre espace de dimension finie Soit A : X n Y m une application linéaire d un espace vectoriel de dimension n dans un espace vectoriel de dimension m Soient (x 1,, x n ) les composantes d un vecteur x de X n suivant une base X et (y 1,, y m ) les composantes du vecteur y = A x suivant une base Y de Y m Il vient, d après la linéarité de A : y j = n a j i xi, i=1 j = 1,,m On range les a j i sous forme d une matrice rectangulaire à m lignes et n colonnes, de la façon suivante : A = a1 1 a 1 n a m n a m 1 La colonne numéro i de A est égale aux composantes du vecteur A e i sur la base Y de Y m En notant x et y les vecteurs colonnes des composantes de x suivant X et de y suivant Y, on peut écrire l équation y = A x de façon équivalente, sous la forme : y = Ax Ainsi une application linéaire quelconque est entièrement caractérisée par son effet sur une base de l espace de départ La représentation matricielle de A dépend des bases choisies pour X n et Y m Si S et P désignent les matrices de changement de base respectivement dans X n et Y m, on trouve la nouvelle représentation A de A suivant les nouvelles bases, grâce à la formule suivante : A = P 1 AS, où x = Sx, y = Py Pour une application A : X n Y m, on a les Propriétés suivantes : 1 Le rang de l application est égal au rang de la matrice qui la représente : rg A = rg A 2 La dimension de l espace de départ est égale à la somme de la dimension de l espace image ( c est-à-dire du rang de A ) et de la dimension du noyau : dimima A + dimkera = dimx n

365 348 ANNEXE B OUTILS MATHÉMATIQUES

366 Annexe C Solution des exercices C1 Exercices du chapitre 1 Exercice 14 On démontre d abord que P2a et P2b impliquent P2 Si les A k sont disjoints on a : Pr{ k=1 A k} = Pr{ N k=1 A k} + Pr{ k>n A k}, soit en vertu de P2a : Pr{ k=1 A k} = N k=1 Pr{A k} + Pr{ k>n A k} Par définition on a : k=1 A k} = Pr{ k=1 A k} = lim N Pr{ N k=1 A k} on peut alors écrire que : Pr{ N lim N k=1 Pr{A k} + lim N Pr{ k>n A k} Notons D k = k>n A k, la suite des D k est monotone décroissante, sa limite est le vide (limd k = ), en vertu de P2b on a lim N Pr{D N } = 0 : Pr{ k=1 A k} = lim n n k=1 Pr{A k} déf = k=1 Pr{A k} On démontre ensuite que P2 implique P2a et P2b De toute évidence P2 implique P2a Pour démontrer que P2 implique aussi P2b, on fabrique la suite {A k } des complémentaires des D k dans D k 1 : A k = D k 1 \ D k Cette suite est formée d éléments disjoints et par construction k>n A k = D N On a : lim N Pr{ k>n A k} = lim N k>n Pr{A k} en vertu de P2, ensuite k>n Pr{A k} 1 car les A k sont disjoints, la série est convergente d où lim N k>n Pr{A k} = 0 ce qui montre que lim N D N = 0 C2 Exercices du chapitre 2 Exercice 22 On a A = 1/τ et µ = σ = τ Ensuite, Pr{T > 10} = 1 F(10), où F est la fonction de répartition de T : F(t) = 1 e t/τ, d où Pr{T > 10} = e Par définition Pr{T > 10 T > 5} = Pr{T > 10, T > 5}/ Pr{T > 5} En remarquant que Pr{T > 10, T > 5} = Pr{T > 10} il vient Pr{T > 10 T > 5} = e 10/2 /e 5/5 = e Un calcul équivalent montre que dans le cas particulier de cette loi on a Pr{T > a + b T > a} = Pr{T > b} Exercice 25 On a : µ k = (x µ) k df = k r=0 ( )k Ck rµr (x µ) k r df c est-à-dire µ k = k r=0 ( )k Ck rµr µ k r = k 2 r=0 ( )k Ck rµr µ k r + ( )k kµ k 1 µ + ( ) k µ k µ 0 Les deux derniers termes valent (k( )k 1 +( ) k )µ k soit ( ) k (k 1)µ k, ce qui est la formule demandée Pour µ k on écrit µ k = (x µ + µ)df et le calcul est similaire 349

367 350 ANNEXE C SOLUTION DES EXERCICES Exercice 26 On a Pr{N = n} = (1 p) n 1 p, si on pose q = 1 p il vient : E{N} = p(1 + 2q + 3q nq n 1 + ) = p(1 q) 2 = 1/p Pour la variance Var(N) = µ 2 µ 2 et µ 2 = p( q q 2 + n 2 q n 1 + ) L expression entre parenthèses est la dérivée de (q+2q 2 +3q 3 +nq n + ) qui est égale à q/(1 q) 2, il vient µ 2 = (1 + q)/p 2 et finalement Var(N) = (1 p)/p 2 C3 Exercices du chapitre 5 Exercice 51 On a E{X} = 1p 1 + 2p 2 + 3p 3 + 4p 4 +, que l on peut écrire de la façon suivante : E{X} = (p 1 + p 2 + p 3 + p 4 + ) + (p 2 + p 3 + p 4 + ) + (p 3 + p 4 + ) + Soit : E{X} = Pr{X 1} + Pr{X 2} + Pr{X 3} + Exercice 52 On a : + xdf = 0 xdf xdf, on intègre ensuite par par- Fdx Montrons ties Il vient : 0 xdf = xf 0 0 que lim xf(x) = 0 On a pour x 0 : x x Mais µ existe, d où lim x x Fdx = lim xf(x) 0 x udf x x udf = 0 et par conséquent lim x df = xf(x) 0 xf(x) = 0 La démonstration est similaire pour la deuxième intégrale + xdf et on obtient la formule 0 demandée La variable Y = X µ est de moyenne nulle d où : + F(y+µ)dy 0 0 F(y+ µ)dy = 0 Effectuons le changement de variable x = y + µ dans les intégrales afin de trouver la formule demandée Exercice 53 Faisons le calcul pour le cas a < x 05 On a F(a) < F(x 05 ) = 1 2 d où : x a df = x x 05 df + x 05 (1 F)dx x 05 Fdx ( voir exercice a a 52 ) Il vient x a df = x x 05 df + (x 05 a) 2 x 05 F dx Ensuite, a 2 x 05 a Fdx < 2F(x 05 )(x 05 a) = x 05 a, d où x a df > x x 05 df Le reste de l exercice s achève en suivant la même trame C4 Exercices du chapitre 7 Exercice 71 D après l inégalité de Markov on a : Pr{X λµ} 1/λ Par définition Pr{X λµ} = 1 F(λµ) + Pr{X = λµ}, mais Pr{X = λµ} = 0, d où 1 F(λµ) 1/λ D une manière générale posons : λµ = x α, où x α désigne le quantile d ordre α Il vient 1 F(x α ) µ/x α c est-à-dire α µ/x α, soit x α µ/α Pour α = 025, il vient : x 025 4µ Exercice 72 On pose Y = e tx où t est positif de façon à ce que Y soit une variable positive pour X quelconque Il vient Pr{e tx λe{e tx }} 1/λ c est-à-dire ( bijection ) Pr{X ln(λe{e tx })/t} 1/λ On pose ǫ = ln(λe{e tx })/t, il vient : Pr{X ǫ} e tǫ E{e tx } soit : Pr{X ǫ} min t 0 exp[ tǫ + ln E{e tx }] Si X suit une loi normale réduite, e tx suit une loi log-normale de moyenne e 1 2 t2 Il vient Pr{X ǫ} min t 0 exp[ tǫ t2 ], le minimum a lieu pour t = ǫ Finalement Pr{X ǫ} exp[ 1 2 ǫ2 ] = e 9/ , la valeur exacte est 00013

368 C5 EXERCICES DU CHAPITRE?? 351 Exercice 74 La loi du gouvernement n y change rien, lorsqu un enfant nait il a environ une chance sur deux d être une fille ou un garçon D après la loi des grands nombres, lorsque la population augmente, la proportion des enfants tend à se rapprocher de la probabilité à la naissance soit environ moitié de garçons et moitié de filles On peut ajouter qu il y aura environ la moitié des familles formées d un garçon unique, le quart formées d une fille ainée et d un garçon, le huitième formées de deux filles et d un garçon etc Le benjamin étant toujours un garçon C5 Exercices du chapitre 9 Exercice 93 On démontre la formule par récurrence Les variables T 1 et T 2 étant indépendantes, on a pour n = 2 : f 2 (t) = t 0 λ 1 e λ1(t u) λ 2 e λ2u du, t = λ 1 λ 2 e λ1t e λ1u e λ2u du, 0 λ1t e(λ1 λ2)u t = λ 1 λ 2 e λ 1 λ = λ 1λ 2 e λ1t e(λ1 λ2)t 1, 2 0 λ 1 λ 2 = λ 1 λ 2 e λ2t e λ1t λ 1 λ 2 = λ 1 λ 2 [ e λ1t λ 1 λ 2 + e λ2t λ 2 λ 1 ], ce qui satisfait la formule On suppose la formule vraie à l ordre n 1, il vient ensuite : f n (t) = t 0 n 1 λ n e λn(t u) ( ) n 1 e λiu λ 1 λ n 1 n 1 j i (λ i λ j ) du, n 1 = ( ) n 1 λ 1 λ n e λnt n 1 = ( ) n 1 λ 1 λ n i=1 i=1 t 0 i=1 e (λn λi)u n 1 j i (λ i λ j ) du, e λit e λnt (λ n λ i ) n 1 j i (λ i λ j ), n 1 = ( ) n e λit e λnt λ 1 λ n n j i (λ i λ j ), i=1 [n 1 = ( ) n λ 1 λ n i=1 e λit n 1 n j i (λ i λ j ) e λnt i=1 1 ] n j i (λ i λ j ) Notons que la fonction f n se présente sous la forme d une combinaison linéaire de fonctions exponentielles Pour que la récurrence soit complète, il faut démontrer que : n 1 1 n j i (λ i λ j ) = 1 n j n (λ n λ j ), i=1 (C1) c est-à-dire : n n i=1 j i 1 λ i λ j = 0

369 352 ANNEXE C SOLUTION DES EXERCICES Bien qu il soit possible de démontrer directement ce résultat, on va plutôt utiliser les propriétés de symétries de l addition et l indépendance linéaire des fonctions exponentielles Si l on avait commencé la somme à partir du temps T n jusqu au temps T 1, on aurait obtenu une formule où le coefficient de la fonction e λnt aurait alors été égal au second membre de C1 Les fonctions e λit étant linéairement indépendantes, il faut que leurs coefficients, suivant l une ou l autre approche, soient égaux et donc C1 doit être vérifié Ainsi la récurrence est complète Exercice 95 On a X = P(µ) et Y = P(pµ) et par conséquent E{X} = Var(X) = µ et E{Y } = Var(Y ) = pµ Par définition : ρ(x, Y ) = Cov(X, Y )/(Var(X)Var(Y )) 1 2 et Cov(X, Y ) = E{XY } E{X} E{Y } L espérance E{XY } porte sur la loi conjointe du couple (X, Y ) que l on obtient à l aide des probabilités conditionnelles On a : Pr{X = n, Y = m} = Pr{X = n} Pr{Y X = n}, Pr{X = n} = µn n! e µ, Pr{Y = m X = n} = C m n p m (1 p) n m Il vient :E{XY } = E{X E{Y X = n}}, = E{X 2 }p, car E{Y X = n} = np, = p(µ µ 2 ), car E{X 2 } = Var(X) + E{X} 2, d où : Cov(X, Y ) = E{XY } E{X} E{Y } = p(µ µ 2 ) pµ 2 = pµ, ρ(x, Y ) = Cov(X, Y )/(Var(X)Var(Y )) 1 2, = pµ/(µpµ) 1 2 = p 1 2 C6 Exercices du chapitre 10 Exercice 101 Le changement de variable y = x est une bijection à pente négative on a : G(y) = 1 F(x) La loi suivie par le plus grand des Y i est donc G (n) = [1 F(x)] n Le second changement de variable x = y est aussi une bijection de pente négative et le maximum des Y i devient le minimum des X i d où : F 1 (x) = 1 [1 F(x)] n ( L ordre des opérations est : y = x, tri, x = y ) C7 Exercices du chapitre 12 Exercice 121 On a : E{X i X n } = µ µ = 0 Ensuite pour la variance les variables X i et X n ne sont pas indépendantes, il faut procéder autrement On a : X i X n = (1 1 n )X i 1 n n j i X j, = N( n 1 n 1 n µ, ( n )2 σ 2 ) + N( n 1 n µ, 1 n (n 1)σ 2 ) 2 = N(0, n 1 n σ2 ) Pour le calcul de Cov(X n, X i X n ), tous les termes Cov(X i, X j ) disparaissent, il reste Cov(X n, X i X n ) = 1 n Var(X i) 1 n n 2 j=1 Var(X j) = 0 Les variables sont non-corrélées et normales ( de variances non nulles ), elles sont donc indépendantes Il s agit d une application du théorème de Slutski : X n et X i X n sont indépendantes, donc X n et (X i X n ) 2 aussi et finalement X n et Sn 2

370 Annexe D Éléments biographiques BAYES Thomas ( Londres Turnbridge Wells ), mathématicien britannique BERNOULLI Jakob I ( Bâle Bâle ), mathématicien suisse d origine néerlandaise BERNSTEIN Sergueï Natanovitch ( Odessa, Russie Moscou URSS ), mathématicien et statisticien soviétique BESSEL Friedrich Wilhelm ( Minden, auj en Allemagne Königsberg, auj Kaliningrad en Russie ), astronome allemand BIENAYMÉ Irénée Jules ( Paris Paris ), statisticien français BORTKIEWICZ Ladislaus Josephowitch, von ( St-Pétersbourg, Russie Berlin ), statisticien allemand d origine polonaise CANTELLI Francesco Paolo ( Palerme Rome ), mathématicien italien CAUCHY Augustin Louis, Baron ( Paris Sceaux ), mathématicien et physicien français CRAMÉR Carl Harald ( Stockholm ), mathématicien suédois DARMOIS Georges ( Eply Paris ), mathématicien et physicien français DIRAC Paul Adrien Maurice ( Bristol, Angleterre Thallahasee, Floride ), physicien et mathématicien britannique ERLANG Agner Krarup ( ), ingénieur suédois EUCLIDE ( Alexandrie? ca330 - ca260 ), mathématicien grec EULER Leonhard ( Bâle St-Pétersbourg ), mathématicien suisse FELLER William ( Zagreb New-York ), mathématicien américain d origine croate FISHER Ronald Aylmer, Sir ( Londres Adelaïde, Australie ) statisticien et généticien britannique FOURIER ( Jean-Baptiste ) Joseph, Baron ( Auxerre Paris ), mathématicien et physicien français FRÉCHET ( René ) Maurice ( Maligny, Yonne Paris 1973 ), mathématicien français 353

371 354 ANNEXE D ÉLÉMENTS BIOGRAPHIQUES FREDHOLM Erik Ivar ( Stockholm Mörby ), mathématicien suédois GAUSS Karl Friedrich ( Brunswick Göttingen ), astronome, mathématicien et physicien allemand GOSSET William Sealy dit Student ( Canterbury Beaconsfield, Angleterre ), statisticien britannique GRAM Jòrgen Pedersen ( Nastrup, auj Haderslev, Danemark Copenhague ), mathématicien danois HEAVISIDE Oliver ( Londres Paignton, Devon ), ingénieur électronicien, mathématicien et physicien britannique HELMERT Friedrich Robert ( Freiberg, Saxe Potsdam, Allemagne ), géodésien et astronome allemand HESSE Ludwig Otto ( Königsberg auj Kaliningrad, Russie Munich ), mathématicien allemand HILBERT David ( Königsberg auj Kaliningrad, Russie Göttingen ), mathématicien allemand HUYGENS Christiaan ( La Haye La Haye ), physicien, mathématicien et astronome néerlandais JACOBI Karl Gustav Jacob, von ( Postdam Berlin ), mathématicien allemand JENSEN Johan Ludwig William Voldemar ( Nakskov, Danemark Copenhague ), mathématicien danois KHINCHINE Aleksandr Yakovlevitch ( Kondrovo, Kaluzhskaya Guberniya, Russie Moscou ), mathématicien soviétique KOLMOGOROV Andreï Nikolaïevitch ( Tambov, Russie Moscou ), mathématicien soviétique KRONECKER Leopold ( Liegnitz, auj Legnica, Pologne Berlin ), mathématicien allemand LAGRANGE Joseph Louis, comte de ( Turin Paris ), mathématicien et physicien théoricien français LAPLACE Pierre Simon, marquis de ( Beaumont-en-Auge Paris ), mathématicien, physicien et astronome français LEBESGUE Henri Léon ( Beauvais Paris ), mathématicien français LEVY Paul Pierre ( Paris Paris ), mathématicien français LIAPOUNOV Alexandre Mikhaïlovitch ( Yaroslav, Russie Odessa, URSS ), mathématicien et mécanicien russe LINDEBERG Jarl Waldemar ( Helsinki Helsinki ), mathématicien finlandais MARKOV Andreï Andreïevitch ( Rjäsan, Russie Pétrograd auj St Pétersbourg ), mathématicien russe MAXWELL James Clerk ( Edimbourg Cambridge, Angleterre ), physicien britannique MÉRÉ Antoine GOMBAUD, chevalier de ( en Poitou ca Baussay, Poitou ca1685 ), Ecrivain français

372 355 MOIVRE Abraham de ( Vitry le françois Londres ), mathématicien britannique d origine française MOORE Eliakim Hastings ( Marietta, Ohio Chicago, Illinois ), mathématicien américain NEWTON Isaac, Sir ( Woolsthorpe, Lincolnshire, Londres ), Physicien, mathématicien et astronome anglais NEYMAN Jerzy ( Bendery Berkeley ), statisticien américain d origine roumaine PEARSON Karl ( Londres Coldharbour, Angleterre ), biométricien britannique POISSON Siméon Denis ( Pithiviers Sceaux ), mathématicien et physicien français PÓLYA George ( Budapest Palo-Alto, Californie ), mathématicien américain d origine hongroise PYTHAGORE ( Samos ca580 - Megapontum ca500 ), philosophe et mathématicien grec QUETELET Lambert Adolphe Jacques ( Gand Bruxelles 1874 ), astronome et statisticien belge SCHWARZ (Karl) Hermann Amandus ( Hermsdorf, Silésie Berlin ), mathématicien allemand STIELTJES Thomas Jan ( Zwolle, Overijssel, Pays-Bas Toulouse ), mathématicien hollandais, naturalisé français STUDENT pseudonyme de GOSSET W S TAYLOR Brook ( Edmonton Londres ), mathématicien britannique TCHéBYCHEV Pafnouti Lvovich ( Okatovo, Kalonga St-Pétersbourg ), mathématicien russe

373 356 ANNEXE D ÉLÉMENTS BIOGRAPHIQUES

374 Bibliographie [1] ABEL JS, A Bound on Mean-Square-Estimate Error, IEEE Trans Inform Theory, 39 (1993), pp [2] ABRAMOWITZ M AND STEGUN I, Handbook of Mathematical Functions, National Bureau of Standards, 1970 [3] ALBERT A, Regression and the Moore-Penrose pseudoinverse, Academic Press, New-York, 1972 [4] BAYES T, An essay towards solving a Problem in the Doctrine of Chances, Phil Trans, 53 (1763 (publié en 1764)), pp Reprint : Biometrika, 45 (1958), pp [5] BEKLÉMICHEV D, Cours de géométrie analytique et d algèbre linéaire, Editions Mir, Moscou, 1988 [6] BELLMAN R, Introduction to Matrix Analysis, Mc Graw-Hill, New-York, 2nd ed, 1970, p 129 [7] BERNOULLI J, Ars Conjectandi, Thurnisiorum, Basel, 1713 [8] BHATTACHARYYA A, On some analogues of the amount of information and their use in statistical estimation, Sankhyā, 8 (1946), pp 1 14 [9], idem, Sankhyā, 8 (1947), pp [10], idem, Sankhyā, 8 (1948), p 315 [11] BOREL E, Presque tous les nombres réels sont normaux, Rend Circ Mat Palermo, 27 (1909), pp [12], Leçons sur la Théorie des Fonctions, 2 e ed, 1914 [13] BOROVKOV A, Statistique mathématique, Editions Mir, Moscou, 1987 [14] BORTKIEWICZ L VON, Das Gesetz der kleinen Zahlen, BG Teubner, Leipzig, 1898 [15] BOX GEPAND MULLER ME, A note on the generation of random normal deviates, Ann Math Statis, 29 (1958), pp [16] BRÉMAUD P, Introduction aux Probabilités, Springer-Verlag, Berlin, 1988 [17] CALOT G, Cours de calcul des probabilités, Dunod, Paris, 2 e ed, 1995 [18] CASH W, Astrophys J, 228 (1979), p 939 [19] CRAMÉR H, Sur une propriété de la loi de Gauss, C R Acad Sci Paris, 202 (1936), pp [20] DALE A I, A History of Inverse Probability, Springer-Verlag, New-York, 1995 [21] DROESBEKE J-J, FICHET B, AND TASSI PH, eds, Analyse statistique des durées de vie, Economica, Paris,

375 358 BIBLIOGRAPHIE [22] FEIGELSON ED AND NELSON PI, Statistcal methods for astronomical data with upper limits I Univariate distribution, Astrophys J, 293 (1985), pp [23] FERGUSON TS, A Course in Large Sample Theory, Chapman & Hall, London, 1996 [24] FISHER RA, Biometrika, 30 (1915), p 190 [25], Frequency-distribution of the values of the correlation coefficient in samples from an indefinitely large population, Biometrika, 10 (1915), p 507 [26], Statistical methods for research workers, Oliver & Boyd, Edinburgh, 1925 [27] FISHER RA AND TIPPETT LHC, Limiting form of the frequency-distribution of largest or smallest member of a sample, Proc Camb Phil Soc, 24 (1928), p 180 [28] GLAZMAN I AND LIUBITCH V, Analyse linéaire dans les espaces de dimensions finies, Editions Mir, Moscou, 1972 [29] GNEDENKO BV, Sur la distribution limite du terme maximum d une série aléatoire, Ann Math (2), 44 (1943), p 423 [30] GRADSHTEYN IS AND RYZHIK IM, Table of Integrals, Series, and Products, Academic Press, New-York, 2nd ed, 1980 [31] HAMMING RW, On the distribution of numbers, Bell Syst Tech J, 49 (1970), pp [32] HARDY GH, LITTLEWOOD JE, AND PÓLYA G, Inequalities, Cambridge Mathematical Library, Cambridge, 2nd ed, 1951 [33] HELMERT FR, Schämilch s für Math und Physik, 20 (1875 a), p 300 [34], Schämilch s für Math und Physik, 21 (1875 b), p 192 [35] HOTELLING H, New light on the correlation coefficient and its transform, J R Statist Soc B, 15 (1953), p 193 [36] JAGER OC DE et al, Astron Astrophys, 170 (1986), p 187 [37] JOHNSON NL, KOTZ S, AND BALAKRISHNAN N, Continous Univariate Distributions, vol 1, Wiley, New-York, 2nd ed, 1994 [38], Continous Univariate Distributions, vol 2, Wiley, New-York, 2nd ed, 1995 [39] JOHNSON NL, KOTZ S, AND KEMP AW, Univariate Discrete Distributions, Wiley, New-York, 2nd ed, 1992 [40] KAPLAN EL AND MEIER P, Nonparametric estimation from incomplete observations, J Am Statist Assoc, (1958), pp [41] KENDALL M AND STUART A, The advanced theory of statistics, vol 1, Ch Griffin & Cie Ltd, London & High Wycombe, 1977 [42], The advanced theory of statistics, vol 2, Ch Griffin & Cie Ltd, London & High Wycombe, 1979 [43] KHINTCHINE A, Über einen Satz der Wahrscheinlichkeitsrechnung, Fundamenta Mathematiæ, 6 (1923), pp 9 20 [44] KOLMOGOROV AN, Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer, Berlin, 1933

376 BIBLIOGRAPHIE 359 [45] KOROLIOUK V, Aide-mémoire de théorie des probabilités et de statistique mathématique, Editions Mir, Moscou, 1983 [46] KREIJGER RG AND NEUDECKER H, Exact linear restrictions on parameters in the general linear model with a singular covariance matrix, J Am Stat Assoc, 72 (1977), pp [47] LAPLACE PS, Théorie analytique des probabilités, V e Courcier, Paris, 1812 [48] LE CAM L, The central limit theorem around 1935, Statistical Science, 1 No1 (1986), pp [49] LÉVINE B, Fondements Théoriques de la Radiotechnique Statistique, vol I, Editions Mir, Moscou, 1973 [50] LOÈVE M, Probability theory, Van Nostrand, Princeton, 3rd ed, 1963 [51], Probability theory I and II, Springer-Verlag, New York, 4th ed, 1977 [52] MILLER RG, The jackknife a review, Biometrika, 61 (1974), p 1 [53] MOIVRE A DE, The doctrine of chance : or, A method of calculating the probability of events in play, W Pearson, London, 1718 [54] MONFORT A, Cours de Probabilités, Economica, Paris, 3 e ed, 1996 [55] OLKIN I AND PRATT JW, Unbiased estimation of certain correlation coefficients, Ann Math Statist, 29 (1958), p 201 [56] PAPOULIS A, Probability, Random Variables, and Stochastic Processes, Mc Graw-Hill, New-York, 2nd international student ed, 1984 [57] PARZEN E, Modern Probability Theory and its Applications, John Wiley & Sons, New-York, 1960 [58], On estimation of a probability density function and mode, Ann Math Statist, 33 (1962), pp [59] PASCAL B, Œuvres complètes t I, Gallimard, Bibliothèque de la Pléïade, Paris, 1998 [60] PEARSON K, ed, Tables of the incomplete beta-function, Cambridge University Press, 1934 [61] POISSON SD, Recherches sur la probabilité des jugements en matière criminelle et en matière civile, Bachelier, Paris, 1837 [62] PÓLYA G, Ueber den zentralen grenzwertsatz der wahrscheinlichkeitsrechnung und das momentproblem, Math Z, 8 (1920), pp [63] PRESS W, FLANNERY B, TEUKOLSKY S, AND VETTERLING W, Numerical Recipes, Cambridge University Press, New-York, 1986 [64] RAO CR AND TOUTENBURG H, Linear Models, Springer, New York, 1995 [65] RÉNYI A, Calcul des probabilités, Dunod, Paris, 1966 [66] ROSENBLATT M, Remarks on some non parametric estimates of a density function, Ann Math Statist, 27 (1956), pp [67] RUTHERFORD E AND GEIGER HW, Philosophical Magazine, 20 (1910), p 700 [68] SCHMITT JHMM, Astrophys J, 293 (1985), p 178 [69] SHANNON CE, Proc IRE, 37 (1949), p 10

377 360 BIBLIOGRAPHIE [70] STUDENT (GOSSET WS), On the error of counting with a hæmacitometer, Biometrika, 5 (1907), pp [71], The probable error of the mean, Biometrika, 6 (1908), pp 1 25 [72] WAERDEN BL VAN DER, Statistique Mathématique, Dunod, Paris, 1967 [73] WHITTAKER ET, On the functions which are presented by the expansion of interpolating theory, Proc Roy Soc Edinburgh A, 35 (1915), pp [74] YORK D, Can J of Phys, 44 (1966), p 1079

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

Intégration et probabilités TD1 Espaces mesurés

Intégration et probabilités TD1 Espaces mesurés Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 & UE LM365 Intégration 2 Année 2010 11 Théorie de la Mesure et Intégration Responsable des cours : Amaury LAMBERT

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Calculs de probabilités

Calculs de probabilités Calculs de probabilités Mathématiques Générales B Université de Genève Sylvain Sardy 13 mars 2008 1. Définitions et notations 1 L origine des probabilités est l analyse de jeux de hasard, tels que pile

Plus en détail

Développement décimal d un réel

Développement décimal d un réel 4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Mesures gaussiennes et espaces de Fock

Mesures gaussiennes et espaces de Fock Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première

Plus en détail

Théorie de la mesure. S. Nicolay

Théorie de la mesure. S. Nicolay Théorie de la mesure S. Nicolay Année académique 2011 2012 ii Table des matières Introduction v 1 Mesures 1 1.1 Sigma-algèbres................................. 1 1.2 Mesures.....................................

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Intégrale de Lebesgue

Intégrale de Lebesgue Intégrale de Lebesgue L3 Mathématiques Jean-Christophe Breton Université de Rennes 1 Septembre Décembre 2014 version du 2/12/14 Table des matières 1 Tribus (σ-algèbres) et mesures 1 1.1 Rappels ensemblistes..............................

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Pourquoi un autre catalogue en Suisse romande Historique En 1990, la CRUS (Conférences des

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie... 1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Théorie des probabilités

Théorie des probabilités Théorie des probabilités LAVOISIER, 2008 LAVOISIER 11, rue Lavoisier 75008 Paris www.hermes-science.com www.lavoisier.fr ISBN 978-2-7462-1720-1 ISSN 1952 2401 Le Code de la propriété intellectuelle n'autorisant,

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Mesure et Intégration (Notes de cours de L3)

Mesure et Intégration (Notes de cours de L3) Mesure et Intégration (Notes de cours de L3) Ahmed Zeriahi Version préliminaire-octobre 2011 Avertissement : Ceci est une version préliminaire des notes du cours que l auteur a dispensé en troisème année

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Ecole Nationale de la Statistique et de l Administration Economique Théorie de la Mesure et Intégration Xavier MARY 2 Table des matières I Théorie de la mesure 11 1 Algèbres et tribus de parties d un ensemble

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Cours de mathématiques

Cours de mathématiques DEUG MIAS premier niveau Cours de mathématiques année 2003/2004 Guillaume Legendre (version révisée du 3 avril 2015) Table des matières 1 Éléments de logique 1 1.1 Assertions...............................................

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours MSUR T INTÉGRATION N UN DIMNSION Notes de cours André Giroux Département de Mathématiques et Statistique Université de Montréal Mai 2004 Table des matières 1 INTRODUCTION 2 1.1 xercices.............................

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Probabilités. C. Charignon. I Cours 3

Probabilités. C. Charignon. I Cours 3 Probabilités C. Charignon Table des matières I Cours 3 1 Dénombrements 3 1.1 Cardinal.................................................. 3 1.1.1 Définition............................................. 3

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

NOTICE DOUBLE DIPLÔME

NOTICE DOUBLE DIPLÔME NOTICE DOUBLE DIPLÔME MINES ParisTech / HEC MINES ParisTech/ AgroParisTech Diplômes obtenus : Diplôme d ingénieur de l Ecole des Mines de Paris Diplôme de HEC Paris Ou Diplôme d ingénieur de l Ecole des

Plus en détail

Probabilités Loi binomiale Exercices corrigés

Probabilités Loi binomiale Exercices corrigés Probabilités Loi binomiale Exercices corrigés Sont abordés dans cette fiche : (cliquez sur l exercice pour un accès direct) Exercice 1 : épreuve de Bernoulli Exercice 2 : loi de Bernoulli de paramètre

Plus en détail

Cercle trigonométrique et mesures d angles

Cercle trigonométrique et mesures d angles Cercle trigonométrique et mesures d angles I) Le cercle trigonométrique Définition : Le cercle trigonométrique de centre O est un cercle qui a pour rayon 1 et qui est muni d un sens direct : le sens inverse

Plus en détail

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. 1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Chaînes de Markov au lycée

Chaînes de Markov au lycée Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Cours de Probabilités et de Statistique

Cours de Probabilités et de Statistique Cours de Probabilités et de Statistique Licence 1ère année 2007/2008 Nicolas Prioux Université Paris-Est Cours de Proba-Stat 2 L1.2 Science-Éco Chapitre Notions de théorie des ensembles 1 1.1 Ensembles

Plus en détail

Représentation géométrique d un nombre complexe

Représentation géométrique d un nombre complexe CHAPITRE 1 NOMBRES COMPLEXES 1 Représentation géométrique d un nombre complexe 1. Ensemble des nombres complexes Soit i le nombre tel que i = 1 L ensemble des nombres complexes est l ensemble des nombres

Plus en détail

Coefficients binomiaux

Coefficients binomiaux Probabilités L2 Exercices Chapitre 2 Coefficients binomiaux 1 ( ) On appelle chemin une suite de segments de longueur 1, dirigés soit vers le haut, soit vers la droite 1 Dénombrer tous les chemins allant

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chapitre 3. Mesures stationnaires. et théorèmes de convergence Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Plus en détail

MODELES DE DUREE DE VIE

MODELES DE DUREE DE VIE MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

L isomorphisme entre les tours de Lubin-Tate et de Drinfeld et applications cohomologiques par Laurent Fargues

L isomorphisme entre les tours de Lubin-Tate et de Drinfeld et applications cohomologiques par Laurent Fargues Préambule.................................... xv Bibliographie... xxi I L isomorphisme entre les tours de Lubin-Tate et de Drinfeld et applications cohomologiques par Laurent Fargues Introduction...................................

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Introduction au Calcul des Probabilités

Introduction au Calcul des Probabilités Université des Sciences et Technologies de Lille U.F.R. de Mathématiques Pures et Appliquées Bât. M2, F-59655 Villeneuve d Ascq Cedex Introduction au Calcul des Probabilités Probabilités à Bac+2 et plus

Plus en détail

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1 Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Dunod, Paris, 2014 ISBN 978-2-10-059615-7

Dunod, Paris, 2014 ISBN 978-2-10-059615-7 Illustration de couverture : Federo-istock.com Dunod, Paris, 2014 ISBN 978-2-10-059615-7 1.1 Symétrie du hasard et probabilité uniforme 3 1.2 Loi de probabilité sur un ensemble fini 6 1.3 Probabilité sur

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v 1 1 2 t

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v 1 1 2 t 3.La méthode de Dirichlet 99 11 Le théorème de Dirichlet 3.La méthode de Dirichlet Lorsque Dirichlet, au début des années 180, découvre les travaux de Fourier, il cherche à les justifier par des méthodes

Plus en détail