Cours de Statistique

Documents pareils
STATISTIQUE : TESTS D HYPOTHESES

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Chapitre 3 : Fonctions d une variable réelle (1)

Limites des Suites numériques

Statistique descriptive bidimensionnelle

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Dénombrement. Chapitre Enoncés des exercices

1 Mesure et intégrale

SÉRIES STATISTIQUES À DEUX VARIABLES

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Probabilités et statistique pour le CAPES

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Principes et Méthodes Statistiques

Etude de la fonction ζ de Riemann

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Comportement d'une suite

Séquence 5. La fonction logarithme népérien. Sommaire

Cours de Statistiques inférentielles

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

CHAPITRE 2 SÉRIES ENTIÈRES

Cours 5 : ESTIMATION PONCTUELLE

Processus et martingales en temps continu

Séries réelles ou complexes

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

20. Algorithmique & Mathématiques

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

EXERCICES : DÉNOMBREMENT

Université Pierre et Marie Curie. Biostatistique PACES - UE

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Les Nombres Parfaits.

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

2 ième partie : MATHÉMATIQUES FINANCIÈRES

14 Chapitre 14. Théorème du point fixe

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

STATISTIQUE AVANCÉE : MÉTHODES

4 Approximation des fonctions

Baccalauréat S Asie 19 juin 2014 Corrigé

Chap. 5 : Les intérêts (Les calculs financiers)

55 - EXEMPLES D UTILISATION DU TABLEUR.

Statistique Numérique et Analyse des Données

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Suites et séries de fonctions

Exercices de mathématiques

c. Calcul pour une évolution d une proportion entre deux années non consécutives

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Initiation à l analyse factorielle des correspondances

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Chapitre 3 : Transistor bipolaire à jonction

Introduction : Mesures et espaces de probabilités

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Terminale S. Terminale S 1 F. Laroche

Chaînes de Markov. Arthur Charpentier

Échantillonnage et estimation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

La maladie rénale chronique

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Sommaire Chapitre 1 - L interface de Windows 7 9

Processus géométrique généralisé et applications en fiabilité

Solutions particulières d une équation différentielle...

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Dares Analyses. Plus d un tiers des CDI sont rompus avant un an

STRATÉGIE DE REMPLACEMENT DE LUTTE CONTRE LA PUNAISE TERNE DANS LES FRAISERAIES DE L ONTARIO

Formation d un ester à partir d un acide et d un alcool

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Mécanique non linéaire

Régulation analogique industrielle ESTF- G.Thermique

Simulations interactives de convertisseurs en électronique de puissance

Les algorithmes de tri

Compte Sélect Banque Manuvie Guide du débutant

16.1 Convergence simple et convergence uniforme. une suite de fonctions de I dans R ou C.

Donnez de la liberté à vos données. BiBOARD.

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

RECHERCHE DE CLIENTS simplifiée

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Comment les Canadiens classent-ils leur système de soins de santé?

Des résultats d irrationalité pour deux fonctions particulières

S-PENSION. Constituez-vous un capital retraite complémentaire pour demain tout en bénéficiant d avantages fiscaux dès aujourd hui.

LE WMS EXPERT DE LA SUPPLY CHAIN DE DÉTAIL

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Divorce et séparation

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Transcription:

Uiversité Joseph Fourier, Greoble I Licece Scieces et Techologies 2 e aée STA230 : Méthodes Statistiques pour la Biologie Cours de Statistique http ://ljk.imag.fr/membres/berard.ycart/sta230/ Table des matières 1 Doées et Modèles 3 1.1 Doées uidimesioelles........................ 3 1.1.1 Échatillos............................. 3 1.1.2 Moyee empirique......................... 6 1.1.3 Variace empirique......................... 7 1.2 Expérieces aléatoires........................... 9 1.2.1 Évéemets............................. 9 1.2.2 Axiomes des probabilités...................... 10 1.2.3 Probabilités coditioelles.................... 13 1.3 Variables aléatoires............................. 15 1.3.1 Loi d ue variable aléatoire.................... 15 1.3.2 Variables aléatoires discrètes.................... 16 1.3.3 Variables aléatoires cotiues................... 19 1.3.4 Foctio de répartitio et foctio quatile............ 20 1.3.5 Espérace et variace........................ 24 1.3.6 Théorèmes limites.......................... 26 1.4 Distributio empirique........................... 28 1.4.1 Statistique et probabilités..................... 28 1.4.2 Quatiles.............................. 30 1.4.3 Modèles probabilistes........................ 32 2 Estimatio paramétrique 36 2.1 Estimatio poctuelle............................ 36 2.1.1 Modèles paramétrés......................... 36 2.1.2 Estimateurs et estimatios..................... 38 2.1.3 Qualités d u estimateur...................... 39 2.1.4 Exemples d estimateurs....................... 42 2.2 Itervalles de cofiace........................... 45 2.2.1 Itervalles de dispersio...................... 45

2.2.2 Défiitios.............................. 48 2.2.3 Echatillos gaussies....................... 51 2.2.4 Normalité asymptotique...................... 53 3 Tests statistiques 56 3.1 Statistiques de test............................. 56 3.1.1 Modèles probabilistes réfutables.................. 56 3.1.2 Règles de décisio.......................... 58 3.1.3 Seuil et p-valeur........................... 61 3.1.4 Risques et puissace........................ 63 3.2 Tests paramétriques classiques....................... 64 3.2.1 Échatillos gaussies....................... 64 3.2.2 Test sur la moyee d u grad échatillo............ 65 3.2.3 Test sur la valeur d u quatile.................. 66 3.2.4 Échatillos appariés........................ 67 3.3 Comparaiso d échatillos idépedats................. 68 3.3.1 Test de Fisher............................ 68 3.3.2 Test de Studet........................... 69 3.3.3 Normalité asymptotique...................... 70 3.4 Test d ajustemet.............................. 70 3.4.1 Distace du khi-deux........................ 70 3.4.2 Pratique du test........................... 72 3.5 Test d idépedace............................ 74 3.5.1 Tableau de cotigece....................... 74 3.5.2 Khi-deux de cotigece...................... 75 4 Régressio liéaire 78 4.1 Régressio liéaire simple......................... 78 4.1.1 Représetatios graphiques.................... 78 4.1.2 Covariace.............................. 79 4.1.3 Droite de régressio liéaire.................... 81 4.2 Modèle liéaire............................... 85 4.2.1 Itervalles de cofiace et de prédictio.............. 85 4.2.2 Test de pertiece de la régressio................ 88 4.2.3 Étude des résidus.......................... 89 2

1 Doées et Modèles Ce chapitre présete le vocabulaire de la statistique descriptive sur les doées uidimesioelles. La otio de modèle que l o peut ajuster à u caractère statistique est assez subtile, et de multiples exemples serot fouris pour aider à sa compréhesio. Elle est pourtat essetielle, même si ous e mettros l accet que sur quelques modèles de base. Les deux plus importats sot le modèle biomial et le modèle gaussie, qui devrot absolumet être compris. 1.1 Doées uidimesioelles 1.1.1 Échatillos À la base de toute étude statistique, il y a ue populatio, formée d idividus sur lesquels o observe des caractères. Pour fixer les idées, il est plus facile de peser e termes de populatio humaie. Les idividus sot des persoes, et les caractères observés peuvet être morphologiques (taille, poids, couleur des yeux), physiologiques (groupe sagui, umératio globulaire, taux de cholestérol) ou psychologiques (réactios à des tests ou réposes à ue equête d opiio). Même si ous choisiros prioritairemet os exemples das les caractères humais, il faut garder à l esprit des otios de populatio et de caractère plus géérales. Voici quelques exemples. Populatio Elémets chimiques Galaxies Etoiles Chromosomes Gèes Villes Pays Films Mois de l aée Caractère Nombre d isotopes Nombre d étoiles Magitude Nombre de gèes Nombre de bases protéiques Taux d impositio Produit itérieur brut Recettes Motat des exportatios U caractère est dit : qualitatif, si les valeurs e peuvet pas être ordoées (groupe sagui, couleur des yeux, vote pour u cadidat). ordial, si les valeurs peuvet seulemet être ordoées : leurs différeces e sot pas iterprétables (opiios exprimées sur ue échelle de valeurs) quatitatif, quad les valeurs sot umériques (mesures physiques, physiologiques, écoomiques). Les valeurs que peut predre u caractère s appellet les modalités. Pour des raisos de facilité de traitemet iformatique ou mathématique, o cherche à se rameer à des caractères quatitatifs par u codage. Si le caractère iitial est qualitatif, le codage sera souvet biaire. Le cas le plus simple est celui d u référedum, où 3

STA230 Cours de Statistique UJF Greoble il y a que deux modalités codées 0 et 1. Pour u ombre quelcoque m de modalités, o pourra les coder par u vecteur de m boolées : si la valeur observée sur u idividu est l, le vecteur associé à cet idividu a toutes ses coordoées ulles sauf la l-ième qui vaut 1. Das le cas des caractères ordiaux, o effectue souvet le codage sur les premiers etiers. Il faut se souveir que le codage est arbitraire et que les résultats umériques que l o obtiet après codage peuvet dépedre de celui-ci. Des techiques spécifiques permettet de traiter plus particulièremet les caractères qualitatifs et ordiaux. Nous ous limiteros ici pour l essetiel aux caractères quatitatifs. La statistique iterviet quad il est impossible ou iutile d observer u caractère sur l esemble de la populatio. O l observe alors sur ue sous-populatio de taille réduite, e espérat tirer de l observatio des coclusios gééralisables à toute la populatio. Si les doées d u caractère quatitatif sot recueillies sur idividus, le résultat est u -uplet de ombres, etiers ou décimaux, (x 1,..., x ), que l o appelle échatillo ou série statistique, de taille. O réserve plutôt le terme d échatillo au résultat de expérieces meées idépedammet les ues des autres, et das des coditios idetiques (lacers de dés, mesure du poids de ouveaux-és,... ). O appellera plutôt série statistique le résultat de expérieces qui e sot pas iterchageables. Le cas le plus fréquet est celui où la populatio est costituée d istats successifs (relevés quotidies de températures, chiffres mesuels du chômage,... ). O parle alors de série chroologique (figure 1). Milliers de cas 900 800 700 600 500 400 300 200 100. 0 0 52 104 156 208 260 Semaies Fig. 1 Série chroologique : cas de grippe e Frace par semaie sur 5 as. O distigue souvet les caractères discrets (ceux qui e preet que peu de modalités distictes) des caractères cotius (pour lesquels toutes les valeurs observées sot a priori différetes). La frotière etre cotiu et discret est beaucoup mois claire e pratique qu e théorie. Tout recueil de doées se fait avec ue certaie précisio, et das ue certaie uité. Si ue taille est mesurée avec ue précisio de l ordre du ce- 4

STA230 Cours de Statistique UJF Greoble timètre, tout chiffre correspodat à ue quatité iférieure au cetimètre e cotiet aucue iformatio et doit être élimié. Cela sigifie que la taille e cetimètres est ue valeur etière, doc u caractère discret, même si o le modélise par ue loi ormale qui est ue loi cotiue. D autre part, différetes techiques statistiques (histogrammes, distace du chi-deux) imposet de regrouper les doées e classes, ce qui reviet à les redre discrètes, les ouvelles modalités état les différetes classes. 130 128 126 124 122 120 118 116 114 112 110 108 106 104 102 Tailles 100 0 10 20 30 40 50 60 70 80 90 100 Idividus Fig. 2 Echatillo de 100 tailles d efats de 6 as, e cetimètres. Ue fois recueilli, l échatillo (x 1,..., x ) se présete comme ue liste de ombres peu lisible, dot la pricipale caractéristique est ue plus ou mois grade variabilité. Le traitemet statistique cosiste à étudier cette variabilité, pour e extraire l iformatio qu elle cotiet, à savoir ce qui est gééralisable à l esemble de la populatio. Les techiques de statistique descriptive aurot pour but de compresser l échatillo, de le résumer par des quatités calculées et des représetatios graphiques, afi d extraire l iformatio. O e traite pas u échatillo sas avoir ue questio précise à lui poser. État doé u échatillo de tailles de filles de 18 as, le traitemet e sera pas le même selo que l o sera u utritioiste qui cherche à étudier l ifluece du régime alimetaire sur la croissace, ou u fabriquat de vêtemets qui fait ue étude de marché. Ne cofodez pas : les statistiques comme esemble de doées chiffrées sur u phéomèe variable (les statistiques du commerce extérieur, du chômage). la statistique e tat que disciplie scietifique dot le but est d extraire de l iformatio d u échatillo e vue d ue prédictio ou d ue décisio. ue statistique calculée à partir d u échatillo comme résumé de ses propriétés (moyee, variace... ). 5

STA230 Cours de Statistique UJF Greoble 1.1.2 Moyee empirique La statistique la plus évidete à calculer sur u échatillo umérique, celle dot l iterprétatio est la plus ituitive, est la moyee empirique. Défiitio 1. La moyee empirique d u échatillo est la somme de ses élémets divisée par leur ombre. Si l échatillo est oté (x 1,..., x ), sa moyee empirique est : x = 1 (x 1 x ). La moyee est doc le cetre de gravité des doées, affectées de coefficiets égaux pour chaque idividu. Elle peut être cosidérée comme ue valeur cetrale, même si elle est pas égale à ue des modalités. 130 128 126 124 122 120 118 116 114 112 110 108 106 104 102 Tailles 100 0 10 20 30 40 50 60 70 80 90 100 Idividus Fig. 3 Moyee d u échatillo de 100 tailles d efats de 6 as La moyee est associative. Si o réuit deux échatillos, de tailles respectives x et y, de moyees respectives x et y, alors la moyee du ouvel échatillo sera ( x x y y)/( x y ). Si (x 1,..., x ) est u échatillo et si o pose pour tout i = 1,...,, y i = ax i b, où a et b sot deux costates, alors la moyee empirique de l échatillo (y 1,..., y ) est y = ax b. E particulier, si a = 1 et b = x, le ouvel échatillo a ue moyee ulle. Cetrer les doées c est leur retracher la moyee empirique de maière à la rameer à 0. U cas particulier importat est celui des doées biaires. O est souvet ameé à costruire u échatillo biaire à partir d u échatillo umérique, e serait-ce que pour le regroupemet e classes. Soit A u sous esemble de R (u itervalle das le cas d ue classe). Notos I A (x) sa foctio idicatrice qui vaut 1 si x A, 0 sio. Si (x 1,..., x ) est u échatillo à valeurs réelles, alors (I A (x 1 ),..., I A (x )) est u 6

échatillo biaire, dot la moyee empirique est appelée la fréquece empirique de A. C est simplemet la proportio des valeurs de (x 1,..., x ) qui appartieet à A. U des icovéiets de la moyee empirique, vue comme valeur cetrale d u échatillo, est d être sesible aux valeurs extrêmes. Ue valeur maifestemet très différete des autres est souvet qualifiée de valeur aberrate. Qu elle soit ou o le résultat d ue erreur das le recueil ou la trascriptio, o e peut pas la cosidérer comme représetative. Supposos que sur u échatillo de 10 valeurs, toutes soiet de l ordre de 10, sauf ue, qui est de l ordre de 1000. La moyee empirique sera de l ordre de 100, c est-à-dire très éloigée de la plupart des valeurs de l échatillo. Pour palier cet icovéiet, o peut décider de e pas teir compte des valeurs extrêmes das le calcul de la moyee. O obtiet alors ue moyee élaguée. 1.1.3 Variace empirique Les otios de variace et d écart-type servet à quatifier la variabilité d u échatillo e mesurat sa dispersio autour de la moyee. La défiitio est la suivate : Défiitio 2. Soit (x 1,..., x ) u échatillo et x sa moyee empirique. O appelle variace de l échatillo la quatité, otée s 2, défiie par : s 2 = 1 (x i x) 2. i=1 O appelle écart-type de l échatillo la racie carrée de la variace. E d autres termes, la variace est la moyee des carrés de l échatillo cetré. L avatage de l écart-type sur la variace est qu il s exprime, comme la moyee, das la même uité que les doées. O utilise parfois le coefficiet de variatio, qui est le rapport de l écart-type sur la moyee. Pour calculer la variace d u échatillo, o dispose de deux formules qui doet le même résultat. ) ((x 1 x) 2 (x x) 2 s 2 = 1 = 1 Vous pouvez doc reteir que : ( ) (x 2 1 2x 1 x x 2 ) (x 2 1 2x 1 x x 2 ) = 1 (x2 1 x 2 ) 2 x(x 1 x ) x 2 = 1 (x2 1 x 2 ) x 2 La variace est la moyee des carrés mois le carré de la moyee. 7

STA230 Cours de Statistique UJF Greoble 130 128 126 124 122 120 118 116 114 112 110 108 106 104 102 Tailles 100 0 10 20 30 40 50 60 70 80 90 100 Idividus Fig. 4 Tailles d efats de 6 as. La zoe grisée correspod à la moyee, plus ou mois u écart-type. Das le cas particulier des doées biaires, codées sur 0 et 1, la moyee est le ombre de 1 divisé par le ombre total de doées : c est la fréquece empirique de 1. La variace apporte aucue iformatio supplémetaire. E effet, si tous les x i valet 0 ou 1, alors x 2 i = x i et doc : s 2 = x x 2 = x(1 x). Ue fois la moyee calculée, ous avos vu qu o pouvait cetrer les doées pour se rameer à ue moyee ulle. La variace des doées cetrées est la même que celle de l échatillo iitial. Ue fois cette variace calculée, o peut réduire les doées cetrées e les divisat par l écart-type. O obtiet aisi u ouvel échatillo dot la moyee est ulle et la variace égale à 1. O parle d échatillo réduit. Remarquos que les doées réduites sot des ombres sas uité. O peut doc comparer deux échatillos réduits même si les doées iitiales étaiet pas exprimées das la même uité. L icovéiet de l écart-type tel qu il a été défii plus haut, est qu il a tedace à sous-estimer légèremet l écart des doées par rapport à leur moyee. La raiso mathématique de ce défaut est liée à la otio de biais d u estimateur. O peut e saisir la raiso ituitive sur u exemple simple. Supposos que l o joue trois fois à u jeu dot l ejeu est 1 euro. Chaque résultat vaut doc 1 (gai) ou 1 (perte). Si le jeu est équitable, o s atted à ce que la moyee vaille 0 et l écart-type 1. Or sur trois parties, les résultats possibles à l ordre 8

près sot les suivats. (x 1, x 2, x 3 ) x s 2 ( 1, 1, 1) 1 0 ( 1, 1, 1) 1 8 3 9 1 8 ( 1, 1, 1) 3 9 (1, 1, 1) 1 0 E aucu cas l écart-type empirique e peut atteidre 1! Le moye de corriger cette sous-estimatio systématique est de multiplier la variace par /( 1), où est la taille de l échatillo. O parle alors de variace o biaisée. C est la raiso de la présece sur certaies calculatrices de deux touches de calcul de l écart-type, ue marquée σ (otre s), l autre σ 1 qui retoure s 1. 1.2 Expérieces aléatoires 1.2.1 Évéemets Coveos d appeler expériece aléatoire ue expériece dot o e peut ou e veut pas prévoir complètemet le résultat. Autremet dit ue expériece qui pourra doer des résultats différets si elle est répétée (apparemmet das les mêmes coditios). L esemble des résultats possibles d ue expériece aléatoire est e gééral codé de maière à e reteir que certais aspects. Jouer à pile ou face cosiste lors du lacer d ue pièce à e s itéresser qu à la face sur laquelle elle tombe e oubliat le ombre de rotatios e l air, le poit de chute... O ote Ω l esemble de tous les valeurs possibles que peut predre ce codage. Les élémets de Ω sot les évetualités. Voici quelques exemples. Expériece Ω Lacer d ue pièce {Pile, Face} Observer le spi d ue particule {1, 1} Relever l état d ue case mémoire {0, 1} Iterroger u électeur avat u référedum {Oui, No} Lacer u dé {1, 2,..., 6} Jouer à la roulette {0, 1,..., 36} Compter les cliets d ue file d attete N Observer ue durée de foctioemet R Le codage e évetualités relève d u choix de modélisatio qui comporte u certai arbitraire. Si o joue à pair ou impair à la roulette, Ω = {0, P air, Impair} coviedra tout autat que Ω = {0, 1,..., 36}. Le ombre de cliets das ue file d attete à u istat doé e peut pas être supérieur à la populatio de la terre. Aucue durée de foctioemet sas pae a jamais dépassé quelques siècles. Plus gééralemet, toute gradeur observée peut être codée par les valeurs d u esemble fii (les 9

ombres représetables e machie), compte teu de sa précisio et de so étedue. Ici comme das les autres domaies des mathématiques appliquées, l ifii ou le cotiu e sot que des approximatios destiées à simplifier le traitemet mathématique. Des expérieces aléatoires peuvet être simulées sur ordiateur, par l appel de foctios particulières, dites géérateurs pseudo-aléatoire. Qu il s agisse d u résultat de simulatio ou de toute autre expériece, parler d expériece aléatoire, c est choisir de e s itéresser qu aux résultats possibles, et oublier e fait les coditios de l expériece. Si o maîtrise parfaitemet la vitesse iitiale de la pièce, la résistace de l air et la hauteur par rapport au sol, alors le problème de savoir sur quelle face elle va tomber deviet u problème de mécaique, que l o peut résoudre au mois e théorie. Qu il existe ou o des expérieces dot le résultat soit parfaitemet imprévisible est u problème de physique quatique ou de philosophie (Dieu joue-t-il aux dés?), mais pas de probabilités. Le hasard au ses du probabiliste est qu u expédiet, u choix de modélisatio qui cosiste à recouvrir d u voile pudique la complexité des phéomèes que l o e maîtrise pas, pour e reteir que certais aspects observables. U évéemet est u fait dépedat du résultat d ue expériece aléatoire (ou plutôt de so codage e évetualités) dot o pourra dire à l issue de l expériece s il est réalisé ou o. O peut doc l assimiler à l esemble d évetualités pour lesquelles il est réalisé, qui est u sous-esemble de Ω. Evéemet A Ω Le résultat du dé est pair {2, 4, 6} La durée est iférieure à 100 heures [0, 100] Pour le codage {Pile,Face}, la pièce tombe sur la trache est pas u évéemet, pas plus que la persoe iterrogée a pas compris la questio pour u codage {Oui, No} des réposes. Toutes les combiaisos logiques d évéemets sot ecore des évéemets. Si A est u évéemet, so cotraire oté A e est u aussi. Si A et B sot des évéemets, A et B, oté A B, aisi que A ou B, oté A B, sot aussi des évéemets. 1.2.2 Axiomes des probabilités Ue loi de probabilité, ou distributio de probabilité, est ue foctio P qui à u évéemet A associe u ombre P[A], sa probabilité. Ce ombre traduit les chaces que l évéemet a de se produire. Le moye le plus ituitif de défiir ue telle foctio est de répéter l expériece aléatoire, et d associer à tout évéemet sa fréquece empirique. Si est le ombre d expérieces, A le ombre de fois où l évéemet A s est produit, la fréquece empirique de A est le rapport A /. Voici par exemple 20 répétitios d ue expériece dot les évetualités sot 0, 1 et 2. 0, 1, 1, 1, 0, 0, 1, 2, 1, 2, 0, 1, 1, 2, 2, 0, 0, 0, 0, 2. 10

Das cet exemple, la fréquece empirique de {0} est 8/20, celle de {1, 2} est 12/20. L icovéiet est que la fréquece empirique chagera si o reouvelle les expérieces. E d autres termes l esemble des répétitios costitue ue ouvelle expériece aléatoire. Cepedat ous avos tous e tête ue idée de la loi des grads ombres selo laquelle les fréqueces empiriques sur u grad ombre de répétitios variet peu. Voici quatre calculs successifs de la fréquece empirique de {0}, sur 20 000 répétitios de la même expériece que ci-dessus. 0.3304, 0.3273, 0.3364, 0.32415. Les propriétés que l o atted d ue loi de probabilité sot celles des fréqueces expérimetales. O les cosidère comme des axiomes de défiitio. A1 Pour tout évéemet A, 0 P[A] 1. A2 La probabilité de l évéemet certai est 1 : P[Ω] = 1. A3 Si (A i ) i N est ue suite d évéemets disjoits deux à deux (A i et A j e peuvet pas se produire e même temps si i j), alors : P[ A i ] = P[A i ]. i N i N Ue coséquece immédiate des axiomes A2 et A3 est la relatio etre les probabilités d u évéemet A et de so cotraire, oté A. P[A] = 1 P[A]. Ue loi de probabilité est croissate par iclusio, d après A1 et A3 : si A B, alors P[A] P[B]. Les lois de probabilité que l o maipule e pratique sot de deux types particuliers, les lois discrètes et les lois cotiues. 1. Lois discrètes L esemble des évetualités Ω est fii ou déombrable : Ω = {ω i, i I N}. Toutes les parties de Ω sot des évéemets. Comme tout évéemet est ue réuio fiie ou déombrable de sigletos, il suffit de défiir la probabilité de chaque sigleto : ω i Ω, P[{ω i }] = p i. Pour tout A Ω, la probabilité de A sera alors détermiée par A3 : P[A] = P[{ω i }] = p i. ω i A Exemple : Si l esemble des résultats est fii Ω = {ω 1,..., ω } et si aucue iformatio e permet de distiguer les résultats, il est aturel d associer à chaque évetualité 11 ω i A

la probabilité 1/. La probabilité de tout évéemet A est alors Card(A)/. Cette probabilité particulière s appelle l équiprobabilité. Tous les calculs das ce cas se ramèet à des déombremets : probabilité = ombre de cas favorables ombre de cas possibles. 2. Lois cotiues L esemble des évetualités Ω est R. Les évéemets sot les itervalles, et tous les sous-esembles de R que l o peut former e combiat des itervalles par itersectios et réuios. E théorie de la mesure, o les appelle des borélies. Défiitio 3. O appelle desité de probabilité ue foctio de R das R, cotiue par morceaux et d itégrale 1. f(x) 0, x R et R f(x) dx = 1. État doée ue desité de probabilité, o défiit ue loi de probabilité sur R e associat à tout évéemet A l itégrale de la desité sur cet évéemet : P[A] = A f(x) dx. Exemple : Pour l expériece aléatoire cosistat à tirer au hasard u réel das [0, 1] (par simulatio), o cosidérera sur R la loi de probabilité cotiue, de desité : f(x) = { 1 si x [0, 1], 0 sio. Elle doe à tout itervalle iclus das [0, 1] ue probabilité égale à sa logueur. Comme das l exemple ci-dessus, il est fréquet qu ue desité soit strictemet positive sur u itervalle (évetuellemet o boré) de R, et ulle ailleurs. L itervalle sur lequel f est strictemet positive s appelle le support de la loi. O peut voir ue probabilité comme ue répartitio de masse sur l esemble des évetualités. La masse totale vaut 1. Das le cas discret, elle est répartie sur chacue des évetualités e grais de plomb disticts. Das le cas cotiu, elle est répartie sur tout u itervalle de R, qui deviet comme u fil de masse 1 dot la desité de masse serait variable. Calculer la probabilité d u évéemet, c est calculer sa masse. À part cette aalogie, quel ses pratique a la otio de probabilité? Peut-o mesurer physiquemet des probabilités? Le seul ses cocret que l o puisse leur doer est celui, ituitif, de la loi des grads ombres. Pile a ue chace sur deux de se produire sigifie pour ous si je lace la pièce u grad ombre de fois, Pile sortira eviro ue fois sur deux. 12

Ituitio : La probabilité d u évéemet est la limite de ses fréqueces empiriques sur u grad ombre d expérieces idépedates. Cette ituitio comporte plusieurs cois d ombres. Que les fréqueces empiriques coverget sous certaies hypothèses est u théorème (c est ce théorème qui porte le om de loi des grads ombres). Pourquoi rajouter l adjectif idépedates? Imagiez ue machie de précisio à lacer les pièces : u bras articulé mui d u plateau, relié à u ressort réglable à ue valeur fixée ue fois pour toutes. Mettos le ressort sous tesio, posos la pièce sur le plateau, côté pile, et lâchos le ressort. Au premier essai o e pourra pas prévoir si la pièce tombera sur pile ou face. Mais l iformatio apportée par le résultat du premier essai permettra de prévoir les suivats : les expérieces e serot pas idépedates. Les fréqueces empiriques vaudrot 1 ou 0 mais e fourirot aucu reseigemet sur le fait que la pièce soit équilibrée ou o. L objectif pricipal du paragraphe suivat est de préciser les otios de dépedace et d idépedace d évéemets et d expérieces aléatoires. 1.2.3 Probabilités coditioelles La coaissace d ue iformatio sur ue expériece peut modifier l idée qu o se fait de la probabilité d u évéemet. La probabilité d attedre plus d ue heure au guichet est supérieure s il y a beaucoup de mode devat vous. Défiitio 4. Soiet A et B deux évéemets tels que P[B] 0. La probabilité coditioelle de A sachat B est : P[A B] P[A B] =. P[B] Iterpétatio : Le fait de savoir que B est réalisé réduit l esemble des résultats possibles de Ω à B. À partir de là, seules les évetualités de A B ot ue importace. La probabilité de A sachat B doit doc être proportioelle à P[A B]. Le coefficiet de proportioalité 1/P[B] assure que l applicatio qui à A associe P[A B] est bie ue probabilité, pour laquelle B est l évéemet certai. Poit de vue fréquetiste : Si o admet la loi des grads ombres, la probabilité doit être vue comme ue limite de fréqueces empiriques. Avec les otatios du paragraphe précédet, A B / (resp. B /) est la fréquece empirique de A B (resp. B), et o a : P[A B] = P[A B] P[B] A B/ B / = A B B. Il faut doc voir la probabilité coditioelle P[A B] comme la limite quad le ombre d expérieces ted vers l ifii de la proportio de fois où A est réalisé parmi les expérieces où B l est aussi. Ue loi de probabilité coditioelle est ue loi de probabilité. E particulier, si A 1 et A 2 sot disjoits (icompatibles) alors : P[A 1 A 2 B] = P[A 1 B] P[A 2 B]. 13

aussi : P[A B] = 1 P[A B]. La défiitio des probabilités coditioelles s utilise souvet sous la forme : P[A B] = P[A B] P[B] = P[B A] P[A]. Si (B i ) i I est ue famille déombrable d évéemets disjoits deux à deux, dot la réuio est l évéemet certai Ω (partitio de Ω), alors : P[A] = P[A B i ] = P[A B i ] P[B i ]. i I i I C est la formule des probabilités totales. Mais aussi, pour tout j I : P[B j A] = P[B j A] P[A] = P[A B j] P[B j ] P[A B i ] P[B i ]. i I C est la formule de Bayes. L idée ituitive d idépedace de deux évéemets est la suivate : A et B sot idépedats si le fait de savoir que B se produit ou o e modifie pas les chaces de A. Ou ecore : sur u grad ombre d expérieces, la proportio des fois où A s est produit quad B était réalisé est approximativemet la même que quad il e l était pas. Exemple : A : La bourse de New-York est e hausse. B : Il pleut à Paris. Dire que A et B sot idépedats, c est dire que la bourse de New-York est e hausse aussi souvet quad il pleut à Paris que quad il e pleut pas. E terme de fréqueces, o écrira : A B B A B B A. Soit pour les probabilités : P[A B] = P[A B] = P[A], ou ecore, P[A B] P[B] = P[A]. 14

Défiitio 5. Deux évéemets A et B sot idépedats si : P[A B] = P[A] P[B]. Deux expérieces aléatoires sot idépedates si tout évéemet observable à l issue de l ue est idépedat de tout évéemet observable à l issue de l autre. Attetio : Il e faut pas cofodre idépedats et icompatibles. Pour deux évéemets icompatibles o a P[A B] = P[A]P[B]. Deux évéemets icompatibles de probabilités o ulles e sot jamais idépedats. Si l u des deux se produit, l autre e peut pas se produire. La défiitio d idépedace se gééralise de la faço suivate. Défiitio 6. Les évéemets A 1,..., A sot idépedats si pour tout sous-esemble d idices {i 1,..., i k } {1,..., }, la probabilité de l itersectio est le produit des probabilités : k k P[ A ij ] = P[A ij ]. j=1 Des expérieces aléatoires E 1,..., E sot idépedates si pour tout -uplet d évéemets A 1,..., A, où A i est observable à l issue de E i, les évéemets A 1,..., A sot idépedats. Ue suite (E ) N est ue suite d expérieces idépedates si pour tout les expérieces E 1,..., E sot idépedates. Das les défiitios que ous avos doées jusqu ici se trouve u cercle vicieux : Ue probabilité est ue limite de fréqueces sur des expérieces idépedates. Deux évéemets sot idépedats si la probabilité de leur itersectio est le produit des probabilités. Les deux otios de probabilité et d idépedace sot doc idissociables, et e u ses impossibles à défiir e pratique. Tout ce que l o peut faire, c est motrer la cohérece de leurs défiitios. Ue probabilité état doée pour les évéemets observables à l issue d ue expériece aléatoire, cette probabilité est bie limite de fréqueces empiriques quad la même expériece est répétée idépedammet. C est la loi des grads ombres. 1.3 Variables aléatoires 1.3.1 Loi d ue variable aléatoire Ue variable aléatoire est u ombre dépedat du résultat d ue expériece aléatoire. L ejeu est la localisatio de ce ombre : détermier quelles sot ses chaces de tomber sur telle ou telle partie de R. Cette localisatio coduit à associer à toute variable aléatoire ue loi de probabilité sur R. j=1 15

Défiitio 7. O appelle loi de la variable aléatoire X la loi de probabilité P X sur R, défiie pour tout borélie A de R par : P X [A] = P[X A]. E pratique, o oublie le codage iitial e évetualités et la loi P sur Ω, pour e reteir que la loi P X sur R. Si o observe qu ue seule variable aléatoire X, o pourra d ailleurs cosidérer que les évetualités sot les valeurs réelles qu elle peut predre, et muir cet esemble de la loi de X. Pour des raisos de modélisatio autat que de commodité mathématique, o distigue deux types de variables aléatoires. Les variables aléatoires discrètes e preet qu u ombre fii ou déombrable de valeurs (e gééral etières). Les variables aléatoires cotiues peuvet a priori predre toutes les valeurs das u itervalle de réels. Cette distictio correspod bie sûr à celle déjà itroduite pour les lois de probabilité. E gééral, o sera ameé à répéter ue même expériece pour e faire ue ouvelle expériece globale, et doc à observer plusieurs variables aléatoires à l issue d ue expériece. La otio d idépedace etre variables aléatoires joue u rôle importat das ce qui suit. Défiitio 8. Les variables aléatoires X 1,..., X sot dites idépedates si pour tout -uplet (A 1,..., A ) de borélies de R, les évéemets X 1 A 1,..., X A sot idépedats. Ue suite (X ) de variables aléatoires idépedates est telle que pour tout les variables aléatoires (X 1,..., X ) sot idépedates. L idépedace est doc ue propriété des évéemets X i A i. O e déduit que si X et Y sot idépedates, alors toute foctio de X est idépedate de toute foctio de Y. 1.3.2 Variables aléatoires discrètes Défiitio 9. O dit qu ue variable aléatoire est discrète si elle e pred qu u ombre fii ou déombrable de valeurs : X {x k, k K N}. Das ce cas, la loi de la variable aléatoire X est la loi de probabilité sur l esemble des valeurs possibles de X qui affecte la probabilité P[X = x k ] au sigleto {x k }. E pratique, l esemble des valeurs que peut predre X est N ou ue partie de N. Détermier la loi d ue variable aléatoire discrète c est : 1. Détermier l esemble des valeurs que peut predre X. 2. Calculer P[X = x k ] pour chacue de ces valeurs x k. 16

Poit de vue fréquetiste. Rappelos que le seul ses pratique que l o puisse doer à la otio de probabilité est celui d ue limite de fréqueces empiriques. C est aussi le ses qu il faut doer à la otio de loi discrète. Répétos fois idépedammet l expériece aléatoire à l issue de laquelle X est mesurée. O obtiet aisi u -uplet (X 1,..., X ) de variables aléatoires idépedates de même loi que X (cela s appelle u échatillo). O peut sur ce -uplet calculer les fréqueces empiriques des évéemets X = x k : f ({x k }) = 1 ( ) I {xk }(X 1 ) I {xk }(X ). D après la loi des grads ombres cette fréquece doit coverger vers P[X = x k ]. Pour tout les fréqueces empiriques {f ({x k }), k K} défiisset ue loi de probabilité discrète sur l esemble des x k. O représete souvet graphiquemet les lois discrètes par des diagrammes e bâtos : il s agit de tracer au dessus de l abscisse x k u segmet vertical de logueur égale à P[X = x k ]. Les lois discrètes les plus courates sot les suivates. La loi biomiale est la plus importate. Loi uiforme. La loi uiforme sur u esemble fii est la loi des tirages au hasard das cet esemble, ou équiprobabilité. Elle doe la même probabilité 1/ à tous les élémets de l esemble, s il est de cardial. Loi de Beroulli. Les plus simples des variables aléatoires discrètes sot les idicatrices d évéemets. Si A est u évéemet de probabilité p, la variable aléatoire I A pred la valeur 1 si A est réalisé, et 0 sio. Sa loi est la loi de Beroulli de paramètre p. P[I A = 0] = 1 p, P[I A = 1] = p. Les deux autres exemples de base sot la loi biomiale et la loi hypergéométrique. Loi biomiale. O répète la même expériece fois idépedammet et o compte le ombre de fois où l évéemet A se produit. O cosidérera la répétitio des expérieces comme ue ouvelle expériece globale. Comme seul l évéemet A ous importe, o pourra e reteir de l expériece globale qu u -uplet de boolées du type : (A, A, A, A, A,..., A, A), qu il sera plus { simple de trasformer e u -uplet de 0 et de 1. Notos : 1 si A est vrai à l issue de la i-ème expériece, X i = 0 si A est faux à l issue de la i-ème expériece. S = X i le ombre de fois où A est réalisé au cours des expérieces. i=1 17

Si p désige la probabilité de l évéemet A, la variable aléatoire X i suit la loi de Beroulli de paramètre p. La variable aléatoire S pred ses valeurs das l esemble {0,..., }. Pour détermier sa loi, ce sot les évéemets du type S = k qui ous itéresset. Du fait de l hypothèse d idépedace des expérieces, la probabilité d u résultat quelcoque de l expériece globale est u produit de probabilités. Par exemple : P[(A, A, A, A, A,..., A, A)] = p (1 p) p p (1 p)... (1 p) p. Tout -uplet particulier coteat k 1 et k 0 a pour probabilité p k (1 p) k. Il y e a : ( )! = k k! ( k)! ; c est le ombre de maières de choisir k idices parmi. D où : ( ) P[S = k] = p k (1 p) k, k = 0,...,. k Défiitio 10. O dit qu ue variable aléatoire X suit la loi biomiale de paramètres et p (otée B(, p)) si : 1. X pred ses valeurs das l esemble {0, 1,..., } 2. P[X = k] = ( k ) p k (1 p) k, k = 0,...,. À reteir : Le ombre d occurreces d u même évéemet de probabilité p, au cours de expérieces idépedates suit la loi biomiale B(, p). Remarque : C est ue boe habitude ( à) predre que de vérifier que la somme des probabilités calculées vaut 1. Ici : p k (1 p) k = (p (1 p)) = 1, par la k=0 k formule du biôme de Newto (d où le om de loi biomiale). Loi hypergéométrique. La loi hypergéométrique est la loi des tirages sas remise. D ue populatio de taille N, o extrait au hasard u échatillo (sous-esemble) de taille. Parmi les N idividus, m sot marqués. Le ombre X d idividus marqués sur les idividus choisis, suit la loi hypergéométrique de paramètres N, m et, La variable aléatoire X pred ses valeurs das l esemble {0,..., }, et pour tout k {0,..., } : ) ( ) N m P[X = k] = ( m k k ( N, ) où par covetio ( ) i j = 0, si j {0,..., i}. O recotre fréquemmet cette loi das les jeux de hasard. Variable aléatoire N m Nombre d as das ue mai au poker 32 4 5 Nombre d as das ue mai au bridge 52 4 6 Nombre de bos uméros sur ue grille au loto 49 6 6 Nombre de bos uméros sur ue grille au Kéo 70 20 4, 5,..., 10 18

1.3.3 Variables aléatoires cotiues Défiitio 11. Soit X ue variable aléatoire à valeurs das R et f X ue desité de probabilité sur R. O dit que X est ue variable aléatoire cotiue de desité f X si pour tout itervalle A de R o a : P[X A] = A f X (x) dx. La loi de la variable aléatoire X est la loi cotiue sur R, de desité f X. Pour détermier la loi d ue variable aléatoire cotiue, il faut doc calculer sa desité. De maière équivalete, o détermie la loi d ue variable cotiue e doat la probabilité qu elle appartiee à u itervalle I quelcoque. Ue variable aléatoire cotiue X, de desité f X, tombe etre a et b avec ue probabilité égale à : P[a < X < b] = b a f X (x) dx. Plus la desité f X est élevée au-dessus d u segmet, plus les chaces que X a d atteidre ce segmet sot élevées, ce qui justifie le terme desité. La probabilité pour ue variable aléatoire cotiue de tomber sur u poit quelcoque est ulle. P[X = a] = f X (x) dx = 0. Par coséquet : {a} P[ X [a, b] ] = P[ X [a, b[ ] = P[ X ]a, b] ] = P[ X ]a, b[ ]. Notos aussi que modifier ue desité e u ombre fii ou déombrable de poits e chage pas la valeur des itégrales sur des segmets, i par coséquet la loi de probabilité correspodate. La valeur de la desité e u poit particulier importe peu. Comme das le cas discret ous doos quelques exemples de base. Les desités sot doées e u poit x quelcoque de R. Loi uiforme. La loi uiforme sur u itervalle est la loi des tirages au hasard das cet itervalle. Si a < b sot deux réels, la loi uiforme sur l itervalle [a, b] est otée U(a, b). Elle a pour desité : 1 b a I [a,b](x). Attetio à e pas cofodre Nombre au hasard et variable aléatoire. Le ses ituitif de au hasard est uiformémet réparti : u ombre au hasard etre 0 et 1 est e fait ue variable aléatoire de loi U(0, 1). Il existe bie d autres lois de probabilité cotiues, o uiformes. 19

Loi ormale. La loi ormale, loi de Gauss, ou de Laplace-Gauss, est la plus célèbre des lois de probabilité. So succès, et so omiprésece das les scieces de la vie, vieet du théorème cetral limite que ous verros plus loi. La loi ormale de paramètres µ R et σ 2 R est otée N (m, σ 2 ). Elle a pour desité : 1 σ (x m) 2 2π e 2σ 2. Loi gamma. La loi gamma de paramètres a > 0 et λ > 0, otée G(a, λ) a pour desité : λ a Γ(a) xa 1 e λx I R (x), où Γ est la foctio gamma, défiie par : Γ(a) = 0 e x x a 1 dx. Pour etier, a = /2 et λ = 1/2, la loi G(/2, 1/2) est appelée loi du khideux à degrés de liberté, et otée X 2 (). C est la loi de la somme des carrés de variables aléatoires idépedates de loi N (0, 1). O l utilise pour les variaces empiriques d échatillos gaussies. Loi de Studet. La loi de Studet à degrés de liberté, T () est la loi du rapport X/ Y/, où les variables aléatoires X et Y sot idépedates, X de loi N (0, 1), Y de loi X 2 (). Elle a pour desité : Γ ( ) 1 ) 2 ( ) πγ (1 x2 1 2 2 O l utilise pour étudier la moyee empirique d u échatillo gaussie. Loi de Fisher. La loi de Fisher de paramètres m et (etiers positifs), est la loi du rapport (X/)/(Y/m), où X et Y sot deux variables aléatoires idépedates, de lois respectives X 2 () et X 2 (m). Elle a pour desité : 2 m m 2 Γ ( ) m 2 Γ ( 2 ) Γ ( m 2 ) x 1 2 (m x) m 2 I R (x). O l utilise pour comparer des variaces d échatillos gaussies. 1.3.4 Foctio de répartitio et foctio quatile La foctio de répartitio d ue variable aléatoire X à valeurs das R (ou plus exactemet de sa loi) est la foctio F X, de R das [0, 1], qui à x R associe : F X (x) = P[X x]. Les propriétés pricipales sot les suivates. 20.

Propositio 1. La foctio de répartitio caractérise la loi. E particulier, a < b R, P[ X ]a, b] ] = F X (b) F X (a). F X est ue foctio croissate, cotiue à droite avec ue limite à gauche e tout poit. lim F X(x) = 0 et lim F X(x) = 1. x x Lois discrètes. La foctio de répartitio d ue variable aléatoire discrète est ue foctio e escalier. Si la variable aléatoire pred les valeurs x k, k = 1, 2,..., supposées ragées par ordre croissat, alors la foctio de répartitio F X pred les valeurs : F X (x) = 0 pour x < x 1 P[X = x 1 ] pour x [x 1, x 2 [. P[X = x 1 ] P[X = x k ] pour x [x k, x k1 [. 0.5 0.4 0.3 0.2 0.1 Probabilites 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Repartitio 0.0. -1 0 1 2 3 4 5 0.0. -1 0 1 2 3 4 5 Fig. 5 Diagramme e bâtos et foctio de répartitio de la loi du ombre de bos uméros pour 4 uméros cochés au Kéo. Voici par exemple la loi et les valeurs différetes de la foctio de répartitio pour le ombre de bos uméros pour 4 uméros cochés sur ue grille de Kéo (figure 5). k 0 1 2 3 4 P[X = k] 0.2512 0.4275 0.2538 0.0622 0.0053 P[X k] 0.2512 0.6787 0.9325 0.9947 1 Lois cotiues. La foctio de répartitio d ue variable aléatoire cotiue est la primitive de la desité qui s aule e : F X (x) = P[X x] = 21 x f X (t) dt.

C est ue foctio cotiue sur R. E tout poit x où f X est cotiue, F X est dérivable et : F X(x) = f X (x). Loi U(a, b) x 1 F X (x) = b a I [a,b](t)dt = 0 si x a x a si x [a, b] b a 1 si x b. Loi N (µ, σ 2 ) F X (x) = x 1 σ (t µ) 2 2π e 2σ 2 dt. Il existe pas d expressio aalytique pour la foctio de répartitio des lois ormales. Pour e calculer des valeurs approchées, vous utiliserez des tables umériques, e vous rameat à la foctio de répartitio de la loi N (0, 1), que ous oteros F. F (x) = F N (0,1) (x) = x 1 2π e t2 2 dt. Tous les lagages spécialisés ot u code d itégratio umérique qui calcule la foctio de répartitio de toutes les lois usuelles. 0.5 f(x) Desite 1.0 F(x) Repartitio 0.9 0.4 0.8 0.7 0.3 0.6 0.5 0.2 0.4 0.3 0.1 0.2 x 0.1 x 0.0. -3-2 -1 0 1 2 3. 0.0-3 -2-1 0 1 2 3 Fig. 6 Desité et foctio de répartitio de la loi ormale N (0, 1). La foctio de répartitio est l outil privilégié des calculs de lois. U cas fréquet das les applicatios est celui où o coaît la loi de X et o veut détermier la loi d ue foctio. Comme exemple d applicatio, ous allos démotrer le résultat qui permet de rameer ue loi ormale quelcoque à la loi N (0, 1). Théorème 1. Soit X ue variable aléatoire de loi N (0, 1) et Y = σx µ, avec µ R, σ R, alors Y suit la loi N (µ, σ 2 ). Réciproquemet, si Y suit la loi N (µ, σ 2 ), alors X = Y µ σ suit la loi N (0, 1). 22

Démostratio : [ F Y (y) = P[σX µ y] = P X y µ ] σ La desité correspodate est : f Y (y) = 1 σ f X ( ) y µ σ = 1 σ (y µ) 2 2π e 2σ 2, ( ) y µ = F X σ et doc Y suit la loi N (µ, σ 2 ). La deuxième affirmatio est qu ue autre maière d exprimer la première. La deuxième affimatio est la plus utilisée. Elle permet de rameer les calculs de probabilité sur ue loi ormale quelcoque aux calculs sur la loi N (0, 1). Si Y suit la loi ormale d espérace µ et de variace σ 2, alors X = (Y µ)/σ suit la loi N (1, 0). O calcule alors la probabilité pour Y d apparteir à u itervalle quelcoque, e se rameat à la foctio de répartitio de la loi N (0, 1), otée F, dot les valeurs se liset das les tables. P[a Y < b] = P [ a µ σ Y µ σ < b µ σ ] ( ) ( ) b µ a µ = F F. σ σ La foctio quatile d ue variable aléatoire X (ou de sa loi de probabilité) est la réciproque de sa foctio de répartitio. Quad cette foctio de répartitio est strictemet croissate, sa réciproque est défiie sas ambigüité : pour tout réel u etre 0 et 1, Q X (u) est l uique réel x tel que F X (x) = u. Mais ue foctio de répartitio reste costate sur tout itervalle das lequel la variable aléatoire e peut pas predre de valeurs. C est pourquoi o itroduit la défiitio suivate. Défiitio 12. Soit X ue variable aléatoire à valeurs das R, et F X sa foctio de répartitio. O appelle foctio quatile de X la foctio, otée Q X, de ]0, 1[ das R, qui à u ]0, 1[ associe : Q X (u) = if{x : F X (x) u}. Par covetio, o peut décider que Q X (0) est la plus petite des valeurs possibles pour X et Q X (1) est la plus grade ; elles sot évetuellemet ifiies. Lois discrètes. La foctio quatile d ue variable aléatoire discrète est ue foctio e escalier, comme la foctio de répartitio. Si X pred les valeurs x k, k = 1, 2..., ragées par ordre croissat, la foctio de répartitio est égale à : F k = P[X = x 1 ] P[X = x k ],. 23

sur l itervalle [x k, x k1 [. La foctio quatile vaut : x 1 pour u [0, F 1 ]. Q X (u) = x k pour u [F k, F k1 [. Par exemple, pour la loi géométrique G(p), la foctio quatile est la foctio qui, pour tout k = 1, 2,..., vaut k sur l itervalle [1 (1 p) k, 1 (1 p) k1 [. Lois cotiues. Plaços-ous das le cas le plus fréquet, où la desité f X est strictemet positive sur u itervalle de R (so support) et ulle ailleurs. Si cet itervalle est [a, b], la foctio de répartitio est ulle avat a si a est fii, elle est strictemet croissate de 0 à 1 etre a et b, elle vaut 1 après b si b est fii. Toute valeur u strictemet comprise etre 0 et 1 est prise ue fois et ue seule par F X. La valeur de Q X (u) est le poit x uique, compris etre a et b, tel que F X (x) = u. La foctio quatile est u moye de décrire la dispersio d ue loi. Si o réalise u grad ombre de tirages idépedats de la même loi (u échatillo), o doit s attedre à ce qu ue proportio u des valeurs soiet iférieures à Q X (u). Ue valeur importate est la médiae, Q X (0.5). Les valeurs de la foctio quatile sot plus souvet utilisées e statistique que les valeurs de la foctio de répartitio. O utilise e particulier fréquemmet les itervalles de dispersio, compris comme devat coteir ue forte proportio des doées. 1.3.5 Espérace et variace Rappelos l iterprétatio d ue loi de probabilité comme ue répartitio de masse. L espérace d ue loi de probabilité est le barycetre de cette répartitio de masse. Lois discrètes. Cosidéros ue variable aléatoire discrète X, preat ses valeurs das {x k, k K N}. Si la série x k P[X = x k ] coverge alors l espérace E[X] k K est : E[X] = k K x k P[X = x k ]. C est bie le barycetre des poits d abscisse x k, affectés des poids P[X = x k ]. Lois cotiues. Soit X ue variable aléatoire cotiue, de desité f X sur R. Ue desité s iterprète comme ue distributio de masse cotiue sur R. C est ecore so barycetre que l o calcule. Si l itégrale x f X (x) dx coverge, alors l espérace E[X] est : E[X] = R R x f X (x) dx. Les propriétés pricipales de l espérace sot les suivates. 24

Propositio 2. 1. Si X et Y admettet ue espérace, alors : a, b R E[aX by ] = ae[x] be[y ]. 2. Si X et Y sot idépedates et admettet ue espérace alors : E[XY ] = E[X] E[Y ]. Le tableau 1 doe les espéraces des lois usuelles, discrètes et cotiues. Loi Espérace 1 Uiforme U({1,..., }) 2 Beroulli B(1, p) p Biomiale B(, p) Hypergéométrique HG(N, m, ) p m N ab Uiforme U(a, b) 2 Normale N (µ, σ 2 ) µ khi-deux X 2 () Studet T () 0 si > 1 Fisher F(, m) m si m > 2 m 2 Tab. 1 Espéraces des lois usuelles. La variace traduit la plus ou mois grade dispersio des valeurs prises autour de l espérace. Défiitio 13. O appelle variace de X, et o ote V ar[x], l espérace de la variable aléatoire (X E[X]) 2, si elle existe. O démotre que l existece de la variace etraîe celle de l espérace. Par cotre ue variable aléatoire X peut très bie avoir ue espérace mais pas de variace. C est le cas par exemple si X a pour desité : f X (x) = 2 x 3 I [1, [(x). Le calcul des variaces est souvet simplifié par le résultat suivat. 25

Propositio 3. La variace de X existe si et seulemet si E[X 2 ] existe et o a : V ar[x] = E[X 2 ] (E[X]) 2. Démostratio : Pour passer de la défiitio à la formule ci-dessus, il suffit de développer le carré et d utiliser la liéarité de l itégrale. V ar[x] = E[(X E[X]) 2 ] = E[X 2 2XE[X] (E[X]) 2 ] = E[X 2 ] 2E[X]E[X] (E[X]) 2 = E[X 2 ] (E[X]) 2. La variace mesure de combie les valeurs prises par X s écartet de la valeur moyee E[X]. Elle est pas homogèe : si X est ue logueur exprimée e mètres, V ar[x] est e mètres-carrés. O corrige ceci e itroduisat l écart-type qui est la racie carrée de la variace. Les propriétés pricipales de la variace sot les suivates. Propositio 4. Pour tout a R : V ar[ax] = a 2 V ar[x]. Pour tout b R : V ar[x b] = V ar[x]. Si X et Y sot idépedates, alors : V ar[x Y ] = V ar[x] V ar[y ]. Le tableau 2 doe les variaces des lois usuelles, discrètes et cotiues. 1.3.6 Théorèmes limites Le premier résultat est la traductio mathématique de l idée ituitive de loi des grads ombres. Théorème 2. Soit X ue variable aléatoire admettat ue variace. Soit (X ) N ue suite de variables aléatoires idépedates de même loi que X. Alors pour tout ε > 0 : [ lim P X 1 X ] E[X] > ε = 0. L idée ituitive est que si o mesure ue même quatité aléatoire au cours d ue suite d expérieces idépedates, alors la moyee arithmétique des valeurs observées va se stabiliser sur l espérace. Comme cas particulier o retrouve la loi des grads ombres pour la probabilité d u évéemet. Pour ue suite d expérieces idépedates otos X i l idicatrice de l évéemet A à la i-ème expériece. Les X i suivet la loi de Beroulli de paramètre P[A] et (X 1 X )/ est la fréquece empirique de A. 26

Loi Variace Uiforme U({1,..., }) 2 1 12 Beroulli B(1, p) p(1 p) Biomiale B(, p) p(1 p) ( Hypergéométrique HG(N, m, ) m N 1 m N Uiforme U(a, b) (a b) 2 12 Normale N (µ, σ 2 ) σ 2 khi-deux X 2 () Studet T () Fisher F(, m) 2m 2 2 ) N N 1 si > 2 2 Tab. 2 Variaces des lois usuelles. m 2 si m > 4 (m 2) 2 (m 4) L ordre de gradeur de l erreur commise e approchat E[X] par la moyee (X 1 X )/ est de l ordre de 1/. Cette estimatio d erreur sera précisée plus loi par la otio d itervalle de cofiace, grâce au théorème cetral limite. Théorème 3. Soit (X ), N, ue suite de variables aléatoires idépedates de même loi, d espérace µ et de variace σ 2 fiies. Posos : N, X = X 1 X et Z = X µ σ La loi de Z coverge vers la loi ormale N (0, 1), c est-à-dire que pour tout a < b : lim P[a < Z < b] = b a 1 2π e x2 /2 dx. Iterprétatio : Das le théorème cetral limite, µ est la valeur à estimer. Les valeurs X 1,..., X costituet u échatillo de mesures aléatoires idépedates d espérace µ. La quatité (X 1 X )/ est la moyee empirique de l échatillo, qui d après la loi des grads ombres doit coverger vers l espérace µ. Le théorème cetral limite doe la précisio de cette approximatio. O peut le lire ituitivemet comme suit. Si est assez grad alors Z est très probablemet compris etre 3 et 3 (la probabilité est 0.9973). Soit ecore : X 1 X µ 27 [ 3σ ; 3σ ],.

ou bie X (moyee empirique) est égale à µ à 3σ/ près. Nous formaliseros ceci plus loi par la otio d itervalle de cofiace. Le théorème cetral limite est utilisé pour des valeurs fiies de. L idée cocrète est la suivate. Si est assez grad, la variable cetrée réduite (espérace 0, variace 1) Z associée à la somme de variables idépedates suit approximativemet la loi N (0, 1). Si o réalise suffisammet de simulatios de Z et si o trace u histogramme 1 des valeurs obteues, celui-ci e sera pas très loi de la courbe 2π e x2 /2. Pas plus loi e tout cas que si o avait simulé des variables aléatoires de loi N (0, 1). Si Z suit la loi N (0, 1), alors Y = σz µ suit la loi N (µ, σ 2 ). O peut aussi dire que pour assez grad ue somme de variables aléatoires idépedates suit approximativemet ue loi ormale, dot l espérace et la variace sot respectivemet la somme des espéraces et la somme des variaces des variables que l o ajoute. Le problème est de savoir à partir de quelle valeur est assez grad, pour la précisio désirée. Cela déped beaucoup de la loi des X. L approximatio est d autat meilleure que la loi des X est plus symétrique. Pour des lois plutôt dissymétriques comme la loi expoetielle, l approximatio ormale est pas valable pour des sommes de quelques dizaies de variables. O peut la cosidérer comme justifiée à partir de quelques cetaies. E simulatio, ce sot des milliers, voire des millios de variables qui sot egedrées, et l approximatio ormale est tout à fait légitime. 1.4 Distributio empirique 1.4.1 Statistique et probabilités Les traitemets statistiques relèvet d u aller-retour permaet etre les doées, qui sot des collectios de chiffres mesurés, et les modèles probabilistes qui ot aucue réalité physique, mais fourisset des outils pour décrire la variabilité de ces doées. Das cette démarche, u premier pas cosiste à associer à l échatillo ue loi de probabilité fictive. La distributio empirique associée à u échatillo est la loi de probabilité sur l esemble des modalités qui affecte chaque observatio du poids 1/. L idée est la suivate. Supposos que l o souhaite augmeter artificiellemet le ombre de doées. Le moye le plus simple serait de tirer au hasard de ouvelles doées parmi les valeurs observées, e respectat leurs fréqueces. E d autres termes, o simulerait la distributio empirique. Défiitio 14. Soit (x 1,..., x ) u échatillo, c 1,..., c k les valeurs distictes prises par les x i et pour h = 1,..., k : h = I ch (x i ), i=1 l effectif de la valeur c h. La distributio empirique de l échatillo est la loi de proba- 28