2 Variables aléatoires. PAES Faculté de Médecine P. et M. Curie V. Morice

Probabilités et Biostatistique 2 Variables aléatoires Principales lois de probabilité PAES Faculté de Médecine P. et M. Curie V. Morice

Variable aléatoire Une variable aléatoire désigne la grandeur mesurée lors d'une expérience aléatoire Exemples : âge, couleur des yeux Résultats possibles de l'expérience valeurs possibles de la variable aléatoire Types de variables aléatoires Si résultats numériques (variable quantitative) V.a. continue : les valeurs couvrent ou un intervalle V.a. discrète : les valeurs sont discontinues ( ) Sinon (variable qualitative) V.a. ordinale : les valeurs sont ordonnées V.a. nominale ou catégorielle : valeurs sans ordre V. Morice - Biostatistique PAES 2

Fonction de répartition Soit X une v.a. quantitative On cherche une fonction définissant la probabilité de tout intervalle [a ; b] Soit l événement [X x] où x est un nombre Pr ([X x]) dépend de la valeur x F X (x) = F(x) = Pr ([X x]) = fonction de répartition de X V. Morice - Biostatistique PAES 3

Fonction de répartition : premières propriétés F X (- ) = 0 F X (+ ) = 1 a < b Pr ([X b]) = Pr ([X a]) + Pr ([a < X b]) car [X a] et [a < X b] = événements exclusifs F X (b) = F X (a) + Pr ([a < X b]) F X est monotone croissante On trace la courbe en cumulant les probabilités rencontrées lorsque x augmente Pr ([a < X b]) = F X (b) - F X (a) V. Morice - Biostatistique PAES 4

Fonction de répartition : exemple d une v.a. discrète Jet d une pièce : E = {p, f} ; Pr (p) = Pr (f) = ½ V.a. X : X(f) = 0 ; X(p) = 1 Fonction de répartition V. Morice - Biostatistique PAES 5

Fonction de répartition : exemple d une v.a. continue Appel téléphonique dans l intervalle [0,T] t=instantd appel appel : Pr (t1 t t2)=(t2-t1)/t t1)/t (t1 et t2 [0,T]) Fonction de répartition Si x<0, l appel n a pas eu lieu avant x : F(x) = 0 Si x >T, l appel a eu lieu avant x : F(x) = 1 Sinon F(x)=Pr (0 t x)= x/t V. Morice - Biostatistique PAES 6

Fonction de répartition : autres propriétés On sait Pr ([x - < X x]) = F X (x) - F X (x - ) Si x - x, Pr ([x - < X x]) Pr ([X = x]) Si X est une v.a. continue F X est continue (si x - x, F X (x - ) F X (x)) Pour tout x, Pr ([X = x]) = 0 Pr ([a X b]) = Pr ([a < X < b]) Si X est une v.a. discrète F X est discontinue X En chaque point x de discontinuité, la hauteur du saut (F X (x) - F X (x - ) lorsque x - x) est la probabilité de x V. Morice - Biostatistique PAES 7

v.a. discrète : distribution des probabilités V. Morice - Biostatistique PAES 8

v.a. continue : densité de probabilité Densité de probabilité f X( x) = f( x) = dfx( x) dx Fonction de répartition FX ( x ) = x fx( t)dt Pr ([a X b]) = F X (b) F X (a) = b a f ( x)dx X f(x) 0 (F croissante) f(x)dx=pr ([x X x+dx]) f(x)dx Pr ([X=x]) - f( x)dx = 1 V. Morice - Biostatistique PAES 9

Pour définir une v.a. Définition de la Tableau des loi de proba p i =Pr (X=x i ) v.a. discrète v.a. continue ou qualitative Propriétés p i 0 f(x) 0 n p = = 1 i 1 x)dx 1 i Uniquement si quantitative : F(x) = p xi x i Densité de proba f(x) b Pr([a X b]) = f( x)dx= f( = x a F( x ) = x f(t)dt t t F(b)-F(a) f(x)dx =Pr (x X x+dx) f(x)dx Pr (X=x) V. Morice - Biostatistique PAES 10

Espérance mathématique [variable quantitative] Moyenne au niveau de la population Notation E(X) = μ X = μ Calcul : somme de toutes les valeurs pondérées par leur probabilité V.a. discrète : E( X) = i n 1xip i V.a. continue : = E( X ) )d = x f( x x V. Morice - Biostatistique PAES 11

Espérance mathématique : propriétés Soient des v.a. X et Y et des constantes a, b, c E(c) = c E(X+c) = E(X)+c Démonstration du cas discret : Y=X+cY X a pour valeurs y i =xx i +c E(X+c) = E(Y) = y i Pr (Y=y i ) = (x i +c)pr (Y=y i ) Or Pr (Y=y i ) = Pr (X+c=x i +c) = Pr (X = x i ) = p i Donc E(X+c) = (x( i +c)p i = x i p i + c pp i = E(X)+c Plus généralement si Y=g(X), on a y i Pr (Y=y i ) = g(x i )p i Si c = -E(X) E(X -E(X)) = E(X) - E(X) = 0 Une v.a. despérance d espérance nulle est dite centrée E(aX) = ae(x) E(X +Y) =E(X) +E(Y) V. Morice - Biostatistique PAES 12

Variance (et écart-type) [variable quantitative] Variance = mesure de la variabilité autour de l espérance Notation var(x) =σσ 2 2 X = σ Définition var(x) = E[(X -E(X)) 2 ] On ne peut utiliser E[X -E(X)] qui est nul Calcul X = i n = 1 V.a. discrète var( ) ( xi-e( X)) 2 p V.a. continue var( X ) - ( x-e( X)) f( x)dx = 2 Autre définition iti var(x) = E(X 2 ) -E(X) 2 Car E[(X -E(X)) 2 ] = E[X 2-2X E(X)+E(X) 2 ] = E(X 2 )-2E(X)E(X)+E(X) 2 = E(X 2 ) -E(X) 2 Calcul n V.a. discrète var( X) x p-e( X) 2 i i i n ( = =1 V.a. continue var( X) = x f( x)dx-e( X 2 2 2 - ) Ecart-type type = σ X = σ = var(x ) i V. Morice - Biostatistique PAES 13

Variance : propriétés Var(X) 0 (somme de carrés) Variance nulle pour une constante. Variance faible pour une variable peu dispersée Si X possède une unité E(X) et σ ont tla même unité Var(X) a cette unité au carré Si c est une constante Var(c) = 0 Var(X +c) = var(x) Var(c X) = c 2 var(x) Var(X +Y) =? V. Morice - Biostatistique PAES 14

Loi de 2 variables discrètes ou qualitatives X et Y, deux v.a. discrètes ou qualitatives mesurables sur les mêmes individus E X = {x 1, x 2,, x n } ; E y = {y 1, y 2,, y m } Exemple : X =sexe (x 1 =H ; x 2 =F) Y =CSP (y 1 =agriculteur ; y 2 =ouvrier ; ; y m =retraité) Pour parler simultanément de X et Y, Y il faut considérer l espace produit : E X E y = {(x 1,y 1 ), (x 1,y 2 ),, (x 1,y m ),, (x n,y m )} On doit se donner les probabilités de chaque couple : Pr ([X = x i ] [Y = y j ]) = p xi,yj V. Morice - Biostatistique PAES 15

Loi de 2 variables discrètes : tableau des probabilités X \ Y y 1 y 2 y m y x 1 p x1,y11 1 p x1,y2 1 2 p x1,ym1 p x11 x 2 p x2,y1 p x2,y2 p x2,ym p x2 x n p xn,y1 p xn,y2 p xn,ym p xn x p y1 p y2 p ym 1 p xi,yj = Pr ([X = x i ] [Y = y j ]) p xi = p xi,yj ; p yj = p xi,yj p x et p y sont souvent appelées lois marginales Ce sont les lois des variables X et Y indépendamment l une de l autre V. Morice - Biostatistique PAES 16

Covariance et corrélation [variables quantitatives] Var(X+Y) = E[((X+Y)-(μ X +μ Y )) 2 ] = E[((X -μ X )+(Y -μ Y )) 2 ] = E[(X -μ X ) 2 +(Y -μ Y ) 2 +2(X -μ X )(Y -μ Y )] = σ X2 + σ Y2 +2cov(X,Y) Première définition : cov(x,y) = E[(X -μ X )(Y -μ Y )] Seconde définition : cov(x,y) = E(XY)-μ X μ Y = E(XY)-E(X)E(Y) car E[(X -μ )(Y -μ )] = E(XY-μ Y-Xμ +μ μ )=E(XY)-μ μ -μ μ +μ μ car E[(X -μ X )(Y -μ Y )] = E(XY-μ X Y-Xμ Y +μ X μ Y ) = E(XY)-μ X μ Y -μ X μ Y +μ X μ Y Calculs pour deux variables discrètes : cov(x,y) = i,j (x i -μ X )(y j -μ Y ) p xi,yj cov(x,y) = i,j x i y j p xi,yj - μ X μ Y La covariance est une mesure de l intensité de la liaison linéaire entre deux variables cov( X, Y) Corrélation ρ XY = σ Xσ Y La corrélation est toujours entre -11 et 1 V. Morice - Biostatistique PAES 17

Indépendance de deux variables aléatoires X et Y quantitatives sont indépendantes si et seulement si les événements [X x] et[y y] sont indépendants pour tout x et tout y Pr ([X x] [Y ] [ y]) = Pr ([X x])pr ([Y y]) F XY (x,y) = F X (x)f Y (y) où F X et F Y sont les fonctions de répartition de X et de Y, et F XY est la fonction de répartition du couple X, Y (définition) Si X et Y sont des v.a. discrètes ou qualitatives, l indépendance peut s écrire (pour tout x i et tout y j ) Pr ([X = x i ] [Y = y j ]) = Pr ([X = x i ])Pr ([Y = y j ]) p xi,yj = p xi p yj V. Morice - Biostatistique PAES 18

Conséquences de l indépendance de 2 variables quantitatives Si X et Y sont indépendantes, alors : cov(x, Y) =0etρ ρ XY =0 var(x + Y) = var(x ) + var(y) E(XY) = E(X)E(Y) car cov(x, Y) = E(XY) - E(X)E(Y) La réciproque est fausse V. Morice - Biostatistique PAES 19

Loi normale N(μ ; σ 2 ) Loi continue la plus importante 1 1 ( x μ ) 2 Densité : f( x) = e 2 σ2 E(X) = μ σ 2π var(x) = σ 2 (donc σ > 0) Si X et Y sont N et indépendantes, alors ax+by est N Cas particulier N(0 ; 1) Loi centrée (μ = 0) et réduite (σ = 1) 2 1 x f( x) = e 2 2π V. Morice - Biostatistique PAES 20

Allure de la loi N(0 ; 1) Courbe de la densité Surface sous la courbe = 1 Loi symétrique Axedesymétrie=espérance espérance Maximum sur l axe de symétrie Ecart-type = distance entre axe de symétrie et point d inflexion dinflexion V. Morice - Biostatistique PAES 21

Loi N(0 ; 1) et probabilités Probabilité d un intervalle = surface sous la courbe Pr (0,5 X 2) = 0,312 = surface grisée Calcul = intégration de f(x)??? Des tables numériques donnent les résultats Pr (-2 X 2) 0,95 V. Morice - Biostatistique PAES 22

Loi N(μ ; σ 2 ) : influence de μ σ = 1 pour les 3 courbes L allure de la courbe se conserve si on change de moyenne Il s agit d un simple décalage V. Morice - Biostatistique PAES 23

Loi N(μ ; σ 2 ) : influence de σ μ = 0 pour les 3 courbes La courbe s aplatit si σ Elle se resserre si σ Le maximum sajuste s ajuste pour que la surface = 1 Le maximum peut dépasser 1 V. Morice - Biostatistique PAES 24

Loi N(μ ; σ 2 ) et probabilités Soit X N(μ ; σ 2 ). On cherche Pr (a X b) Seule N(0 ; 1) est tabulée X μ Mais Y = N( 0;1) σ On va centrer et réduire pour obtenir la probabilité bilité a -μ X -μ b -μ Pr( a X b) = Pr( ) σ σ σ Posons c = a - μ et σ d = b - μ σ Alors Pr (a X b) = Pr (c Y d) La probabilité sur Y se lit dans la table de la loi normale centrée réduite V. Morice - Biostatistique PAES 25

Loi du «chi-deux» χ 2 (n) Famille de lois dérivées de N(0 ; 1) Si X 1 N(0 ; 1), alors X = X 12 χ 2 (1) Si X 1, X 2,,X X n N(0 ; 1) et sont indépendantes, alors X = X 12 + X 22 + + X n2 χ 2 (n) n est le nombre de degrés de liberté (ddl) X 0 E(X) = n, var(x) = 2n La probabilité d un intervalle est donnée par une table (qui dépend du ddl) V. Morice - Biostatistique PAES 26

Allure de la loi du χ 2 Exemples avec un ddl n = 1, 2, et 8 Courbes = densités de probabilité Si n > 2, la courbe présente un maximum en n 2 Si n augmente, la courbe se rapproche d une loi normale V. Morice - Biostatistique PAES 27

Loi de Bernoulli Base des lois discrètes ou qualitatives Expérience à deux résultats possibles succès et échec Variable de Bernoulli : X(échec) = 0, X(succès) = 1 Pr (succès) = Pr ([X = 1]) = Π Pr (échec) = Pr ([X = 0]) = 1 Π E(X) = Π 1 + (1 - Π) 0 = Π var(x) = E(X 2 ) E(X) 2 E(X 2 ) = Π 1 2 + (1 - Π) 0 2 = Π var(x) = Π - Π 2 = Π(1 - Π) V. Morice - Biostatistique PAES 28

Loi binomiale B(n, Π) Construite sur n expériences de Bernoulli indépendantes (Π ne change pas entre les épreuves) La variable X est le nombre de succès parmi les n expériences (valeur entre 0 et n) La probabilité d avoir exactement k succès est ( ) Πk( Π) n k = n! Πk( Π) Pr( X = k) = 1 1 n k k n k!( n k)! ( ) k n est le nombre de manières d obtenir k succès parmi n Π k (1-Π) n-k est la probabilité d en obtenir une E(X) = nπ ; var(x) = nπ(1-( Π) ) V. Morice - Biostatistique PAES 29

Loi de Poisson Loi concernant la réalisation d événements Faiblement probables (loi des événements rares) Indépendants Exemples : accidents, files d attente, ruptures de stock La variable X est le nombre de réalisations de l événement La loi dépend d un paramètre λ (λ > 0) La probabilité davoir d avoir k réalisations de l événement rare est k Pr( X= k) = e -λλ k! Le nombre k de réalisations varie entre 0 et ( loi binomiale) i λ E(X) = λ ; var(x) = λ ; Pr(X=0) = e Si X 1 Poisson(λ 1 ), X 2 Poisson(λ 2 ), X 1 et X 2 indépendantes, alors X=X 1 +X 2 Poisson(λ 1 +λ 2 ) V. Morice - Biostatistique PAES 30

Approximations d une loi binomiale B(n, Π) X B(n, Π) Approximation par une loi normale Conditions : nπ 5 et n(1-π) 5 Variable pour l approximation Y N(nΠ ; nπ(1- Π)) On a Pr ([X=k]) Pr ([k - 0,5 Y k + 0,5]) Les probabilités Pr([Y <0]) et Pr ([Y > n]) sont faibles, mais non nulles Approximation par une loi de Poisson Conditions : Π < 0,1 et n 50 Variable pour l approximation Y Poisson(λ = nπ) On a Pr ([X=k]) Pr ([Y=k]) La probabilité bilité Pr ([Y > n]) est faible, mais non nulle V. Morice - Biostatistique PAES 31

Approximation d une loi de poisson par une loi normale X Poisson(λ) Conditions : λ > 25 Variable pour l approximation Y N(λ ; λ) On a Pr ([X=k]) Pr ([k -0,5 Y k + 0,5]) V. Morice - Biostatistique PAES 32

Loi de Poisson et risque sanitaire pas encore observé Après 10.000 prescriptions d'un nouveau médicament, pas d'effet indésirable Que se passera-t-il après 1.000.000 prescriptions? Π = risque individuel d'effet indésirable, inconnu mais faible Sur n individus, si X est le nombre d'effets indésirables observés, X B(n, Π) Π faible, n grand : X Poisson(λ = nπ) Pr(X=0) = e -λ = e -nπ ( ) V. Morice - Biostatistique PAES 33

Loi de Poisson et risque sanitaire pas encore observé (2) Que peut-on dire de Π qui soit compatible avec la non observation d'effet indésirable sur n individus? Règle : il n'est pas raisonnable d'imaginer ne pas observer d'effet indésirable si la probabilité de cette non observation est inférieure à 5% Si X=0 sur n individus, id Pr(X=0)= e -nπ 0,05 005 nπ 3 Π 3/n La non observation d'effet indésirable sur n individus est compatible avec un risque individuel Π 3/n Si n=10000 prescriptions sans effet indésirable, et Π=3/n=3 10-4 Avec 1.000.000 de prescriptions on s'attend à 300 effets indésirables Ce qui est énorme V. Morice - Biostatistique PAES 34