Biostatistique et Modélisation.

Dimension: px
Commencer à balayer dès la page:

Download "Biostatistique et Modélisation."

Transcription

1 Université Paris V, René Descartes UFR Biomédicale 45, rue des Saints-Pères Paris Cours de Biostatistique et Modélisation.

2 T 1 Table des matières I Introduction et rappels 1 Introduction 1 2 Calcul de probabilités et variables aléatoires réelles 1 3 Quelques lois de probabilité 3 A Lois continues 3 a. Lois normales 3 b. gamma 5 d. Lois du chi deux 6 e. Lois Lois exponentielles 4 c. Lois béta 7 f. Lois de Fisher-Snedecor 8 g. Lois de Student 8 B Lois discrètes 8 a. Lois de Bernoulli 8 b. Lois binomiales 8 c. Lois multinomiales 9 d. Lois de Poisson 9 4 Approximations 10 a. Approximation normale de la binomiale 10 b. Approximation normale d'une somme 10 c. Approximation de Poisson de la binomiale 11 d. Approximation normale du chi deux 11 5 Principe des tests 12 6 Principe de l'estimation 13 a. Intervalles de confiance 13 b. Maximum de vraisemblance 14 II Tests d'ajustement 1 Introduction 15 2 Test d'ajustement du chi2 pour une loi spécifiée 15 a. cas discret 15 b. cas continu 16 3 Test d'ajustement du chi2 avec estimation de paramètres 18 Exemple du palmier à huile 18 4 Test de Kolmogorov-Smirnov pour un échantillon 21 Exemple des radiographies 22 III Mise en évidence de liaisons : tests d'indépendance 1 Cas de deux variables discrètes 24 a. à deux valeurs 24 b. à un nombre quelconque de valeurs 26 2 Cas d'une variable continue et d'une variable à deux valeurs 28 a. Comparaison de deux moyennes 28 grands échantillons : approximation normale 28

3 petits échantillons : Student 29 b. Tests non paramétriques 30 Test de la médiane 31 Test de Wilcoxon 34 Test de Kolmogorov-Smirnov pour 2 échantillons 35 3 Cas de deux variables continues 37 a. Couple normal : test du coefficient de corrélation 37 b. Cas général : tests non paramétriques 37 coefficient de corrélation des rangs de Spearman 38 Exemple de la mortalité et du calcium 39 coefficient de corrélation de Kendall 40 c. Intervention d'un troisième facteur 46 coefficient de corrélation partielle T 2 IV Régression linéaire multiple 1 Introduction 44 2 Estimation des paramètres de la régression 45 3 Coefficient de corrélation multiple 48 4 Coefficients de corrélation partielle 49 5 Qualité de la régression 49 V Modèle logistique et apparentés 1 Le modèle linéaire classique 53 2 Modèles linéaires pour une réponse binaire 53 a le modèle logistique 54 b le modèle probit 54 3 Propriétés du modèle logistique 54 a étude prospective 56 b étude rétrospective 55 4 Modèle linéaire pour des variables ayant plus de deux valeurs régression polychotomique 57 a cas nominal 57 b cas ordinal 58 Exemple de la dépression 59 5 Deux exemples de modèles a modèles log-linéaires pour des données catégorielles 59 b modèles condtionnellement gaussiens (données mixtes) 60 VI Modèles pour les durées de survie avec censure 1 Introduction Fonction de survie et risque instantané Types de censure 63 4 Estimateur de la fonction de survie 65 a. Estimateur de Kaplan-Meier 65 Exemple de cancer des bronches 66

4 b. estimateur de Greenwood de la variance 68 5 Modèles paramétriques 68 a. Exponentiel 68 b. Gamma 69 c. Weibull 69 d. Rayleigh 70 6 Le modèle semi-paramétrique de Cox 71 a. Définition du modèle 71 b. Vraisemblance partielle de Cox Test de Gehan pour la comparaison de deux fonctions de survie 76 a. Définition 76 b. Exemple d'application 78 c. Propriétés 79 VII Méthodes de rééchantillonnage: le bootstrap 1 Le principe 80 2 Notations 83 3 Simulations 84 4 Deux applications fondamentales 85 a réduction du biais 87 b intervalle de confiance 90 5 Bootstrap pour des durées censurées 92 T 3 VIII Analyse exploratoire des données 1 Introduction 93 a. Les données 93 b. Les problèmes 95 2 L'analyse en composantes principales 97 a. Composantes principales d'une variable 97 b. Composantes principales d'un n-échantillon 101 c. Utilisation pratique et exemples Analyse factorielle des correspondances 114 a. Les données 114 b. Définition d'une distance adéquate 115 c. Retour à la distance usuelle par transformation des données 116 d. Exemples 118 Exercices et problèmes

5 probabilités et notions fondamentalese 1 I Introduction : Quelques notions de probabilités. Tests et estimateurs simples. 1 - Introduction Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. Pour davantage de détails concernant cette partie, on peut consulter le livre "Statistique au PCEM 1", édition Masson, Le présent chapitre présente les plus indispensables des notions fondamentales qui y figurent. Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. Le chapitre III concerne les tests d'homogénéité et d'indépendance. Un exempl e simple est la comparaison de deux proportions observées, qui peut être considéré (voir l'exemple 1.a du chapitre III) : - Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1} : on se demande si les deux échantillons proviennent de la même population, autrement dit si la probabilité de succès est la même dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables de Bernoulli. Le chapitre IV généralise la notion de droite de régression d'une variable réelle Y par rapport à une variable X, en remplaçant X par plusieurs variables X 1, X 2,, X p, chargées de permettre la prévision linéaire de Y. Le chapitre V traite un modèle très employé en biostatistique : le modèle logistique. C'est un modèle que l'on emploie lorsqu'on veut expliquer une variable Y, qui n'est pas à valeurs réelles comme au chapitre V, mais en 0, 1. Ce chapitre contient aussi la généralisation à une variable réponse à plus de deux modalités (régression polychotomique) et une introduction aux modèles linéaires généraux. Enfin le chapitre VI introduit aux méthodes de rééchantillonnage, le bootstrap. L'objectif du cours est de présenter des modèles très utilisés en biostatistique comme le modèle de régression linéaire, le modèle logistique et le modèle de Cox pour les durées de survie censurées. (chapitres VI et VII), ainsi qu'une technique permettant d'améliorer les estimateurs et d'estimer puissance des tests et intervalles de confiance : le bootstrap. 2 - Calcul des probabilités et variables aléatoires réelles Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu a. Ces événements seront notés A, B, C, D :

6 probabilités et notions fondamentalese 2 Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide, c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B). b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) Si A ne se produit pas, c'est que c'est son complémentaire A c dans E qui se produit : P(A c ) = 1 - P(A) c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à b est notée comme P(A B) ou P(A B) et définie comme P(A B) = P(A B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes? Que devient cette probabilité si on sait que la carte tirée est rouge? si on sait qu'elle est noire? si on sait que c'est une figure? d) Probabilité que A et B se produisent ensemble : Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A B), on a P(A B) = P(A B)P(B) = P(B A)P(A) Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements : Si A et B sont indépendants, P(A B) = P(A) P(B), P(A B) = P(A), P(B A) = P(B). Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B. Espérance et variance d'une variable aléatoire réelle :

7 probabilités et notions fondamentalese 3 Si X est une variable aléatoire réelle (v.a.r.), son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies : 1)Si X est discrète, telle que P(X = x i ) = p i, i = 1, 2,..,k, son espérance EX et sa variance Var(X) sont respectivement : EX = Σ p i x i, Var(X) = E [ (X - EX) 2 ] = Σ p i (x i -EX) 2. Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(x) est la racine positive de la variance σ(x) = Var(X). 2) De même, si X est continue, de densité de probabilité f(x) au point x, EX = x f(x) dx, Var(X) = (x - EX) 2 f(x) dx et σ(x) = Var(X). Propriétés de l'espérance et de la variance : - L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X 1 + X X n ) = E X 1 + E X E X n. - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(x,y), où cov(x,y) vaut, par définition : cov(x,y) = E(XY) - EX EY. Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(x,y) = 0 : Var(X+Y) = Var(X) + Var(Y). Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y: 3 - Quelques lois de probabilité a) Lois normales N (µ, σ 2 ) ρ = cov(x,y) / σ X σ Y A Lois continues Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ 2 ) si sa densité de probabilité au point x vaut 2 f(x) = 1 exp (- (x - µ) 2π σ ), x IR. 2 σ 2

8 probabilités et notions fondamentalese 4 Alors, EX = µ, Var(X) = σ 2, et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z : ϕ(z) = 1 2π e - z 2 2, z IR. On note Φ la fonction de répartition correspondante Φ (z) = P(Z z) = z ϕ(t)dt Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ 2 ). En effet, si X suit la loi normale N(µ,σ 2 ) P(X x) = P(µ + σz x) = P(Z (x-µ)/σ ) = Φ [(x µ) / σ] Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes, leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes L (X) = N(µ, σ 2 ) L (X+Y) = N(µ, + µ', σ 2 + σ' 2 ) L (Y) = N(µ', σ' 2 ) Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si, pour tous réels fixés a et b, la variable ax + by est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(x,y) soit nul.

9 probabilités et notions fondamentalese 5 b) Lois exponentielles E (λ) La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x 0 à : f(x) = λ e - λx si x 0, ( λ > 0 ). = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut F(x) = 1 - e - λx, si x 0 ; = 0, si x < 0. L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ 2 En particulier, lorsque λ vaut 1, f(x) = e - x, F(x) = 1 - e - x, EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a, λ ), a > 0 et λ > 0, si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs : f a, λ a λ (x) = Γ(a) x a _1 e λx x 0 où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2) Γ (a) s'écrit Γ(a) = e -t t a-1 dt 0 On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1, Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = π. Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ, L (X) = Γ(a, λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ). La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : ϕ X (t) = E (e -tx ) (par définition de la transformée de Laplace)

10 probabilités et notions fondamentalese 6 = λ a Γ(a) = λ a Γ(a) λ a = (λ+t) a x a-1 e (λ+t)x dx. 0 0 y a-1 e y (λ+t) - 1 dy. (λ+t) a - 1 Alors ϕ X+Y (t) = E ( e -t(x + Y) ) = E ( e -tx ) E ( e -ty ) puisque X et Y sont indépendantes, et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b, qui est la transformée de Laplace de la loi Γ(a+b, λ). d) Lois du chi deux ( χ2 ) à n degrés de liberté C'est, par définition la loi Γ(n/2, 1/2) : χ2 n = Γ(n/2, 1/2). Donc sa densité de probabilité est égale à 1 n / 2 1 x / 2 fn(x) = x e si x 0 n / 2 2 Γ(n/ 2) Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] n/2, soit ϕ (t) = (2t + 1) - n/2. Théorème Soit Z 1, Z 2,..., Z n, n variables indépendantes de loi normale N(0,1). Alors la variable χ n 2 = Ζ1 2 + Ζ Zn 2 suit la loi du χ2 à n degrés de liberté (d.d.l.), notée χ2 n. démonstration: D'après ce qui précède, il suffit de montrer que L (X 2 ) = Γ(1/2, 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 : ϕ X1 2 (t) = E ( e t (X 1 2) ) = (1/ 2π) e x 2 (t+1/2) = (2t + 1) 1/2. Moments

11 probabilités et notions fondamentalese 7 On voit sans calcul que E ( χ 1 2 ) = 1, puisque cette moyenne est égale à celle de Z 1 2, c'est à dire à la variance de Z 1, qui est de moyenne nulle, et de variance 1. De même, E ( χ n 2 ) = n. Pour calculer tous les moments, E( χ n 2k ), il suffit de dériver la transformée de Laplace ϕ χ 1 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1) -3/2 = E( χ n 2 ) et que, de manière générale, la dérivée d'ordre k vaut ϕ (k) (t) = (2k-1) (2t+1) - (k + 1/2) = x 2k e -tx f(x 2 ) d( x 2 ) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k) (0) = (2k-1) E( χ 1 2k ) Par définition de la variance, on a Var( χ 1 2 ) = E (( χ 1 2 ) 2 ) - (E ( χ 1 2 )) 2 = 3 1 = 2. Comme l'indépendance de Z 1, Z 2,..., Z n entraîne l'indépendance de leurs carrés et que tous les Z i 2 suivent la même loi du χ 1 2, on a immédiatement Var ( χ 2 n ) = 2 n. e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si 1 x a 1 b 1 P ( β x) = Ix(a,b) = y (1 y) dy x [0 1] B(a,b) 0 Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est 1 a 1 b 1 f(x;a,b) = x (1 x) x [0 1] B(a,b) f (x;a,b) = 1 B(a,b) xa-1 (1-x) b-1 0 Š x Š 1 où B (a,b) = Γ(a+b) Γ(a) Γ(b) ( = (a+b-1)! (a-1)! (b 1)! si a et b sont entiers). On peut prouver que si β suit la loi de f. r. I x (a,b) alors

12 probabilités et notions fondamentalese 8 E β = a a + b et Var β = ab (a+b) 2 (a+b+1) Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b). f) Loi de Fisher-Snedecor à n 1 et n 2 degrés de liberté F ( n 1, n 2 ) Si U est une variable aléatoire qui suit la loi béta ( n 1 /+2, n 2 /2), la variable aléatoire ( n 2 / n 1 ) U suit la loi de Fisher-Snédécor à n 1 et n 2 degrés de liberté, notée F(n 1,n 2 ). En particulier, si L (Y 1 ) = χ2 (n 1 ) L (Y 2 ) = χ2 (n 2 ) L ( n 2 Y 1 / n 1 Y 2 ) = F (n 1, n 2 ) Y 1 et Y 2 indépendantes g) Loi de Student à n degrés de liberté T(n) Par définition, si L (X) = N(0,1) L (Y) = χ2 (n ) L (X / X et Y indépendantes Y n ) = T(n) B Lois discrètes a) Loi de Bernoulli b(p), p [ 0 1] C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q : P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq. b) Loi binomiale B (n, p), n ΙΝ, 0 p 1 C'est la loi de la somme S n de n variables aléatoires X 1,X 2,..,X n indépendantes et de même loi de Bernoulli b(p), de paramètre p (0p1) X i = 1 avec la probabilité p 0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique S n = X 1 + X X n

13 probabilités et notions fondamentalese 9 qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de S n est donnée par n! P (S n = j ) = p j = p j q n-j, j = 0,1,2,...n. j! (n- j)! ES n = np et Var (S n ) = npq L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j, qui vaut n! / j! (n-j)!, est généralement noté j n C n ou j c) Loi multinomiale M (n, p 1, p 2,..., p r ), n ΙΝ, p i 0, Σ p i =1 Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les probabilités respectives p 1, p 2,..., p r, lorsqu'on répète n fois l'épreuve de manière indépendante, on obtient r effectifs N 1, N 2,..., N r, où N i est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de N i est la loi binomiale de paramètres n et p i L (N i ) = B(n,p i ), i = 1, 2,..., r ; E(N i ) = np i et Var(N i ) = np i q i. Mais il est clair que deux effectifs N i et N j qui correspondent à deux valeurs différentes de X, i et j, ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations. La loi de N = (N 1,..., N r ) ne peut donc pas être décrite à partir des seules lois binomiales B(n,p i ) de chacun des N i. Elle est appelée la loi multinomiale de paramètres (n, p 1, p 2,..., p r ) et notée M (n; p 1, p 2,..., p r ). La probabilité de l'événement { N 1 = n 1, N 2 = n 2,..., N r = n r } est égale, pourvu que la somme des n i soit égale à n, à P (N 1 = n 1, N 2 = n 2,..., N r = n r ) = n! n 1! n 2!... n r! p 1 n 1p2 n 2... pr n r Remarque Les variables (N i -np i ) / np i q i sont centrées réduites, et, lorsque n est grand (np i et nq i au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux. d) Loi de Poisson (λ), λ > 0

14 probabilités et notions fondamentalese 10 Définition Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité p k pour qu'elle prenne la valeur k étant définie par λ k Alors p k = P (X = k) = e - λ k = 0,1,2,... EY = Var(Y) = λ On rappelle que 0! = 1 par définition. k! λ paramètre > 0 Propriété (Somme de variables de Poisson indépendantes) La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres : X et Y indépendantes L (X) = π (λ) L (X+Y)) = π (λ+µ) L (Y) = π (µ) Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres. 4 Approximations a) Approximation normale de la loi binomiale Une variable binomiale S n, de loi B(n,p) a pour espérance np et pour variance npq. Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 : B(n, p) N(np,npq) dès que np 5 et nq 5 ce qui s'écrit aussi S n np + npq Z où Z est normale réduite N(0,1). b) Approximation normale d'une somme de variables indépendantes On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ 2 : S n = X 1 + X X n

15 probabilités et notions fondamentalese 11 Alors E( S n ) = n µ, Var ( S n ) = n σ 2, et la loi de S n, qui n'est pas connue puisqu'elle dépend de la loi commune des X i, qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle : L (S n ) N( n µ, n σ 2 ) Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi Si S n = X 1 + X X n, indépendantes, de même loi continue, E(X i ) = µ, Var(X i ) = σ 2, et n 30, alors L ( (S n - n µ) / nσ 2 ) Ν(0,1) ce qui s'écrit aussi où L (Z) = N(0,1). S n n µ + nσ 2 Z c) Approximation de Poisson de la binomiale Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np. Plus précisément : on a l'approximation de Poisson suivante pour la loi binômiale : pourvu que p 0,1 et 1 np < 10 B(n,p) Π (np) d) Approximation normale du χ n 2 Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l.. Donc, d'après le théorème de la limite centrale, si n est assez grand P( χ n 2 x ) P ( n + 2n Ζ x ) = Φ ( (x - n) / 2n ).

16 probabilités et notions fondamentalese Principe des tests Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique. Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène. Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : X i désignera le résultat sur le i ème produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès - inconnue - de cette nouvelle technique. Mais X i peut aussi bien être la durée de vie du i ème produit, et c'est alors une variable continue. A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(x 1,..., X n ). Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons H o cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en général, si y est trop grand ou trop petit), on rejette H o comme ayant conduit à une observation trop peu probable, voire invraisemblable. Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse H o qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé P o = ϕ(x 1,..., X n ) = ( X X n ) / n C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations. En fait, on aimerait rejeter cette hypothèse H o au profit de l'hypothèse H 1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses H o : p = 0,5 H 1 : p > 0,5 Si la proportion observée p o est trop éloignée de 0,5, et plutôt trop grande, on rejettera H o au profit de H 1. C'est le type de problème intitulé "Comparaison d'une proportion observée, ici p o, à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(x 1,..., X n ) sous H o, sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique. On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle H o a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test, c'est à dire la probabilité d'accepter H 1 lorsqu'elle est vraie.

17 probabilités et notions fondamentalese 13 Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a : c'est de rejeter H o lorsque le rapport des probabilités des observations sous H o et sous H 1 est plus petit qu'une valeur donnée. Cela est une conséquence du lemme de Neyman et Pearson: Le test de H o (P = P 0 ) contre H 1 (P = P1) qui a pour zone de rejet de H o : { x : [Po(X=x) / P1(X=x) h} est le plus puissant parmi les tests qui ont le même niveau que lui. Il suffira donc de choisir la valeur du nombre h de telle sorte que Po{ x : [Po(X=x) / P1(X=x) h} = α pour obtenir le test de niveau α le plus puissant. On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci apparent d'optimisation de la puissance, sont de ce type. 6 Principe de l'estimation L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors : p = X 1 +X X n = p n o proportion observée Mais deux points ont besoin d'être précisés dès qu'on veut généraliser : 1) Quelle est la précision d'une telle estimation? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité ( en général 95 %) de contenir p. Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne : Alors L (p) N( p, σ 2 ) [ p - 2σ ; p + 2σ ] est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait, non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(Po) = p 0 q 0 / n, ce qui donne pour intervalle de confiance à 95 % : [ po - 2 pq n ; po + 2 pq n ].

18 probabilités et notions fondamentalese 14 2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer: P θ (X 1 = x 1, X 2 = x 2,..., X n = x n ) = V(θ). La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x 1, x 2,..., x n. On choisit comme estimateur de θ la valeur θ qui maximise V(θ) : V(θ) V(θ) pour tout θ Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand. Exemple 1 : durée de vie exponentielle On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ? Exemple 2 : palmier à huile Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau. Exemple 3 : durée de vie uniforme La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi uniforme sur un intervalle de temps [ 0 ; θ ]. θ est inconnu et on veut l'estimer après avoir observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4, 10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ?

19 Tests d'ajustement 15 II TESTS D'AJUSTEMENT 1 - Introduction Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type : "Si la loi de la variable X est normale...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2,..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses? Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation (fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée. Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant. 2 - Test d'ajustement du chi2 pour une loi spécifiée a. Cas d'une variable discrète : X a un nombre fini r de modalités, notées 1, 2,..., r et il s'agit de tester l'hypothèse H o : P(X = 1) = p 1, P(X = 2) = p 2,..., P(X = r) = p r, où p 1, p 2,..., p r sont des probabilités données à l'avance. Alors on considère la statistique E 2 r (N i - n p i ) 2 = i = 1 n p i qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie. On peut démontrer que, si Ho est vraie, et pourvu que tous les np i soient assez grands (supérieurs à 5), E 2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl).

20 Tests d'ajustement 16 Exemple 4 : dosage Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion? b. Test d'ajustement du chi 2 pour une variable continue Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable : c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun : ] -, a 1 ], ]a 1, a 2 ],..., ] a r-1 +[ Si l'on a observé un n-échantillon de valeurs de X, x 1,..., x n, on résume ces observations en (N 1,..., N r ) où N 1 désigne le nombre des x i qui sont inférieurs à a 1, N 2 le nombre de ceux qui tombent entre a 1 (non compris) et a 2 (compris) etc... Sous l'hypothèse H 0 : la loi de X est la loi N (0,1) les probabilités p j pour que X tombe dans chacun des r intervalles I j = ]a j-1 a j ] peuvent être calculées : p j = a j a j π exp {- z2 2 } dz Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée. Exemple 5 : Taux de cholestérol On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants : Taux de cholestérol Effectif Taux de cholestérol Effectif ] ] 01 ] ] 17 ] ] 02 ] ] 12

21 Tests d'ajustement 17 ] ] 18 ] ] 4 ] ] 26 ] ] 2 ] ] 16 ] ] 1 ] ] 1 On devra calculer les probabilités attribuées à chacun des intervalles par la loi N (200, 36) : a j 1 (z - 200)2 p j = exp { - } dz 2π 6 72 a j-1 avec a o = -, a 1 = 110, a 2 =130,..., a 11 = +, ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet p j peut aussi s'écrire p j = F(a j ) - F(a j - 1 ) = Φ ( (a j - 200) / 6) - Φ ( (a j-1-200) / 6) On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire np j supérieur à 5 pour chacun des p j. Alors la variable d'écart vaut : E 2 r (N i - n p i ) 2 = Σ i = 1 n p i et, sous l'hypothèse nulle H o, le taux de cholestérol suit dans cette souspopulation la loi N (200, 36), E 2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.si la valeur observée de E 2, soit e 2, est trop grande, c'est-à-dire par exemple si : P(χ 2 r-1 e2 ) 0,05 et si l'on s'est fixé le seuil de 5%, on rejettera H o. On pourra faire le calcul des p j, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%. 3 - Tests d'ajustement du chi 2 avec estimation de paramètres Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées. En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une

22 Tests d'ajustement 18 variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ 2 respectivement par m et s 2, pour pouvoir effectuer un ajustement sur la loi N (m ; s 2 ). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant. Exemple 2 : suite Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau. L'hypothèse que l'on veut tester, H o, est que la maladie ne se transmet pas. Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a : P (X =2) = θ 2 = p 1 P (X = 1) = 2 θ (1 θ) = p 2 P (X = 0) = (1 - θ) 2 = p 3 Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N 1, N 2, N 3 ) où N 1 est le nombre de couples dont les deux éléments sont malades, N 2 le nombre de couples comportant un seul pied malade, N 3 le nombre de couples dont aucun pied n'est malade, est une loi multinomiale de paramètres (n ; θ 2, 2 θ (1 θ), (1 - θ) 2 ). Préalablement à l'ajustement, il faudra estimer θ. Nombre de pieds malades dans le couple Nombre de couples Avec les notations précédemment introduites : N 1 = 73, N 2 =185, N 3 = 242 p 1 = θ 2, p 2 = 2 θ (1 θ), p 3 = (1 - θ) 2. La vraisemblance s'obtient en remplaçant dans : P (N 1 = n 1, N 2 = n 2, N 3 = n 3 ) n 1 par 73, n 2 par 185, n 3 par 242, ce qui donne une fonction de θ seul. Calculons donc P θ (N 1 = n 1, N 2 = n 2, N 3 = n 3 ), c'est-à-dire, de manière générale, la loi multinomiale de paramètres (n ; θ 2, 2 θ (1 θ), (1 - θ) 2 ) : P( N 1 = n 1, N 2 = n 2, N 3 = n 3 ) = n! n 1! n 2!n 3! p n 1 n p 2 n 1 2 p 3 3

23 Tests d'ajustement 19 On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon : 500! P( N 1 = 73, N 2 = 185, N 3 = 242 ) = 73! 185!242! θ 2x73 [2θ(1 -θ)] 185 (1 θ) 2 x 242 L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut : L(θ) = ( ) log θ + ( ) log (1 - θ) + C où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ : L'( θ ) = 331 / θ / (1 - θ) = 0 ce qui donne θ = = 0,331 valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0. Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit P (X = 1) = p 1 et de manière générale P (X = i ) = p i pour i variant de 1 à r. Les valeurs de p 1,..., p r sont des fonctions connues d'un ou plusieurs paramètres θ 1,..., θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance : n! n 1p2 n 2...pk k V( θ 1, θ 2,..., θ k ) = n 1! n 2!n 3! p 1 ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k )n est la vraisemblance de l'échantillon si l'on a observé n 1 fois la valeur 1 pour X, n 2 fois la valeur 2, etc... Et les valeurs θ 1, θ 2,..., θ k sont celles qui rendent maximum cette fonction. On peut, si V est différentiable

24 Tests d'ajustement 20 obtenir ces valeurs par dérivation. Il en résulte des estimateurs Pour tester p 1, p 2,..., p r H 0 : la loi de X a pour paramètre θ 1,..., θ k On calcule la variable d'écart E 2 entre les effectifs observés n i dans chacune des classes et leurs espérances sous H o : E 2 r (N i - n p i ) 2 = i = 1 n p i Alors, sous H o, E 2 suit une loi proche de celle du chi-2 a r-k-1 degrés de liberté, pourvu que n soit assez grand pour que n p i 5 pour i = 1, 2,..., r Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance. Exemple 2 : palmier à huile (suite) Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ, et les valeurs correspondantes estimées de p 1, p 2, p 3 sont : 0,1096, 0,4422 et 0,4475 On vérifie que n p i 5 pour i = 1, 2, 3 La variable d'écart : E 2 = r Σ i = 1 (N i - n p i ) 2 n p i = 12,55 suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = =1) sous l'hypothèse nulle. Or P (χ ,55 ) < 0,001 On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o /oo. Remarque 1 Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E 2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.

25 Tests d'ajustement 21 Exemple Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques x et s n 2 n - 1 On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol. Remarque 2 En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du (Chi-deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E 2, sous chacune de ces lois pose un problème différent qu'il faut résoudre en coup par coup. 3 - Test de Kolmogorov-Smirnov : On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E 2, ne tient pas compte d'un ordre éventuel des r classes. Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov. La statistique sur laquelle est fondé ce test est D = sup F n - F. Sup F n - F signifie : sup t R F n (t) - F (t), c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) : F n (t) = 1 n n Σ 1 ]- t] (x i) i = 1 c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x 1,..., x n ). Sous l'hypothèse nulle H o, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est appelé N dans la table). Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D n vers une loi indépendante de n, quand n croit : P ( sup t n F n (t) - F (t) < α ) 1-2 Σ (- 1) k+1 e - 2 k2 α 2 k = 1 pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique

26 Tests d'ajustement 22 et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par n, où n est le nombre des observations. Exemple 7 : radiographies Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle H o cette hypothèse, qui dit que les préférences des médecins des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages. Rang de la radio choisie (1 est la plus foncée) Nombre de sujets choisissant ce rang F : fonction de répartition 1/5 2/5 3/5 4/5 5/5 théorique sous H 0 F n : fonction de répartition 0/10 1/10 1/10 6/10 10/10 empirique F n - F 2/10 3/10 5/10 2/10 0 Donc D = 5/10 = 0, 500. Pour n = 10, la table de la loi de D, sous H o, nous dit que : P Ho (D 0, 500) < 0, 01 Le test est donc significatif, on rejette H o, avec un degré de signification inférieur à 1%. Remarque : Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 : 1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles. 2) Lorsque le nombre d'observations est petit, le test du χ 2 ne peut pas s'appliquer du tout. Si l'on essaie d'appliquer le test du χ 2 à l'exemple cidessus, on doit combiner plusieurs catégories adjacentes : Foncé (1,2) Clair (3,4,5)

27 Tests d'ajustement 23 Fréquence de choix 1 9 Alors χ 1 2 = 3,75. La probabilité que χ 1 2 soit supérieur à 3,75 tombe entre 0,05 et 0,10, ce qui ne nous permet pas de rejeter H o au seuil de 5%.Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

28 Indépendance 24 III Mise en evidence de liaisons : Tests d'indépendance. La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont. Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I. Partant de là, nous allons introduire d'autres méthodes, plus générales. 1 - Les deux caractères sont discrets : a - Deux caractères à deux classes : Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine? On dispose des observations suivantes : Intoxication sensibles non sensibles taille d'échantillon Milieu Citadins Ruraux portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre part parmi les habitants de la campagne. Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux proportions observées" qui sont ici : - La proportion observée d'individus sensibles parmi les citadins, soit p o = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p' o = 145/295 = 0,49 Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse H o (p = p'), la contre- hypothèse étant H 1 (p p'). Sous l'hypothèse nulle H o, la variable aléatoire

29 Indépendance 25 E = P' o - P o P t Q t ( 1 n n 2 ) où P o est la proportion de sensibles pour un échantillon de n 1 citadins P' o est la proportion de sensibles dans un échantillon de n 2 ruraux P t est la proportion de sensibles dans l'échantillon total de taille n 1 + n 2 Q t = 1 - P t a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1), et dont la table figure à la fin de ce cours : en effet n 1 p o, n 1 q o, n 2 p' o, n 2 q' o sont tous supérieurs à 5. On notera, dans toute la suite Z une variable de loi N(0,1). La valeur observée de E, dans notre exemple est : e = p' o - p o p t q t ( 1 n n 2 ) = 0,49-0,45 0,47.0,53 ( = 295 ) 0,04 0,04 = 1 Et la probabilité pour que, sous l'hypothèse H o, on ait observé une valeur de E, qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près P ( Ε e ) P ( Ε 1) 0,32 Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on conserverait H o pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %. On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles. Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire Ε e ou E 2 e 2 De même que lors de l'étude des tests d'ajustement, on peut montrer que E 2 s'écrit aussi, en notant : N 1 l'effectif de ceux qui sont sensibles parmi les citadins N 2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins N 3 l'effectif de ceux qui sont sensibles parmi les ruraux N 4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux P t la proportion des sensibles sur le total Q t la proportion des insensibles sur le total Q t = 1 - P t

30 Indépendance 26 E 2 = (N 1 - n 1 P t )2 n 1 P t + (N 2 - n 1 Q t )2 n 1 Q t + (N 3 - n 2 P t )2 n 2 P t + (N 4 - n 2 Q t )2 n 2 Q t Sous l'hypothèse nulle H o d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n 1 +n 2 et P t constitue alors un bon estimateur de cette proportion. Alors E 2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée. On appelle quelquefois les N i les effectifs observés et les n i P t et n i Q t les effectifs "calculés" ou "théoriques". Sous l'hypothèse H o, pourvu que les dénominateurs n i P t et n i Q t soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E 2 est approximativement χ 2 1.On rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ 2 r ) la loi de la variable S = Z 2 1 +Z Z2 r où les Z i sont indépendantes et toutes de loi N(0, 1)). Dans la table des lois du chi deux, on lit donc que P(E 2 >e 2 ) = P(E 2 > 1) 0, 32. On constate donc que le test fondé sur E 2 est identique à celui fondé sur E, mais la forme E 2 permet une généralisation immédiate en cas où A a r modalités, B a k modalités. b - Deux caractères à r et k classes : Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C). Les résultats d'une observation portant sur n = 1574 malades sont les suivants : Durée X écoulée depuis la vaccination A B C Total Degré de gravité Y de la maladie G M L

31 Indépendance 27 Total Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative : H o : X et Y sont indépendantes, H 1 : X et Y sont liées. De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et n ij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n..j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et n i. le nombre total de ceux pour lesquels X vaut i, et qui figure à droite de la ligne i. Sous l'hypothèse H o d'indépendance de X et Y : P (X = i, Y = j) = P (X = i). P (Y = j) soit p ij = p i. p. j Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont Si H o est vraie les écarts p ij = n ij n, p i. = n i. n,p.j = n.j n p ij - p i.. p.j ne doivent être dus qu'aux fluctuations d'échantillonnage, On peut démontrer que la variable E 2 = (n ij - n i. p.j ) 2 i = 1,..,r ; j = 1,..,k n i. p.j suit une loi proche de celle du χ 2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs n i. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes). Revenant à l'exemple considéré, r = k = 3 et la variable E 2, qui vaut e = 61,4, suit, sous l'hypothèse H o, une loi du χ 2 à (r -1) (k - 1) = 4 degrés de liberté. Donc P Ho (E 2 > 61,4) < 10-3 d'après la table, le test est donc significatif avec un très bon degré de signification (10-3 ): on rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la vaccination.

32 Indépendance Cas d'un caractère continu et d'un caractère discret à deux classes On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X vaut 0 et lorsque X vaut 1. Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut 0 dans l'un des deux groupes et 1 dans l'autre. a - Test de comparaison de moyennes : Lorsque les deux lois L (Y X = 0) et L (Y X = 1) sont différentes, cela peut provenir par exemple d'une différence entre les deux espérances : Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0. On teste alors : H o : EY' = EY H 1 : EY' E Y C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais ici noté E) entre les moyennes observées pour Y et pour Y' : E = Y' - Y S' 2 n' + S2 n Si l'on choisit pour risque d'erreur de première espèce α, la zone de rejet de H o,donc de l'hypothèse que X et Y sont indépendants, correspond à la région : { E > h } où h est choisi tel que : P Ho { E > h}= α. a.1 - Cas des grands échantillons (supérieurs à 30) : Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi, par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous H o, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1), de densité de probabilité qui vaut par conséquent on a f(z) = 1 2π exp ( - z2 2 )

33 Indépendance 29 P( 2 z 2 h ( E) h ) P( ( Z ) h ) = exp( ) dz h 2 π 1 Exemple Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades traités par ce médicament : au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe on administre le médicament. Les moyennes et variance estimées sur chacun des groupes sont m y = 80 s 2 y = 5 pour le rythme cardiaque Y du groupe témoin, m y' = 81 s 2 y' = 3 pour le rythme cardiaque Y'du groupe traité. Le test bilatéral de H o (EY' = EY) contre H 1 (EY' EY) qui se fonde sur l'écart réduit E défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification compris entre 1% et 2 %. a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ; Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut plus obtenir la loi de E sous H 0 grâce à l'approximation normale. Cependant, si l'on sait (ou si l'on peut s'autoriser à supposer) que la loi de Y et celle de Y' sont toutes les deux normales et de même variance, la variable : E' = Y' - Y 2 2 n' S y' + n Sy n + n' n' + 1 n suit la loi de Student à n + n' - 2 degrés de liberté. Définition de la loi de Student à n ddl : Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire T = X Y n suit la loi de Student à n degrés de liberté dont la densité g n (t) au point t vaut - n + 1 g n (t) = c n (1 + t2 n ) 2 (où c n est le coefficient positif qui assure que g n (t) dt = 1 ). Exemple : dosage de la transferrine

34 Indépendance 30 Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974)) Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les résultats suivants : - moyenne des dosages 1,9 g l - écart type de l'échantillon 0,2 g l Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé les résultats suivants : - moyenne des dosages 1,3 g l - écart type de l'échantillon 0,2 g l. En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite alcoolique chronique, on veut tester H o : EY' = EY H 1 : EY' < EY Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test d'égalité des variances aurait permis de conclure à l'égalité de celles-ci. Alors Y' - Y E' = 2 2 n' S y' + n Sy n + n' - 2 qui vaut ici -7,79, suit sous H o une loi de Student 1 n' + 1 n à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que P (E' < -7,79) = P (T 27 < - 7,79) < 0,001 Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique chronique. Cependant, on voit bien quelles sont les limites de cette première méthode pour traiter le cas des petits échantillons : d'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des variances des variables de base, pour pouvoir fonder un test sur la variable E' de loi de Student sous H o. D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types de différences peuvent intervenir, à moyennes égales ou non. b. Les tests non paramétriques : Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des

35 Indépendance 31 variables de base. Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2 paramètres pour la loi normale, N (µ, σ 2 ), la moyenne µ et l'écart type σ,1 pour la loi de Poisson etc.) : - le test de la médiane - le test de Wilcoxon - le test de Kolmogorov-Smirnov; Nous illustrerons chacun de ces trois tests sur un même exemple : Exemple : Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5 autres seront des témoins non traités, mais à qui on administre un placebo.les résultats concernant la durée de survie exprimée en années sont les suivants : Traités (T) 6,5 4,2 17,8 7,9 13,2 Non Traités (NT) 6,7 0,4 2,9 1,2 5,6 Pour chacun des trois tests, la première opération à effectuer est d'ordonner les valeurs obtenues, en les considérant dans leur ensemble : En effet, sous l'hypothèse nulle H o : L (S T ) = L (S NT ) qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités (NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles respectives n et n', mais un seul grand échantillon de taille n + n'. Remarquons que cette hypothèse est plus restrictive de l'hypothèse qui souligne la test de t ou Z pour deux échantillons. On obtient ainsi la suite : Durée de survie 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 17,8 Rang Traitement T T T T T b.1 Test de la médiane : Rappelons la définition de la médiane d'une loi ou d'une variable. Définition de la médiane :

36 Indépendance 32 Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) = P(X x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que : m = ½[ inf { x : F(x) 0,5) + sup { x : F(x) 0,5) La médiane est donc en gros une valeur m telle que : P (X<m) = P (X>m) = 1/2. C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa gauche qu'à sa droite. Ici m = 6,05 Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane m de l'échantillon par m = x (n+1)/2 si n est impair et (x (n/2) + x (n/2+1) )/2 si n est pair où les x (i) sont les valeurs ordonnées de l'échantillon. On remplace alors les résultats observés par le résumé suivant : Effectifs groupes Non traités Traités Totaux Nombre des patients dont la durée de survie est supérieure à la médiane Nombre des patients dont la durée de survie est inférieure à la médiane () Totaux Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à la médiane. De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane générale observée : Groupe I Groupe II Totaux X > M (médiane générale) A C A + C X M B D B + D Totaux A + B = n C + D = n' n + n'

37 Indépendance 33 A+C représente (à une unité près) la moitié de l'effectif global n + n'. Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de type I et n' de type II,on tirait au hasard (A + C) boules. Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules parmi les n + n' a la même probabilité de sortir. Comme il y a en tout n + n' A + C telles combinaisons dont n A x n' C contiennent exactement A boules du type I et C du type II. Donc : P(A,C) = n A. n' C n+n' A+C qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D : (A+B)! (B+D)! (A+C)! (C+D)! P' A,C) = (n+n' )! A! B! C! D! Rappel : on rappelle que la quantité n k, notée aussi C n k, est le nombre des combinaisons de n objets pris k par k, n! et vaut k! (n-k)!. où n!, appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2) Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des deux groupes : voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table correspond à un test unilatéral de l'hypothèse H 0 d'indépendance. Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie. Remarques 1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup d'information en remplaçant les données initiales sur la durée de survie par le tableau des effectifs inférieurs et supérieurs à la médiane globale. La variable quantitative continue qu'était la durée de survie a été transformée en une variable à deux classes.

38 Indépendance 34 2) Le test finalement employé sur le tableau des effectifs A, B, C, D est un test d'indépendance entre deux caractères à deux classes : Traités, non traités Survie à plus de 6 ans, et à moins de 6 ans Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I 3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test du χ 2. D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification du test à partir de la formule qui donne P (A, C). b.2 Test de Wilcoxon pour deux échantillons Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales, est plus puissant que le précédent. La statistique considérée est la somme W des rangs des valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par ordre croissant. Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités on obtient : W = = 37. Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse H o de non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2,..., 10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5 premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont équiprobables et donc de probabilité 1 / 10!. Mais deux permutations telles que les 5 premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux individustraités, on ne les distinguera donc pas. Comme il y a (5!) 2 telles permutations, on obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle vaut 5! 5! 10! Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour quew soit égale à une certaine valeur. En effet, les deux répartitions distinctes suivantes : R 1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins R 2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins donnent la même valeur à W : 37. On décidera de rejeter H o si W est trop grand ou trop petit. On peut décider de rejeter H o si P (W 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien l'information contenue dans les données). Pour calculer P (W 37) il faut déterminer les répartitions R telles que W 37. Leur nombre, multiplié par (5!) 2 / 10! donnera la probabilité cherchée : R = (6, 7, 8, 9, 10) Traités W = 40 R = (5, 7, 8, 9, 10) T W = 39 R = (5, 6, 8, 9, 10) T W = 38

39 Indépendance 35 R = (4, 7, 8, 9, 10) T W = 38 R = (5, 6, 7, 9, 10) T W = 37 R = (4, 6, 8, 9, 10) T W = 37 R = (3, 7, 8, 9, 10) T W = 37 Donc P (W 37) = 7.(5!) 2 / 10! 0,026. Au seuil de 5%, on rejette donc H o et on conclut que le traitement est efficace. Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous avions employé avant et dont le nom est test de Fisher ou d'irwin-fisher. Ces deux procédures de test sont non-paramétriques puisqu'aucune hypothèse n'a été faite sur la forme de la loi de la variable étudiée. Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables (p ) qui donnent les probabilités relatives à W pour les valeurs n 1 et n 2 des deux tailles d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de Mann- Whitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des dépassements des sujets de l'autre groupe (II), donc W = U + n 1 (n 1 + 1) 2 ou n 1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2. b.3 Test de Kolmogorov - Smirnov pour deux échantillons : L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra en évidence que des différences concernant justement les espérances des lois concernées. Le test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois : Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun des deux échantillons. Reprenons l'exemple précédent et notons F n la fonction de répartition empirique de la survie dans le groupe non traité. F' n la même quantité par le groupe traité. Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on considère appelée la statistique de Kolmogorov. D = maximum x (F n (x) - F' n (x)) Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart maximal des fonctions de répartition empiriques dans le sens choisi. Ici:

40 Indépendance 36 D = maximum x ( F n (x) - F' n (x) ) appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous. 1 F n F' n 0 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 Fonctions de répartition empiriques des durées de survie : F n pour le groupe non traité F' n pour le groupe traité. La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L, intitulée "Table of critical values of K D in the Kolmogorov - Smirnov two-sample test". K D y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux colonnes intitulées "One-tailed test". Pour le test bilatéral, aux deux colonnes "Two-tailed test". Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation normale, sous H o, pour W 1, somme des rangs du groupe I : L (W 1 ) N ( n 1 ( n 1 + n 2 + 1) 2 ; n 1 n 2 ( n 1 + n 2 + 1) 12 ) où n 1 et n 2 sont les tailles des deux échantillons et N = n 1 + n 2. Dans notre cas, N = 5 : il faudrait, pour qu'un test unilatéral soit significatif à 5% que K D soit égal à 4 (et qu'il soit égal à 5 pour être significatif à 1%) ; Comme ici K D = 3, le test n'est pas significatif (tout au moins à 5%). Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut démontrer qu'il a effectivement de très bonnes propriétés. Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer alors? L'une des possibilités, la plus simple, est d'affecter à chacun des ex -aequo le rang

41 Indépendance 37 moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière). On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs intermédiaires à l'ensemble des ex-aequo. 3 - Liaison entre deux caractères continus a - Cas normal : Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour densité de probabilité en tout point (x,y) du plan : 1 f(x,y) = exp ( - 1 (x-µ) 2-2ρ(x µ)(y µ' ) + (y-µ' 2 π σ 2 ) 2 ) 2(1- ρ 2 ) où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y: ρ(x,y) = E [(X - EX) (Y - EY)] σ(x) σ(y) Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul, et le test d'indépendance est fondé sur la loi du coefficient de corrélation empirique : R =: n (x i - x) (y i - y) i = 1 n [ (x i - x) 2 n ] [ (y i - y) 2 ] i = 1 i = 1 dont la loi, qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté du cours de PCEM 1. b - Cas général : méthodes non paramétriques : L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R cidessus est très restrictive. Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y, ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la statistique est libre. L'idée est de remplacer les valeurs des variables par leurs rangs :

42 Indépendance 38 on ordonne par ordre croissant les valeurs x i observées et on affecte à chacune son rang, qui varie ainsi de 1 à n : R (i) désigne le rang de X i. De même pour les y i : S (i) désigne le rang de Y i. b1 Coefficient de corrélation des rangs de Spearman : r s : Le coefficient de corrélation des rangs de Spearman, noté r s est le coefficient de corrélation de la suite (R(i), S(i)), i = 1,..., n, des rangs : R s =: n (R(i) - R) (S(i) - S) i = 1 n [ (R(i) - R) 2 n ] [ (S(i) - S) 2 ] i = 1 i = 1 Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite des n premiers entiers. Or on sait que n i = 1 i = n (n+1) 2 donc R = S = n n i = 1 i 2 = n (n+1) (2n + 1) 6 donc Σ R 2 = Σ S 2 = n (n+1) (2n + 1) 6 En utilisant pour le coefficient de corrélation l'expression R s = Σ RS (Σ R 2 ) (Σ S 2 ) on obtient, en notant d i la différence R (i) - S (i) entre les rangs de X et de Y : r s = 1-6 Σ d i 2 n 3 - n Exemple Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45 à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes d'angleterre et du pays de Galles.

43 Indépendance 39 Lorsqu'apparaissent des ex-aequo, on affecte à chacun d'eux le même rang, qui est la moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux. Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une telle procédure est négligeable sur le comportement de r s. Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la somme des carrés des rangs : Σ R 2 (ou Σ S 2, ou les deux) ne vaut plus n (n+1) (2n+1) 6 mais une valeur inférieure qu'il faut alors calculer. Ville Mortalité Calcium Ville Mortality Calcium per 100,000 ppm per 100,000 ppm (y) (x) (y) (x) Bath 1, Newcastle 1, Birkenhead 1, Northampton 1, Birmingham 1,466 5 Norwich 1, Blackburn 1, Nottingham 1, Blackpool 1, Oldham 1,724 6 Bolton 1, Oxford 1, Bootle 1, Plymouth 1,486 5 Bournemouth 1, Portsmouth 1, Bradford 1, Preston 1,696 6 Brighton 1, Reading 1, Bristol 1, Rochdale 1, Burnley 1, Rotherham 1, Coventry 1, St Helens 1, Croydon 1, Salford 1,987 8 Darlington 1, Sheffield 1, Derby 1, Southampton 1, Doncaster 1, Southend 1, East Ham 1, Southport 1, Exeter 1, Southshields 1, Gateshead 1, Stockport 1, Grimsby 1, Stoke 1, Halifax 1,742 8 Sunderland 1, Huddersfield 1,574 9 Wallasey 1, Ipswich 1, Walsall 1, Hull 1, West Bromwich 1, Leeds 1, West Ham 1, Leicester 1, Wolverhampton 1, Liverpool 1, York 1, Manchester 1,828 8 Cardiff 1, Middlesborough1, Newport 1,581 14

44 Indépendance 40 Swansea 1, Ici r s = - 0, 727 pour les 30 observations de la colonne de gauche. Que conclure en ce qui concerne ces 30 villes? On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion? Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour l'autre.a chacune de ces permutations, qui sont en nombre n,correspond une valeur du coefficient de corrélation de Spearman r s.chacune de ces valeurs a donc pour probabilité 1/ n etcette loi a été tabulée. Lorsque n est assez grand, au-delà de 10, la loi de T = R s n R s 2 est approximativement la loi de Student à n - 2 degrés de liberté. b2 Coefficient d'association des rangs de Kendall : Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives. Le test correspondant à la même puissance que le précédent, et il a l'avantage de se généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de corrélation partielle des rangs. Voyons, sur un exemple, comment se définit le coefficient de Kendall. Exemple : Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c, et d. Le tableau ci-dessous donne les pronostics, en années : Patient a b c d Médecin 1 : X 1 2 0,9 0,5 Médecin II : Y 1,5 0,8 2 1 Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau cidessous Patient d c a b Médecin 1 : R Médecin II : S Pour déterminer le degré de correspondance de ces deux classements, on décompte le nombre de couples (de patients) qui sont rangés dans le même ordre, de la manière suivante :

45 Indépendance 41 Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a concordance, et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d, a) : on lui affecte aussi + 1; le troisième par contre (d, b) est inversé : il est discordant et on lui affecte le score - 1, et ainsi de suite. On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la valeur : - 2. Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre des couples distincts, c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par deux : 4!/(2!2!) = 6 On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de concordance observée à sa valeur maximale : ici τ = 2 6 = 0,33 Comme le coefficient r s de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus simple, de le calculer est la suivante : A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus petits que lui. Ainsi cela donne dans notre exemple : Patient d : 2-1 = 1, c : - 2, a : - 1, ce qui donne en tout -2. La loi de τ sous H o est tabulée. De plus, dès que n est supérieur à 10, la loi de τ µ τ σ τ est approximativement la loi normale N (0, 1), où µ τ = 0 et σ τ = 2 (2n+5) 9n (n-1) b3 Coefficient d'association partielle de Kendall τ xy,z : Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à l'intervention d'une troisième variable Z. De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation

46 Indépendance 42 entre X et Y à Z fixé. On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait l'intelligence. Exemple : Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z on obtient le tableau suivant : Sujet a b c d Rang de Z Rang de X Rang de Y A chacun des 6 couples de sujets on associe un signe + lorsque la variable correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau : Couple (a,b) (a, c) (a, d) (b, c) (b, d) (c, d) Z X Y Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et de Z. On considère donc les effectifs des couples concordants et discordants de la manière suivante : Y couples dont le Y couples dont Total signe concorde le signe diffère avec celui de Z de celui de Z X couples dont le signe concorde avec celui de Z A B A + B X couples dont le signe diffère de celui de Z C D C + D Total A + C B + D n! / 2! (n-2)! Ici A = 4, B = 0, C = D =1. On appelle coefficient d'association partielle de Kendall le rapport : AD - BC τ xy,z = (A+B) (C+D) (A+C) (B+D) qui vaut ici 0,63. Si l'on avait calculé le coefficient d'association de Kendall τ xy, on aurait trouvé τ xy = 0,67.

47 Indépendance 43 Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z. On peut démontrer que τ xy,z = τ xy τ zx τ zy (1 τ zy 2 ) (1 τzx 2 ) qui est une formule plus facile à calculer que la précédente, car le nombre des combinaisons de n objets pris 2 à 2 devient rapidement très grand avec n. On pourra le vérifier sur l'exemple. On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait cependant obtenir cette loi par simulation.

48 Régression linéaire multiple 44 IV Régression linéaire multiple. 1 - Introduction Etant données p + 1 variables aléatoires, notées Y, X 1,..., X p, on suppose connues les variables X 1, X 2,..., X p, appelées variables explicatives, et on cherche à analyser Y, appelée variable réponse ou variable expliquée, en fonction de ces variables. On note X = (X 1,..., X p ). Exemple : Pendant la première quinzaine du mois de décembre 1952, il y eut dans la région de Londres une période de brouillard très intense constituant un record, et on remarque une mortalité accrue pendant cette période. On note pendant ces quinze jours le nombre de morts Y et la teneur atmosphérique moyenne en fumée X 1, mesurée en mg par mètre cube, et en dioxyde de soufre X 2, mesurée en nombre de particules par million. La mortalité Y est la variable expliquée et la pollution atmosphérique X = (X 1, X 2 ) la variable explicative, ici à deux dimensions. Date Nbre de morts ( y) Fumée (x 1) SO 2 (x 2 ) Ayant observé (Y, X) sur un échantillon de n sujets, on suppose que Y peut être considéré comme une combinaison linéaire des composantes de X, à une erreur ε près, de loi normale et de moyenne nulle, soit : Y = a + p b i X i + ε où L (ε) = N (0, σ 2 ) i = 1 Autrement dit, nous avons un modèle comportant p + 2 paramètres inconnus : a, b 1, b 2,..., b p, σ que l'on peut estimer à partir des valeurs observées : y j p j j = a + b i x i + ε j = 1, 2,...,n i = 1 par la méthode du maximum de vraisemblance. Nous allons faire le calcul explicitement dans le cas de deux variables explicatives. Notons b = (b 1, b 2,...,b p ).

49 Régression linéaire multiple Estimation des paramètres de la régression : Pour écrire la vraisemblance de l'échantillon, remarquons que les différences j ε = y j - a - p j b i x i i = 1, j = 1, 2,...,n sont n réalisations indépendantes, ε j, d'une variable N(0, σ 2 ). Donc V( a,b,σ) = ( n n 1 2π σ ) π exp (- i = σ 2 ( y j - a - 2 p j b i x i ) ) i = 1 Notant L le logarithme de la vraisemblance, on obtient : L( a,b,σ) = - n Log ( 2πσ ) σ 2 n j = 1 ( y j - a - 2 p j b i x i ) i = 1 Le maximum sera atteint par les valeurs de a et de b qui rendent minimum la somme : 2 n ( y j p j - a - b i x i ) j = 1 i = 1 somme des carrés des écarts entre Y et son approximation par une combinaison linéaire des X i. Nous retrouvons ici, pour le cas p = 1 d'une seule variable explicative, la droite de régression. Plus précisément, en dérivant par rapport à σ, puis a, puis chacun des b i, on obtient : ce qui donne L σ = - n σ σ La dérivation par rapport à a donne = σ 3 n j = 1 n j = 1 ( y j - a - ( y j - a - n 2 p j b i x i ) i = 1 2 p j b i x i ) i = 1 = 0 L a = 1 σ 2 n j = 1 ( y j - a - p j b i x i ) = 0 i = 1 ce qui fournit

50 Régression linéaire multiple 46 a = y - p x i i = 1 L b k = 1 σ 2 n j = 1 ( y j - a - p j j b i x i ) xk i = 1 = 0 p équations de ce type, une pour chaque b k, k = 1, 2,..., p. a étant remplacé par â, ces équations peuvent s'écrire n ( y j p j j - y ) - b i ( x i - xi )( x k - x k ) j = 1 i = 1 = 0 Soit : p b i i = 1 pour k = 1, 2,..., p. n j = 1 ( x i j - xi )( x k j - x k ) = n ( y j j - y )( x k j = 1 - x k ) Ces p équations, linéaires par rapport aux paramètres b i à estimer, peuvent s'écrire : b 1 Var(X 1 ) + b 2 Cov(X 1,X 2 ) b p Cov(X 1,X p ) = b 1 Cov(X 2,X 1 ) + b 2 Var(X 2 ) b p Cov(X 2,X p ) = Cov(X 1,Y) Cov(X 2,Y).... b 1 Cov(X p,x 1 ) + b 2 (X p,x 1 ) b p Var(X p ) = Cov(X p,y) en notant Vâr et Côv les variances et covariances empiriques associées à l'échantillon. Cela se simplifie en notations matricielles pour donner, en appelant : Σ X = la matrice de covariance de X = (X 1,..., X p ), dont le terme (i, j) est la covariance et de X i et X j, Σ X = la matrice de covariance empirique b 1 b = b 2. b p le vecteur colonne des paramètres estimés. l'équation matricielle : Σ X b = Σ XY

51 Régression linéaire multiple 47 Si la matrice Σ X est inversible, alors b = Σ X 1 Σ XY. Remarque 1 : Lorsque la matrice n'est pas inversible, c'est que l'une des composantes de X est une combinaison linéaire des autres et qu'il n'est donc pas nécessaire de la prendre en compte comme variable explicative (Il peut s'agir de k composante de X si la matrice est de rang p - k). Cas particulier de la régression à deux facteurs : Dans le cas où il y a seulement p = 2 variables explicatives, cela donne : Σ X 1 = Var(X 1 ) Cov(X 1,X 2 ) Cov(X 1,X 2 ) Var(X 2 ) - 1 Σ XY = Cov(X 1,Y) Cov(X 2,Y) Dans l'exemple considéré, on trouve : y = 89,51-220,32 x ,82 x 2 L'interprétation de ces coefficients donne un effet positif de la part de l'anhydride sulfureux (SO 2 ) et un effet négatif de la fumée sur le taux de mortalité. Remarque 2 : L'estimateur de b obtenu ci - dessus en généralise celle qui avait été obtenue dans le cas de la régression de Y par rapport à X dans le cas où X n'a qu'une seule composante : b = cov(x,y) Var(X) D'autre part, l'estimateur obtenu pour σ 2 par la méthode du maximum de vraisemblance n 2 e j σ 2 j = 1 = n où les e j = y j p j - (a + b i x i ) sont les résidus, différences entre les valeurs observées, i = 1 les y j, et les valeurs estimées ou prévues à partir des x i, les p j y j = a + b i x i i = 1 est, comme dans le cas d'une dimension, biaisé. Pour en faire un estimateur sans biais il faut le remplacer par

52 Régression linéaire multiple 48 2 σ' = n 2 e j j = 1 n - p - 1 Remarquons que lorsque la taille n de l'échantillon est grande par rapport au nombre p des variables explicatives, cette correction est peu sensible.ce sera souvent le cas. 3 - Coefficient de corrélation multiple Définition : On appelle coefficient de corrélation multiple ρ m (X,Y) de Y avec X = (X 1,..., X p ) le coefficient de corrélation de Y et de Y' = a + Σ i=1,...,p b i X i, où Y' est la combinaison linéaire des X i qui minimise E[(Y - Y') 2 ] : ρ m (X,Y) = ρ(x,y') En général, nous ne connaissons ni a, ni b, mais nous pouvons calculer la valeur empirique de ρ m ρ m = ρ(y,y' ) Interprétation : ρ m est la plus forte corrélation possible entre Y et une combinaison linéaire des X i : En effet Y' est la projection de Y sur le plan des X i : cos θ o = ρ(y,y') cos θ = ρ(y,z) cos θ o p est le plan engendré par les Xi et passant par le point 0, point moyen (x 1,x 2,...,x p, y ) que nous appelons π. Ici toutes les coordonnées sont supposées centrées : Y = Y - Y et Y = Y - Y ' ρ m =1 si Y = Y' Autrement dit Y a une représentation linéaire exacte à partir des X i (σ 2 = 0). ρ m = 0 si Y est orthogonal à π. Y n'est alors corrélé avec aucun des X i. ρ m est une mesure du degré de liaison entre Y et (X 1, X 2,..., X p ). 4 - Coefficients de corrélation partielle : Il arrive souvent que l'on veuille mettre en évidence une liaison éventuelle entre deux

53 Régression linéaire multiple 49 variables Y 1 et Y 2 tout en sachant que certaines autres variables (X 1, X 2,..., X p ) ont une influence sur Y 1 et sur Y 2. Pour éliminer le rôle joué par X = (X 1,..., X p ) on peut évidemment maintenir X fixée si c'est possible ; mais alors cela implique - soit que l'on démontre l'existence d'une liaison entre Y 1 et Y 2 seulement conditionnellement à X = x, la valeur fixée. - soit que l'on examine ce même problème pour plusieurs valeurs de X ce qui multiplie considérablement le nombre des observations. Une autre possibilité est de faire une régression - de Y 1 sur X : Y 1 = Y 1 + U 1 - de Y 2 sur X : Y 2 = Y 2 + U 2 Les deux "résidus" U 1 et U 2 peuvent être considérés comme la part de Y 1 (et de Y 2 ) qui ne s'explique pas linéairement en fonction des X i, et par suite : ρ (U 1, U 2 ) peut être considéré comme une mesure du degré de liaison entre Y 1 et Y 2 à X fixé. Définition : ρ (U 1, U 2 ) = R (Y 1, Y 2 / X 1,..., X p ) s'appelle le coefficient de corrélation partielle entre Y 1 et Y 2 à X = (X 1,..., X p ) fixé. Remarque : Lorsque p = 1, on pourra remarquer que (en notant X = Y 3 ) : Ce qui nous rappelle le coefficient de corrélation partielle de Kendall, qui est la même quantité calculée sur les rangs. R(Y 1, Y 2 / Y 3 ) = ρ 12 ρ 13 ρ ( 1 - ρ 13 ) ( 1 - ρ 23 ) 5 - Qualité de la régression : Comme il est toujours possible de faire une régression de n'importe quelle variable sur n'importe quelles autres variables, il est nécessaire d'analyser la qualité de la régression, c'est-àdire de tester la validité du modèle initial : y = a +Σ b i x i + ε L (ε) = N (0, σ 2 ) Pour ce faire, on considère les résidus : e j = y j - y j pour j = 1, 2,..., n où y j est la part de y j qui est "expliquée" par la variable x j = (x 1 j,...,xp j ).

54 Régression linéaire multiple 50 Le modèle de régression sera considéré comme d'autant meilleur que la part de la variabilité de Y qui est expliquée par les X i est plus important par rapport à la part résiduelle ; plus précisément : n (y j 2 - y) j = 1 = n ( p 2 j bi (x i - xi)) j = 1 i = 1 + n 2 e j j = 1 Le terme de gauche est la variance estimée des y observés, ou TotSS (pour total Sum of Squares) TotSS~ σ 2 χ 2 n - 1, le premier terme de droite est la variance estimée due à la régression ou RegSS (pour Regression Sum of Squares) RegSS~ σ 2 χ2 p, le deuxième terme de droite est la variance estimée résiduelle ou ErrSS (pour Error Sum of Squares) : ErrSS~ σ 2 χ 2 n - p -1. Notons R 2 le rapport de la variance due à la régression à la variance totale : R 2 = Variance due à la régression Variance totale Alors, si on note F le rapport R R Variance due à la régression = 2 Variance résiduelle Test F de Fisher - Snédécor : Si le modèle est vérifié, la loi de cette variable est celle du quotient de deux variables du chi 2 à p et n-p-1 degrés de liberté, indépendantes. La loi de R 2 / p (1 - R 2 ) / (n - p -1) a été tabulée et s'appelle la loi F de Fisher - Snédécor à p et n-p-1 degrés de liberté (voir la table 4) Ce test est un test de validité globale de la régression. Mais il se peut que des déviations par rapport au modèle initial aient lieu et soient d'un type tel qu'elles peuvent mieux se repérer sur un graphique, en portant - en abscisse les valeurs de y

55 Régression linéaire multiple 51 - en ordonnée la valeur du résidu correspondant. résidus résidus 0 x 0 Bon ajustement résidus Forte dispersion mais modèle peu variable : les y sont tous prédits avec la même (mauvaise) précision : ajouter des variables explicatives 0 x Le modèle de régression lineaire est inadapté : à corriger. Exemple : Le volume expiratoire moyen en une seconde, appelé Vems, est une quantité qui dépend de la taille et de l'âge. Les mesures faites sur 8 sujets adultes ont donné les résultats suivants. On pourra faire une régression linéaire du Vems sur l'âge et la taille. Individu Age (an) Taille (m) Vems (1 / s)

56 Régression linéaire multiple En fait, on apprend après coup, que les quatre premières personnes ont été tirées au hasard d'une population soumise à une pollution atmosphérique significativement plus importante que les 4 autres. On pourra faire un nouveau modèle de régression linéaire pour le Vems incluant cette fois la pollution.

57 Modèle logistique 53 V Introduction au modèle logistique et aux modèles linéaires généralisés. Le modèle logistique s'introduit naturellement comme l'une des généralisations du modèle linéaire classique (voir "Generalized Linear Models" de P. McCullagh et J.A. Nelder, 1990) lorsque la variable réponse, encore appelée variable à expliquer est binaire. 1 - Le modèle linéaire classique : Nous avons vu le modèle linéaire classique au chapitre précédent : sur chacun des n sujets i d'un échantillon, sont mesurées k + 1 variables (y, x 1, x 2,..., x k ) i, i =1,2,..., n. La variable à laquelle on s'intéresse est Y, appelée variable réponse et les x j sont des covariables chargées d'expliquer Y : la loi de Y est normale de moyenne une combinaison linéaire fixe des x j et de variance constante σ 2 : L (Y i ) = N ( µ i,σ 2 ), η i = b 1 x 1i + b 2 x 2i b k x ki, µ i = η i. Les paramètres du modèle sont donc les b et σ 2 et on peut écrire Y = (Σ b j x j ) + σ ε où ε est une variable normale N (0,1). Afin de le généraliser, on peut décomposer ce modèle en trois parties : 1) La composante aléatoire : Y; la variable Y a une distribution normale de variance constante σ 2 et de moyenne µ. 2) La composante systématique : les covariables x 1, x 2,..., x k, qui fournissent un prédicteur linéaire donné par η = Σ b j x j 3) La fonction de lien entre la composante aléatoire et la composante systématique : ici, η = µ. Les deux généralisations possibles concernent les termes indiqués en italiques ci-dessus : d'une part, on peut remplacer la loi normale par une loi d'une famille exponentielle quelconque, d'autre part, on peut remplacer la fonction de lien, qui est ici l'identité, par une fonction g quelconque : η = g( µ ). 2 - Modèles linéaires pour une réponse binaire : Si Y ne peut prendre que deux valeurs, que l'on note 0 et 1, il est clair que le modèle linéaire classique ne peut pas être utilisé tel quel. Par contre, en utilisant une fonction de lien adéquate, on pourra modéliser l'effet des covariables x 1, x 2,..., x k sur la probabilité p = P (Y = 1) = EY = µ. Les deux exemples de fonctions de lien qui suivent sont les plus couramment employés. Ils correspondent aux inverses de fonctions de répartition de lois usuelles, la loi logistique pour le premier de densité e - x f 1 (x) = (1 + e - x ) 2 et fonction de répartition F 1 (x) = e - x et la loi normale N (0,1) pour le second.

58 Modèle logistique 54 a. Le modèle logistique : Définition : la fonction logit g 1 est ainsi définie sur [0 1[ : g 1 (p) = log p 1 - p où log désigne le logarithme népérien. Le modèle associé à la fonction de lien logit est appelé le modèle logistique. Il stipule que log P ( Y = 1 / X = x ) P ( Y = 0 / X = x ) = b o + b 1 x b k x k = b o + < b, x > b. Le modèle probit : Définition : La fonction probit g 2 est ainsi définie : g 2 (p) = Φ - 1 (p) où Φ désigne la fonction de répartition de la loi normale N (0,1). Le graphe de cette fonction g 2 est voisin de celui de la fonction logit. Le modèle probit est souvent employé en pharmacologie, par exemple pour modéliser, en fonction de la dose absorbée, la proportion des animaux qui meurent, lors d'un essai d'un produit toxique. 3 - Propriétés du modèle logistique : Les bonnes propriétés du modèle logistique peuvent être illustrées par un exemple. Considérons le cas où Y désigne l'apparition d'une maladie M : M désigne la présence de la maladie, soit Y = 1, et M c son absence, soit Y = 0. La covariable est le facteur d'exposition, traditionnellement appelé E. On a alors le tableau d'effectifs suivant, qui peut avoir été obtenu de diverses manières, soit prospective, soit rétrospective.

59 Modèle logistique 55 E c M c M Total n oo n o1 n o. E n 1o n 11 n 1. Total n.0 n.1 n a. Etude prospective : Si on fait une étude prospective, on choisit les effectifs de personnes exposées, n 1. = n1o + n11, et non exposées, n o. = noo + no1, et on les suit jusqu'à ce que se développe la maladie M : à l'issue de cette étude longitudinale, certains auront développé la maladie ( n o1 + n 11 ) et d'autres pas ( n oo + n 1o ). Dans ce cas, ce sont les totaux associés à l'exposition, c'est à dire les totaux de lignes, n o. et n 1. qui sont fixés : n o., total de la 1 ère ligne, désigne la totalité des non-exposés, n 1., total de la 2 ème ligne, désigne la totalité des exposés. Comme la covariable E ne prend que deux valeurs, il n'y a que deux logits : celui des exposés et celui des non-exposés, soit log P ( M / Ec ) P ( M c / E c ) = log p 01 p 00 pour les non-exposés et log P ( M / E ) P ( M c / E ) = log p 11 p 10 pour les exposés. La différence entre ces deux logits, logit des exposés - logit des non-exposés, est égale au logarithme de l'odds ratio : = log p 11 p 00 p 10 p 01 On voit là que le fait que les totaux de lignes soient fixés n'a aucune importance puisque cette quantité ne dépend pas des probabilités d'être ou non exposé p 1. et p o.. b. Etude rétrospective : Dans ce cas, on a affaire à une étude transversale où sont tirés au sort des malades et des témoins pour lesquels sont demandés quels ont été les facteurs d'exposition. Ce sont cette fois les totaux de colonnes, associés à la maladie, qui sont fixés : n.o pour les non-malades, c'est à dire les témoins et pour les malades et n.1 pour les malades et les logits sont respectivement log P( E / M ) P( E c = log p 11 / M ) p 01

60 Modèle logistique 56 pour les bien-portants. log P( E / Mc ) P( E c / M c ) = log p 10 p 00 La différence entre ces deux logits est la même que précédemment : elle est insensible au fait que soient fixés les totaux de lignes ou les totaux de colonnes, c'est à dire à la manière dont est conduit e l'expérience: rétrospective ou prospective. Pour la même raison, elle est insensible à la plus ou moins grande rareté de la maladie, ou du facteur d'exposition. Ayant constaté ces qualités sur l'exemple ci-dessus, qui est très simple mais aussi très souvent utilisé, montrons qu'elles restent valables dans le cas le plus général : Supposons en effet que Z soit la variable de tirage, qui vaut 1 si le sujet est choisi et 0 sinon. Alors P ( Z = 1 M, x ) = π 1 indépendant de x, P ( Z = 1 M c, x ) = π 0 indépendant de x. Par exemple, si la maladie M est rare, on aura π 1 >> π 0 pour avoir un effectif de malades assez grand. Alors, ce qu'on verra, ce n'est pas P ( M x) mais P ( M Z = 1, x ). Or P ( M / Z = 1, x ) = P ( Z = 1 / M, x ) P ( M / x ) P ( Z = 1 / M, x ) P ( M / x ) + P ( Z = 1 / M c, x ) P ( M c / x ) = π 1 e b 0 + < b, x > π 1 e b 0 + < b, x > + π 0 = e b 0 * + < b, x > e b 0 * + < b, x > + 1 en posant e b* 0 = e b 0 π 1 π 0 Le même calcul avec M c au lieu de M donne P ( M c / Z = 1, x ) = e b 0 * + < b, x > En faisant le rapport des deux, on voit que le modèle logistique est conservé tel quel : P ( M / Z = 1, x ) P ( M c / Z = 1, x ) = e < b, x > + b* 0

61 Modèle logistique Modèles linéaires pour des variables ayant plus de deux valeurs : Régression polytomique : On suppose maintenant que la variable réponse Y peut prendre J valeurs où J peut être supérieur à 2. Le résultat de l'observation de n variables Y peut être résumé par une variable multinomiale N = (N 1, N 2,..., N J ) qui compte le nombre de fois N j que l'on a observé la modalité j de Y : N ~ M(n, p 1, p 2,..., p J ) Exemples : 1) Y désigne l'état de santé d'un patient décrit par un score allant de 1 (guéri) à 5 (gravement atteint). Alors J = 5 et la variable est quantitative ou ordinale, c'est à dire que ses valeurs sont ordonnées. Sur n patients, N 1 désigne le nombre de ceux qui sont guéris, N 2 le nombre de ceux qui sont légèrement atteints, etc.. 2) Y désigne le groupe sanguin d'un sujet : 0, A, B, AB. Alors J = 4 et la variable est qualitative ou nominale, c'est à dire qu'il n'y a pas d'ordre sur l'ensemble des valeurs qu'elle prend. Selon que les variables sont nominales ou ordinales, ce ne sont pas les mêmes modèles qui entrent en jeu. remarquons d'abord que nous pouvons toujours appeler l'ensemble des valeurs que peut prendre Y : {1, 2,..., J} que Y soit ou non ordinale. Simplement, si Y est nominale l'ordre des modalités est sans importance. La modélisation doit porter sur des probabilités de la forme suivante : Soit p j = P( Y = j X =x) (1) Soit P j = P( Y j X =x) (2) Dans le cas purement nominal, le modèle portera sur (1), mais il sera plus intéressant dans le cas ordinal de faire porter le modèle sur les probabilités cumulées (2) plutôt que sur les probabilités isolées (1). a Cas nominal : Notons comme d'habitude X la variable explicative. On généralise le modèle logistique vu dans le cas où Y prend seulement 2 valeurs, en prenant pour référence l'une des modalités de Y, par exemple la dernière : Log P(Y = j X =x) P(Y = J X =x) = θ j + b j x j= 1, 2,..., J 1 où θ j et b j sont des constantes. Dans le cas où il y a plusieurs variables explicatives, c'est à dire si x = (x 1,..., x R ), b j x est remplacé par le produit scalaire <b j, x> = b jr x r, mais on notera tout de même b j x lorsque cela ne peut pas créer de confusion. Comme la somme de toutes les probabilités P( Y = j X =x) doit être égale à 1, cela donne finalement comme expression pour les p j : P(Y = j X = x) = e θ j + b j x 1 + Σ J 1 i=1 e θ i + b i x j= 1, 2,..., J 1 Remarque : Si on ne veut pas faire jouer un rôle particulier à la modalité de référence prise ici comme la dernière, on peut remarquer qu'elle ne joue aucun rôle et écrire le modèle de manière symétrique. En effet, on peut multiplier haut et bas de la fraction ci-dessus par e θ J + b J x et renommer θ i la somme θ i + θ J et b i la somme b i + b J, dont on voit donc qu'elles sont définies à une constante additive près. Avec cette approche symétrique, le même modèle s'écrit :

62 Modèle logistique 58 P(Y = j X = x) = e θ j + b j x Σ i=1 J e θ i + b i x j= 1, 2,..., J Interprétation : Pour deux catégories j et j' le rapport des probabilités p j '/ p j change d'un facteur e (b j' b j )(x' - x) quand on passe de x à x'. b Cas ordinal : Dans ce cas là, pour chaque valeur j de Y on peut dichotomiser, c'est à dire couper en deux les valeurs de Y : celles qui sont plus grandes et celles qui sont plus petites et écrire : Log P(Y j X =x) P(Y > j X =x) = θ j + b x, j= 1, 2,..., J 1 Les θ j doivent bien sûr être croissants quand j croît. Ce modèle s'appelle en anglais "modèle des odds proportionnels" (proportional odds) parce que le rapport des "odds" pour deux valeurs différentes x et x' de la covariable est indépendant de l'endroit où on fait la coupure j. En effet : P(Y j P(Y j X = x)/p(y > j X = x) X = x' )/P(Y > j X = x' ) = b(x x') e Le rapport des cotes (odds) ne dépend que de la différence entre les valeurs de la variable explicative X et non de j, la valeur de la coupure. Remarque 1 : Comme cela a été dit au premier paragraphe, on aurait pu choisir une autre fonction de lien que la fonction logit. Par exemple : Log (- log ( P(Y>j X = x))) = θ j + bx Ce modèle correspond au modèle des "hasards proportionnels". On pourra se référer au modèle de Cox en analyse des durées de survie pour constater l'analogie. Remarque 2 : On peut interpréter le modèle des "odds proportionnels" de la manière suivante : il existe une variable continue Z non observée telle que Z - bx obéisse à la distribution logistique. Alors, si la variable Z non observée est entre θ j-1 et θ j, ce que l'on observe est y = j.cela donne en effet : P(Y j ) = P( Z θ j ) = P (Z - bx θ j - bx) = exp ( θ j - bx) / (1 + exp ( θ j - bx) ). Z est appelée une variable latente. Exemple 1 :

63 Modèle logistique 59 Un exemple traditionnel est le suivant : la réponse est le verdict dans des affaires criminelles, en trois catégories (coupable, non coupable et non lieu), en fonction de la race, en deux catégories, (blanche ou noire), du comté (Durham, ou Orange) et du type du délit (ivresse, violence, vol, menaces et drogue). La réponse est ordinale puisqu'il y a une gradation dans le verdict, le non lieu étant le plus faible et la culpabilité le plus lourd. Y sera le verdict, X le profil (race, comté, délit) et le modèle du type : P(Y > j X = x) Log = θ j + bx P(Y j X = x) Effectuer l'analyse des données observées à l'aide de Splus. Exemple 2 : On pourra essayer de traiter de cette manière l'exemple ci-dessous, où la dépression, en trois classes peut être considérée comme une variable réponse. Dans une étude psychiatrique, on a pour chaque patient les 4 variables : A validité énergique A1 asthénique A2 B solidité hystérique B1 rigide B2 C stabilité introverti C1 extraverti C2 D dépression grave D1 légère D2 absente D3 La seule variable qui pourrait être considérée comme une variable réponse est la dépression que l'on va donc grouper en deux classes, en notant D1 la dépression grave et D2 la dépression légère ou absente. C1 C2 B1 B2 B1 B2 D1 A A C1 C2 B1 B2 B1 B2 D2 A A Deux exemples de modèles : variables purement catégorielles et variables mixtes : a. Modèles log-linéaires pour des variables purement catégorielles quelconques : On a cette fois I variables, toutes catégorielles, qui sont sur le même plan. Il n'y a pas, a priori, de variable réponse Y dont on tente d'expliquer le comportement grâce à une variable X de dimension I - 1. Soit donc :

64 Modèle logistique 60 X = (X 1, X 2,..., X I ) P( X = x ) = P( (X 1 = x 1, X 2 = x 2,..., X I = x I ) = p (x 1, x 2,..., x I ) A priori, la seule contrainte est que la somme de toutes ces probabilités soit égale à 1. Lorsqu'on veut faire des modèles, on peut procéder de la manière suivante : Notant l (x 1, x 2,..., x I ) = log (p (x 1, x 2,..., x I )), on peut toujours écrire cette fonction comme la somme suivante : l (x 1, x 2,..., x I ) = c + l 1 (x 1 ) + l 2 (x 2 ) +...+l 1 (x 1 ) + l 12 ( (x 1, x 2 ) + l 13 ( (x 1, x 3 ) l I-1, I (x I-1, x I ) + l 123 (x 1, x 2, x 3 ) +... Choisir un modèle consiste alors à annuler certaines des fonctions qui interviennent dans le développement. On peut montrer que cela revient à supposer nulles certaines interactions entre les X i. Ces modèles, appelés log-linéaires font l'objet du chapitre suivant. b Modèles Mixtes pour un mélange de variables discrètes et continues : A présent, la variable observée (X,Y) est constituée d'une variable dicrète X, de dimension p et d'une variable Y, de dimension q : X est catégorielle : X = (X 1, X 2,..., X p ) = {1, 2,..., p} Y est continue : Y = (Y 1, Y 2,..., Y q ) Γ = {1, 2,..., q} Comme on est amené à considérer des sous-ensembles des composantes de X, ainsi que de Y, on adopte la notation suivante : Soit x une valeur de X. Si a, X a désigne l'ensemble des composantes de X dont l'indice est dans a et x a désigne la valeur de X quand X vaut x. Voyons sur un exemple ce que cela signifie : Lors d'une étude du cancer du sein, on a relevé sur un certain nombre de patientes de trois hôpitaux, l'un à Tokyo, le second à Boston et le troisième à Glamorgen, leur âge, la nature de la tumeur, bénigne ou maligne, le degré d'inflammation et la durée de la survie. on a donc une variable de dimension 5, qui a des composantes continues et d'autres discrètes : X est catégorielle : X = (X 1, X 2, X 3 ) = {1, 2, 3} ; p = 3. Y est continue : Y = (Y 1, Y 2 ) Γ = {1, 2} ; q = 2. X 1 = centre hospitalier : Tokyo, Boston, ou Glamorgen, X 2 = nature de la tumeur : bénigne ou maligne, X 3 = inflammation : grave ou légère. Y 1 = âge, Y 2 = durée de survie Supposons que pour un sujet, on ait observé x = (Tokyo, maligne, légère, 54, 8), (en supposant que l'âge et la durée de survie aient été arrondies à l'année). Alors, si a = {1,3}, que vaut x a?

65 Modèle logistique 61 x a = (Tokyo, légère). Les modèles qui seront considérés dans ce cas sont des modèles conditionnellement gaussiens, notés en abrégé C-G, qui peuvent être ainsi définis : la loi de la composante continue Y, lorsque la composante X est fixée à la valeur x, est normale, de moyenne µ(x) et de matrice de covariance Σ(x). On peut donc écrire les modèles conditionnellement gaussiens : L ( Y X = x) = N (µ(x) ; Σ(x)) La loi jointe du couple (X,Y) peut donc s'écrire : f(x,y) = p(x) g(y x) = p(x) 2π q Σ(x) exp (y - µ(x))'σ(x) -1 (y - µ(x Les paramètres naturels que l'on voit apparaître sont donc : p(x) µ(x) Σ(x) la loi de la partie discrète de la variable, la moyenne de la partie continue, la matrice de covariance de la partie continue. Ce paramétrage, par les moments, a une interprétation immédiate. Mais on peut préférer un autre paramétrage, appelé paramétrage canonique, qui est moins clair en ce qui concerne l'interprétation mais qui donne une expression plus simple pour la loi jointe f(x,y) : Paramétrage canonique : α(x) = log (p(x) - (1/2) log ( Σ(x) ) -(1/2) µ(x)σ(x) -1 µ(x) - (q/2) log(2π) β(x) = Σ(x) -1 µ(x) Ω(x) = Σ(x) -1 La loi du couple s'écrit avec ces paramètres : 1 f(x,y) = exp α(x) + β j(x)y j ω j 2 jj' jj' (x)y j y j' Chacun des paramètres, α(x), β(x) et Ω(x) peut être développé comme une somme de fonctions, comme précédemment. Par exemple α(x) = α (x 1, x 2,..., x p ) = c + α 1 (x 1 ) + α 2 (x 2 ) α p (x p ) + α 1 2 ( (x 1, x 2 ) + α 13 ( (x 1, x 3 ) α p-1, p (x p-1, x p ) + α 123 (x 1, x 2, x 3 ) +... Les modèles que l'on définit à partir de cette base sont obtenus en annulant certains des termes de cette somme. On peut démontrer que si tous les termes contenant deux variables sont nuls, alors ces deux variables sont indépendantes conditionnellement aux autres. On a donc dans ce cas une interprétation simple des modèles obtenus.

66 Survie 62 VI Modèles pour les Durées de Survie avec Censure. 1 - Introduction : L'analyse des durées de survie a essentiellement deux objectifs : - Lors d'un essai thérapeutique, il s'agit de tester l'efficacité d'un nouveau traitement en comparant les durées de survie qu'il permet d'obtenir à celles que le traitement habituel (ou un placebo) permettent d'avoir. - Lors d'une étude épidémiologique, il s'agit d'évaluer la valeur pronostique d'un ou plusieurs facteurs. C'est ce second volet qui nous intéressera ici, mais les modèles employés et les méthodes correspondantes sont essentiellement les mêmes. Le terme de durée de survie est employé de manière générale pour désigner le temps qui s'écoule jusqu'à la survenue d'un événement particulier qui n'est pas forcément la mort : il peut s'agir par exemple d'une rechute et la durée de survie est, dans ce cas, un délai de rémission, ou de la guérison, et la durée de survie représente le délai allant jusqu'à la guérison. Exemple 1 (Données de Freireich) : Freireich, en 1963, a fait un essai thérapeutique ayant pour but de comparer les durées de rémission, en semaines, de sujets atteints de leucémie selon qu'ils ont reçu ou non du 6 M-P (le groupe témoin a reçu un placebo et l'essai a été fait en double aveugle). Traitement Durée de rémission, en semaines 6 M-P 6, 6, 6, 6 +, 7, 9 +, 10, 10 +, 11 +, 13, 16, 17 +, 19 +, 20 +, 22, 23, 25 +, 32 +, 32 +, 34 +, Placebo 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23. Les chiffres suivis du signe + correspondent à des patients qui ont été perdus de vue à la date considérée. Ils sont donc exclus "vivants" de l'étude et on sait donc seulement d'eux que leur "durée de survie" est supérieure à celle indiquée. Par exemple, le quatrième patient traité, par 6 M-P a eu une durée de rémission supérieure à 6 semaines. On dit que les perdus de vue ont été censurés, et ce problème de la censure demande un traitement particulier. En effet si l'on se contentait d'éliminer les observations incomplètes c'est-à-dire les 12 patients censurés du groupe traité par le 6 M-P on perdrait beaucoup d'information. Par exemple un test de Wilcoxon appliqué aux 9 patients restants dans le groupe 6 M-P et aux 21 patients du groupe Placebo sous-évaluerait l'effet du traitement très visiblement.

67 Survie 2 - Définition de la fonction de survie et du risque instantané : 63 Si on appelle X la variable aléatoire qui est la durée de survie, et si on examine n patients, leurs durées de survie X i, i = 1, 2,..., n sont supposées indépendantes et équidistribuées, de densité f (t) sur [0 ; + ], de fonction de répartition F (t) = P (Xt). Fonction de survie S(t) : Par définition,, c'est la probabilité de survivre au delà de l'instant t : S(t) = P (X t ) = 1 - F(t). Risque instantané λ (t) : Par définition, λ(t) dt désigne la probabilité pour un patient de mourir entre les instants t et t + dt sachant qu'il a survécu jusqu'à l'instant t : λ(t) dt = P (t X < t + dt X t). Par suite λ(t) = f(t) / S(t). D'autres termes sont quelquefois employés pour désigner λ, par exemple le "taux de hasard" (hazard rate en anglais) ou la "force de mortalité" (force of mortality), ou l'intensité de mort. Remarque : Si l'on connaît S, on peut calculer λ. En effet λ = - S' / S. Et, inversement, en intégrant cette égalité on obtient : t t λ(s) ds = [LogS(u)] 0 = - Log [S(t)] puisque S(O) = 1. 0 Ce qui s'écrit aussi : t S(t) = exp [ - λ(s) ds ] 0 Par exemple, si le risque instantané est toujours le même, c'est à dire égal à une valeur constante a, S(t) = exp ( - at ), et on reconnaît que la durée de vie X suit la loi exponentielle de paramètre a et de densité f(t) = a exp ( -at). 3 - Types de censure : a) Censure de type I : fixée Au lieu d'observer les variables X 1,..., X n qui nous intéressent, on n'observe T i que lorsque T i C, sinon on sait seulement que T i est supérieur à C. On note aussi T i = X i C. (le signe signifie : a b = min (a, b)), la plus petite des deux valeurs a et b. b) Censure de type II : attente On décide d'observer les durées de survie des n patients jusqu'à ce que r d'entre eux soient décédés et d'arrêter l'étude à ce moment là. Si l'on ordonne les durées de survie X 1,..., X n, soit X (1) la plus petite, X (i) la i ème etc... : X (1) X (2)... X (n)

68 Survie 64 On dit que les X (i) sont les statistiques d'ordre des X i. La date de censure est alors X (r) et on observe : T (1) = X (1) T (2) = X (2) T (r) = X (r) T (r+1) = X (r)... T (n) = X (r) c) Censure de type III : aléatoire A chaque patient i, associons non seulement son temps de survie X i mais aussi son temps de censure C i. On n'observera évidemment que le plus petit des deux, c'est-à-dire T i = X i C i Mais on peut supposer que, tout comme les X i, les C i sont indépendantes et équidistribuées (iid) de fonction de répartition G. On fait l'hypothèse que : C i et X i sont indépendantes. Alors pour le i ème patient, l'information dont on dispose peut être résumée par: - la durée réellement observée T i - un indicateur D i du fait qu'à l'issue de cette durée d'observation le patient est : - mort : D i = 1 - censuré : D i = 0. La censure aléatoire, lors d'un essai thérapeutique peut avoir plusieurs causes : 1. perte de vue : le patient peut décider d'aller se faire soigner ailleurs et on ne le revoit plus. 2. arrêt de traitement : le traitement peut avoir des effets secondaires si désastreux que l'on est obligé d'arrêter le traitement. 3. fin de l'étude : l'étude se termine alors que certains des patients sont toujours vivants. patient 1 X 1 patient 2 X 2 + patient 3 X Fin de l'étude temps Le premier patient est entré au début de l'étude et il est mort à la date X 1. Le deuxième patient entré dans l'étude était toujours vivant à la fin. Et le troisième a été perdu de vue avant la fin de l'étude.

69 Survie 65 Remarque : L'hypothèse d'indépendance de X i et de C i est utile mathématiquement. Il est important de voir si elle se justifie. Dans les cas où la censure est due à un arrêt du traitement, elle n'est pas vérifiée. Notation : Par abus de notation, lorsqu'on ordonne les durées de survie (T i, D i ) selon les valeurs croissantes des T soit : On notera D (i) le D associé à T (i). T (1) T (2)... T (n) 4. Estimation de la fonction de survie Si l'on ne peut pas supposer a priori que la loi de la durée de survie obéit à un modèle paramétrique, on peut estimer la fonction de survie S grâce à plusieurs méthodes non- paramétriques dont la plus intéressante est celle de Kaplan-Meier. a) Estimateur de Kaplan-Meier : Cet estimateur est aussi appelé P-L car il s'obtient comme un produit-limite. Il est fondé sur la remarque suivante : La probabilité de survivre au-delà de l'instant t est égale au produit suivant : S(t+) = P (X > t X >t').s (t'). Si l'on renouvelle l'opération en choisissant une date t" antérieure à t', on aura de même S(t') = P (X >t' X > t").s (t"), et ainsi de suite. Si l'on choisit pour les dates où l'on conditionne celles où il s'est produit un événement, qu'il s'agisse d'une mort ou d'une censure, on aura seulement à estimer des quantités de la forme : P (X > T (i) X > T (i-1) ) = p i qui est la probabilité de survivre pendant l'intervalle de temps I i = ] T (i-1) T i ] quand on était vivant au début de cet intervalle. Notons : R i = le nombre des sujets qui sont vivants juste avant l'instant T (i), ce que l'on note: # vivants à l'instant T (i) ou # sujets de R (T (i) ) en désignant par R (t) l'ensemble des sujets à risque à l'instant t - M i = le nombre des morts à l'instant T (i) q i = 1 - p i est la probabilité de mourir pendant l'intervalle I i sachant que l'on était vivant au début de cet intervalle. Alors l'estimateur naturel de q i est q i = M i R i Supposons qu'il n'y ait pas d'ex-aequo Si D (i) = 1, c'est qu'il y a eu un mort en T (i) et donc M i = 1. Si D (i) = 0, c'est qu'il y a eu une censure en T (i) et donc M i = 0. Par suite, p i = 1-1 R i en cas de mort en T (i) 1 en cas de censure en T (i).

70 Survie 66 L'estimateur de Kaplan-Meier est donc dans ce cas : S(t) ˆ = ( 1 - T(i) t 1 n - i ) + 1 Exemple 2 : Sur 10 patients atteints de cancer des bronches on a observé les durées de survie suivantes, exprimées en mois : L'estimateur de Kaplan-Meier de la fonction de survie S (t) vaut : S(0) = 1 et S(t) = 1 pour tout t dans [0 1[ S(1) = (1-1 ) S(0) = 0,9 10 S(3) = (1-1 ) S(1) = 0,80 9 S(5) = (1-1 ) S(3) = 0, S(8) = (1-1 ) S(5) = 0, S(9) = (1-1 ) S(8) = 0,411 4 D(i) 1 0,5 0,2 0, t (mois) Mais la plupart du temps il y a des ex aequo, comme dans le premier exemple qui est celui des données de Freireich.

71 Survie 67 Cas où il y a des ex-aequo : 1) Si ces ex-aequo sont tous des morts, la seule différence tient à ce que M i n'est plus égal à 1 mais au nombre des morts et l'estimateur de Kaplan-Meier devient : S(t) = π T (i) Š t 1 - M i R i 2) Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées ont lieu juste avant les censurées. Voyons ce que donne l'estimateur de Kaplan-Meier dans le cas des données de Freireich. Pour le traitement : S(0) = 1 et S(t) = 1 pour tout t dans [0 6[ S(6) = (1-3 ) S(0) = 0, S(7) = (1-1 ) S(6) = 0, S(10) = (1-1 ) S(7) = 0, S(13) = (1-1 ) S(10) = 0, S(16) = (1-1 ) S(13) = 0, S(22) = (1-1 ) S(16) = 0,538 7 S(23) = (1-1 ) S(22) = 0,448 7 Pour le Placebo : S(1) = (1-2 ) S(0) = 0, S(2) = (1-2 ) S(1) = 0, S(3) = (1-1 ) S(2) = 0, S(4) = (1-2 ) S(3) = 0, S(5) = (1-2 ) S(4) = 0, S(8) = (1-4 ) S(5) = 0,421 12

72 Survie 68 S(11) = (1-2 ) S(8) = 0,316 8 S(12) = (1-2 ) S(11) = 0,210 6 S(15) = (1-1 ) S(12) = 0,158 4 S(17) = (1-1 ) S(15) = 0,105 3 S(22) = (1-1 ) S(17) = 0,053 2 S(23) = (1-1 1 ) S(22) = 0 b) Estimateur de Greenwood de la variance de S-chapeau(t) : L'estimateur de Greenwood de la variance de l'estimateur de Kaplan-Meier de la fonction de survie est obtenu heuristiquement en faisant deux approximations : Premièrement, on remarque que Log( S(t)) ˆ = (1 qˆ ) i :T i t Or la variance de chaque terme vaut p i q i. Deuxièmement, si les q i étaient indépendants, la variance de la somme serait égale à la somme des variances. Cela donne finalement : Var(Ŝ(t)) [Ŝ(t)] i n 2 i t t ni (ni m i i ) formule qui est obtenue en employant la delta-méthode qui consiste à faire l'approximation, si X est approximativement égal µ + σ Z, Z centré réduit et σ petit : Var(f(X)) Var(f(µ + σ Z)) Var(f(µ) + σ Z f''(µ)) (σ f''(µ)) 2, avec f = Log. 5 - Modèles paramétriques Voici les modèles les plus employés : a. Modèle exponentiel : Il correspond à un risque constant : λ étant une valeur constante,le risque de mort instantané est égal à λ : λ (t) = λ quel que soit t Alors la fonction de survie S (t) = exp ( - [0 t] λ ds ) = e - λt et la densité de la loi de la durée de survie est f (t) = - S'(t), c'est à dire : S (t) f (t) = e - λt = λ e -λt Son espérance et sa variance sont respectivement :

73 Survie 69 EX = 1 / λ et Var (X) = 1 / λ 2. b. Modèle Gamma : C'est une généralisation du modèle exponentiel, ayant pour densité : f(t) = λ a Γ(a) ta - 1 e - λ t a > 0, λ > 0. On voit que pour a = 1, on a le modèle exponentiel. Ici, EX = a / λ et Var (X) = a / λ 2. Densité gamma, pour λ = 1 et a = 1/ 2 : 1 a = 1 : 2 a = 2 : 3 a = 3 : 4 Densités des lois gamma densité 0.5 a = 0.5 a = 1 a = 2 a = temps t On pourrait calculer la fonction de survie, S (t) = [t [ f(s) ds et le risque instantané λ(t) = f(t) / S(t), mais ils ont dans ce cas une forme moins simple que celle de la densité. c. Modèle de Weibull : C'est une autre généralisation du modèle exponentiel : Alors, on en déduit : S(t) = e - (λt)α α > 0, λ > 0. λ(t) = λα (λt) α 1 ( = d dt Log(S(t)) ). f(t) = λα (λt) α 1 e - (λt)α ( = λ S(t) ).

74 Survie 70 Densité de Weibull pour λ = 1, α = 0.5 : 1 λ = 1, α = 1 : 2 λ = 0.5, α = 2 : 3 λ = 0.33, α = 3 : 4 Densités de lois Weibull. 1.5 a = 1 lambda = 1 a = 0.5 lambda = a = 2 lambda = 0.5 densité 0.5 a = 3 lambda = temps t Les expressions de l'espérance et de la variance de X ne sont pas simples. d. Modèle de Rayleigh : Il correspond à une intensité linéaire en fonction du temps t : λ (t) = λ 0 + λ 1 t Alors S(t) = exp ( - λ o t - (1/2) λ 1 t 2 ) f(t) = ( λ 0 + λ 1 t ) exp ( - λ o t - (1/2) λ 1 t 2 ) e. Modèle Log-normal : Par définition, le logarithme de la durée de survie suit une loi normale : L (Log X i ) = N (µ, σ 2 ). Alors S (t) = P (Log X > Log t) = 1 - Φ [(Log t - µ ) / σ] où Φ désigne la fonction de répartition de la loi normale standard N (0, 1). f. Modèle de Pareto : On emploie ce modèle lorsqu'on est assuré que la survie dure au moins jusqu'à un instant a : λ(t) = α t 1 [a + [ (t) a > 0, α > 0 Alors

75 Survie 71 S(t) = a t α 1 [a + [ (t) et f(t) = α a α t α [a + [ (t) Les différents modèles sont classés suivant que le risque instantané est croissant ou décroissant : Risque instantané Constant Modèle Exponentiel Weibull (α >1) Croissant Gamma (a > 1) (RIC) Rayleigh (λ 1 > 0) Weibull (α < 1) Décroissant Gamma (a < 1) (RID) Rayleigh (λ 1 < 0) Pareto On peut aussi employer le risque moyen : pour la classification (RMC, RMD). RM(t) = 1 t 0 t λ(u) du RIC est généralement noté IFR (Increasing Failure Rate). RID est généralement noté DFR (Decreasing Failure Rate). 6. Un modèle semi-paramétrique : le modèle de Cox : Le modèle de Cox est employé lorsqu'on cherche à évaluer l'effet de certaines variables sur la durée de survie. a - Définition du modèle : Le cadre est le suivant : Les 2n variables X 1,..., X n et C 1,..., C n que sont les durées de survie et les temps de censure des n individus considérés sont supposées indépendantes. On observe la suite des n couples de variables (T i, D i ) : T i date de départ du i ème individu (en supposant qu'ils sont tous entrés à l'instant 0) D i indicatrice de la cause de départ ( D i = 1 si c'est la mort, 0 sinon) D i = 1 {X C}. Mais on a aussi observé sur chacun des individus une variable Z i = (Z i1,..., Z ip ) dont dépend la durée de survie X i. Cette variable Z est généralement appelée covariable. Le modèle des "hasards proportionnels", ou modèle de Cox suppose que

76 Survie 72 λ(t Z = z) = λ0(t) e b1 z1 + b2 z bpz p b' = (b 1,..., b p ) est le vecteur des coefficients de la régression. λ 0 (t) est le risque instantané de base. En général, ils sont inconnus tous les deux. Remarque : La famille des lois d'un tel modèle est du type suivant : Toutes les fonctions de survie sont égales à une même fonction S o élevée à des puissances variées : S = S o γ t S o (t) = exp ( - λ o (u) du ) γ = exp ( Σ j = 1,.., p b j z j ) On dit qu'il s'agit d'une famille d'alternatives de Lehmann. Exemple : Prenons le cas le plus simple : 1 seule covariable (p = 1) prenant seulement les valeurs 0 ou 1. Il peut s'agir par exemple d'un essai thérapeutique destiné à comparer l'effet d'un nouveau traitement (Z = 1 pour les patients traités) à celui du traitement habituel ou d'un placebo (Z = 0), sur la durée de survie. On a alors deux populations : Si Z = 0, S (t) = S o (t) 0 Si Z = 1, S 1 (t) = S o (t) exp (eb ) soit S 1 = S γ o où γ = e b mesure l'effet du traitement. Le modèle comporte donc un paramètre qui est une fonction : λ 0, considéré en général comme nuisible et p paramètres réels b 1,..., b p qui sont les quantités à estimer, ou à tester, car elles représentent l'effet sur la durée de survie de chacune des covariables correspondantes. b) Vraisemblance partielle de Cox : Pour éliminer le "paramètre" nuisible totalement inconnu qu'est la fonction de hasard (risque instantané de base) λ 0, Cox dans son article initial (JRSS B, 1972), considère la vraisemblance "partielle" suivante : V (b, b,...,b c ) = p (i) b z j j j = 1 e D = 1 p (i) (k) b z j j j = 1 e k R(i) où T (1) < T (2) <...< T (n) désignent la suite des instants où a lieu un évènement (mort ou censure), et à

77 Survie 73 l'instant T (i) sont observés : D (i) la nature de l'événement D (i) = 1 si c'est une mort = 0 sinon (censure) Z (i) la covariable, de dimension p, de l'individu à qui est arrivé l'événement R (i) les individus encore à risque à l'instant T (i) ainsi que la valeur de leurs covariables.: Z (k), k R (i). Et Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire. En temps continu, l'hypothèse est faite qu'il n'y a aucun ex-aequo. Le raisonnement (heuristique) de Cox était à peu près le suivant (Plusieurs auteurs ont tenté depuis de donner des justifications théoriques : Gill et Andersen (AS 1982), Johansen (ISR 1983)) : Supposons que λ 0 soit arbitraire. Aucune information ne peut être donnée sur b par les intervalles de temps durant lesquels aucune mort n'a eu lieu, car on peut concevoir que λ 0 soit identiquement nulle dans ces intervalles. On devra alors travailler conditionnellement à l'ensemble des instants où une mort a lieu. (Si le temps est discrétisé, on conditionnera aussi sur le nombre des morts qui ont lieu à un instant donné, mais pour le moment nous travaillons en temps continu). A partir du moment où l'on désire une méthode d'analyse valable pour tout λ 0, il paraît inévitable de considérer cette loi conditionnelle. La probabilité pour qu'une mort se produise dans l'intervalle de temps [T (i) T (i) + T] vaut à peu près : p b j j = 1 k R(i) (k) z j e (i) λ 0 (T ) t et la probabilité pour que cette mort soit celle de (i) sachant qu'une mort a eu lieu vaut : p (i) b z j j j = 1 e p (k) b z j j j = 1 e k R(i) Et on reconnaît chacun des termes du produit qui forme la vraisemblance partielle de Cox V c. Cox propose de traiter cette vraisemblance partielle comme une vraisemblance exacte, c'est-à-dire que l'estimateur de Cox s'obtient en maximisant V c : Notant L c le logarithme de V c, le vecteur des dérivées partielles de L c par rapport aux composantes de b, ou vecteur des scores, est noté DL (b) et vaut

78 Survie 74 = c p c 2 c 1 L b... L b L b DL(b) Et l' estimateur de Cox, b n, est obtenu en résolvant le système des p équations DL (b n ) = 0. qui s'écrivent : 0 ) e e Z ( Z R(i) k (k) j (i) j 1 :D i ) ( i = = = = R(i) k p 1 j (k) j z j b p 1 j (i) j z j b Il y a en tout p équations, une pour chacune des p variables : j = 1, 2,..., p. En général, les solutions ne peuvent être obtenues que par itération. La matrice d'information, notée I, est la matrice carrée, pxp, qui a pour termes les dérivées secondes du logarithme de la vraisemblance. Une version empirique de cette matrice a pour terme en général 2 R(i) k (k) j' R(i) k (k ) j (k) j' R(i) k (k ) j 1 i:d e e Z e Z e e Z Z Ijj' ) (i = = = = = = = R(i) k p 1 j (k) j z j b p 1 j (i) j' z j' b p 1 j (i) j z j b R(i) k p 1 j (k) j z j b p 1 j (i) j z j b Si l' on dispose d' un estimateur initial b o, on le corrige au premier pas : b 1 = b o + I - 1 (b o ) DL(b o ) Cox affirme (toujours heuristiquement) que L ( n (b n - b)) N (0, I -1 (b))

79 Survie 75 Cette vraisemblance V c n'est : - ni une vraisemblance marginale, - ni une vraisemblance conditionnelle. En effet, considérons la suite des couples d'aléas tels que, dans l'intervalle (K i, L i ) [T' (i-1) T' (i) [ entre deux morts successives, K i et L i contiennent respectivement : K i : toute l'information relative aux censures ainsi que le fait qu'une mort a lieu à l'instant T' (i). L i : l'information selon laquelle c'est l'individu particulier (i) qui est mort à l'instant T (i), celui dont la covariable vaut Z (i). La loi marginale des L i (i = 1, 2,..., M s'il y a M morts effectivement observées) donne pour vraisemblance marginale : V m (b) = P (L 1,..., L M b ) = πi P (L i L 1,..., L i-1 ; b) Et la vraisemblance des L i conditionnellement aux K i est : V c (b) = P (L 1,..., L M K 1,..., K M ; b) La vraisemblance totale est : V t (s) = M π i = 1 p(l i L 1,..., L i - 1 ; K 1,..., K M ; b ) x M π i = 1 p(k i L 1,..., L i - 1 ; K 1,..., K i - 1 ; b ) et c'est le premier de ces deux produits que Cox appelle la vraisemblance partielle. Cox affirmait que la vraisemblance partielle contient la presque totalité de l'information sur le coefficient β de la régression et que l'on peut ignorer le second produit, sans pour cela perdre grand chose. (Cox, Biometrika (1975). Efron (JASA 1977) et Oaks (Biometrika 1977) ont comparé l'information de Fisher contenue dans la vraisemblance partielle et dans la vraisemblance totale pour plusieurs modèles : le rapport est en général de 90% et quelquefois même de 1, dans des cas assez rares il est vrai. La justification de la normalité asymptotique de l'estimateur du maximum de vraisemblance partielle a été traitée, a posteriori, par plusieurs auteurs et de plusieurs manières : Les unes, classiques, mais qui sont un peu lourdes (Bailey (Thèse, Chicago, 1979) utilise les projections de Hajek (Dupar et Hajek AM6 1969) et Tsiatis (AS 81) utilise la théorie générale des processus et des représentations intégrales) ; les autres sont fondées sur la théorie des processus ponctuels et sur le théorème limite central pour des martingales (Rebolledo ZfW 1980) et sont plus élégantes (Andersen et Gill AS 1982).

80 Survie Test de comparaison de deux échantillons (Test de Gehan) On suppose qu'on a deux échantillons indépendants de durées de survie, le premier de taille m, le second de taille n : X 1 X 2... X m Y 1 Y 2... Y n En fait, chaque observation consiste en un couple de valeurs, la première étant la durée observée, la seconde la nature de cette durée. On considérera qu'à chaque durée X ou Y est associée une indicatrice de mort observée, de telle sorte qu'après avoir ordonné ces m+n durées dans leur ensemble ce qui donne : Z 1 Z 2... Z m+n On peut associer à chaque Z i deux quantités : D i = 1 s'il s'agit d'un décès 0 s'il s'agit d'une censure G i = 1 si Z i appartient au premier échantillon (c'est-à-dire est un X) 0 si Z i appartient au second échantillon (c'est-à-dire est un Y) Les observations, une fois ordonnées peuvent donc s'écrire : (Z 1, D 1, G 1 ),..., (Z n+m, D n+m, G n+m ) et on n'a ainsi perdu aucune information par rapport aux données initiales. a) Définition du test de Gehan L'hypothèse nulle H o que l'on veut tester est l'hypothèse que les lois de durée de survie vraie, c'est-àdire sans censure, sont identiques dans les deux échantillons. Pour cela, on considère les scores suivants : +1 si Z i > Z j et D j = 1 U ij = - 1 si Z i < Z j et D i = 1 0 sinon On remarque que ces scores valent + 1 ou - 1 lorsque de l'ordre des deux durées Z i et Z j on peut conclure à un ordre sur les vraies durées de survie correspondantes, parce que la plus petite des deux correspond à une mort et non à une censure. Par contre, le score est nul lorsque de l'ordre des Z ne résulte pas l'ordre des décès, la plus petite étant censurée et l'autre quelconque. Disposant des U ij, on calcule un score global U de la manière suivante : On définit d'abord pour chaque rang i : U i * = Σ j i U ij (la sommation a lieu sur tous les j de 1 à m+n, excepté i)

81 Survie 77 qui est la différence entre le nombre de ceux dont on est sûr qu'ils sont morts avant lui et ceux dont on est sûr qu'ils sont morts après lui. Et on définit finalement : U = Σ i U i * Gi (la sommation a lieu sur tous les i de 1 à m + n) comme la somme de ces scores U i * prise uniquement sur les éléments du premier échantillon. Pour pouvoir tester l'hypothèse H o qui nous intéresse, on est amené à supposer que la censure agit de la même manière sur les deux échantillons de telle sorte que l'on teste en réalité l'hypothèse H oo : le couple (durée, indicatrice de censure) a la même loi dans chacun des deux échantillons. L'intérêt de U, sur lequel est fondé le test de Gehan, est que sous l'hypothèse H oo, sa loi, ainsi bien sûr que ses moments, s'obtiennent par permutation : Tout se passe en effet comme si dans la suite des : (Z i, D i, G i ) les m valeurs égales à 1 des G i étaient réparties au hasard sur les m+n places possibles dans la séquence (Z 1, D 1,. )... (Z m+n, D m+n,. ) supposée fixée. Par suite, si m et n ne sont pas trop grands on peut calculer la loi exacte de U en calculant la valeur de U pour chacune des répartitions différentes des éléments du premier échantillon dans cette séquence : La distribution qui en résulte pour les valeurs de U est la loi de U sous H 00, conditionnellement aux places des censures dans la suite des durées ordonnées. En particulier : car E (U i * ) = 0 puisque Uij = - U ji. Donc Var Hoo (U) = E [ (Σ i U i * Gi ) 2 ] soit : Var H00 (U) = 2 [ U* i Gi + U* i U* configurationsde G i i j m + m n j G G i j ] puisqu'il y a m+n configurations possibles pour la place des éléments du premier échantillon. m + n 1 Chaque U * i apparaît dans termes. m m + n 2 Chaque U* i U* j apparaît i j m 2 fois et j i U* j = U* i. ce qui donne - U i * 2 m + n - 2 m - 2.

82 Survie 78 Finalement (m + n 1)!m!n! (m + n 2)!m!n! m n VarH (U) 00 + = (m 1)! n!(m + n)! (m 2)! n!(m + n)! i= 1 U 2 * i = m m + n m(m 1) (m + n)(m + n 1) m n + i= 1 U * i 2 = mn (m n)(m n 1) + + m n + i= 1 U * i 2 Comme on peut démontrer que U est asymptotiquement normal sous H oo, le test sera fondé sur la valeur de U Var Hoo (U) Si cette valeur égale ou dépasse 2 (approximation pour 1, 96 donné par la table pour le quantile 0, 975 de la loi normale N (0, 1)), on pourra conclure au seuil de 5 % au rejet de l'hypothèse nulle, c'est-à-dire qu'on pourra affirmer, pour ce seuil de signification que les lois de la durée de survie ne sont pas les mêmes dans les deux échantillons. b) Un exemple d'application Les durées de survie de 10 patients auxquels est affecté soit le traitement A soit le traitement B sont les suivantes, l'indice supérieur + désignant une censure : traitement A traitement B Après ordonnancement, on obtient le tableau suivant : Z D G nb < Z nb > Z U * Donc U = = - 18

83 E Hoo (U) = 0 Var Hoo (U) = = 79,44 Survie 79 U Var Hoo (U) = ,91 = - 2,02 Donc le test est significatif et son degré de signification asymptotique (puisqu'on a utilisé l'approximation normale) est de 5% environ. Mais on peut calculer son degré de signification exact. Il y a en tout C 5 10 = 252 valeurs possibles pour U (ou pour être plus précis : 252 configurations différentes pour les places du premier échantillon, certaines configurations pouvant conduire à la même valeur de U). Sur ces 252 valeurs seulement 6 peuvent être inférieures ou égales à celle qui a été observée. Ces 6 correspondent à l'interversion de -2 et 3, -2 et 0, 2 et 3, à la fois 3 et 2 et -2 et 1, à la fois 3 et 4 et -2 et Donc le degré de signification exact est de 6 / 252 0,0238. c) Propriétés du test de Gehan α) Normalité asymptotique : Pour démontrer cette propriété, que nous avons utilisé ci-dessus, on utilise le fait que U peut s'écrire comme une somme de variables aléatoires, dont la loi ne change pas lorsqu'on permute ces variables entre elles.(e. A. Gehan, Biometrika 1965). β) Généralisation au cas censuré du test de Wilcoxon : En fait, le test de Gehan est une généralisation au cas censuré du test de Wilcoxon. effet supposons qu'il n'y ait ni ex aequo, ni censure. Alors En U i * = (i - 1) - (m + n + 1) = 2i - (m + n + 1) puisque i - 1 est le nombre des valeurs Z inférieur à la i ème Z i et m + n - i est le nombre des valeurs de Z supérieures à la i ème Z i. m n U * i Gi i 1 U + = = 2 x (somme des rangs du premier échantillon) m(m+n+1) = = 2 W - m (m+ n + 1) où W est la statistique de Wilcoxon habituelle, somme des rangs des éléments du premier échantillon. Dans le cas non censuré, le test de Gehan est donc identique au test de Wilcoxon.

84

85

86

87

88

89

90

91

92

93

94

95

96

97 analyse exploratoire des données 93 VIII ANALYSE DES DONNEES 1 - Introduction : Les méthodes de l'analyse des données sont destinées à l'étude de données numériques chaque fois que celles-ci peuvent être présentées sous la forme d'un tableau rectangulaire de trop grandes dimensions pour qu'une simple lecture fasse apparaître les phénomènes intéressants. Un tel tableau, à n lignes et p colonnes, pouvant être considéré comme représentant p vecteurs de R n, ou n vecteurs de R p, le principe commun à toutes ces méthodesest le suivant : Le nuage des p points de R n - ou celui des n points de R p - est projeté sur un sous espace de dimension inférieure. Ce sous espace est choisi en fonction du type de caractéristique du nuage que l'on veut mettre en valeur, et sa dimension doit réaliser un compromis entre les deux buts contradictoires suivants : - être assez petite pour que le résultat soit lisible - être assez grande pour qu'on n'ait pas perdu trop d'information par projection. 2 - Les données Soit M = (z ij ) 1= i = n, 1= j = p, le tableau rectangulaire des données, c'est à dire un tableau de chiffres tel que ceux que l'on peut rencontrer dans de nombreuses revues donnant les statistiques sur un sujet d'ordre économique, médical ou social (statistiques de l'insee sur la consommation, la qualité de l'habitat,...,statistiques de certains services de l'inserm, sur les suicides, les taux de mortalité par causes, etc.) Essentiellement deux types de données peuvent conduire à une telle représentation : a) On a observé p caractères Z 1,..., Z p sur n individus, c'est-à-dire que l'on dispose d'un n- échantillon de la variable aléatoire Z = (Z 1,..., Z p ) à p dimensions. Exemple 1 : On mesure la consommation d'alcool, tabac, sucre,pain, poivre,...pour n unités familiales.dans le tableau M, z ij mesure la consommation du j e produit Z j dans la famille i et se trouve à l'intersection de la ligne i et de la colonne j :

98 analyse exploratoire des données 94 M = z ij ligne i : i ème observation observation i 1= i = n variable j 1 = j = p colonne j : j ème variable De manière générale, on notera M' la transposée d'une matrice M, c'est à dire la matrice obtenue en intervertissant lignes et colonnes. Par exemple M = a b a c a pour transposée M' = c d b d b) Un tableau tel que M peut être relatif au croisement de deux caractères : X, à n modalités, et Y, à p modalités. Alors z ij désignera, sur une population de N individus, la fréquence relative de ceux qui présentent X au niveau i et Y au niveau j. Les z ij seront alors des entiers représentant des effectifs. Exemple 2 : X est un indicateur de la catégorie socio-professionnelle (abrégée en CSP) et Y un indicateur des diverses causes de décès : Niveaux de X : techniciens, employés, ouvriers,... M = z ij ligne i : niveau ide X colonne j : niveau jde Y z ij est l'effectif observé des individus appartenant à la CSP i et dont la mort est due à la cause j. Remarque Supposons que nous ayons à croiser plus de deux caractères, est-il encore possible de représenter les données sous forme d'un tableau rectangulaire? Oui, car les niveaux de Y par exemple peuvent être en réalité ceux d'une variable à k dimensions (Y 1,..., Y k ) dont chaque composante peut prendre un nombre fini de valeurs. Exemple 3 : Y peut désigner le profil symptomatique d'un patient, chacun des Y i désignant la présence ou l'absence de tel ou tel symptôme et X la maladie du patient en question.

99 analyse exploratoire des données Les problèmes A propos d'un tableau de données obtenu de l'une ou l'autre des façons qui viennent d'être indiquées, on peut se poser un certain nombre de problèmes.considérons l'exemple 1 : on peut s'intéresser aux liaisons qui existent entre les consommations des divers produits, au rapport qu'il peut y avoir entre telle ou telle classe de revenu et la consommation de ces produits etc...dans l'exemple 2, ce qui nous intéressera sera l'établissement d'une correspondance entre les diverses CSP et les causes de décès, dans l'exemple 3 la discrimination des maladies grâce aux symptômes. Donnons un aperçu de quelques uns des types de problèmes qu'on peut traiter par l'analyse des données. a) L'analyse générale : Il s'agit de repérer la position du nuage de points que représente M, par exemple dans R p.si l'on revient à l'exemple 1, chaque point du nuage est un consommateur (unité familiale) et chaque axe correspond à un produit de consommation. Il s'agit donc de visualiser l'ensemble des consommateurs dans le système d'axes des produits consommés. Pour parvenir à ce résultat, on commence par chercher l'axe L 1 (sous espace de dimension 1) qui ajuste le mieux le nuage, au sens des moindres carrés ; puis, M étant ainsi décomposé en sa projection M 1 sur L 1 et sa projection M 1 sur L 1 sous espace orthogonal de L 1 dans R p, on recommence la même opération avec le nuage M 1 de L 1, obtenant ainsi un deuxième axe L 2, et ainsi de suite : M = M 1 + M M p La succession des axes orthogonaux L 1,..., L p a été choisie de telle sorte que les contributions des M i aillent décroissant, et il se peut que M M q, q < p, soit une bonne représentation de M, le reste M q M p pouvant être considéré comme un résidu. b) L'analyse en composantes principales : Il s'agit cette fois de mettre en valeur la forme du nuage. La position du nuage par rapport à l'origine des axes ne nous intéresse plus ; on doit donc transporter l'origine 0 au centre de gravité G du nuage. (On peut remarquer à cette occasion que, lors de l'analyse générale, L 1 est l'axe qui joint 0 à G si G est distinct de 0). Cela revient à faire une analyse générale sur le tableau M déduit de M en remplaçant chaque élément z ij par z ij = z ij - n z ij i=1 n Interprétation statistique : Si M est un tableau de données du premier type, on peut associer à M une loi empirique

100 analyse exploratoire des données 96 de la v.a. Z = (Z 1,..., Z p ) dont on a observé un n-échantillon. On centre cette loi empirique en transformant Men M, puis on cherche à déterminer des combinaisons linéaires des Z i de variance empirique maximum. Le problème sera de tester si l'on a mis ainsi en évidence des combinaisons linéaires des Z i de variance effectivement maximum. c) L'analyse en composantes principales normées : On s'intéresse toujours à la forme du nuage, comme en b) mais cette fois pour mettre en valeur les liaisons éventuelles entre les diverses composantes de Z. On remarque que ce genre de problème concerne les données de type a). On suppose donc que M a déjà subi la transformation précédente pour devenir M. Cependant, les liaisons entre Z 1,...,Z p peuvent être masquées par le choix des unités qui ont servi à mesurer les v.a. Z i ; l'axe L 1 de plus grande dispersion du nuage risque de ne traduire qu'une évidence : dans l'exemple 1, si l'on a choisi comme unité de mesure, commune à toutes les données, le poids, le pain risque de tirer à lui le premier axe factoriel On éliminera les disparités des comportements individuels de chacun des Z i en faisant sur M la transformation suivante : z ij = z ij Σ i z ij 2 et c' est sur la matrice M = (z ij ), 1ŠiŠn, 1ŠjŠp, que l' on effectuera une analyse générale. Interprétation statistique : Chacun des vecteurs colonnes de M représente la loi empirique d' une composante Z j de Z, centrée réduite, dans le système d'axes des individus ; le point correspondant est donc sur la sphère de R n de rayon unité.ainsi, une proximité entre deux points sur cette sphère est l'indice d'une forte corrélation empirique entre les variables correspondantes : cette corrélation empirique est, en effet, égale au produit scalaire des deux vecteurs correspondants. d) Analyse des correspondances : Il s'agit d'établir, pour des données du type b), une correspondance entre les modalités de la première variable, X, et celles de la seconde, Y. Il se peut qu'une telle correspondance apparaisse d'emblée, si, par exemple, dans chaque colonne, toutes les cases sont vides sauf une (on peut imaginer, dans l'exemple 3, que maladies X et profils symptômatiques Y soient assez bien choisis pour que cela se produise).ce n'est toutefois pas le cas en général : Dans l'exemple 2 du croisement des CSP avec les causes de décès, les correspondances peuvent ne pas être évidentes a priori. Deux points de R p (ou de R n ) doivent être considérés comme proches si leurs coordonnées sont proportionnelles. On est ainsi amené à définir une nouvelle distance dans R p (ou R n ), ou bien, si l'on veut conserver la distance euclidienne

101 analyse exploratoire des données 97 usuelle, à faire la transformation suivante sur le tableau des données : * z ij - z i. z.j z ij = z i. z.j où un point en indice désigne, selon la convention habituelle, la sommation sur l'indice correspondant. Et on fera une analyse générale sur le tableau M * ainsi transformé. Interprétation statistique : Ce sont les lois empiriques de X conditionnelles aux valeurs de Y, j = 1, 2,..., p et de Y quand X vaut i = 1,..., n qui nous intéressent.l'inertie par rapport à 0 du nuage M * est la distance du entre la loi produit des lois empiriques marginales de X et de Y telles qu'elles sont données par M et la loi empirique du couple (X, Y) qui est donnée par M. 4 - L'analyse en composantes principales (ACP) a) Composantes principales d'une variable aléatoire : Soit Z une v. a. à valeurs dans R p et de carré sommable. On assimilera Z au vecteur colonne de ses composantes Z = Z 1.. Z p Z' désignant le vecteur ligne correspondant Z' = Z 1.. Z p On supposera que Z est centrée et on notera Σ sa matrice de covariance : Σ = E(Z Z') = (cov (Z i, Z j )) 1= i =p 1= j =p Rappel des propriétés de la matrice de covariance S : Σ étant une matrice symétrique réelle a toutes ses valeurs propres et ses vecteurs propres réels, et, de ses vecteurs propres, on peut extraire une base orthonormée de R p. Si L' est un vecteur ligne à p composantes, L' = (l 1,..., l p ), la variance de la v.a. L'Z, combinaison linéaire des composantes de Z, est égale à L'Σ L qui est donc une quantité positive ou nulle. Σ est donc une matrice semi-définie positive, et ses valeurs propres sont par suite toutes positives ou nulles.une condition nécessaire et suffisante pour qu'elles soient toutes

102 analyse exploratoire des données 98 strictement positives, autrement dit pour que Σ soit régulière, est que les composantes de Z soient linéairement indépendantes. 1) Transformation orthogonale de Z : Effectuons sur Z une transformation orthogonale définie par une matrice H dont les p vecteurs colonnes L 1,..., L p sont unitaires et orthogonaux, obtenant ainsi une nouvelle variable aléatoire U à valeurs dans R p : U = H'Z Par suite de sa définition, U est centrée et de carré sommable, comme Z.La matrice H étant orthogonale H -1 = H' et on obtient Z à partir de U : La matrice de covariance de U sera Z = HU. W = H'ΣH Invariants statistiques : Deux quantités associées à la matrice de covariance de Z se conservent dans la transformation qui fait passer de Z à U : - La variance généralisée de Z, égale par définition au déterminant de Σ : W = H'ΣΗ = Σ H'H = Σ - La trace de Σ, qui est égale à la somme des variances des composantes de Z : Σ i Var (Z i ) = tr (Σ) Σ i Var (U i ) = tr (W) = tr (H'ΣH) = tr (ΣHH') = tr (Σ) 2) Définition des composantes principales de Z : Définition : On appelle composantes principales de Z, ou de la loi de Z, les composantes U1,..., Up d'une v.a. U déduite de Z par une transformation orthogonale (2) et telle que : Var (U1) = Var (U2) =... = Var (Up) Var (U i ) maximum i = 1,..., p Autrement dit, on cherche des combinaisons linéaires (normées et orthogonales entre elles) des composantes de Z qui extraient tour à tour un maximum de variance de Z. Si,par exemple, les composantes de Z ne sont pas linéairement indépendantes, nous verrons que les dernières composantes principales seront de variance nulle, donc presque sûrement nulles. 3) Détermination des composantes principales : Proposition : Les composantes principales de Z, (U 1,..., U p ), s'obtiennent en faisant subir à Z la transformation orthogonale U = H'Z dont la matrice H a pour vecteurs colonnes L 1,..., L p les vecteurs propres de la matrice de

103 analyse exploratoire des données 99 covariance Σ de Z, les valeurs propres correspondantes λ 1,..., λ p étant rangées dans l'ordre décroissant : λ 1 = λ 2 =... = λ p. Remarques 1) Les composantes principales de Z ne dépendent de la loi de Z qu'à travers la matrice de covariance de Z. 2) La matrice de covariance de Z dépendant des unités choisies pour mesurer les composantes Z i de Z, les composantes principales de Z en dépendent aussi : Un changement d'unités peut être représenté par la multiplication par une matrice diagonale pxp. La v.a. Z devient alors dont la matrice de covariance est T = Z E(TT') = E( Z Z' ) = 2 Σ. Valeurs propres et vecteurs propres de 2 Σ sont généralement distincts de ceux de Σ.Les composantes principales dépendent donc des unités choisies. Pour éviter de faire jouer un rôle prépondérant aux variables Z i mesurés par des nombres élevés, dans la détermination des composantes principales, on peut remplacer les Z i par les variables réduites correspondantes : cela revient à choisir pour : = σ σ σ p 1 où σ i 2 = Var (Z i ). Alors, la matrice de covariance Σ devient une matrice de corrélation. 3) Il résulte de la proposition que les composantes principales de Z sont non corrélées entre elles. En effet, la matrice de covariance W de U sera diagonale : λ W = Η' ΣΗ = 0 λ οù λ 1 λ 2... λ Π λ p

104 analyse exploratoire des données 100 La variance de la i eme composante principale U i de Z sera égale à L' i Σ L i = λ i, i eme valeur propre de Σ. L'intérêt de cette transformation est donc de réduire éventuellement la dimension de Z en éliminant les dernières composantes de U si elles sont de variance nulle, puisque cela signifie qu'elles sont presque sûrement nulles. Il se peut aussi que certaines des valeurs propres de Σ, sans être nulles, soient suffisamment voisines de 0 pour qu'on puisse considérer comme négligeables les composantes principales correspondantes. A la limite, si l 1 / ( S i l i ) est assez voisin de 1, on pourra considérer qu'il suffit de conserver la première composante principale U 1 puis qu'elle absorbe presque toute la variabilité de Z. Démonstration de la proposition : 1) Commençons par déterminer la première composante principale U 1 = L' 1 Z. Il s'agira de déterminer L 1 tel que : L' 1 L 1 = 1 L' 1 Σ L 1 maximum Il revient au même de rendre maximum, pour un réel λ 1 à déterminer (multiplicateur de Lagrange) l'expression : L' 1 Σ L 1 - λ 1 (L' 1 L 1-1) En dérivant cette expression par rapport aux éléments de L 1, on voit que L 1 doit être nécessairement un vecteur propre deσ : 2Σ L 1-2 λ 1 L 1 = 0 Σ L 1 = λ 1 L 1 Et, comme Var (U 1 ) = L' 1 Σ L 1 = λ 1 L' 1 L 1 = λ 1 doit être maximum, L 1 correspond à la plus grande valeur propre λ 1 de Σ. Deux cas peuvent alors se produire : - Ou bien λ 1 est valeur propre de multiplicité r >1 et alors les r premières composantes principales sont obtenues comme U i = L' i Z, i = 1,..., r les L i étant une base orthonormale du sous espace propre correspondant à λ 1. - Ou bien λ 1 est une racine simple de l'équation Σ λ Ι = 0. Plaçons nous dans ce cas pour déterminer la deuxième composante principale de Z. 2) La deuxième composante principale U 2 = L' 2 Z Elle doit être telle que : L' 2 L 2 = 1 (1) L' 2 L 1 = 0 (2) L' 2 Σ L 2 maximum

105 analyse exploratoire des données 101 Si on appelle λ 2 et µ 2 deux constantes quelconques, il revient au même de maximiser L' 2 Σ L 2 ou de maximiser L' 2 Σ L 2 - λ 2 (L' 2 L 2-1) - µ 2 L' 2 L 1 sous les contraintes (1) et (2). On appelle λ 2 et µ 2 les multiplicateurs de Lagrange. Par dérivation par rapport aux éléments de L 2, on obtient 2 Σ L 2-2 λ 2 L 2 - µ 2 L 1 = 0 En prémultipliant cette expression par L' 1 et en remarquant que L' 1 Σ = (Σ'L 1 )' = λ 1 L' 1 et L' 1 L 2 = 0, on voit que µ 2 = 0. Par suite Σ L 2 = λ 2 L 2 Var (U 2 ) = L' 2 Σ L 2 = λ 2 et L 2 est vecteur propre de Σ correspondant à la deuxième valeur propre (par ordre de grandeur décroissant) de Σ. On obtiendrait ainsi successivement tous les vecteurs colonnes de H comme vecteurs propres de Σ rangés dans l'ordre décroissant de leurs valeurs propres. 4) Rapport entre les composantes de Z et ses composantes principales : On peut se demander quelle est la contribution de chacune des composantes de Z à la première, ou à l'une quelconque, des composantes principales de Z. Cette contribution peut être mesurée en termes de covariance ou de corrélation entre Z i et U j. Or on sait que Z = HU; si on note C i les vecteurs lignes de H : Cov (Z i, U j ) = Cov (C' i U, U j ). Comme les U k sont non corrélées entre elles : Cov (Z i, U j ) = l ij Var (U j ) = l ij λ j. Si l'acp a été faite sur une variable Z centrée réduite ρ (Z i, U j ) = l ij λ ij. puisque Var (U j ) = λ j. b - Composantes principales d'un n - échantillon : 1) Définition : Supposons maintenant que nous ne connaissions pas la loi de Z, mais que nous disposions d'un n - échantillon d'observations de Z se présentant sous la forme d'un tableau M à n lignes et p colonnes.on désignera par X' i, i = 1,..., n les vecteurs lignes de M et par Y j, j = 1,..., p les vecteurs colonnes de cette matrice. X' i est la i è observation de Z.

106 analyse exploratoire des données 102 M = z ij ligne i : X' i colonne j : Y j A la matrice M est associée une loi empirique pour Z. Commençons par centrer cette loi en remplaçant, dans M, z ij par z ij = z ij - n Σ z ij i = 1 n Alors M devient M = (z ij ) 1ŠiŠn, 1ŠjŠp et la matrice de covariance Σ e = 1 n Μ' Μ Comme nous avons remarqué que les composantes principales dépendaient des unités, on considérera plutôt la matrice de corrélation empirique R e = 1 n M' M où z ij = z ij 2 Σ z ij Mais par définition, les composantes principales de l'échantillon M sont les composantes principales de la loi empirique de Z définie par M. Par suite, tous les résultats du 1 concernant la détermination et les propriétés des composantes principales restent valables à condition de remplacer la loi de Z par sa loi empirique, et donc sa matrice de covariance Σ par la matrice de covariance empirique Σ e = 1 n Μ' Μ 2) Interprétation géométrique : Représentation dans R p : Au tableau M des données peuvent être associées trois notions équivalentes : - une loi empirique pour Z - Un nuage de n points de R p - Un nuage de p points de R n Nous allons nous intéresser, pour fixer les idées, au premier de ces deux nuages. Son centre de gravité G a pour coordonnées la moyenne emoirique de Z: donc transformer Men M, c'est à dire centrer la loi empirique, revient à transporter en G l'origine des axes. L'inertie du nuage par rapport à son centre de gravité est égale à la somme 2 Σ ij z ij qui est aussi la trace de la matrice de covariance Σ e = 1 n Μ' Μ

107 analyse exploratoire des données 103, somme des variances empiriques des composantes de Z. Chercher la droite F 1 de meilleur ajustement du nuage au sens des moindres carrés appelée premier axe factoriel, c'est chercher l'axe passant par G par rapport auquel l'inertie du nuage est la plus faible. Or, si P est un point du nuage, H 1 sa projection sur F 1, il revient au même de minimiser Σ PH 1 2 ou de maximiser Σ GH, 2 puisque PH GH 1 2 = GH 2 ne dépend pas de l'axe sur lequel on projette le nuage. Donc, le premier axe factoriel F 1 est un axe d'étalement maximum : ses composantes sont par conséquent celles de L 1 qui définit la combinaison linéaire (normée) des Z i de variance empirique maximum Z 2 F 1 = L 1 F 2 = L 2 G Z 1 De même pour les axes factoriels suivants, il s'agit de déterminer un changement d'axes orthonormés tels que chaque axe à son tour étale le nuage au maximum : le i è axe factoriel F i aura pour composantes celles de L i, et si M i désigne la projection du nuage M sur le i ème axe factoriel F i L i, on a et λ i mesure l' inertie de M i par rapport à G. M = M 1 + M M i M p Cette interprétation purement géométrique des composantes principales comme axes factoriels permet de traiter de la même façon le tableau M', transposé de M, en considérant la représentation du nuage correspondant dans R n. 3) Représentation dans R n : Il y aura cette fois n axes factoriels Φ 1,..., Φ n qui seront, d'après ce qui précède, les vecteurs propres de la matrice n x n :

108 analyse exploratoire des données 104 V = 1 n M M' Pour trouver les relations qui existent entre les axes factoriels dans R p et dans R n, il faut chercher celles qu'il y a entre les vecteurs propres de Σ e et ceux de V. Soit L q le q ième vecteur propre de Σ e et λ q la valeur propre associée : Σ e L q = 1 n M' M L q = λ q L q Prémultiplions par M, on obtient : M L q est donc vecteur propre de V. On en déduit : 1 n M M' ( M L q) = λ q ( M L q ) - que les valeurs propres de V sont les mêmes que celles de Σ e - que Φ q = M L q M L = q = M L q M L q L' q M' M L q λ q Remarque : Dans R p, la coordonnée sur L q du point i (correspondant au vecteur X' i ) est X' i L q. Les coordonnées des n points X' 1,..., X' n forment donc le vecteur (X' 1 L q,..., X' n L q ) = M L q = λ q Φ q. Donc les projections du nuage sur L q ont pour abscisses les composantes de Φ q multipliées par λ q. On a, par symétrie, le même résultat en intervertissant les rôles de L et Φ. 4) Reconstitution du tableau M des données : Supposons que toutes les valeurs propres de M' M pxp soient différentes et non nulles, λ 1,..., λ p. L 1,..., L p sont les vecteurs propres correspondants relatifs à M' M et Φ 1,...,Φ p les vecteurs propres relatifs à MM' Pour reconstituer le nuage initial, il faut disposer : 1) des vecteurs (L q ) q = 1,..., p 2) des coordonnées sur les L q des points du nuage dont nous avons vu qu'elles étaient

109 analyse exploratoire des données 105 égales, sur L q, à Φ q / λ q. 3) des valeurs propres l q, q = 1,..., p De Φ q = 1 λ q Μ L q, on tire Μ L q λ q Φ q Μ Μ L q L' q = p Σ L q L' q = q = 1 p Σ q = 1 λ q Φ q L' q λ q Φ q L' q Les vecteurs L q étant unitaires et orthogonaux, Σ q=1,..,p (L q L' q ) = I pxp. Par suite : Μ = p Σ q = 1 λ q Φ q L' q On voit que si, à partir d'un certain rang s+1, vλ s+1 est petit on pourra se contenter de ne conserver que les s premiers axes factoriels. Par exemple, si n = 1000, p = 20, et si s = 3, on aura remplacé un tableau de chiffres par 3( ) = 3063 chiffres. 5) Interprétation statistique du résultat : En général, on ne sait rien de la forme de la loi de Z, et nous verrons tout à l'heure comment on peut tester la significativité des composantes principales extraites de l'échantillon. Il peut cependant arriver que l'on sache que Z a une loi normale N (0, Σ) : dans ce cas, les composantes principales empiriques sont les estimateurs du maximum de vraisemblance des composantes principales de Z. Cela tient à ce que la matrice de covariance empirique Σ e est un estimateur M-V de Σ. Dans les cas où la loi de Z est inconnue, nous voulons savoir si les q premières valeurs propres extraites sont anormalement élevées, autrement dit, si les q facteurs correspondants extraient bien une variance significative. Pour cela, on détermine, par simulation,une loi empirique des valeurs propres en question sous l'hypothèse H o d'indépendance des composantes de Z : On effectue sur le tableau M des données - supposé centré normé - des permutations au hasard sur les colonnes, détruisant ainsi l'éventuelle liaison qu'il pourrait y avoir entre les Z i. A chacun des nouveaux tableaux ainsi construits correspondent des valeurs propres λ' 1,...,λ' q. Supposons que l'on construise ainsi k tableaux de la sorte : on aura pour les v.a. Λ 1,..., Λ q une loi empirique sous H o. Suivant que λ i tombe ou non dans le domaine de fluctuation de Λ i dû

110 analyse exploratoire des données 106 au hasard on déclarera qu'il n'est pas,ou qu'il est, anormalement élevé, et donc, dans ce deuxième cas, qu'il extrait bien une bonne proportion de la variance totale. Si par exemple k = 19, on obtient 20 valeurs de la i è valeur propre : une valeur observée λ i et 19 valeurs simulées sous l'hypothèse Ho 0. Si Ho 0 est vraie, la valeur observée suit la même loi que les valeurs simulées et a donc une chance sur 20, soit 5 chances pour 100, d'être la plus grande. On obtient ainsi un test, au seuil de 5%, de signification des diverses valeurs propres. Ce test est appelé test de sphéricité. c) Utilisation pratique et exemples : Soit M un tableau de données (z ij ) 1= i = n, 1 = j =p. On calcule la matrice de covariance empirique Σ e - ou, plus souvent la matrice de corrélation empirique R e - associée : Σ e = 1 n M' M où z ij = z ij - n Σ z ij i = 1 n R e = 1 n M' M où z ij = z ij 2 Σ z ij On diagonalise R e, obtenant ainsi p vecteurs propres L 1,..., L p tels que λ 1 =...= λ p = 0. Si les deux premières combinaisons linéaires des p variables initiales, U 1 = L' 1 Z et U 2 = L' 2 Z extraient une bonne proportion de la variance totale, il suffira, pour visualiser le nuage des n points de R p de le projeter sur les deux premiers axes factoriels L 1 et L 2. (La proportion de la variance totale extraite par U i est λ i / Σ j λ j. Or si c'est la matrice de corrélation que l'on a considérée Σ j λ j = p. En général, on représente, dans les mêmes axes (L 1, L 2 ), les variables aléatoires initiales : la projection du point représentatif de Z i sur L 1 sera la corrélation entre Z i et U 1, soit Ú ij λ j où Ú ij est la i è composante de L j. Exemple 1 : (extrait du livre "Statistique et Informatique Appliquées" de Lebart et Fénelon, chez Dunod)) Le tableau M concerne n = 841 ménages et leurs dépenses annuelles (en Francs) pour p = 35 biens non alimentaires. On a calculé la matrice de corrélation R e et extrait les quatre premiers axes factoriels : Les pourcentages de variance expliquée par les deux premiers facteurs sont élevés :

111 analyse exploratoire des données ,53% pour le premier axe et 5, 44% pour le second.en projetant le nuage dans le plan des deux premiers axes, on en obtient donc une bonne représentation. Comme n est grand, au lieu de représenter les 841 points, on a regroupé les ménages en 20 classes de revenus : on remplace les divers points ménages correspondants à une classe de revenu par leur centre de gravité. On a ainsi remplacé un nuage de 841 points dans R 35 par un nuage de 20 points dans R 2. Cet exemple ainsi que, celui concernant le croisement des catégories socio professionnelles et les causes de décès, est extrait du livre de Lebart et Fénelon : "Statistique et Informatique Appliquées" (Dunod)

112 analyse exploratoire des données 108 LISTE DES DEPENSES CLASSE DE REVENU (Revenu mensuel en F.) 1 Robes - Complets R1 moins de Produits d'entretien R2 de 800 à Chaussures R3 de 1000 à Mobilier au comptant R4 de 1100 à Meubles à crédit R5 de 1200 à Equipement ménager au comptant R6 de 1300 à Equipement ménager à crédit R7 de 1400 à Médecin - Pharmacie R8 de 1500 à Dentiste R9 de 1600 à Transports publics réguliers R10 de 1700 à Transports pour les loisirs R11 de 1800 à Transports publics (s.a.i) R12 de 1900 à Assurances véhicules R13 de 2000 à Carburant R14 de 2100 à Papeterie non scolaire R15 de 2200 à Radio - Electrophone R16 de 2300 à Télévision au comptant R17 de 2500 à Télévision à crédit R18 de 2700 à Concert - Musée R19 de 2900 à Disques - Films R et plus 43 Cinéma 44 Jouets 45 Livres 46 Magazines 47 Appareils de sports 49 Piscine 50 Spectacles sportifs 51 Colonies de vacances 52 Vacances 54 Fêtes 55 Cadeaux 56 Scolarité 57 Fournitures scolaires 61 Argent de poche (enfant) 62 Argent de poche (père) Interprétation du tableau : - Une proximité plus ou moins grande entre deux points dépenses signifie que ces deux variables sont plus ou moins corrélées, et ceci d'autant plus que ces points sont plus éloignés de l'origine. Les points proches de l'origine sont sans corrélation significative avec les deux facteurs principaux. - Une proximité entre deux points ménages signifie que ces ménages ont des comportements voisins à l'égard des deux variables principales U 1 et U 2, et par suite aussi des comportements (certainement) assez voisins à l'égard des 35 variables considérées.

113 analyse exploratoire des données Une proximité entre un point-variable et un point-ménage signifie -en moyenne - que cette variable a une valeur élevée pour ce ménage ("en moyenne" parce que la position d'un pointménage dépend de toutes les dépenses à la fois). - Le premier facteur, très important, semble être un indice du niveau de revenu du ménage : Il étale les ménages par ordre croissant - à part de très légères interversions - de classe de revenu de la gauche vers la droite. C'est l'axe d'étalement maximum par construction. - On peut remarquer que la variable "argent de poche des enfants" est fortement positivement corrélée à la première composante principale, alors que ce n'est pas le cas pour la variable "argent de poche du père". Mais comme les vacances, les livres, les disques... sont comptés séparément, que reste-t-il sous la rubrique "argent de poche du père"? D'où sa non significativité dans l'étalement de l'échelle des revenus.

114 Analyse exploratoire des données 110

115

116

117

Bases : Probabilités, Estimation et Tests.

Bases : Probabilités, Estimation et Tests. Université René Descartes LMD Sciences de la Vie et de la Santé UFR Biomédicale, M1 de Santé Publique 45 rue des Saints-Père, 75 006 Paris Spécialité Biostatistique M1 COURS de BIOSTATISTIQUE I Bases :

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau GEA II Introduction aux probabilités Poly. de révision Lionel Darondeau Table des matières Énoncés 4 Corrigés 10 TD 1. Analyse combinatoire 11 TD 2. Probabilités élémentaires 16 TD 3. Probabilités conditionnelles

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

Calculs de probabilités conditionelles

Calculs de probabilités conditionelles Calculs de probabilités conditionelles Mathématiques Générales B Université de Genève Sylvain Sardy 20 mars 2008 1. Indépendance 1 Exemple : On lance deux pièces. Soit A l évènement la première est Pile

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples. Pré-requis : Probabilités : définition, calculs et probabilités conditionnelles ; Notion de variables aléatoires, et propriétés associées : espérance,

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

MODELES DE DUREE DE VIE

MODELES DE DUREE DE VIE MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Travaux dirigés d introduction aux Probabilités

Travaux dirigés d introduction aux Probabilités Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

MA6.06 : Mesure et Probabilités

MA6.06 : Mesure et Probabilités Année universitaire 2002-2003 UNIVERSITÉ D ORLÉANS Olivier GARET MA6.06 : Mesure et Probabilités 2 Table des matières Table des matières i 1 Un peu de théorie de la mesure 1 1.1 Tribus...............................

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Carl-Louis-Ferdinand von Lindemann (1852-1939)

Carl-Louis-Ferdinand von Lindemann (1852-1939) Par Boris Gourévitch "L'univers de Pi" http://go.to/pi314 sai1042@ensai.fr Alors ça, c'est fort... Tranches de vie Autour de Carl-Louis-Ferdinand von Lindemann (1852-1939) est transcendant!!! Carl Louis

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2 Probabilités Table des matières I Petits rappels sur le vocabulaire des ensembles 2 I.1 s................................................... 2 I.2 Propriétés...................................................

Plus en détail

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Estimation: intervalle de fluctuation et de confiance. Mars 2012. IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison Estimation: intervalle de fluctuation et de confiance Mars 2012 IREM: groupe Proba-Stat Estimation Term.1 Intervalle de fluctuation connu : probabilité p, taille de l échantillon n but : estimer une fréquence

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

1 TD1 : rappels sur les ensembles et notion de probabilité

1 TD1 : rappels sur les ensembles et notion de probabilité 1 TD1 : rappels sur les ensembles et notion de probabilité 1.1 Ensembles et dénombrement Exercice 1 Soit Ω = {1, 2, 3, 4}. Décrire toutes les parties de Ω, puis vérier que card(p(ω)) = 2 4. Soit k n (

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Calculs de probabilités avec la loi normale

Calculs de probabilités avec la loi normale Calculs de probabilités avec la loi normale Olivier Torrès 20 janvier 2012 Rappels pour la licence EMO/IIES Ce document au format PDF est conçu pour être visualisé en mode présentation. Sélectionnez ce

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Exercices sur le chapitre «Probabilités»

Exercices sur le chapitre «Probabilités» Arnaud de Saint Julien - MPSI Lycée La Merci 2014-2015 1 Pour démarrer Exercices sur le chapitre «Probabilités» Exercice 1 (Modélisation d un dé non cubique) On considère un parallélépipède rectangle de

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples 45 Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples Les espaces vectoriels considérés sont réels, non réduits au vecteur nul et

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

CCP PSI - 2010 Mathématiques 1 : un corrigé

CCP PSI - 2010 Mathématiques 1 : un corrigé CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie...

Probabilité. Table des matières. 1 Loi de probabilité 2 1.1 Conditions préalables... 2 1.2 Définitions... 2 1.3 Loi équirépartie... 1 Probabilité Table des matières 1 Loi de probabilité 2 1.1 Conditions préalables........................... 2 1.2 Définitions................................. 2 1.3 Loi équirépartie..............................

Plus en détail

Variables Aléatoires. Chapitre 2

Variables Aléatoires. Chapitre 2 Chapitre 2 Variables Aléatoires Après avoir réalisé une expérience, on ne s intéresse bien souvent à une certaine fonction du résultat et non au résultat en lui-même. Lorsqu on regarde une portion d ADN,

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M 20 20 80 80 100 100 300 300

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M 20 20 80 80 100 100 300 300 I3, Probabilités 2014 Travaux Dirigés TD 1 : rappels. Exercice 1 Poker simplié On tire 3 cartes d'un jeu de 52 cartes. Quelles sont les probabilités d'obtenir un brelan, une couleur, une paire, une suite,

Plus en détail

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités Chapitre 2 Le calcul des probabilités Equiprobabilité et Distribution Uniforme Deux événements A et B sont dits équiprobables si P(A) = P(B) Si il y a équiprobabilité sur Ω, cad si tous les événements

Plus en détail

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Licence MASS 2000-2001. (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7 Feuilles de 1 à 7 Ces feuilles avec 25 exercices et quelques rappels historiques furent distribuées à des étudiants de troisième année, dans le cadre d un cours intensif sur deux semaines, en début d année,

Plus en détail

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation Complexité Objectifs des calculs de complexité : - pouvoir prévoir le temps d'exécution d'un algorithme - pouvoir comparer deux algorithmes réalisant le même traitement Exemples : - si on lance le calcul

Plus en détail

Loi d une variable discrète

Loi d une variable discrète MATHEMATIQUES TD N : VARIABLES DISCRETES - Corrigé. P[X = k] 0 k point de discontinuité de F et P[X = k] = F(k + ) F(k ) Ainsi, P[X = ] =, P[X = 0] =, P[X = ] = R&T Saint-Malo - nde année - 0/0 Loi d une

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

P1 : Corrigés des exercices

P1 : Corrigés des exercices P1 : Corrigés des exercices I Exercices du I I.2.a. Poker : Ω est ( l ensemble ) des parties à 5 éléments de l ensemble E des 52 cartes. Cardinal : 5 I.2.b. Bridge : Ω est ( l ensemble ) des parties à

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Les indices à surplus constant

Les indices à surplus constant Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

NOTIONS DE PROBABILITÉS

NOTIONS DE PROBABILITÉS NOTIONS DE PROBABILITÉS Sommaire 1. Expérience aléatoire... 1 2. Espace échantillonnal... 2 3. Événement... 2 4. Calcul des probabilités... 3 4.1. Ensemble fondamental... 3 4.2. Calcul de la probabilité...

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 1 Régime transitoire dans les systèmes physiques Chapitre 1 Régime transitoire dans les systèmes physiques Savoir-faire théoriques (T) : Écrire l équation différentielle associée à un système physique ; Faire apparaître la constante de temps ; Tracer

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

3. Caractéristiques et fonctions d une v.a.

3. Caractéristiques et fonctions d une v.a. 3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions

Plus en détail

Optimisation des fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables Optimisation des fonctions de plusieurs variables Hervé Hocquard Université de Bordeaux, France 8 avril 2013 Extrema locaux et globaux Définition On étudie le comportement d une fonction de plusieurs variables

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Axiomatique de N, construction de Z

Axiomatique de N, construction de Z Axiomatique de N, construction de Z Table des matières 1 Axiomatique de N 2 1.1 Axiomatique ordinale.................................. 2 1.2 Propriété fondamentale : Le principe de récurrence.................

Plus en détail

Date : 18.11.2013 Tangram en carré page

Date : 18.11.2013 Tangram en carré page Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches

Plus en détail