Biostatistique et Modélisation.

Documents pareils
Bases : Probabilités, Estimation et Tests.

Probabilités sur un univers fini

Moments des variables aléatoires réelles

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Introduction à la Statistique Inférentielle

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

Probabilités sur un univers fini

3. Conditionnement P (B)

Simulation de variables aléatoires

CHAPITRE VIII : Les circuits avec résistances ohmiques

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

4 Distributions particulières de probabilités

Calculs de probabilités conditionelles

TSTI 2D CH X : Exemples de lois à densité 1

Estimation et tests statistiques, TD 5. Solutions

Programmes des classes préparatoires aux Grandes Ecoles

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Raisonnement par récurrence Suites numériques

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

MODELES DE DUREE DE VIE

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction à la statistique non paramétrique

Travaux dirigés d introduction aux Probabilités

Couples de variables aléatoires discrètes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Cours 02 : Problème général de la programmation linéaire

Cours d Analyse. Fonctions de plusieurs variables

choisir H 1 quand H 0 est vraie - fausse alarme

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

MA6.06 : Mesure et Probabilités

Que faire lorsqu on considère plusieurs variables en même temps?

Biostatistiques : Petits effectifs

Carl-Louis-Ferdinand von Lindemann ( )

Pourquoi l apprentissage?

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Loi binomiale Lois normales

Principe d un test statistique

Chapitre 2 Le problème de l unicité des solutions

1 TD1 : rappels sur les ensembles et notion de probabilité

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Intégration et probabilités TD1 Espaces mesurés Corrigé

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Continuité et dérivabilité d une fonction

Analyse de la variance Comparaison de plusieurs moyennes

Lois de probabilité. Anita Burgun

Calculs de probabilités avec la loi normale

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La fonction exponentielle

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Exercices sur le chapitre «Probabilités»

1. Vocabulaire : Introduction au tableau élémentaire

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

LES GENERATEURS DE NOMBRES ALEATOIRES

Image d un intervalle par une fonction continue

Espérance conditionnelle

CCP PSI Mathématiques 1 : un corrigé

Relation entre deux variables : estimation de la corrélation linéaire

4. Martingales à temps discret

Annexe commune aux séries ES, L et S : boîtes et quantiles

Limites finies en un point

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Variables Aléatoires. Chapitre 2

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Chapitre 3. Les distributions à deux variables

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Commun à tous les candidats

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Loi d une variable discrète

Le modèle de Black et Scholes

Statistiques Descriptives à une dimension

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Précision d un résultat et calculs d incertitudes

PROBABILITES ET STATISTIQUE I&II

P1 : Corrigés des exercices

Probabilités conditionnelles Loi binomiale

Méthodes de Simulation

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Les indices à surplus constant

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

CAPTEURS - CHAINES DE MESURES

NOTIONS DE PROBABILITÉS

Théorème du point fixe - Théorème de l inversion locale

TESTS D'HYPOTHESES Etude d'un exemple

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 1 Régime transitoire dans les systèmes physiques

I. Ensemble de définition d'une fonction

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

3. Caractéristiques et fonctions d une v.a.

Optimisation des fonctions de plusieurs variables

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Axiomatique de N, construction de Z

Date : Tangram en carré page

Transcription:

Université Paris V, René Descartes UFR Biomédicale 45, rue des Saints-Pères 75 006 Paris Cours de Biostatistique et Modélisation.

T 1 Table des matières I Introduction et rappels 1 Introduction 1 2 Calcul de probabilités et variables aléatoires réelles 1 3 Quelques lois de probabilité 3 A Lois continues 3 a. Lois normales 3 b. gamma 5 d. Lois du chi deux 6 e. Lois Lois exponentielles 4 c. Lois béta 7 f. Lois de Fisher-Snedecor 8 g. Lois de Student 8 B Lois discrètes 8 a. Lois de Bernoulli 8 b. Lois binomiales 8 c. Lois multinomiales 9 d. Lois de Poisson 9 4 Approximations 10 a. Approximation normale de la binomiale 10 b. Approximation normale d'une somme 10 c. Approximation de Poisson de la binomiale 11 d. Approximation normale du chi deux 11 5 Principe des tests 12 6 Principe de l'estimation 13 a. Intervalles de confiance 13 b. Maximum de vraisemblance 14 II Tests d'ajustement 1 Introduction 15 2 Test d'ajustement du chi2 pour une loi spécifiée 15 a. cas discret 15 b. cas continu 16 3 Test d'ajustement du chi2 avec estimation de paramètres 18 Exemple du palmier à huile 18 4 Test de Kolmogorov-Smirnov pour un échantillon 21 Exemple des radiographies 22 III Mise en évidence de liaisons : tests d'indépendance 1 Cas de deux variables discrètes 24 a. à deux valeurs 24 b. à un nombre quelconque de valeurs 26 2 Cas d'une variable continue et d'une variable à deux valeurs 28 a. Comparaison de deux moyennes 28 grands échantillons : approximation normale 28

petits échantillons : Student 29 b. Tests non paramétriques 30 Test de la médiane 31 Test de Wilcoxon 34 Test de Kolmogorov-Smirnov pour 2 échantillons 35 3 Cas de deux variables continues 37 a. Couple normal : test du coefficient de corrélation 37 b. Cas général : tests non paramétriques 37 coefficient de corrélation des rangs de Spearman 38 Exemple de la mortalité et du calcium 39 coefficient de corrélation de Kendall 40 c. Intervention d'un troisième facteur 46 coefficient de corrélation partielle T 2 IV Régression linéaire multiple 1 Introduction 44 2 Estimation des paramètres de la régression 45 3 Coefficient de corrélation multiple 48 4 Coefficients de corrélation partielle 49 5 Qualité de la régression 49 V Modèle logistique et apparentés 1 Le modèle linéaire classique 53 2 Modèles linéaires pour une réponse binaire 53 a le modèle logistique 54 b le modèle probit 54 3 Propriétés du modèle logistique 54 a étude prospective 56 b étude rétrospective 55 4 Modèle linéaire pour des variables ayant plus de deux valeurs régression polychotomique 57 a cas nominal 57 b cas ordinal 58 Exemple de la dépression 59 5 Deux exemples de modèles a modèles log-linéaires pour des données catégorielles 59 b modèles condtionnellement gaussiens (données mixtes) 60 VI Modèles pour les durées de survie avec censure 1 Introduction 62 2. Fonction de survie et risque instantané 63 3. Types de censure 63 4 Estimateur de la fonction de survie 65 a. Estimateur de Kaplan-Meier 65 Exemple de cancer des bronches 66

b. estimateur de Greenwood de la variance 68 5 Modèles paramétriques 68 a. Exponentiel 68 b. Gamma 69 c. Weibull 69 d. Rayleigh 70 6 Le modèle semi-paramétrique de Cox 71 a. Définition du modèle 71 b. Vraisemblance partielle de Cox 72 5. Test de Gehan pour la comparaison de deux fonctions de survie 76 a. Définition 76 b. Exemple d'application 78 c. Propriétés 79 VII Méthodes de rééchantillonnage: le bootstrap 1 Le principe 80 2 Notations 83 3 Simulations 84 4 Deux applications fondamentales 85 a réduction du biais 87 b intervalle de confiance 90 5 Bootstrap pour des durées censurées 92 T 3 VIII Analyse exploratoire des données 1 Introduction 93 a. Les données 93 b. Les problèmes 95 2 L'analyse en composantes principales 97 a. Composantes principales d'une variable 97 b. Composantes principales d'un n-échantillon 101 c. Utilisation pratique et exemples 106 3 Analyse factorielle des correspondances 114 a. Les données 114 b. Définition d'une distance adéquate 115 c. Retour à la distance usuelle par transformation des données 116 d. Exemples 118 Exercices et problèmes 120-138

probabilités et notions fondamentalese 1 I Introduction : Quelques notions de probabilités. Tests et estimateurs simples. 1 - Introduction Nous introduisons dans ce chapitre les bases de probabilités nécessaires à la compréhension des méthodes d'analyse statistique ainsi que les notions de base pour l'estimation de paramètres et les tests d'hypothèses. Pour davantage de détails concernant cette partie, on peut consulter le livre "Statistique au PCEM 1", édition Masson, 1992. Le présent chapitre présente les plus indispensables des notions fondamentales qui y figurent. Le chapitre II, intitulé "Tests d'ajustement", traite le problème qui consiste à vérifier si une variable aléatoire obéit effectivement à une loi de probabilité donnée à l'avance. C'est une généralisation du problème de comparaison d'une proportion observée à une proportion théorique, où la question est de savoir si une variable de Bernoulli obéit ou non à une loi théorique donnée. Le chapitre III concerne les tests d'homogénéité et d'indépendance. Un exempl e simple est la comparaison de deux proportions observées, qui peut être considéré (voir l'exemple 1.a du chapitre III) : - Soit comme un test d'homogénéité de deux échantillons d'une variable en {0,1} : on se demande si les deux échantillons proviennent de la même population, autrement dit si la probabilité de succès est la même dans les deux échantillons. - Soit comme un test d'indépendance entre deux variables de Bernoulli. Le chapitre IV généralise la notion de droite de régression d'une variable réelle Y par rapport à une variable X, en remplaçant X par plusieurs variables X 1, X 2,, X p, chargées de permettre la prévision linéaire de Y. Le chapitre V traite un modèle très employé en biostatistique : le modèle logistique. C'est un modèle que l'on emploie lorsqu'on veut expliquer une variable Y, qui n'est pas à valeurs réelles comme au chapitre V, mais en 0, 1. Ce chapitre contient aussi la généralisation à une variable réponse à plus de deux modalités (régression polychotomique) et une introduction aux modèles linéaires généraux. Enfin le chapitre VI introduit aux méthodes de rééchantillonnage, le bootstrap. L'objectif du cours est de présenter des modèles très utilisés en biostatistique comme le modèle de régression linéaire, le modèle logistique et le modèle de Cox pour les durées de survie censurées. (chapitres VI et VII), ainsi qu'une technique permettant d'améliorer les estimateurs et d'estimer puissance des tests et intervalles de confiance : le bootstrap. 2 - Calcul des probabilités et variables aléatoires réelles Voici, après l'exemple ci-dessous, quelques unes des propriétés les plus importantes d'une probabilité définie sur un espace formé de E, ensemble fondamental des résultats possibles de l'épreuve aléatoire et d'une famille de parties de E, appelées événements et formant une tribu a. Ces événements seront notés A, B, C, D :

probabilités et notions fondamentalese 2 Exemple Si on examine des patients en notant la présence ou l'absence de trois symptômes tels que maux de tête (S1), insomnie (S2) et vertiges (S3), lorsqu'ils sont atteints d'une maladie M, l'ensemble E des résultats possibles de l'examen a 2x2x2 = 8 éléments qui sont les événements élémentaires : (0,0,0) lorsque aucun des trois symptômes n'est présent, (1,0,0) lorsque seul le premier est présent, etc.. (1,1,1) lorsque les trois symptômes sont présents. a) Probabilité que A ou B se produisent : (additivité de la probabilité) Si A et B sont deux événements d'intersection vide, c'est à dire qu'ils ne peuvent pas se produire ne même temps, alors la probabilité que l'un ou l'autre se produise est égale à la somme de leurs probabilités respectives : P(AUB) = P(A)+P(B). b) Probabilité qu'un événement ne se produise pas : (complémentaire d'un événement) Si A ne se produit pas, c'est que c'est son complémentaire A c dans E qui se produit : P(A c ) = 1 - P(A) c) Probabilité que A se produise sachant que b s'est produit : (probabilité conditionnelle) La probabilité de A conditionnellement à b est notée comme P(A B) ou P(A B) et définie comme P(A B) = P(A B) / P(B) Exemple : Quelle est la probabilité de tirer un roi de cœur d'un jeu de 52 cartes? Que devient cette probabilité si on sait que la carte tirée est rouge? si on sait qu'elle est noire? si on sait que c'est une figure? d) Probabilité que A et B se produisent ensemble : Si A et B se produisent ensemble, c'est que l'intersection de A et B, notée A B, se produit. Par définition même de la probabilité de A conditionnellement à B, notée P(A B), on a P(A B) = P(A B)P(B) = P(B A)P(A) Ces deux égalités sont toujours valables, sans condition. e) Indépendance de deux événements : Si A et B sont indépendants, P(A B) = P(A) P(B), P(A B) = P(A), P(B A) = P(B). Ces trois égalités sont équivalentes. Chacune d'elles peut être prise pour définition de l'indépendance de A et B. Espérance et variance d'une variable aléatoire réelle :

probabilités et notions fondamentalese 3 Si X est une variable aléatoire réelle (v.a.r.), son espérance, ou moyenne, EX et sa variance Var(X), sont ainsi définies : 1)Si X est discrète, telle que P(X = x i ) = p i, i = 1, 2,..,k, son espérance EX et sa variance Var(X) sont respectivement : EX = Σ p i x i, Var(X) = E [ (X - EX) 2 ] = Σ p i (x i -EX) 2. Les sommations portent sur tous les indices i = 1,..,k. L'écart-type σ(x) est la racine positive de la variance σ(x) = Var(X). 2) De même, si X est continue, de densité de probabilité f(x) au point x, EX = x f(x) dx, Var(X) = (x - EX) 2 f(x) dx et σ(x) = Var(X). Propriétés de l'espérance et de la variance : - L'espérance, ou moyenne, d'une somme de variables aléatoires est toujours égale à la somme des espérances : E(X 1 + X 2 +... + X n ) = E X 1 + E X 2 +...+ E X n. - La variance d'une somme, par contre, n'est en général pas égale à la somme des variances: Var(X+Y) = Var(X) + Var(Y) + 2 cov(x,y), où cov(x,y) vaut, par définition : cov(x,y) = E(XY) - EX EY. Si X et Y sont indépendantes, la variance de leur somme est égale à la somme de leurs variances car cov(x,y) = 0 : Var(X+Y) = Var(X) + Var(Y). Coefficient de corrélation La covariance ne dépend pas de l'origine choisie pour mesurer X et Y. Cependant, elle dépend des unités choisies pour ce faire: si X est mesurée en mètres, et si l'on change cette unité contre le centimètre, la covariance sera, comme X, multipliée par 100. Pour éliminer cette dépendance, on définit le coefficient de corrélation ρ de X et de Y: 3 - Quelques lois de probabilité a) Lois normales N (µ, σ 2 ) ρ = cov(x,y) / σ X σ Y A Lois continues Si µ est un nombre réel et σ un nombre positif, X suit la loi normale N(µ,σ 2 ) si sa densité de probabilité au point x vaut 2 f(x) = 1 exp (- (x - µ) 2π σ ), x IR. 2 σ 2

probabilités et notions fondamentalese 4 Alors, EX = µ, Var(X) = σ 2, et la variable Ζ = (X- µ) / σ suit la loi normale réduite N(0,1) de densité au point z : ϕ(z) = 1 2π e - z 2 2, z IR. On note Φ la fonction de répartition correspondante Φ (z) = P(Z z) = z ϕ(t)dt Elle joue un très grand rôle car il suffit de connaître Φ pour pouvoir calculer toute probabilité relative à une variable normale quelconque N (µ, σ 2 ). En effet, si X suit la loi normale N(µ,σ 2 ) P(X x) = P(µ + σz x) = P(Z (x-µ)/σ ) = Φ [(x µ) / σ] Les valeurs de Φ sont données par une table. Rappelons de plus que si X et Y sont deux variables normales indépendantes, leur somme est encore normale, de moyenne la somme des moyennes et variance la somme des variances: X et Y indépendantes L (X) = N(µ, σ 2 ) L (X+Y) = N(µ, + µ', σ 2 + σ' 2 ) L (Y) = N(µ', σ' 2 ) Ce résultat se généralise à la somme de n'importe quel nombre de variables normales indépendantes. Couple normal Un couple (X,Y) de variables aléatoires suit une loi normale, ou, en abrégé, est normal, si, pour tous réels fixés a et b, la variable ax + by est une variable aléatoire réelle de loi normale. Dans ce cas, une condition suffisante pour que X et Y soient indépendantes est que leur coefficient de corrélation ρ(x,y) soit nul.

probabilités et notions fondamentalese 5 b) Lois exponentielles E (λ) La variable aléatoire positive X suit la loi exponentielle de paramètre λ positif, notée E (λ), si elle admet la loi de densité égale en chaque point x 0 à : f(x) = λ e - λx si x 0, ( λ > 0 ). = 0 sinon La fonction de répartition F correspondante au point x s'obtient facilement par intégration de f entre 0 et x et vaut F(x) = 1 - e - λx, si x 0 ; = 0, si x < 0. L'espérance et la variance de X valent respectivement EX = 1 / λ et Var X = 1 / λ 2 En particulier, lorsque λ vaut 1, f(x) = e - x, F(x) = 1 - e - x, EX = 1 et Var(X) =1. On peut toujours se ramener à ce cas par un changement d'échelle, en prenant comme nouvelle unité u' = u / λ, ce qui change X en X' = λ X. c) Lois gamma Γ(a,λ) X suit la loi Γ (a, λ ), a > 0 et λ > 0, si sa densité de probabilité au point x est nulle pour x < 0 et vaut pour les x positifs : f a, λ a λ (x) = Γ(a) x a _1 e λx x 0 où Γ (a) est une généralisation aux valeurs réelles de la fonction factorielle, qui, à l'entier (n+1) fait correspondre le produit n! des n premiers entiers : Γ (n+1) = n! = n(n-1) (n-2)... 3. 2.1. Γ (a) s'écrit Γ(a) = e -t t a-1 dt 0 On peut vérifier, en le prouvant par intégration par parties, que Γ (z+1) = z Γ (z) pour tout z positif, ce qui donne de proche en proche, si l'on part de z = n, et en tenant compte de ce que Γ (1) = 1, Γ (n+1) = n Γ (n) = n (n-1) Γ (n-1) = n!. De plus, Γ(1/2) = π. Propriété (Somme de deux variables indépendantes de lois gamma ) Si X et Y sont indépendantes de lois gamma, de même paramètre λ, L (X) = Γ(a, λ) et L (Y) = Γ (b, λ), la loi de la somme est encore une loi gamma : L (X + Y) = Γ (a + b, λ). La démonstration se fait en calculant la transformée de Laplace ϕ de la loi de X, supposée égale à Γ (a, λ) : ϕ X (t) = E (e -tx ) (par définition de la transformée de Laplace)

probabilités et notions fondamentalese 6 = λ a Γ(a) = λ a Γ(a) λ a = (λ+t) a x a-1 e (λ+t)x dx. 0 0 y a-1 e y (λ+t) - 1 dy. (λ+t) a - 1 Alors ϕ X+Y (t) = E ( e -t(x + Y) ) = E ( e -tx ) E ( e -ty ) puisque X et Y sont indépendantes, et par conséquent ϕ X + Y (t) = (λ /( λ+t)) a+b, qui est la transformée de Laplace de la loi Γ(a+b, λ). d) Lois du chi deux ( χ2 ) à n degrés de liberté C'est, par définition la loi Γ(n/2, 1/2) : χ2 n = Γ(n/2, 1/2). Donc sa densité de probabilité est égale à 1 n / 2 1 x / 2 fn(x) = x e si x 0 n / 2 2 Γ(n/ 2) Sa transformée de Laplace est donc égale à [(1/2) / (1/2 +t)] n/2, soit ϕ (t) = (2t + 1) - n/2. Théorème Soit Z 1, Z 2,..., Z n, n variables indépendantes de loi normale N(0,1). Alors la variable χ n 2 = Ζ1 2 + Ζ2 2 +... + Zn 2 suit la loi du χ2 à n degrés de liberté (d.d.l.), notée χ2 n. démonstration: D'après ce qui précède, il suffit de montrer que L (X 2 ) = Γ(1/2, 1/2) si X est normale N(0,1), c'est à dire que sa transformée de Laplace est égale à (2t + 1) -1/2 : ϕ X1 2 (t) = E ( e t (X 1 2) ) = (1/ 2π) e x 2 (t+1/2) = (2t + 1) 1/2. Moments

probabilités et notions fondamentalese 7 On voit sans calcul que E ( χ 1 2 ) = 1, puisque cette moyenne est égale à celle de Z 1 2, c'est à dire à la variance de Z 1, qui est de moyenne nulle, et de variance 1. De même, E ( χ n 2 ) = n. Pour calculer tous les moments, E( χ n 2k ), il suffit de dériver la transformée de Laplace ϕ χ 1 2 (t) par rapport à t et d'en prendre la valeur au point 0. On remarquera lors de la démonstration ci-dessous, que c'est une méthode générale. Notant simplement ϕ cette fonction, on voit que ϕ ' (t) = (2t+1) -3/2 = E( χ n 2 ) et que, de manière générale, la dérivée d'ordre k vaut ϕ (k) (t) = 1.3.5..(2k-1) (2t+1) - (k + 1/2) = x 2k e -tx f(x 2 ) d( x 2 ) La valeur au point 0 de cette dérivée donne donc le moment d'ordre k : ϕ (k) (0) = 1.3.5..(2k-1) E( χ 1 2k ) Par définition de la variance, on a Var( χ 1 2 ) = E (( χ 1 2 ) 2 ) - (E ( χ 1 2 )) 2 = 3 1 = 2. Comme l'indépendance de Z 1, Z 2,..., Z n entraîne l'indépendance de leurs carrés et que tous les Z i 2 suivent la même loi du χ 1 2, on a immédiatement Var ( χ 2 n ) = 2 n. e) Lois Béta Définition On dit que la v. a. β suit la loi béta de paramètres a et b ( a > 0 et b > 0 ) si 1 x a 1 b 1 P ( β x) = Ix(a,b) = y (1 y) dy x [0 1] B(a,b) 0 Comme on le voit, β est une variable continue prenant ses valeurs dans l'intervalle [0 ; 1] et sa densité au point x est 1 a 1 b 1 f(x;a,b) = x (1 x) x [0 1] B(a,b) f (x;a,b) = 1 B(a,b) xa-1 (1-x) b-1 0 Š x Š 1 où B (a,b) = Γ(a+b) Γ(a) Γ(b) ( = (a+b-1)! (a-1)! (b 1)! si a et b sont entiers). On peut prouver que si β suit la loi de f. r. I x (a,b) alors

probabilités et notions fondamentalese 8 E β = a a + b et Var β = ab (a+b) 2 (a+b+1) Si U et V sont deux variables aléatoires indépendantes, de loi Γ(a,λ) et Γ(b,λ), le rapport U / (U+V) suit la loi béta β (a,a+b). f) Loi de Fisher-Snedecor à n 1 et n 2 degrés de liberté F ( n 1, n 2 ) Si U est une variable aléatoire qui suit la loi béta ( n 1 /+2, n 2 /2), la variable aléatoire ( n 2 / n 1 ) U suit la loi de Fisher-Snédécor à n 1 et n 2 degrés de liberté, notée F(n 1,n 2 ). En particulier, si L (Y 1 ) = χ2 (n 1 ) L (Y 2 ) = χ2 (n 2 ) L ( n 2 Y 1 / n 1 Y 2 ) = F (n 1, n 2 ) Y 1 et Y 2 indépendantes g) Loi de Student à n degrés de liberté T(n) Par définition, si L (X) = N(0,1) L (Y) = χ2 (n ) L (X / X et Y indépendantes Y n ) = T(n) B Lois discrètes a) Loi de Bernoulli b(p), p [ 0 1] C'est la loi d'une variable aléatoire X qui ne peut prendre que deux valeurs, 1 avec la probabilité p et 0 avec la probabilité 1-p notée q : P(X=1) = p ; P(X=0) = 1- p = q ; EX = p ; Var(X) = pq. b) Loi binomiale B (n, p), n ΙΝ, 0 p 1 C'est la loi de la somme S n de n variables aléatoires X 1,X 2,..,X n indépendantes et de même loi de Bernoulli b(p), de paramètre p (0p1) X i = 1 avec la probabilité p 0 avec la probabilité q = 1 - p Si 1 correspond au "succès" et 0 à l'échec la statistique S n = X 1 + X 2 +.. + X n

probabilités et notions fondamentalese 9 qui représente le nombre total de succès au cours des n épreuves ne prend que les valeurs entières j de 0 à n. La loi de S n est donnée par n! P (S n = j ) = p j = ------------ p j q n-j, j = 0,1,2,...n. j! (n- j)! ES n = np et Var (S n ) = npq L'espérance et la variance sont obtenues comme sommes des espérances et variances des Bernoulli. Le nombre des combinaisons de n objets pris j par j, qui vaut n! / j! (n-j)!, est généralement noté j n C n ou j c) Loi multinomiale M (n, p 1, p 2,..., p r ), n ΙΝ, p i 0, Σ p i =1 Si la variable de base X a r modalités au lieu de 2, qu'elle peut prendre avec les probabilités respectives p 1, p 2,..., p r, lorsqu'on répète n fois l'épreuve de manière indépendante, on obtient r effectifs N 1, N 2,..., N r, où N i est le nombre de fois que la modalité i a été observée. Alors, pour chaque i, la loi de N i est la loi binomiale de paramètres n et p i L (N i ) = B(n,p i ), i = 1, 2,..., r ; E(N i ) = np i et Var(N i ) = np i q i. Mais il est clair que deux effectifs N i et N j qui correspondent à deux valeurs différentes de X, i et j, ne sont pas des variables indépendantes. En effet, la somme de tous ces effectifs est fixée et vaut n, le nombre total des observations. La loi de N = (N 1,..., N r ) ne peut donc pas être décrite à partir des seules lois binomiales B(n,p i ) de chacun des N i. Elle est appelée la loi multinomiale de paramètres (n, p 1, p 2,..., p r ) et notée M (n; p 1, p 2,..., p r ). La probabilité de l'événement { N 1 = n 1, N 2 = n 2,..., N r = n r } est égale, pourvu que la somme des n i soit égale à n, à P (N 1 = n 1, N 2 = n 2,..., N r = n r ) = n! n 1! n 2!... n r! p 1 n 1p2 n 2... pr n r Remarque Les variables (N i -np i ) / np i q i sont centrées réduites, et, lorsque n est grand (np i et nq i au moins égaux à 5), à peu près normales N(0,1). C'est ce qui est utilisé pour les tests du chi deux. d) Loi de Poisson (λ), λ > 0

probabilités et notions fondamentalese 10 Définition Une v.a. X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si elle peut prendre toutes les valeurs entières, 0 compris, la probabilité p k pour qu'elle prenne la valeur k étant définie par λ k Alors p k = P (X = k) = e - λ k = 0,1,2,... EY = Var(Y) = λ On rappelle que 0! = 1 par définition. k! λ paramètre > 0 Propriété (Somme de variables de Poisson indépendantes) La somme de deux variables de Poisson indépendantes est encore une variable de Poisson de paramètre la somme des paramètres : X et Y indépendantes L (X) = π (λ) L (X+Y)) = π (λ+µ) L (Y) = π (µ) Il en résulte que la somme d'un nombre quelconque de variables de Poisson indépendantes est encore une variable de Poisson, de paramètre la somme des paramètres. 4 Approximations a) Approximation normale de la loi binomiale Une variable binomiale S n, de loi B(n,p) a pour espérance np et pour variance npq. Lorsque n est grand, d'après le théorème de limite centrale, la loi de B(n,p) est très proche de la loi normale de même espérance (np) et même variance (npq). A partir de quelle valeur n peut il être considéré comme grand? Cela dépend de p et q. Plus précisément, on pourra remplacer B(n,p) par N(np, npq) dès que n sera assez grand pour que np et nq soient tous les deux supérieurs à 5 : B(n, p) N(np,npq) dès que np 5 et nq 5 ce qui s'écrit aussi S n np + npq Z où Z est normale réduite N(0,1). b) Approximation normale d'une somme de variables indépendantes On a un résultat analogue lorsqu'on additionne, non pas des variables de Bernoulli mais des variables indépendantes de même loi et d'espérance µ et variance σ 2 : S n = X 1 + X 2 +.. + X n

probabilités et notions fondamentalese 11 Alors E( S n ) = n µ, Var ( S n ) = n σ 2, et la loi de S n, qui n'est pas connue puisqu'elle dépend de la loi commune des X i, qui n'a pas été précisée, est, lorsque n est grand, proche de la loi normale de même moyenne et de même variance qu'elle : L (S n ) N( n µ, n σ 2 ) Nous considérerons que n est assez grand pour que l'approximation soit valable lorsque n égale ou dépasse 30, ce qui est vrai pour les lois continues usuelles en biologie. Cela peut s'écrire aussi Si S n = X 1 + X 2 +.. + X n, indépendantes, de même loi continue, E(X i ) = µ, Var(X i ) = σ 2, et n 30, alors L ( (S n - n µ) / nσ 2 ) Ν(0,1) ce qui s'écrit aussi où L (Z) = N(0,1). S n n µ + nσ 2 Z c) Approximation de Poisson de la binomiale Pour la variable binomiale, lorsque np et nq ne dépassent pas 5 tous les deux, mais que n est grand - ce qui a pour origine que la Bernoulli sous-jacente décrit un évènement rare, par exemple p petit - on peut approcher la loi B(n,p) par la loi de Poisson de paramètre égal à np. Plus précisément : on a l'approximation de Poisson suivante pour la loi binômiale : pourvu que p 0,1 et 1 np < 10 B(n,p) Π (np) d) Approximation normale du χ n 2 Pour calculer des probabilités relatives à des variables du chi deux, on utilisera les tables correspondantes ou l' approximation normale si n est assez grand. En effet, il est clair que la somme de deux variables du chi 2 indépendantes, à m et k degrés de liberté, est une variable du chi 2 à (m+k) degrés de liberté, et que, inversement, une variable du chi 2 à n degrés de liberté peut être considérée comme la somme de n variables indépendantes ayant la loi du chi 2 à 1 d.d.l.. Donc, d'après le théorème de la limite centrale, si n est assez grand P( χ n 2 x ) P ( n + 2n Ζ x ) = Φ ( (x - n) / 2n ).

probabilités et notions fondamentalese 12 5 - Principe des tests Le problème qui se pose initialement est celui de savoir si un phénomène vérifie ou non une certaine conjecture, qu'on appelle une hypothèse. Par exemple, il s'agit de savoir si une nouvelle technique constitue ou non un progrès par rapport à la technique classique. Pour le savoir, on se fonde sur l'observation d'une variable aléatoire liée au phénomène. Dans notre exemple, on observera l'effet de cette nouvelle technique sur n produits : X i désignera le résultat sur le i ème produit. X peut par exemple valoir 1 en cas de réussite, 0 en cas d'échec, et c'est alors une variable de Bernoulli b(p), où p est la probabilité de succès - inconnue - de cette nouvelle technique. Mais X i peut aussi bien être la durée de vie du i ème produit, et c'est alors une variable continue. A partir des observations, on construit une valeur numérique qui est la réalisation d'une variable aléatoire, fonction des observations, qui est appelée une statistique. Notons la Y = ϕ(x 1,..., X n ). Et on choisit ϕ de telle sorte que, si c'est possible, la loi de Y soit connue lorsque l'hypothèse qui nous intéresse est réalisée. Appelons H o cette hypothèse. Alors, si la valeur observée y, réalisation de Y, se trouve dans une zone de trop faible probabilité ( en général, si y est trop grand ou trop petit), on rejette H o comme ayant conduit à une observation trop peu probable, voire invraisemblable. Si nous reprenons l'exemple choisi, et si nous supposons que la technique classique a un taux de succès de 50%, sous l'hypothèse H o qu'il n'y a pas d'amélioration, c'est à dire que la nouvelle technique a elle aussi un taux de succès p =1/2, on connait la loi du taux de succès observé P o = ϕ(x 1,..., X n ) = ( X 1 +...+X n ) / n C'est celle d'une binomiale B(n,1/2) multipliée par 1/n, et n est connu puisque c'est le nombre total des observations. En fait, on aimerait rejeter cette hypothèse H o au profit de l'hypothèse H 1 selon laquelle le taux de succès p de la nouvelle technique est supérieur à l'ancien : p > 1/2. On est donc en présence des deux hypothèses H o : p = 0,5 H 1 : p > 0,5 Si la proportion observée p o est trop éloignée de 0,5, et plutôt trop grande, on rejettera H o au profit de H 1. C'est le type de problème intitulé "Comparaison d'une proportion observée, ici p o, à une proportion théorique, ici 0,5. En général, le nombre n des observations est assez grand pour qu'on puisse se servir de l'approximation normale. D'ailleurs, dans tous les cas où la variable de base, qui est ici Bernoulli, est quelconque, on n'a aucun moyen de connaître la loi de Y = ϕ(x 1,..., X n ) sous H o, sauf à employer l'une des approximations qui figurent au paragraphe précédent. D'où l'usage extensif de la loi normale en statistique paramétrique classique. On voit dans cet exemple que la zone de faible probabilité choisie comme zone de rejet de l'hypothèse nulle H o a été choisie à droite : ce choix est destiné à rendre aussi grande que possible la puissance du test, c'est à dire la probabilité d'accepter H 1 lorsqu'elle est vraie.

probabilités et notions fondamentalese 13 Lorsqu'on teste deux hypothèses simples, on a un moyen de rendre maximum cette puissance pour un niveau donné a : c'est de rejeter H o lorsque le rapport des probabilités des observations sous H o et sous H 1 est plus petit qu'une valeur donnée. Cela est une conséquence du lemme de Neyman et Pearson: Le test de H o (P = P 0 ) contre H 1 (P = P1) qui a pour zone de rejet de H o : { x : [Po(X=x) / P1(X=x) h} est le plus puissant parmi les tests qui ont le même niveau que lui. Il suffira donc de choisir la valeur du nombre h de telle sorte que Po{ x : [Po(X=x) / P1(X=x) h} = α pour obtenir le test de niveau α le plus puissant. On pourra vérifier que tous les tests (d'hypothèses simples) considérés jusqu'ici, sans souci apparent d'optimisation de la puissance, sont de ce type. 6 Principe de l'estimation L'idée originelle est très simple : pour estimer le taux de succès inconnu de la nouvelle technique, on le remplace par le taux observé. L'estimateur de p s'écrit alors : p = X 1 +X 2 +...+X n = p n o proportion observée Mais deux points ont besoin d'être précisés dès qu'on veut généraliser : 1) Quelle est la précision d'une telle estimation? on tombe alors sur les intervalles de confiance, c'est à dire qu'au lieu de donner pour évaluer p une seule valeur comme ci-dessus, sans aucun élément sur la précision probabiliste avec laquelle il représente p, on donne un intervalle qui a une forte probabilité ( en général 95 %) de contenir p. Pour pouvoir obtenir un tel intervalle, il faut connaitre la loi de l'estimateur ou, à la rigueur, une approximation de celle-ci. Les estimateurs qui nous ont servi jusqu'à présent étant essentiellement des moyennes empiriques, relevaient de l'approximation 2 b). Souvent l'estimateur est sans biais et de loi (approximativement ) normale autour de sa moyenne : Alors L (p) N( p, σ 2 ) [ p - 2σ ; p + 2σ ] est un intervalle de confiance dont la probabilité de contenir p, c'est à dire le coefficient de confiance, est de 95 %. Le coefficient 2 correspond au quantile 0,975 de la loi normale, qui vaut en fait, non pas 2 mais 1,96. En général l'écart-type σ qui figure dans cet intervalle n'est pas connu et doit être estimé sur les observations. Dans l'exemple choisi, la variance de l'estimateur est Var(Po) = p 0 q 0 / n, ce qui donne pour intervalle de confiance à 95 % : [ po - 2 pq n ; po + 2 pq n ].

probabilités et notions fondamentalese 14 2) Que faire s'il n'y pas (ou s'il y a plusieurs) équivalents empiriques du paramètre à estimer? Alors on peut écrire la vraisemblance V des observations, c'est à dire la probabilité d'observer ce qui a été observé en fonction du (ou des) paramètres à estimer: P θ (X 1 = x 1, X 2 = x 2,..., X n = x n ) = V(θ). La vraisemblance est considérée comme une fonction du paramètre inconnu à estimer, θ, et non comme une fonction des observations x 1, x 2,..., x n. On choisit comme estimateur de θ la valeur θ qui maximise V(θ) : V(θ) V(θ) pour tout θ Une théorie générale montre que ces estimateurs sont très bons, sous des conditions très souvent réalisées, lorsque le nombre des observations est assez grand. Exemple 1 : durée de vie exponentielle On suppose que la durée de vie d'un appareil de dosage suit une loi exponentielle de paramètre θ inconnu. On a observé la durée de vie de 5 tels appareils et obtenu les valeurs suivantes exprimées en jours : 77, 31, 27, 58, 103. Quel estimateur peut on proposer pour θ? Exemple 2 : palmier à huile Le palmier à huile est sujet à une maladie appelée le blast. Cette variété de palmier apparait sous forme de palmiers jumeaux. Dans un champ comprenant n = 500 tels couples de palmiers, on a décompté 242 couples sains, 185 couples composés d'un palmier malade et d'un palmier sain et 73 couples de palmiers malades tous les deux. A combien estimer la probabilité θ pour un palmier d'être malade? On doit, pour être en mesure de faire cette estimation, faire une hypothèse sur la transmission de la maladie d'un palmier à son jumeau. Exemple 3 : durée de vie uniforme La durée de vie d'un certain type de cellule est une variable aléatoire qui a une loi uniforme sur un intervalle de temps [ 0 ; θ ]. θ est inconnu et on veut l'estimer après avoir observé les durées de vie, exprimées en jours, de 12 cellules tirées au hasard : 6, 7, 6, 8, 2, 4, 10, 1, 5, 5, 9, 10. Quel estimateur proposer pour θ?

Tests d'ajustement 15 II TESTS D'AJUSTEMENT 1 - Introduction Très souvent, lors de la résolution d'un problème, on rencontre des phrases du type : "Si la loi de la variable X est normale...", ou "Supposons que la loi de X soit de Bernoulli de paramètre p = 1/2,..." ou en employant un langage plus courant "Supposons que deux structures différentes soient également réparties chez les bactéries". Comment vérifier l'exactitude de ces hypothèses? Les techniques appropriées sont appelées des tests d'ajustement ou tests d'adéquation (fit tests en anglais): étant donnée une loi de probabilité théorique, il s'agit de savoir, à partir d'un n-échantillon, c'est à dire de n observations indépendantes, d'une variable aléatoire X, si cette variable obéit bien à la loi spécifiée. Le test le plus usuel est celui du chi 2 d'ajustement pour une loi multinomiale décrit au début du paragraphe suivant. 2 - Test d'ajustement du chi2 pour une loi spécifiée a. Cas d'une variable discrète : X a un nombre fini r de modalités, notées 1, 2,..., r et il s'agit de tester l'hypothèse H o : P(X = 1) = p 1, P(X = 2) = p 2,..., P(X = r) = p r, où p 1, p 2,..., p r sont des probabilités données à l'avance. Alors on considère la statistique E 2 r (N i - n p i ) 2 = i = 1 n p i qui mesure l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi appelés aussi effectifs "attendus" (de l'anglais "expected") si Ho est vraie. On peut démontrer que, si Ho est vraie, et pourvu que tous les np i soient assez grands (supérieurs à 5), E 2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (notés ddl).

Tests d'ajustement 16 Exemple 4 : dosage Prenons un dosage biologique, qui peut être normal, faible ou fort selon qu'il se situe entre deux bornes, est inférieur à la plus petite, ou supérieur à la plus grande, a r = 3 modalités. On veut tester le fait que 90 % des gens ont un dosage normal, alors que 5 % l'ont faible et 5 % l'ont fort. Pour cela, on tire au hasard 100 sujets et on constate que, sur les 100 dosages, 76 sont normaux, 10 faibles et 14 forts. Quelle sera la conclusion? b. Test d'ajustement du chi 2 pour une variable continue Si l'on se pose la question de savoir si une variable X suit ou non la loi normale N (0, 1), on peut se ramener au problème précédent en discrétisant la variable : c'est-à-dire que l'on fait une partition finie de l'ensemble R de toutes les valeurs possibles de X formée de r intervalles successifs sans point commun : ] -, a 1 ], ]a 1, a 2 ],..., ] a r-1 +[ Si l'on a observé un n-échantillon de valeurs de X, x 1,..., x n, on résume ces observations en (N 1,..., N r ) où N 1 désigne le nombre des x i qui sont inférieurs à a 1, N 2 le nombre de ceux qui tombent entre a 1 (non compris) et a 2 (compris) etc... Sous l'hypothèse H 0 : la loi de X est la loi N (0,1) les probabilités p j pour que X tombe dans chacun des r intervalles I j = ]a j-1 a j ] peuvent être calculées : p j = a j a j -1 1 2π exp {- z2 2 } dz Et on voit donc comment se ramener au problème du paragraphe précédent pour toute loi continue dont la densité est complètement spécifiée. Exemple 5 : Taux de cholestérol On veut savoir si le taux de cholestérol dans une sous population déterminée de patients suit la loi normale de moyenne 200 et variance 36, N (200, 36), qui est la loi du taux de cholestérol dans la population générale, lorsque ce taux est exprimé en cg/l Pour cela, on a extrait au hasard 100 sujets de cette population et obtenu les résultats suivants : Taux de cholestérol Effectif Taux de cholestérol Effectif ] 90 110] 01 ]190 210] 17 ] 110 130] 02 ]210 230] 12

Tests d'ajustement 17 ] 130 150] 18 ]230 250] 4 ] 150 170] 26 ]250 270] 2 ] 170 190] 16 ]270 290] 1 ]290 310] 1 On devra calculer les probabilités attribuées à chacun des intervalles par la loi N (200, 36) : a j 1 (z - 200)2 p j = exp { - } dz 2π 6 72 a j-1 avec a o = -, a 1 = 110, a 2 =130,..., a 11 = +, ou bien les chercher sur une table donnant la fonction de répartition Φ de la loi N (0 ; 1). En effet p j peut aussi s'écrire p j = F(a j ) - F(a j - 1 ) = Φ ( (a j - 200) / 6) - Φ ( (a j-1-200) / 6) On devra ensuite regrouper certains intervalles mitoyens pour être dans les conditions de l'approximation souhaitée, c'est-à-dire np j supérieur à 5 pour chacun des p j. Alors la variable d'écart vaut : E 2 r (N i - n p i ) 2 = Σ i = 1 n p i et, sous l'hypothèse nulle H o, le taux de cholestérol suit dans cette souspopulation la loi N (200, 36), E 2 suit une loi proche de la loi du chi 2 à r -1 degrés de liberté.si la valeur observée de E 2, soit e 2, est trop grande, c'est-à-dire par exemple si : P(χ 2 r-1 e2 ) 0,05 et si l'on s'est fixé le seuil de 5%, on rejettera H o. On pourra faire le calcul des p j, du nombre de classes qui restent après regroupement et finalement conclure, au seuil de 5%. 3 - Tests d'ajustement du chi 2 avec estimation de paramètres Lors des deux cas que nous avons envisagés jusqu'ici, les lois sur lesquelles on voulait réaliser l'ajustement étaient complètement spécifiées. En fait, le cas le plus fréquent en pratique est celui où la loi sur laquelle on cherche à réaliser l'ajustement n'est pas complètement spécifiée, mais comporte des paramètres qu'il faut d'abord estimer. Par exemple, lorsqu'on se demande si une

Tests d'ajustement 18 variable est normale, c'est en général sans avoir d'a priori sur la moyenne et la variance de cette loi. On doit alors estimer µ et σ 2 respectivement par m et s 2, pour pouvoir effectuer un ajustement sur la loi N (m ; s 2 ). De même, s'il s'agit d'une loi multinomiale, les paramètres ne sont pas toujours complètement spécifiés, comme l'illustre l'exemple suivant. Exemple 2 : suite Le problème est de déterminer si la maladie du palmier à huile, le blast, se transmet d'un pied à son pied jumeau. L'hypothèse que l'on veut tester, H o, est que la maladie ne se transmet pas. Alors, si θ représente la probabilité pour qu'un pied soit malade, et si X est la variable aléatoire qui désigne le nombre de pieds malades dans un couple (X vaut 0, 1 ou 2), on a : P (X =2) = θ 2 = p 1 P (X = 1) = 2 θ (1 θ) = p 2 P (X = 0) = (1 - θ) 2 = p 3 Si l'on observe n couples de palmiers jumeaux, on testera donc si la loi de (N 1, N 2, N 3 ) où N 1 est le nombre de couples dont les deux éléments sont malades, N 2 le nombre de couples comportant un seul pied malade, N 3 le nombre de couples dont aucun pied n'est malade, est une loi multinomiale de paramètres (n ; θ 2, 2 θ (1 θ), (1 - θ) 2 ). Préalablement à l'ajustement, il faudra estimer θ. Nombre de pieds malades dans le couple 2 1 0 Nombre de couples 73 185 242 Avec les notations précédemment introduites : N 1 = 73, N 2 =185, N 3 = 242 p 1 = θ 2, p 2 = 2 θ (1 θ), p 3 = (1 - θ) 2. La vraisemblance s'obtient en remplaçant dans : P (N 1 = n 1, N 2 = n 2, N 3 = n 3 ) n 1 par 73, n 2 par 185, n 3 par 242, ce qui donne une fonction de θ seul. Calculons donc P θ (N 1 = n 1, N 2 = n 2, N 3 = n 3 ), c'est-à-dire, de manière générale, la loi multinomiale de paramètres (n ; θ 2, 2 θ (1 θ), (1 - θ) 2 ) : P( N 1 = n 1, N 2 = n 2, N 3 = n 3 ) = n! n 1! n 2!n 3! p n 1 n p 2 n 1 2 p 3 3

Tests d'ajustement 19 On voit que ce calcul se généralise au cas où l'on a non plus 3, mais un nombre r quelconque de classes pour le caractère étudié. Ici, cela donne pour la vraisemblance de l'échantillon : 500! P( N 1 = 73, N 2 = 185, N 3 = 242 ) = 73! 185!242! θ 2x73 [2θ(1 -θ)] 185 (1 θ) 2 x 242 L'estimateur du maximum de vraisemblance de θ est la valeur qui rend cette fonction de θ aussi grande que possible. On obtient généralement cette valeur, qui rend la vraisemblance maximum, en cherchant le maximum du logarithme de la vraisemblance puisque la fonction Logarithme est monotone croissante. On note V(θ) la vraisemblance et L(θ) son logarithme. Ici L(θ) vaut : L(θ) = (146 + 185) log θ + (185 + 484) log (1 - θ) + C où C désigne une constante (C ne dépend pas de θ, mais elle dépend des effectifs observés). On obtient le maximum de L en dérivant L par rapport à θ : L'( θ ) = 331 / θ - 669 / (1 - θ) = 0 ce qui donne θ = 331 1 000 = 0,331 valeur qui correspond effectivement à un maximum puisque L" ( 0,331 ) < 0. Qu'il s'agisse d'une variable discrète d'emblée ou d'une variable continue rendue discrète par subdivision de ses valeurs en un nombre fini de classes, soit X une variable prenant r valeurs distinctes, qu'on appellera 1, 2,..., r par commodité, et soit P (X = 1) = p 1 et de manière générale P (X = i ) = p i pour i variant de 1 à r. Les valeurs de p 1,..., p r sont des fonctions connues d'un ou plusieurs paramètres θ 1,..., θ k qui sont inconnus et qu'on remplace par leurs estimateurs du maximum de vraisemblance : n! n 1p2 n 2...pk k V( θ 1, θ 2,..., θ k ) = n 1! n 2!n 3! p 1 ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k ) ( θ 1, θ 2,..., θ k )n est la vraisemblance de l'échantillon si l'on a observé n 1 fois la valeur 1 pour X, n 2 fois la valeur 2, etc... Et les valeurs θ 1, θ 2,..., θ k sont celles qui rendent maximum cette fonction. On peut, si V est différentiable

Tests d'ajustement 20 obtenir ces valeurs par dérivation. Il en résulte des estimateurs Pour tester p 1, p 2,..., p r H 0 : la loi de X a pour paramètre θ 1,..., θ k On calcule la variable d'écart E 2 entre les effectifs observés n i dans chacune des classes et leurs espérances sous H o : E 2 r (N i - n p i ) 2 = i = 1 n p i Alors, sous H o, E 2 suit une loi proche de celle du chi-2 a r-k-1 degrés de liberté, pourvu que n soit assez grand pour que n p i 5 pour i = 1, 2,..., r Le nombre de degrés de liberté est diminué du nombre k de paramètres estimés. Ce résultat est vrai pourvu que les paramètres soient estimés par la méthode du maximum de vraisemblance. Exemple 2 : palmier à huile (suite) Revenons à l'exemple du palmier à huile. On a estimé un paramètre θ, et les valeurs correspondantes estimées de p 1, p 2, p 3 sont : 0,1096, 0,4422 et 0,4475 On vérifie que n p i 5 pour i = 1, 2, 3 La variable d'écart : E 2 = r Σ i = 1 (N i - n p i ) 2 n p i = 12,55 suit approximativement la loi du chi 2 à 1 degré de liberté (r-k-1 = 3-1-1 =1) sous l'hypothèse nulle. Or P (χ 1 2 12,55 ) < 0,001 On rejette donc l'hypothèse nulle, et le test est significatif avec un degré de signification inférieur à 1 o /oo. Remarque 1 Comme il est, dans certains cas, comme par exemple celui où la loi de X était continue et a été discrétisée, assez compliqué d'estimer les paramètres non spécifiés par la méthode du maximum de vraisemblance sur les classes, qui est le cadre dans lequel est démontrée la convergence vers une loi du chi 2 de la variable d'écart E 2, on se contente quelquefois d'utiliser d'autres estimateurs, plus simples, de ces paramètres.

Tests d'ajustement 21 Exemple Pour ajuster des données à une loi normale d'espérance et de variance non précisées, on remplace souvent cette espérance et cette variance par leurs estimateurs empiriques x et s n 2 n - 1 On pourra évaluer la différence des résultats obtenus en utilisant cette approximation et en se plaçant au contraire dans le cadre strict de la théorie sur les données concernant le taux de cholestérol. Remarque 2 En ce qui concerne la puissance de ces tests d'ajustement, appelés tests du (Chi-deux), l'alternative contient trop de probabilités différentes pour qu'elle soit vraiment étudiée. La loi de E 2, sous chacune de ces lois pose un problème différent qu'il faut résoudre en coup par coup. 3 - Test de Kolmogorov-Smirnov : On remarquera que le test d'ajustement du chi 2 est très bien adapté à des variables à r classes non ordonnées. En effet la statistique sur laquelle se fonde le test, E 2, ne tient pas compte d'un ordre éventuel des r classes. Si l'on veut utiliser cette propriété, on peut utiliser un autre test d'ajustement : le test de Kolmogorov- Smirnov. La statistique sur laquelle est fondé ce test est D = sup F n - F. Sup F n - F signifie : sup t R F n (t) - F (t), c'est-à-dire le maximum de la valeur absolue de la différence entre la fonction de répartition F de la loi sur laquelle on veut faire l'ajustement et la fonction de répartition empirique (ou fonction cumulative observée) : F n (t) = 1 n n Σ 1 ]- t] (x i) i = 1 c'est-à-dire la fonction de répartition associée à la loi empirique (ou observée) définie par l'échantillon (x 1,..., x n ). Sous l'hypothèse nulle H o, selon laquelle X a effectivement pour fonction de répartition F, la loi de D dépend uniquement de la taille n de l'échantillon. Cette loi est tabulée (voir la table de D jointe à la fin de ce cours) pour n variant de 1 à 35 (n est appelé N dans la table). Pour les valeurs de n supérieures à 35, on utilise la convergence de la loi de D n vers une loi indépendante de n, quand n croit : P ( sup t n F n (t) - F (t) < α ) 1-2 Σ (- 1) k+1 e - 2 k2 α 2 k = 1 pour tout α positif. Il n'est pas nécessaire de retenir ce résultat. Ce qui importe c'est que, en pratique, dès que n est supérieur à 35, on peut utiliser une loi unique

Tests d'ajustement 22 et par suite les valeurs correspondant aux seuils de signification de 20 %, 15 %,...,1 % forment une seule ligne de la table, la dernière, à condition bien sûr d'effectuer dans chaque cas la division par n, où n est le nombre des observations. Exemple 7 : radiographies Un appareil de radiographie admet 5 réglages possibles, allant du plus clair au plus foncé en ce qui concerne le tirage. On veut tester l'hypothèse, grâce à 10 médecins observant chacun les 5 tirages différents d'une même radio, concernant chacune un patient différent, selon laquelle la lisibilité de la radiographie est la même pour les cinq tirages On appelle H o cette hypothèse, qui dit que les préférences des médecins des médecins, en ce qui concerne la lisibilité des radios, devraient être uniformément réparties sur les cinq tirages. Rang de la radio choisie (1 est la plus foncée) 1 2 3 4 5 Nombre de sujets choisissant 0 1 0 5 4 ce rang F : fonction de répartition 1/5 2/5 3/5 4/5 5/5 théorique sous H 0 F n : fonction de répartition 0/10 1/10 1/10 6/10 10/10 empirique F n - F 2/10 3/10 5/10 2/10 0 Donc D = 5/10 = 0, 500. Pour n = 10, la table de la loi de D, sous H o, nous dit que : P Ho (D 0, 500) < 0, 01 Le test est donc significatif, on rejette H o, avec un degré de signification inférieur à 1%. Remarque : Le test de Kolmogorov a plusieurs avantages sur le test du chi 2 : 1) Il ne perd pas d'information comme c'est le cas parfois lorsqu'on est obligé de regrouper des classes pour avoir des effectifs suffisants dans chacune d'entre elles. 2) Lorsque le nombre d'observations est petit, le test du χ 2 ne peut pas s'appliquer du tout. Si l'on essaie d'appliquer le test du χ 2 à l'exemple cidessus, on doit combiner plusieurs catégories adjacentes : Foncé (1,2) Clair (3,4,5)

Tests d'ajustement 23 Fréquence de choix 1 9 Alors χ 1 2 = 3,75. La probabilité que χ 1 2 soit supérieur à 3,75 tombe entre 0,05 et 0,10, ce qui ne nous permet pas de rejeter H o au seuil de 5%.Ce test est moins puissant que le test de Kolmogorov- Smirnov, car on a perdu de l'information.

Indépendance 24 III Mise en evidence de liaisons : Tests d'indépendance. La mise en évidence de l'existence d'une liaison entre deux caractères aléatoires a beaucoup d'importance dans toutes les études épidémiologiques, en particulier lorsqu'on a comme objectif la prévention des maladies. Les techniques employées sont différentes suivant que les variables étudiées sont discrètes ou continues; elles sont différentes aussi suivant que le type de loi des variables est connu ou non. Nous distinguerons trois cas fondamentaux qui donnent lieu chacun à diverses méthodes : les variables sont toutes les deux discrètes, une seule est continue et les deux le sont. Dans chacun de ces trois cas, nous avons vu une méthode particulière lors du chapitre I. Partant de là, nous allons introduire d'autres méthodes, plus générales. 1 - Les deux caractères sont discrets : a - Deux caractères à deux classes : Le cas le plus simple est celui où chacun des deux caractères A et B ne prend que deux valeurs. Prenons un exemple : on se demande si la sensibilité aux intoxications professionnelles dépend des conditions de vie : est elle la même pour la population rurale et pour la population citadine? On dispose des observations suivantes : Intoxication sensibles non sensibles taille d'échantillon Milieu Citadins 123 153 276 Ruraux 145 150 295 portant sur deux échantillons tirés au hasard d'une part parmi les habitants de la ville et d'autre part parmi les habitants de la campagne. Nous savons déjà traiter ce problème, par la technique de la "comparaison de deux proportions observées" qui sont ici : - La proportion observée d'individus sensibles parmi les citadins, soit p o = 123/276 = 0,45 - La proportion observée d'individus sensibles parmi les ruraux, soit p' o = 145/295 = 0,49 Si p est la proportion exacte, dans la population des citadins toute entière, de ceux qui sont sensibles, et p' la même quantité pour les gens de la campagne, on teste l'hypothèse H o (p = p'), la contre- hypothèse étant H 1 (p p'). Sous l'hypothèse nulle H o, la variable aléatoire

Indépendance 25 E = P' o - P o P t Q t ( 1 n 1 + 1 n 2 ) où P o est la proportion de sensibles pour un échantillon de n 1 citadins P' o est la proportion de sensibles dans un échantillon de n 2 ruraux P t est la proportion de sensibles dans l'échantillon total de taille n 1 + n 2 Q t = 1 - P t a une loi qui est proche de la loi normale de moyenne nulle et de variance 1, notée N(0, 1), et dont la table figure à la fin de ce cours : en effet n 1 p o, n 1 q o, n 2 p' o, n 2 q' o sont tous supérieurs à 5. On notera, dans toute la suite Z une variable de loi N(0,1). La valeur observée de E, dans notre exemple est : e = p' o - p o p t q t ( 1 n 1 + 1 n 2 ) = 0,49-0,45 0,47.0,53 ( 1 276 + 1 = 295 ) 0,04 0,04 = 1 Et la probabilité pour que, sous l'hypothèse H o, on ait observé une valeur de E, qu'on appelle l'écart réduit des deux proportions, au moins aussi grande que e, en valeur absolue, vaut donc à peu près P ( Ε e ) P ( Ε 1) 0,32 Le degré de signification du test est donc 0,32, et le test n'est donc pas significatif : on conserverait H o pour tout seuil α inférieur à 0,32. Or on n'estime en général qu'un test est significatif que si son degré de signification - qui vaut ici environ 30 % - est inférieur ou égal à 5 %. On conclut donc que le mode de vie, citadin ou campagnard, n'a pas d'influence sur la sensibilisation aux intoxications professionnelles. Pour généraliser ce test au cas où les deux caractères A et B ont plus de deux modalités, on l'exprime sous une autre forme, en remarquant qu'il est équivalent de dire Ε e ou E 2 e 2 De même que lors de l'étude des tests d'ajustement, on peut montrer que E 2 s'écrit aussi, en notant : N 1 l'effectif de ceux qui sont sensibles parmi les citadins N 2 l'effectif de ceux qui ne sont pas sensibles parmi les citadins N 3 l'effectif de ceux qui sont sensibles parmi les ruraux N 4 l'effectif de ceux qui ne sont pas sensibles parmi les ruraux P t la proportion des sensibles sur le total Q t la proportion des insensibles sur le total Q t = 1 - P t

Indépendance 26 E 2 = (N 1 - n 1 P t )2 n 1 P t + (N 2 - n 1 Q t )2 n 1 Q t + (N 3 - n 2 P t )2 n 2 P t + (N 4 - n 2 Q t )2 n 2 Q t Sous l'hypothèse nulle H o d'indépendance des deux caractères, qui se traduit par l'égalité des proportions de sensibles dans les deux populations de citadins et de ruraux, tout se passe comme si l'on avait un seul échantillon de taille n 1 +n 2 et P t constitue alors un bon estimateur de cette proportion. Alors E 2 peut être interprété comme la somme des carrés des écarts (réduits) de chacun des effectifs à sa moyenne estimée. On appelle quelquefois les N i les effectifs observés et les n i P t et n i Q t les effectifs "calculés" ou "théoriques". Sous l'hypothèse H o, pourvu que les dénominateurs n i P t et n i Q t soient tous supérieurs ou égaux à 5, E est approximativement normale N(0, 1), donc E 2 est approximativement χ 2 1.On rappelle (voir au chapitre I) qu'on appelle loi du chi deux à r degrés de liberté (notée χ 2 r ) la loi de la variable S = Z 2 1 +Z2 2 +... +Z2 r où les Z i sont indépendantes et toutes de loi N(0, 1)). Dans la table des lois du chi deux, on lit donc que P(E 2 >e 2 ) = P(E 2 > 1) 0, 32. On constate donc que le test fondé sur E 2 est identique à celui fondé sur E, mais la forme E 2 permet une généralisation immédiate en cas où A a r modalités, B a k modalités. b - Deux caractères à r et k classes : Prenons à nouveau un exemple : on veut savoir si le temps écoulé depuis la vaccination contre la petite vérole a ou non une influence sur le degré de gravité de la maladie lorsqu'elle apparaît. Les patients sont divisés en trois catégories selon la gravité de leur maladie - légère (L), moyenne (M), ou grave (G) - et en trois autres quant à la durée écoulée depuis la vaccination - moins de 10 ans (A), entre 10 et 25 ans (B), plus de 25 ans (C). Les résultats d'une observation portant sur n = 1574 malades sont les suivants : Durée X écoulée depuis la vaccination A B C Total Degré de gravité Y de la maladie G 1 42 230 273 M 6 114 347 467 L 23 301 510 834

Indépendance 27 Total 30 457 1087 1574 Pour mettre en évidence une liaison entre X et Y, on choisit de tester les hypothèses nulle et alternative : H o : X et Y sont indépendantes, H 1 : X et Y sont liées. De manière générale, soient X et Y deux variables discrètes, X à r classes et Y à k classes, notées respectivement i = 1,..., r et j = 1,..., k et n ij l'effectif observé, dans le tableau croisé, des individus pour lesquels X vaut i et Y vaut j. On note n..j le nombre total de ceux pour lesquels Y vaut j, et qui figure au bas de la jème colonne, et n i. le nombre total de ceux pour lesquels X vaut i, et qui figure à droite de la ligne i. Sous l'hypothèse H o d'indépendance de X et Y : P (X = i, Y = j) = P (X = i). P (Y = j) soit p ij = p i. p. j Comme des estimateurs de chacune de ces probabilités à partir du tableau des effectifs du tableau des observations, sont Si H o est vraie les écarts p ij = n ij n, p i. = n i. n,p.j = n.j n p ij - p i.. p.j ne doivent être dus qu'aux fluctuations d'échantillonnage, On peut démontrer que la variable E 2 = (n ij - n i. p.j ) 2 i = 1,..,r ; j = 1,..,k n i. p.j suit une loi proche de celle du χ 2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs n i. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes). Revenant à l'exemple considéré, r = k = 3 et la variable E 2, qui vaut e = 61,4, suit, sous l'hypothèse H o, une loi du χ 2 à (r -1) (k - 1) = 4 degrés de liberté. Donc P Ho (E 2 > 61,4) < 10-3 d'après la table, le test est donc significatif avec un très bon degré de signification (10-3 ): on rejette l'hypothèse d'indépendance de la gravité de la maladie et du délai écoulé depuis la vaccination.

Indépendance 28 2 - Cas d'un caractère continu et d'un caractère discret à deux classes On considère qu'il y a une liaison entre un caractère continu Y et un caractère discret X à deux classes notées, par commodité 0 et 1, dès que la loi de Y n'est pas la même lorsque X vaut 0 et lorsque X vaut 1. Lorsqu'on veut mettre en évidence une telle liaison, on fait un test sur deux groupes d'individus comparables à tous points de vue, sauf en ce qui concerne la valeur de X qui vaut 0 dans l'un des deux groupes et 1 dans l'autre. a - Test de comparaison de moyennes : Lorsque les deux lois L (Y X = 0) et L (Y X = 1) sont différentes, cela peut provenir par exemple d'une différence entre les deux espérances : Appelons Y' la variable lorsque X = 1 et Y lorsque X = 0. On teste alors : H o : EY' = EY H 1 : EY' E Y C'est le test, bilatéral, d'égalité des moyennes, fondé sur l'écart réduit (souvent appelé ε, mais ici noté E) entre les moyennes observées pour Y et pour Y' : E = Y' - Y S' 2 n' + S2 n Si l'on choisit pour risque d'erreur de première espèce α, la zone de rejet de H o,donc de l'hypothèse que X et Y sont indépendants, correspond à la région : { E > h } où h est choisi tel que : P Ho { E > h}= α. a.1 - Cas des grands échantillons (supérieurs à 30) : Lorsque les tailles n et n' des deux échantillons sont suffisamment grandes (on a choisi, par expérience, mais aussi un peu arbitrairement, la valeur 30 comme seuil), la loi de E, sous H o, est proche de la loi normale N (0,1).C'est-à-dire que si Z est une variable normale N (0,1), de densité de probabilité qui vaut par conséquent on a f(z) = 1 2π exp ( - z2 2 )

Indépendance 29 P( 2 z 2 h ( E) h ) P( ( Z ) h ) = exp( ) dz h 2 π 1 Exemple Pour mettre en évidence l'effet éventuel de l'absorption d'un médicament sur le rythme cardiaque, on forme deux groupes, de 100 sujets chacun, par tirage au sort parmi les malades traités par ce médicament : au premier groupe, on n'administre pas le médicament, mais un placebo ; au deuxième groupe on administre le médicament. Les moyennes et variance estimées sur chacun des groupes sont m y = 80 s 2 y = 5 pour le rythme cardiaque Y du groupe témoin, m y' = 81 s 2 y' = 3 pour le rythme cardiaque Y'du groupe traité. Le test bilatéral de H o (EY' = EY) contre H 1 (EY' EY) qui se fonde sur l'écart réduit E défini ci-dessus, vaut E = 2,5. Le test est donc significatif et a un degré de signification compris entre 1% et 2 %. a. 2 - Cas des petits échantillons ( inférieurs à 30) : le test de Student ; Dès que l'un des deux échantillons indépendants a une taille inférieure à 30, on ne peut plus obtenir la loi de E sous H 0 grâce à l'approximation normale. Cependant, si l'on sait (ou si l'on peut s'autoriser à supposer) que la loi de Y et celle de Y' sont toutes les deux normales et de même variance, la variable : E' = Y' - Y 2 2 n' S y' + n Sy n + n' - 2 1 n' + 1 n suit la loi de Student à n + n' - 2 degrés de liberté. Définition de la loi de Student à n ddl : Si X et Y sont deux variables aléatoires indépendantes, X ayant la loi normale N(0, 1) et Y la loi de Chi deux à n degrés de liberté. Alors, par définition, la variable aléatoire T = X Y n suit la loi de Student à n degrés de liberté dont la densité g n (t) au point t vaut - n + 1 g n (t) = c n (1 + t2 n ) 2 (où c n est le coefficient positif qui assure que g n (t) dt = 1 ). Exemple : dosage de la transferrine

Indépendance 30 Pour évaluer la valeur diagnostique du dosage de la transferrine dans les hépatites alcooliques, deux groupes de sujets ont été étudiés (Nouvelle Presse Médicale (1974)) Un premier groupe de 15 sujets normaux, indemnes de toute lésion hépatique, a donné les résultats suivants : - moyenne des dosages 1,9 g l - écart type de l'échantillon 0,2 g l Dans le deuxième groupe de 14 malades ayant une hépatite alcoolique chronique, on a trouvé les résultats suivants : - moyenne des dosages 1,3 g l - écart type de l'échantillon 0,2 g l. En appelant Y la variable qui désigne le dosage de la transferrine chez les sujets normaux et Y' celle qui désigne la même variable chez les sujets affectés d'une hépatite alcoolique chronique, on veut tester H o : EY' = EY H 1 : EY' < EY Comme on a affaire à de petits échantillons (n = 15 et n' =14), on va supposer que Y et Y' sont deux variables normales de même variance, ce qui est raisonnable d'une part parce que beaucoup de dosages biologiques suivent une loi normale et d'autre part parce qu'un test d'égalité des variances aurait permis de conclure à l'égalité de celles-ci. Alors Y' - Y E' = 2 2 n' S y' + n Sy n + n' - 2 qui vaut ici -7,79, suit sous H o une loi de Student 1 n' + 1 n à n + n' - 2 = 27 degrés de liberté. C'est-à-dire que P (E' < -7,79) = P (T 27 < - 7,79) < 0,001 Le test est donc significatif, avec un très bon degré de signification. On pourra donc utiliser un taux de transferrine assez bas comme un symptôme possible d'une hépatite alcoolique chronique. Cependant, on voit bien quelles sont les limites de cette première méthode pour traiter le cas des petits échantillons : d'une part il n'est pas toujours possible de faire l'hypothèse de normalité et d'égalité des variances des variables de base, pour pouvoir fonder un test sur la variable E' de loi de Student sous H o. D'autre part, pour tester l'indépendance de la variable à deux classes (traité et non traité dans le premier exemple, alcoolique ou non dans le second) et de la variable continue (rythme cardiaque dans le premier, transferrine dans le second) on s'est contenté de comparer les espérances de cette dernière pour chacun des deux niveaux de la première. Or d'autres types de différences peuvent intervenir, à moyennes égales ou non. b. Les tests non paramétriques : Lorsqu'on ne peut pas supposer les variables de base normales et de même variance, on peut utiliser des tests dits non paramétriques qui sont valables quelles que soient les lois des

Indépendance 31 variables de base. Nous verrons trois tests de ce type, ainsi appelés parce qu'ils n'impliquent pas de spécification a priori de lois théoriques dépendant d'un nombre fini de paramètres (par exemple : 2 paramètres pour la loi normale, N (µ, σ 2 ), la moyenne µ et l'écart type σ,1 pour la loi de Poisson etc.) : - le test de la médiane - le test de Wilcoxon - le test de Kolmogorov-Smirnov; Nous illustrerons chacun de ces trois tests sur un même exemple : Exemple : Un médecin décide de s'assurer de l'efficacité d'un traitement dont il pense qu'il peut prolonger la vie de malades ayant déjà eu un infarctus. Il choisit pour cela 10 malades comparables à tous points de vue, en prend 5 au hasard, à qui il applique le traitement. Les 5 autres seront des témoins non traités, mais à qui on administre un placebo.les résultats concernant la durée de survie exprimée en années sont les suivants : Traités (T) 6,5 4,2 17,8 7,9 13,2 Non Traités (NT) 6,7 0,4 2,9 1,2 5,6 Pour chacun des trois tests, la première opération à effectuer est d'ordonner les valeurs obtenues, en les considérant dans leur ensemble : En effet, sous l'hypothèse nulle H o : L (S T ) = L (S NT ) qui signifie que la loi de survie (S) chez les traités (T) est la même que chez les non traités (NT), tout se passe comme si l'on avait, non pas deux échantillons indépendants de tailles respectives n et n', mais un seul grand échantillon de taille n + n'. Remarquons que cette hypothèse est plus restrictive de l'hypothèse qui souligne la test de t ou Z pour deux échantillons. On obtient ainsi la suite : Durée de survie 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 17,8 Rang 1 2 3 4 5 6 7 8 9 10 Traitement T T T T T b.1 Test de la médiane : Rappelons la définition de la médiane d'une loi ou d'une variable. Définition de la médiane :

Indépendance 32 Etant donnée une variable aléatoire réelle X de fonction de répartition F, ( F (x) = P(X x) ), on appelle valeur médiane de X (ou de F) la valeur m telle que : m = ½[ inf { x : F(x) 0,5) + sup { x : F(x) 0,5) La médiane est donc en gros une valeur m telle que : P (X<m) = P (X>m) = 1/2. C'est-à-dire que X a autant de chances d'être inférieur à m que d'être supérieur à lui. En particulier, la médiane empirique (ou observée) qui est celle de la loi empirique de l'échantillon est une valeur centrale telle qu'il y ait autant d'éléments de l'échantillon à sa gauche qu'à sa droite. Ici m = 6,05 Remarque : Si F est continue, la médiane M est unique et égale à x où F(x) = 0.5. La fonction de répartition empirique est toujours discrète. Aussi on définit en général la médiane m de l'échantillon par m = x (n+1)/2 si n est impair et (x (n/2) + x (n/2+1) )/2 si n est pair où les x (i) sont les valeurs ordonnées de l'échantillon. On remplace alors les résultats observés par le résumé suivant : Effectifs groupes Non traités Traités Totaux Nombre des patients dont la durée de survie est 1 4 5 supérieure à la médiane Nombre des patients dont la durée de survie est 4 1 5 inférieure à la médiane () Totaux 5 5 10 Cela donne dans chacun des deux groupes les effectifs des valeurs inférieures et supérieures à la médiane. De manière générale, les effectifs n et n' de chacun des deux groupes sont classés en deux catégories suivant que la valeur de la variable est inférieure ou supérieure à la médiane générale observée : Groupe I Groupe II Totaux X > M (médiane générale) A C A + C X M B D B + D Totaux A + B = n C + D = n' n + n'

Indépendance 33 A+C représente (à une unité près) la moitié de l'effectif global n + n'. Sous l'hypothèse nulle, tout se passe comme si d'une urne contenant n + n' boules dont n de type I et n' de type II,on tirait au hasard (A + C) boules. Le tirage se faisant "au hasard", cela signifie que chaque combinaison de (A + C) boules parmi les n + n' a la même probabilité de sortir. Comme il y a en tout n + n' A + C telles combinaisons dont n A x n' C contiennent exactement A boules du type I et C du type II. Donc : P(A,C) = n A. n' C n+n' A+C qui s'écrit aussi en tenant compte de ce que n = A + B et n' = C + D : (A+B)! (B+D)! (A+C)! (C+D)! P' A,C) = (n+n' )! A! B! C! D! Rappel : on rappelle que la quantité n k, notée aussi C n k, est le nombre des combinaisons de n objets pris k par k, n! et vaut k! (n-k)!. où n!, appelée factorielle n, est le produit des n premiers entiers n! = n.(n-1).(n-2)...3.2.1. Cette loi tabulée pour diverses valeurs des effectifs, n =A + B et n'= C + D, de chacun des deux groupes : voir la table I intitulée " Table of critical values of D (or C) in the Fisher test ". Cette table correspond à un test unilatéral de l'hypothèse H 0 d'indépendance. Dans l'exemple considéré, A + B = 5, C + D = 5 ; la valeur de B étant 4, il faudrait que D soit nul pour que le test soit significatif. Il ne l'est donc pas puisque D vaut 1 et on ne rejette pas l'hypothèse selon laquelle le traitement n'a aucun effet sur la durée de survie. Remarques 1) Une telle conclusion parait peu satisfaisante. Elle est due en fait au manque de puissance du test utilisé. Ce manque de puissance provient de ce que l'on a perdu beaucoup d'information en remplaçant les données initiales sur la durée de survie par le tableau des effectifs inférieurs et supérieurs à la médiane globale. La variable quantitative continue qu'était la durée de survie a été transformée en une variable à deux classes.

Indépendance 34 2) Le test finalement employé sur le tableau des effectifs A, B, C, D est un test d'indépendance entre deux caractères à deux classes : Traités, non traités Survie à plus de 6 ans, et à moins de 6 ans Le test correspondant est appelé test de Fisher, d'où l'intitulé de la table I 3) Lorsque les effectifs de chacun des deux groupes dépassent 15, on peut faire un test du χ 2. D'autre part, si l'on ne dispose pas de la table I, ou si l'un des deux groupes seulement a un effectif supérieur à 15, on peut calculer ldirectement e degré de signification du test à partir de la formule qui donne P (A, C). b.2 Test de Wilcoxon pour deux échantillons Le test de Wilcoxon, qui s'appuie sur une moindre réduction des données initiales, est plus puissant que le précédent. La statistique considérée est la somme W des rangs des valeurs obtenues dans l'un des deux groupes lorsqu'on a rangé l'ensemble des résultats par ordre croissant. Dans notre exemple, si l'on additionne les rangs des durées de survie des patients traités on obtient : W = 4 + 6 + 8 + 9 + 10 = 37. Plus le traitement est efficace, plus W a tendance à être grand. Sous l'hypothèse H o de non influence du traitement, tout se passe comme si d'une urne contenant les nombres 1, 2,..., 10 on les tirait l'un après l'autre formant ainsi une permutation des 10 premiers entiers, les 5 premiers par exemple représentant les rangs des sujets traités Toutes ces permutations sont équiprobables et donc de probabilité 1 / 10!. Mais deux permutations telles que les 5 premiers termes soient, dans leur ensemble, identiques, donnent les mêmes rangs aux individustraités, on ne les distinguera donc pas. Comme il y a (5!) 2 telles permutations, on obtient la probabilité d'une certaine répartition des rangs entre les traités et les témoins : elle vaut 5! 5! 10! Remarquons qu'elle n'est pas toujpurs égale à la probabilité pour quew soit égale à une certaine valeur. En effet, les deux répartitions distinctes suivantes : R 1 = (4, 6, 8, 9, 10) pour les traités et donc (1, 2, 3, 5, 7) pour les témoins R 2 = (5, 6, 7, 9, 10) pour les traités et donc (1, 2, 3, 4, 8) pour les témoins donnent la même valeur à W : 37. On décidera de rejeter H o si W est trop grand ou trop petit. On peut décider de rejeter H o si P (W 37) est inférieure à 5% pour conserver toujours le même seuil et pouvoir ainsi comparer le résultat à celui obtenu par les autres méthodes (qui n'utilisent pas aussi bien l'information contenue dans les données). Pour calculer P (W 37) il faut déterminer les répartitions R telles que W 37. Leur nombre, multiplié par (5!) 2 / 10! donnera la probabilité cherchée : R = (6, 7, 8, 9, 10) Traités W = 40 R = (5, 7, 8, 9, 10) T W = 39 R = (5, 6, 8, 9, 10) T W = 38

Indépendance 35 R = (4, 7, 8, 9, 10) T W = 38 R = (5, 6, 7, 9, 10) T W = 37 R = (4, 6, 8, 9, 10) T W = 37 R = (3, 7, 8, 9, 10) T W = 37 Donc P (W 37) = 7.(5!) 2 / 10! 0,026. Au seuil de 5%, on rejette donc H o et on conclut que le traitement est efficace. Le test précédent, appelé test de Wilcoxon, est beaucoup plus sensible que le test que nous avions employé avant et dont le nom est test de Fisher ou d'irwin-fisher. Ces deux procédures de test sont non-paramétriques puisqu'aucune hypothèse n'a été faite sur la forme de la loi de la variable étudiée. Nous avons procédé ci-dessus à un calcul direct. Cependant, on dispose de tables (p ) qui donnent les probabilités relatives à W pour les valeurs n 1 et n 2 des deux tailles d'échantillons inférieures ou égales à 6. Ces tables sont faites pour la statistique U de Mann- Whitney, qui compte, non pas la somme des rangs des sujets du groupe I, mais la somme des dépassements des sujets de l'autre groupe (II), donc W = U + n 1 (n 1 + 1) 2 ou n 1 = n + n'. On rappelle que la somme des k premiers entiers est égale à k(k+1) / 2. b.3 Test de Kolmogorov - Smirnov pour deux échantillons : L'une des limitations du test de comparaison des moyennes provient de ce qu'il ne mettra en évidence que des différences concernant justement les espérances des lois concernées. Le test de Kolmogorov - Smirnov par contre porte sur une comparaison globale des deux lois : Il est fondé sur l'écart maximal observé entre les deux lois empiriques relatives à chacun des deux échantillons. Reprenons l'exemple précédent et notons F n la fonction de répartition empirique de la survie dans le groupe non traité. F' n la même quantité par le groupe traité. Lorsqu'on veut faire un test bilatéral, c'est l'écart maximal en valeur absolue que l'on considère appelée la statistique de Kolmogorov. D = maximum x (F n (x) - F' n (x)) Mais le plus souvent, comme d'ailleurs dans l'exemple choisi, on a besoin d'un test unilatéral car on aimerait pouvoir conclure, lorsque le test est significatif, à un écart dans une direction déterminée : ici, à l'efficacité du traitement. On fonde alors le test sur l'écart maximal des fonctions de répartition empiriques dans le sens choisi. Ici:

Indépendance 36 D = maximum x ( F n (x) - F' n (x) ) appelée statistique de Smirnov, qui vaut 3 / 5 dans notre cas, comme on le voit ci-dessous. 1 F n F' n 0 0,4 1,2 2,9 4,2 5,6 6,5 6,7 7,9 13,2 Fonctions de répartition empiriques des durées de survie : F n pour le groupe non traité F' n pour le groupe traité. La loi de D a été tabulée dans chacun des deux cas (bilatéral et unilatéral ) : Voir la table L, intitulée "Table of critical values of K D in the Kolmogorov - Smirnov two-sample test". K D y désigne le numérateur de D, lorsque le dénominateur est la taille commune N (ici N = 5) des deux échantillons. Le degré de signification du test pour le test unilatéral correspond aux deux colonnes intitulées "One-tailed test". Pour le test bilatéral, aux deux colonnes "Two-tailed test". Lorsque les tailles des deux échantillons sont trop grandes, on utilise l'approximation normale, sous H o, pour W 1, somme des rangs du groupe I : L (W 1 ) N ( n 1 ( n 1 + n 2 + 1) 2 ; n 1 n 2 ( n 1 + n 2 + 1) 12 ) où n 1 et n 2 sont les tailles des deux échantillons et N = n 1 + n 2. Dans notre cas, N = 5 : il faudrait, pour qu'un test unilatéral soit significatif à 5% que K D soit égal à 4 (et qu'il soit égal à 5 pour être significatif à 1%) ; Comme ici K D = 3, le test n'est pas significatif (tout au moins à 5%). Des trois tests envisagés, le plus puissant est donc ici le test de Wilcoxon. On peut démontrer qu'il a effectivement de très bonnes propriétés. Cependant, il faut remarquer qu'il suscite une difficulté : lorsqu'on ordonne les résultats observés, il se peut qu'il y ait des ex-aequo. On dit "ties" en anglais. Quels rangs leur attribuer alors? L'une des possibilités, la plus simple, est d'affecter à chacun des ex -aequo le rang

Indépendance 37 moyen entre celui de la valeur strictement inférieure et celui de la valeur strictement supérieure. (Il faut remarquer que cette valeur ne sera pas nécessairement entière). On peut aussi, mais la réalisation est plus compliquée, affecter aléatoirement les rangs intermédiaires à l'ensemble des ex-aequo. 3 - Liaison entre deux caractères continus a - Cas normal : Nous avons déjà vu lors du cours de PCEM 1 un test qui permet de mettre en évidence une liaison entre deux caractères continus, lorsque ces deux variables ont une loi jointe normale et ont la même variance, c'est-à-dire que le couple de variables (X, Y) admet pour densité de probabilité en tout point (x,y) du plan : 1 f(x,y) = exp ( - 1 (x-µ) 2-2ρ(x µ)(y µ' ) + (y-µ' 2 π σ 2 ) 2 ) 2(1- ρ 2 ) où µ et µ' sont les espérances de X et de Y et ρ le coefficient de corrélation de X et Y: ρ(x,y) = E [(X - EX) (Y - EY)] σ(x) σ(y) Dans ce cas, les variables X et Y sont indépendantes si et seulement si ρ est nul, et le test d'indépendance est fondé sur la loi du coefficient de corrélation empirique : R =: n (x i - x) (y i - y) i = 1 n [ (x i - x) 2 n ] [ (y i - y) 2 ] i = 1 i = 1 dont la loi, qui dépend de n, est tabulée : voir la table de la loi de R à (n-2) degrés de liberté du cours de PCEM 1. b - Cas général : méthodes non paramétriques : L'hypothèse de normalité et d'égalité des variances nécessaire à l'utilisation du test R cidessus est très restrictive. Lorsqu'une telle hypothèse ne peut pas être faite - ce qui est presque toujours le cas en pratique - on doit trouver une statistique qui, sous l'hypothèse nulle d'indépendance de X et Y, ait une loi qui soit la même quelle que soit la loi du couple (X, Y) : on dit alors que la statistique est libre. L'idée est de remplacer les valeurs des variables par leurs rangs :

Indépendance 38 on ordonne par ordre croissant les valeurs x i observées et on affecte à chacune son rang, qui varie ainsi de 1 à n : R (i) désigne le rang de X i. De même pour les y i : S (i) désigne le rang de Y i. b1 Coefficient de corrélation des rangs de Spearman : r s : Le coefficient de corrélation des rangs de Spearman, noté r s est le coefficient de corrélation de la suite (R(i), S(i)), i = 1,..., n, des rangs : R s =: n (R(i) - R) (S(i) - S) i = 1 n [ (R(i) - R) 2 n ] [ (S(i) - S) 2 ] i = 1 i = 1 Cette formule se simplifie car les valeurs de R, comme celles de S, parcourent la suite des n premiers entiers. Or on sait que n i = 1 i = n (n+1) 2 donc R = S = n + 1 2 n i = 1 i 2 = n (n+1) (2n + 1) 6 donc Σ R 2 = Σ S 2 = n (n+1) (2n + 1) 6 En utilisant pour le coefficient de corrélation l'expression R s = Σ RS (Σ R 2 ) (Σ S 2 ) on obtient, en notant d i la différence R (i) - S (i) entre les rangs de X et de Y : r s = 1-6 Σ d i 2 n 3 - n Exemple Le tableau ci-dessous donne la mortalité annuelle moyenne pour les hommes âgés de 45 à 64 ans, de 1958 à 1964 et la concentration en ion calcium de l'eau potable pour 61 villes d'angleterre et du pays de Galles.

Indépendance 39 Lorsqu'apparaissent des ex-aequo, on affecte à chacun d'eux le même rang, qui est la moyenne des rangs qu'ils auraient eus s'ils n'avaient pas été égaux. Lorsque le nombre des ex aequo n'est pas très important - ce qui est le cas ici -, l'effet d'une telle procédure est négligeable sur le comportement de r s. Si au contraire il y avait beaucoup d'ex aequo, l'effet de cette procédure est de diminuer la somme des carrés des rangs : Σ R 2 (ou Σ S 2, ou les deux) ne vaut plus n (n+1) (2n+1) 6 mais une valeur inférieure qu'il faut alors calculer. Ville Mortalité Calcium Ville Mortality Calcium per 100,000 ppm per 100,000 ppm (y) (x) (y) (x) Bath 1,247 105 Newcastle 1,702 44 Birkenhead 1,668 17 Northampton 1,309 59 Birmingham 1,466 5 Norwich 1,259 133 Blackburn 1,800 14 Nottingham 1,427 27 Blackpool 1,609 18 Oldham 1,724 6 Bolton 1,558 10 Oxford 1,175 107 Bootle 1,807 15 Plymouth 1,486 5 Bournemouth 1,299 78 Portsmouth 1,456 90 Bradford 1,637 10 Preston 1,696 6 Brighton 1,359 84 Reading 1,236 101 Bristol 1,392 73 Rochdale 1,711 13 Burnley 1,755 12 Rotherham 1,444 14 Coventry 1,307 78 St Helens 1,591 49 Croydon 1,254 96 Salford 1,987 8 Darlington 1,491 20 Sheffield 1,495 14 Derby 1,555 39 Southampton 1,369 68 Doncaster 1,428 39 Southend 1,257 50 East Ham 1,318 122 Southport 1,587 75 Exeter 1,260 21 Southshields 1,713 71 Gateshead 1,723 44 Stockport 1,557 13 Grimsby 1,379 94 Stoke 1,640 57 Halifax 1,742 8 Sunderland 1,709 71 Huddersfield 1,574 9 Wallasey 1,625 20 Ipswich 1,096 138 Walsall 1,527 60 Hull 1,569 91 West Bromwich 1,627 53 Leeds 1,591 16 West Ham 1,486 122 Leicester 1,402 37 Wolverhampton 1,485 81 Liverpool 1,772 15 York 1,378 71 Manchester 1,828 8 Cardiff 1,519 21 Middlesborough1,704 26 Newport 1,581 14

Indépendance 40 Swansea 1,625 13 Ici r s = - 0, 727 pour les 30 observations de la colonne de gauche. Que conclure en ce qui concerne ces 30 villes? On fera le même calcul pour l'ensemble des 61 villes. Quelle est alors la conclusion? Sous l'hypothèse nulle d'indépendance des deux variables X et Y, toutes les permutations des rangs de l'une ont les mêmes chances d'être associées à une suite donnée de rangs pour l'autre.a chacune de ces permutations, qui sont en nombre n,correspond une valeur du coefficient de corrélation de Spearman r s.chacune de ces valeurs a donc pour probabilité 1/ n etcette loi a été tabulée. Lorsque n est assez grand, au-delà de 10, la loi de T = R s n - 2 1 - R s 2 est approximativement la loi de Student à n - 2 degrés de liberté. b2 Coefficient d'association des rangs de Kendall : Il s'agit d'une autre mesure d'association entre les rangs de deux variables quantitatives. Le test correspondant à la même puissance que le précédent, et il a l'avantage de se généraliser au cas où intervient une troisième variable : voir ci-dessous, le coefficient de corrélation partielle des rangs. Voyons, sur un exemple, comment se définit le coefficient de Kendall. Exemple : Deux médecins sont chargés de pronostiquer la durée de survie de quatre patients a, b, c, et d. Le tableau ci-dessous donne les pronostics, en années : Patient a b c d Médecin 1 : X 1 2 0,9 0,5 Médecin II : Y 1,5 0,8 2 1 Remplaçant les durées pronostiquées par leurs rangs, et réordonnant les patients par ordre croissant en ce qui concerne le pronostic du premier médecin, on obtient le tableau cidessous Patient d c a b Médecin 1 : R 1 2 3 4 Médecin II : S 2 4 3 1 Pour déterminer le degré de correspondance de ces deux classements, on décompte le nombre de couples (de patients) qui sont rangés dans le même ordre, de la manière suivante :

Indépendance 41 Le premier couple (d, c) est ordonné de la même manière par I et II : on dit qu'il y a concordance, et on affecte à ce couple le score + 1; c'est aussi le cas du deuxième couple (d, a) : on lui affecte aussi + 1; le troisième par contre (d, b) est inversé : il est discordant et on lui affecte le score - 1, et ainsi de suite. On obtient finalement, en additionnant les concordances (+ 1) et les discordances (- 1) la valeur : - 2. Or la plus grande valeur possible de ce coefficient de concordance est égale au nombre des couples distincts, c'est-à-dire le nombre des combinaisons de n = 4 objets pris deux par deux : 4!/(2!2!) = 6 On appelle coefficient d'association de Kendall τ le rapport de la valeur du coefficient de concordance observée à sa valeur maximale : ici τ = 2 6 = 0,33 Comme le coefficient r s de Spearman, τ est compris entre - 1 et + 1. Une autre façon, plus simple, de le calculer est la suivante : A chaque valeur de S on fait correspondre la différence entre le nombre de ceux qui, à droite de lui, sont plus grands que lui et le nombre de ceux qui, toujours à droite de lui, sont plus petits que lui. Ainsi cela donne dans notre exemple : Patient d : 2-1 = 1, c : - 2, a : - 1, ce qui donne en tout -2. La loi de τ sous H o est tabulée. De plus, dès que n est supérieur à 10, la loi de τ µ τ σ τ est approximativement la loi normale N (0, 1), où µ τ = 0 et σ τ = 2 (2n+5) 9n (n-1) b3 Coefficient d'association partielle de Kendall τ xy,z : Il arrive souvent qu'une relation apparente entre deux variables X et Y soit due en fait à l'intervention d'une troisième variable Z. De manière générale, pour mettre en évidence un tel phénomène, on étudie la corrélation

Indépendance 42 entre X et Y à Z fixé. On pourrait par exemple vouloir étudier l'association entre la capacité de mémorisation (X) et celle de résoudre des problèmes (Y), en éliminant l'effet du troisième facteur (Z) que serait l'intelligence. Exemple : Ces trois variables X, Y et Z ont été mesurées sur quatre sujets a, b, c, d. Après remplacement de ces variables par leurs rangs et rangement par ordre croissant par rapport à Z on obtient le tableau suivant : Sujet a b c d Rang de Z 1 2 3 4 Rang de X 3 1 2 4 Rang de Y 2 3 1 4 A chacun des 6 couples de sujets on associe un signe + lorsque la variable correspondante va croissant et un signe - lorsqu'elle va décroissant, obtenant ainsi le tableau : Couple (a,b) (a, c) (a, d) (b, c) (b, d) (c, d) Z + + + + + + X - - + + + + Y - + + + + + Dans le cas où X et Y sont indépendants conditionnellement à Z, la concordance entre le signe de X et celui de Z doit être indépendante de celle qui peut avoir lieu entre ceux de Y et de Z. On considère donc les effectifs des couples concordants et discordants de la manière suivante : Y couples dont le Y couples dont Total signe concorde le signe diffère avec celui de Z de celui de Z X couples dont le signe concorde avec celui de Z A B A + B X couples dont le signe diffère de celui de Z C D C + D Total A + C B + D n! / 2! (n-2)! Ici A = 4, B = 0, C = D =1. On appelle coefficient d'association partielle de Kendall le rapport : AD - BC τ xy,z = (A+B) (C+D) (A+C) (B+D) qui vaut ici 0,63. Si l'on avait calculé le coefficient d'association de Kendall τ xy, on aurait trouvé τ xy = 0,67.

Indépendance 43 Il ne semble donc pas que la concordance entre X et Y soit due à l'influence de Z. On peut démontrer que τ xy,z = τ xy τ zx τ zy (1 τ zy 2 ) (1 τzx 2 ) qui est une formule plus facile à calculer que la précédente, car le nombre des combinaisons de n objets pris 2 à 2 devient rapidement très grand avec n. On pourra le vérifier sur l'exemple. On ne peut malheureusement pas fonder un test sur ce coefficient, car la loi, sous l'hypothèse d'indépendance conditionnelle de X et Y, n'a pu encore être calculée. On pourrait cependant obtenir cette loi par simulation.

Régression linéaire multiple 44 IV Régression linéaire multiple. 1 - Introduction Etant données p + 1 variables aléatoires, notées Y, X 1,..., X p, on suppose connues les variables X 1, X 2,..., X p, appelées variables explicatives, et on cherche à analyser Y, appelée variable réponse ou variable expliquée, en fonction de ces variables. On note X = (X 1,..., X p ). Exemple : Pendant la première quinzaine du mois de décembre 1952, il y eut dans la région de Londres une période de brouillard très intense constituant un record, et on remarque une mortalité accrue pendant cette période. On note pendant ces quinze jours le nombre de morts Y et la teneur atmosphérique moyenne en fumée X 1, mesurée en mg par mètre cube, et en dioxyde de soufre X 2, mesurée en nombre de particules par million. La mortalité Y est la variable expliquée et la pollution atmosphérique X = (X 1, X 2 ) la variable explicative, ici à deux dimensions. Date 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Nbre de morts 112 140 143 120 196 294 513 518 430 274 255 236 256 222 213 ( y) Fumée (x 1) 0.30.49.61.49 2.64 3.45 4.46 4.46 1.22 1.22.32.29.50.32.32 SO 2 (x 2 ).09.16.22.14.75.86 1.34 1.34.47.47.22.23.26.16.16 Ayant observé (Y, X) sur un échantillon de n sujets, on suppose que Y peut être considéré comme une combinaison linéaire des composantes de X, à une erreur ε près, de loi normale et de moyenne nulle, soit : Y = a + p b i X i + ε où L (ε) = N (0, σ 2 ) i = 1 Autrement dit, nous avons un modèle comportant p + 2 paramètres inconnus : a, b 1, b 2,..., b p, σ que l'on peut estimer à partir des valeurs observées : y j p j j = a + b i x i + ε j = 1, 2,...,n i = 1 par la méthode du maximum de vraisemblance. Nous allons faire le calcul explicitement dans le cas de deux variables explicatives. Notons b = (b 1, b 2,...,b p ).

Régression linéaire multiple 45 2 - Estimation des paramètres de la régression : Pour écrire la vraisemblance de l'échantillon, remarquons que les différences j ε = y j - a - p j b i x i i = 1, j = 1, 2,...,n sont n réalisations indépendantes, ε j, d'une variable N(0, σ 2 ). Donc V( a,b,σ) = ( n n 1 2π σ ) π exp (- i = 1 1 2 σ 2 ( y j - a - 2 p j b i x i ) ) i = 1 Notant L le logarithme de la vraisemblance, on obtient : L( a,b,σ) = - n Log ( 2πσ ) - 1 2 σ 2 n j = 1 ( y j - a - 2 p j b i x i ) i = 1 Le maximum sera atteint par les valeurs de a et de b qui rendent minimum la somme : 2 n ( y j p j - a - b i x i ) j = 1 i = 1 somme des carrés des écarts entre Y et son approximation par une combinaison linéaire des X i. Nous retrouvons ici, pour le cas p = 1 d'une seule variable explicative, la droite de régression. Plus précisément, en dérivant par rapport à σ, puis a, puis chacun des b i, on obtient : ce qui donne L σ = - n σ + 1 2 σ La dérivation par rapport à a donne = σ 3 n j = 1 n j = 1 ( y j - a - ( y j - a - n 2 p j b i x i ) i = 1 2 p j b i x i ) i = 1 = 0 L a = 1 σ 2 n j = 1 ( y j - a - p j b i x i ) = 0 i = 1 ce qui fournit

Régression linéaire multiple 46 a = y - p x i i = 1 L b k = 1 σ 2 n j = 1 ( y j - a - p j j b i x i ) xk i = 1 = 0 p équations de ce type, une pour chaque b k, k = 1, 2,..., p. a étant remplacé par â, ces équations peuvent s'écrire n ( y j p j j - y ) - b i ( x i - xi )( x k - x k ) j = 1 i = 1 = 0 Soit : p b i i = 1 pour k = 1, 2,..., p. n j = 1 ( x i j - xi )( x k j - x k ) = n ( y j j - y )( x k j = 1 - x k ) Ces p équations, linéaires par rapport aux paramètres b i à estimer, peuvent s'écrire : b 1 Var(X 1 ) + b 2 Cov(X 1,X 2 ) +... + b p Cov(X 1,X p ) = b 1 Cov(X 2,X 1 ) + b 2 Var(X 2 ) +... + b p Cov(X 2,X p ) = Cov(X 1,Y) Cov(X 2,Y).... b 1 Cov(X p,x 1 ) + b 2 (X p,x 1 ) +... + b p Var(X p ) = Cov(X p,y) en notant Vâr et Côv les variances et covariances empiriques associées à l'échantillon. Cela se simplifie en notations matricielles pour donner, en appelant : Σ X = la matrice de covariance de X = (X 1,..., X p ), dont le terme (i, j) est la covariance et de X i et X j, Σ X = la matrice de covariance empirique b 1 b = b 2. b p le vecteur colonne des paramètres estimés. l'équation matricielle : Σ X b = Σ XY

Régression linéaire multiple 47 Si la matrice Σ X est inversible, alors b = Σ X 1 Σ XY. Remarque 1 : Lorsque la matrice n'est pas inversible, c'est que l'une des composantes de X est une combinaison linéaire des autres et qu'il n'est donc pas nécessaire de la prendre en compte comme variable explicative (Il peut s'agir de k composante de X si la matrice est de rang p - k). Cas particulier de la régression à deux facteurs : Dans le cas où il y a seulement p = 2 variables explicatives, cela donne : Σ X 1 = Var(X 1 ) Cov(X 1,X 2 ) Cov(X 1,X 2 ) Var(X 2 ) - 1 Σ XY = Cov(X 1,Y) Cov(X 2,Y) Dans l'exemple considéré, on trouve : y = 89,51-220,32 x 1 + 1051,82 x 2 L'interprétation de ces coefficients donne un effet positif de la part de l'anhydride sulfureux (SO 2 ) et un effet négatif de la fumée sur le taux de mortalité. Remarque 2 : L'estimateur de b obtenu ci - dessus en généralise celle qui avait été obtenue dans le cas de la régression de Y par rapport à X dans le cas où X n'a qu'une seule composante : b = cov(x,y) Var(X) D'autre part, l'estimateur obtenu pour σ 2 par la méthode du maximum de vraisemblance n 2 e j σ 2 j = 1 = n où les e j = y j p j - (a + b i x i ) sont les résidus, différences entre les valeurs observées, i = 1 les y j, et les valeurs estimées ou prévues à partir des x i, les p j y j = a + b i x i i = 1 est, comme dans le cas d'une dimension, biaisé. Pour en faire un estimateur sans biais il faut le remplacer par

Régression linéaire multiple 48 2 σ' = n 2 e j j = 1 n - p - 1 Remarquons que lorsque la taille n de l'échantillon est grande par rapport au nombre p des variables explicatives, cette correction est peu sensible.ce sera souvent le cas. 3 - Coefficient de corrélation multiple Définition : On appelle coefficient de corrélation multiple ρ m (X,Y) de Y avec X = (X 1,..., X p ) le coefficient de corrélation de Y et de Y' = a + Σ i=1,...,p b i X i, où Y' est la combinaison linéaire des X i qui minimise E[(Y - Y') 2 ] : ρ m (X,Y) = ρ(x,y') En général, nous ne connaissons ni a, ni b, mais nous pouvons calculer la valeur empirique de ρ m ρ m = ρ(y,y' ) Interprétation : ρ m est la plus forte corrélation possible entre Y et une combinaison linéaire des X i : En effet Y' est la projection de Y sur le plan des X i : cos θ o = ρ(y,y') cos θ = ρ(y,z) cos θ o p est le plan engendré par les Xi et passant par le point 0, point moyen (x 1,x 2,...,x p, y ) que nous appelons π. Ici toutes les coordonnées sont supposées centrées : Y = Y - Y et Y = Y - Y ' ρ m =1 si Y = Y' Autrement dit Y a une représentation linéaire exacte à partir des X i (σ 2 = 0). ρ m = 0 si Y est orthogonal à π. Y n'est alors corrélé avec aucun des X i. ρ m est une mesure du degré de liaison entre Y et (X 1, X 2,..., X p ). 4 - Coefficients de corrélation partielle : Il arrive souvent que l'on veuille mettre en évidence une liaison éventuelle entre deux

Régression linéaire multiple 49 variables Y 1 et Y 2 tout en sachant que certaines autres variables (X 1, X 2,..., X p ) ont une influence sur Y 1 et sur Y 2. Pour éliminer le rôle joué par X = (X 1,..., X p ) on peut évidemment maintenir X fixée si c'est possible ; mais alors cela implique - soit que l'on démontre l'existence d'une liaison entre Y 1 et Y 2 seulement conditionnellement à X = x, la valeur fixée. - soit que l'on examine ce même problème pour plusieurs valeurs de X ce qui multiplie considérablement le nombre des observations. Une autre possibilité est de faire une régression - de Y 1 sur X : Y 1 = Y 1 + U 1 - de Y 2 sur X : Y 2 = Y 2 + U 2 Les deux "résidus" U 1 et U 2 peuvent être considérés comme la part de Y 1 (et de Y 2 ) qui ne s'explique pas linéairement en fonction des X i, et par suite : ρ (U 1, U 2 ) peut être considéré comme une mesure du degré de liaison entre Y 1 et Y 2 à X fixé. Définition : ρ (U 1, U 2 ) = R (Y 1, Y 2 / X 1,..., X p ) s'appelle le coefficient de corrélation partielle entre Y 1 et Y 2 à X = (X 1,..., X p ) fixé. Remarque : Lorsque p = 1, on pourra remarquer que (en notant X = Y 3 ) : Ce qui nous rappelle le coefficient de corrélation partielle de Kendall, qui est la même quantité calculée sur les rangs. R(Y 1, Y 2 / Y 3 ) = ρ 12 ρ 13 ρ 23 2 2 ( 1 - ρ 13 ) ( 1 - ρ 23 ) 5 - Qualité de la régression : Comme il est toujours possible de faire une régression de n'importe quelle variable sur n'importe quelles autres variables, il est nécessaire d'analyser la qualité de la régression, c'est-àdire de tester la validité du modèle initial : y = a +Σ b i x i + ε L (ε) = N (0, σ 2 ) Pour ce faire, on considère les résidus : e j = y j - y j pour j = 1, 2,..., n où y j est la part de y j qui est "expliquée" par la variable x j = (x 1 j,...,xp j ).

Régression linéaire multiple 50 Le modèle de régression sera considéré comme d'autant meilleur que la part de la variabilité de Y qui est expliquée par les X i est plus important par rapport à la part résiduelle ; plus précisément : n (y j 2 - y) j = 1 = n ( p 2 j bi (x i - xi)) j = 1 i = 1 + n 2 e j j = 1 Le terme de gauche est la variance estimée des y observés, ou TotSS (pour total Sum of Squares) TotSS~ σ 2 χ 2 n - 1, le premier terme de droite est la variance estimée due à la régression ou RegSS (pour Regression Sum of Squares) RegSS~ σ 2 χ2 p, le deuxième terme de droite est la variance estimée résiduelle ou ErrSS (pour Error Sum of Squares) : ErrSS~ σ 2 χ 2 n - p -1. Notons R 2 le rapport de la variance due à la régression à la variance totale : R 2 = Variance due à la régression Variance totale Alors, si on note F le rapport R 2 1 - R Variance due à la régression = 2 Variance résiduelle Test F de Fisher - Snédécor : Si le modèle est vérifié, la loi de cette variable est celle du quotient de deux variables du chi 2 à p et n-p-1 degrés de liberté, indépendantes. La loi de R 2 / p (1 - R 2 ) / (n - p -1) a été tabulée et s'appelle la loi F de Fisher - Snédécor à p et n-p-1 degrés de liberté (voir la table 4) Ce test est un test de validité globale de la régression. Mais il se peut que des déviations par rapport au modèle initial aient lieu et soient d'un type tel qu'elles peuvent mieux se repérer sur un graphique, en portant - en abscisse les valeurs de y

Régression linéaire multiple 51 - en ordonnée la valeur du résidu correspondant. résidus résidus 0 x 0 Bon ajustement résidus Forte dispersion mais modèle peu variable : les y sont tous prédits avec la même (mauvaise) précision : ajouter des variables explicatives 0 x Le modèle de régression lineaire est inadapté : à corriger. Exemple : Le volume expiratoire moyen en une seconde, appelé Vems, est une quantité qui dépend de la taille et de l'âge. Les mesures faites sur 8 sujets adultes ont donné les résultats suivants. On pourra faire une régression linéaire du Vems sur l'âge et la taille. Individu Age (an) Taille (m) Vems (1 / s) 1 30 1. 85 4. 5 2 32 1. 72 3. 6 3 35 1. 51 2. 7 4 36 1. 62 3. 1

Régression linéaire multiple 52 5 47 1. 62 3. 6 6 31 1. 80 4. 4 7 56 1. 75 4. 3 8 33 1. 68 3. 8 En fait, on apprend après coup, que les quatre premières personnes ont été tirées au hasard d'une population soumise à une pollution atmosphérique significativement plus importante que les 4 autres. On pourra faire un nouveau modèle de régression linéaire pour le Vems incluant cette fois la pollution.

Modèle logistique 53 V Introduction au modèle logistique et aux modèles linéaires généralisés. Le modèle logistique s'introduit naturellement comme l'une des généralisations du modèle linéaire classique (voir "Generalized Linear Models" de P. McCullagh et J.A. Nelder, 1990) lorsque la variable réponse, encore appelée variable à expliquer est binaire. 1 - Le modèle linéaire classique : Nous avons vu le modèle linéaire classique au chapitre précédent : sur chacun des n sujets i d'un échantillon, sont mesurées k + 1 variables (y, x 1, x 2,..., x k ) i, i =1,2,..., n. La variable à laquelle on s'intéresse est Y, appelée variable réponse et les x j sont des covariables chargées d'expliquer Y : la loi de Y est normale de moyenne une combinaison linéaire fixe des x j et de variance constante σ 2 : L (Y i ) = N ( µ i,σ 2 ), η i = b 1 x 1i + b 2 x 2i +... + b k x ki, µ i = η i. Les paramètres du modèle sont donc les b et σ 2 et on peut écrire Y = (Σ b j x j ) + σ ε où ε est une variable normale N (0,1). Afin de le généraliser, on peut décomposer ce modèle en trois parties : 1) La composante aléatoire : Y; la variable Y a une distribution normale de variance constante σ 2 et de moyenne µ. 2) La composante systématique : les covariables x 1, x 2,..., x k, qui fournissent un prédicteur linéaire donné par η = Σ b j x j 3) La fonction de lien entre la composante aléatoire et la composante systématique : ici, η = µ. Les deux généralisations possibles concernent les termes indiqués en italiques ci-dessus : d'une part, on peut remplacer la loi normale par une loi d'une famille exponentielle quelconque, d'autre part, on peut remplacer la fonction de lien, qui est ici l'identité, par une fonction g quelconque : η = g( µ ). 2 - Modèles linéaires pour une réponse binaire : Si Y ne peut prendre que deux valeurs, que l'on note 0 et 1, il est clair que le modèle linéaire classique ne peut pas être utilisé tel quel. Par contre, en utilisant une fonction de lien adéquate, on pourra modéliser l'effet des covariables x 1, x 2,..., x k sur la probabilité p = P (Y = 1) = EY = µ. Les deux exemples de fonctions de lien qui suivent sont les plus couramment employés. Ils correspondent aux inverses de fonctions de répartition de lois usuelles, la loi logistique pour le premier de densité e - x f 1 (x) = (1 + e - x ) 2 et fonction de répartition F 1 (x) = 1 1 + e - x et la loi normale N (0,1) pour le second.

Modèle logistique 54 a. Le modèle logistique : Définition : la fonction logit g 1 est ainsi définie sur [0 1[ : g 1 (p) = log p 1 - p où log désigne le logarithme népérien. Le modèle associé à la fonction de lien logit est appelé le modèle logistique. Il stipule que log P ( Y = 1 / X = x ) P ( Y = 0 / X = x ) = b o + b 1 x 1 +... + b k x k = b o + < b, x > b. Le modèle probit : Définition : La fonction probit g 2 est ainsi définie : g 2 (p) = Φ - 1 (p) où Φ désigne la fonction de répartition de la loi normale N (0,1). Le graphe de cette fonction g 2 est voisin de celui de la fonction logit. Le modèle probit est souvent employé en pharmacologie, par exemple pour modéliser, en fonction de la dose absorbée, la proportion des animaux qui meurent, lors d'un essai d'un produit toxique. 3 - Propriétés du modèle logistique : Les bonnes propriétés du modèle logistique peuvent être illustrées par un exemple. Considérons le cas où Y désigne l'apparition d'une maladie M : M désigne la présence de la maladie, soit Y = 1, et M c son absence, soit Y = 0. La covariable est le facteur d'exposition, traditionnellement appelé E. On a alors le tableau d'effectifs suivant, qui peut avoir été obtenu de diverses manières, soit prospective, soit rétrospective.

Modèle logistique 55 E c M c M Total n oo n o1 n o. E n 1o n 11 n 1. Total n.0 n.1 n a. Etude prospective : Si on fait une étude prospective, on choisit les effectifs de personnes exposées, n 1. = n1o + n11, et non exposées, n o. = noo + no1, et on les suit jusqu'à ce que se développe la maladie M : à l'issue de cette étude longitudinale, certains auront développé la maladie ( n o1 + n 11 ) et d'autres pas ( n oo + n 1o ). Dans ce cas, ce sont les totaux associés à l'exposition, c'est à dire les totaux de lignes, n o. et n 1. qui sont fixés : n o., total de la 1 ère ligne, désigne la totalité des non-exposés, n 1., total de la 2 ème ligne, désigne la totalité des exposés. Comme la covariable E ne prend que deux valeurs, il n'y a que deux logits : celui des exposés et celui des non-exposés, soit log P ( M / Ec ) P ( M c / E c ) = log p 01 p 00 pour les non-exposés et log P ( M / E ) P ( M c / E ) = log p 11 p 10 pour les exposés. La différence entre ces deux logits, logit des exposés - logit des non-exposés, est égale au logarithme de l'odds ratio : = log p 11 p 00 p 10 p 01 On voit là que le fait que les totaux de lignes soient fixés n'a aucune importance puisque cette quantité ne dépend pas des probabilités d'être ou non exposé p 1. et p o.. b. Etude rétrospective : Dans ce cas, on a affaire à une étude transversale où sont tirés au sort des malades et des témoins pour lesquels sont demandés quels ont été les facteurs d'exposition. Ce sont cette fois les totaux de colonnes, associés à la maladie, qui sont fixés : n.o pour les non-malades, c'est à dire les témoins et pour les malades et n.1 pour les malades et les logits sont respectivement log P( E / M ) P( E c = log p 11 / M ) p 01

Modèle logistique 56 pour les bien-portants. log P( E / Mc ) P( E c / M c ) = log p 10 p 00 La différence entre ces deux logits est la même que précédemment : elle est insensible au fait que soient fixés les totaux de lignes ou les totaux de colonnes, c'est à dire à la manière dont est conduit e l'expérience: rétrospective ou prospective. Pour la même raison, elle est insensible à la plus ou moins grande rareté de la maladie, ou du facteur d'exposition. Ayant constaté ces qualités sur l'exemple ci-dessus, qui est très simple mais aussi très souvent utilisé, montrons qu'elles restent valables dans le cas le plus général : Supposons en effet que Z soit la variable de tirage, qui vaut 1 si le sujet est choisi et 0 sinon. Alors P ( Z = 1 M, x ) = π 1 indépendant de x, P ( Z = 1 M c, x ) = π 0 indépendant de x. Par exemple, si la maladie M est rare, on aura π 1 >> π 0 pour avoir un effectif de malades assez grand. Alors, ce qu'on verra, ce n'est pas P ( M x) mais P ( M Z = 1, x ). Or P ( M / Z = 1, x ) = P ( Z = 1 / M, x ) P ( M / x ) P ( Z = 1 / M, x ) P ( M / x ) + P ( Z = 1 / M c, x ) P ( M c / x ) = π 1 e b 0 + < b, x > π 1 e b 0 + < b, x > + π 0 = e b 0 * + < b, x > e b 0 * + < b, x > + 1 en posant e b* 0 = e b 0 π 1 π 0 Le même calcul avec M c au lieu de M donne P ( M c / Z = 1, x ) = 1 1 + e b 0 * + < b, x > En faisant le rapport des deux, on voit que le modèle logistique est conservé tel quel : P ( M / Z = 1, x ) P ( M c / Z = 1, x ) = e < b, x > + b* 0

Modèle logistique 57 4 - Modèles linéaires pour des variables ayant plus de deux valeurs : Régression polytomique : On suppose maintenant que la variable réponse Y peut prendre J valeurs où J peut être supérieur à 2. Le résultat de l'observation de n variables Y peut être résumé par une variable multinomiale N = (N 1, N 2,..., N J ) qui compte le nombre de fois N j que l'on a observé la modalité j de Y : N ~ M(n, p 1, p 2,..., p J ) Exemples : 1) Y désigne l'état de santé d'un patient décrit par un score allant de 1 (guéri) à 5 (gravement atteint). Alors J = 5 et la variable est quantitative ou ordinale, c'est à dire que ses valeurs sont ordonnées. Sur n patients, N 1 désigne le nombre de ceux qui sont guéris, N 2 le nombre de ceux qui sont légèrement atteints, etc.. 2) Y désigne le groupe sanguin d'un sujet : 0, A, B, AB. Alors J = 4 et la variable est qualitative ou nominale, c'est à dire qu'il n'y a pas d'ordre sur l'ensemble des valeurs qu'elle prend. Selon que les variables sont nominales ou ordinales, ce ne sont pas les mêmes modèles qui entrent en jeu. remarquons d'abord que nous pouvons toujours appeler l'ensemble des valeurs que peut prendre Y : {1, 2,..., J} que Y soit ou non ordinale. Simplement, si Y est nominale l'ordre des modalités est sans importance. La modélisation doit porter sur des probabilités de la forme suivante : Soit p j = P( Y = j X =x) (1) Soit P j = P( Y j X =x) (2) Dans le cas purement nominal, le modèle portera sur (1), mais il sera plus intéressant dans le cas ordinal de faire porter le modèle sur les probabilités cumulées (2) plutôt que sur les probabilités isolées (1). a Cas nominal : Notons comme d'habitude X la variable explicative. On généralise le modèle logistique vu dans le cas où Y prend seulement 2 valeurs, en prenant pour référence l'une des modalités de Y, par exemple la dernière : Log P(Y = j X =x) P(Y = J X =x) = θ j + b j x j= 1, 2,..., J 1 où θ j et b j sont des constantes. Dans le cas où il y a plusieurs variables explicatives, c'est à dire si x = (x 1,..., x R ), b j x est remplacé par le produit scalaire <b j, x> = b jr x r, mais on notera tout de même b j x lorsque cela ne peut pas créer de confusion. Comme la somme de toutes les probabilités P( Y = j X =x) doit être égale à 1, cela donne finalement comme expression pour les p j : P(Y = j X = x) = e θ j + b j x 1 + Σ J 1 i=1 e θ i + b i x j= 1, 2,..., J 1 Remarque : Si on ne veut pas faire jouer un rôle particulier à la modalité de référence prise ici comme la dernière, on peut remarquer qu'elle ne joue aucun rôle et écrire le modèle de manière symétrique. En effet, on peut multiplier haut et bas de la fraction ci-dessus par e θ J + b J x et renommer θ i la somme θ i + θ J et b i la somme b i + b J, dont on voit donc qu'elles sont définies à une constante additive près. Avec cette approche symétrique, le même modèle s'écrit :

Modèle logistique 58 P(Y = j X = x) = e θ j + b j x Σ i=1 J e θ i + b i x j= 1, 2,..., J Interprétation : Pour deux catégories j et j' le rapport des probabilités p j '/ p j change d'un facteur e (b j' b j )(x' - x) quand on passe de x à x'. b Cas ordinal : Dans ce cas là, pour chaque valeur j de Y on peut dichotomiser, c'est à dire couper en deux les valeurs de Y : celles qui sont plus grandes et celles qui sont plus petites et écrire : Log P(Y j X =x) P(Y > j X =x) = θ j + b x, j= 1, 2,..., J 1 Les θ j doivent bien sûr être croissants quand j croît. Ce modèle s'appelle en anglais "modèle des odds proportionnels" (proportional odds) parce que le rapport des "odds" pour deux valeurs différentes x et x' de la covariable est indépendant de l'endroit où on fait la coupure j. En effet : P(Y j P(Y j X = x)/p(y > j X = x) X = x' )/P(Y > j X = x' ) = b(x x') e Le rapport des cotes (odds) ne dépend que de la différence entre les valeurs de la variable explicative X et non de j, la valeur de la coupure. Remarque 1 : Comme cela a été dit au premier paragraphe, on aurait pu choisir une autre fonction de lien que la fonction logit. Par exemple : Log (- log ( P(Y>j X = x))) = θ j + bx Ce modèle correspond au modèle des "hasards proportionnels". On pourra se référer au modèle de Cox en analyse des durées de survie pour constater l'analogie. Remarque 2 : On peut interpréter le modèle des "odds proportionnels" de la manière suivante : il existe une variable continue Z non observée telle que Z - bx obéisse à la distribution logistique. Alors, si la variable Z non observée est entre θ j-1 et θ j, ce que l'on observe est y = j.cela donne en effet : P(Y j ) = P( Z θ j ) = P (Z - bx θ j - bx) = exp ( θ j - bx) / (1 + exp ( θ j - bx) ). Z est appelée une variable latente. Exemple 1 :

Modèle logistique 59 Un exemple traditionnel est le suivant : la réponse est le verdict dans des affaires criminelles, en trois catégories (coupable, non coupable et non lieu), en fonction de la race, en deux catégories, (blanche ou noire), du comté (Durham, ou Orange) et du type du délit (ivresse, violence, vol, menaces et drogue). La réponse est ordinale puisqu'il y a une gradation dans le verdict, le non lieu étant le plus faible et la culpabilité le plus lourd. Y sera le verdict, X le profil (race, comté, délit) et le modèle du type : P(Y > j X = x) Log = θ j + bx P(Y j X = x) Effectuer l'analyse des données observées à l'aide de Splus. Exemple 2 : On pourra essayer de traiter de cette manière l'exemple ci-dessous, où la dépression, en trois classes peut être considérée comme une variable réponse. Dans une étude psychiatrique, on a pour chaque patient les 4 variables : A validité énergique A1 asthénique A2 B solidité hystérique B1 rigide B2 C stabilité introverti C1 extraverti C2 D dépression grave D1 légère D2 absente D3 La seule variable qui pourrait être considérée comme une variable réponse est la dépression que l'on va donc grouper en deux classes, en notant D1 la dépression grave et D2 la dépression légère ou absente. C1 C2 B1 B2 B1 B2 D1 A1 15 9 23 14 A2 30 32 22 16 C1 C2 B1 B2 B1 B2 D2 A1 25 46 14 47 A2 22 27 8 12 5 Deux exemples de modèles : variables purement catégorielles et variables mixtes : a. Modèles log-linéaires pour des variables purement catégorielles quelconques : On a cette fois I variables, toutes catégorielles, qui sont sur le même plan. Il n'y a pas, a priori, de variable réponse Y dont on tente d'expliquer le comportement grâce à une variable X de dimension I - 1. Soit donc :

Modèle logistique 60 X = (X 1, X 2,..., X I ) P( X = x ) = P( (X 1 = x 1, X 2 = x 2,..., X I = x I ) = p (x 1, x 2,..., x I ) A priori, la seule contrainte est que la somme de toutes ces probabilités soit égale à 1. Lorsqu'on veut faire des modèles, on peut procéder de la manière suivante : Notant l (x 1, x 2,..., x I ) = log (p (x 1, x 2,..., x I )), on peut toujours écrire cette fonction comme la somme suivante : l (x 1, x 2,..., x I ) = c + l 1 (x 1 ) + l 2 (x 2 ) +...+l 1 (x 1 ) + l 12 ( (x 1, x 2 ) + l 13 ( (x 1, x 3 ) +...+ l I-1, I (x I-1, x I ) + l 123 (x 1, x 2, x 3 ) +... Choisir un modèle consiste alors à annuler certaines des fonctions qui interviennent dans le développement. On peut montrer que cela revient à supposer nulles certaines interactions entre les X i. Ces modèles, appelés log-linéaires font l'objet du chapitre suivant. b Modèles Mixtes pour un mélange de variables discrètes et continues : A présent, la variable observée (X,Y) est constituée d'une variable dicrète X, de dimension p et d'une variable Y, de dimension q : X est catégorielle : X = (X 1, X 2,..., X p ) = {1, 2,..., p} Y est continue : Y = (Y 1, Y 2,..., Y q ) Γ = {1, 2,..., q} Comme on est amené à considérer des sous-ensembles des composantes de X, ainsi que de Y, on adopte la notation suivante : Soit x une valeur de X. Si a, X a désigne l'ensemble des composantes de X dont l'indice est dans a et x a désigne la valeur de X quand X vaut x. Voyons sur un exemple ce que cela signifie : Lors d'une étude du cancer du sein, on a relevé sur un certain nombre de patientes de trois hôpitaux, l'un à Tokyo, le second à Boston et le troisième à Glamorgen, leur âge, la nature de la tumeur, bénigne ou maligne, le degré d'inflammation et la durée de la survie. on a donc une variable de dimension 5, qui a des composantes continues et d'autres discrètes : X est catégorielle : X = (X 1, X 2, X 3 ) = {1, 2, 3} ; p = 3. Y est continue : Y = (Y 1, Y 2 ) Γ = {1, 2} ; q = 2. X 1 = centre hospitalier : Tokyo, Boston, ou Glamorgen, X 2 = nature de la tumeur : bénigne ou maligne, X 3 = inflammation : grave ou légère. Y 1 = âge, Y 2 = durée de survie Supposons que pour un sujet, on ait observé x = (Tokyo, maligne, légère, 54, 8), (en supposant que l'âge et la durée de survie aient été arrondies à l'année). Alors, si a = {1,3}, que vaut x a?

Modèle logistique 61 x a = (Tokyo, légère). Les modèles qui seront considérés dans ce cas sont des modèles conditionnellement gaussiens, notés en abrégé C-G, qui peuvent être ainsi définis : la loi de la composante continue Y, lorsque la composante X est fixée à la valeur x, est normale, de moyenne µ(x) et de matrice de covariance Σ(x). On peut donc écrire les modèles conditionnellement gaussiens : L ( Y X = x) = N (µ(x) ; Σ(x)) La loi jointe du couple (X,Y) peut donc s'écrire : f(x,y) = p(x) g(y x) = p(x) 2π q Σ(x) exp - 1 2 (y - µ(x))'σ(x) -1 (y - µ(x Les paramètres naturels que l'on voit apparaître sont donc : p(x) µ(x) Σ(x) la loi de la partie discrète de la variable, la moyenne de la partie continue, la matrice de covariance de la partie continue. Ce paramétrage, par les moments, a une interprétation immédiate. Mais on peut préférer un autre paramétrage, appelé paramétrage canonique, qui est moins clair en ce qui concerne l'interprétation mais qui donne une expression plus simple pour la loi jointe f(x,y) : Paramétrage canonique : α(x) = log (p(x) - (1/2) log ( Σ(x) ) -(1/2) µ(x)σ(x) -1 µ(x) - (q/2) log(2π) β(x) = Σ(x) -1 µ(x) Ω(x) = Σ(x) -1 La loi du couple s'écrit avec ces paramètres : 1 f(x,y) = exp α(x) + β j(x)y j ω j 2 jj' jj' (x)y j y j' Chacun des paramètres, α(x), β(x) et Ω(x) peut être développé comme une somme de fonctions, comme précédemment. Par exemple α(x) = α (x 1, x 2,..., x p ) = c + α 1 (x 1 ) + α 2 (x 2 ) +...+ α p (x p ) + α 1 2 ( (x 1, x 2 ) + α 13 ( (x 1, x 3 ) +...+ α p-1, p (x p-1, x p ) + α 123 (x 1, x 2, x 3 ) +... Les modèles que l'on définit à partir de cette base sont obtenus en annulant certains des termes de cette somme. On peut démontrer que si tous les termes contenant deux variables sont nuls, alors ces deux variables sont indépendantes conditionnellement aux autres. On a donc dans ce cas une interprétation simple des modèles obtenus.

Survie 62 VI Modèles pour les Durées de Survie avec Censure. 1 - Introduction : L'analyse des durées de survie a essentiellement deux objectifs : - Lors d'un essai thérapeutique, il s'agit de tester l'efficacité d'un nouveau traitement en comparant les durées de survie qu'il permet d'obtenir à celles que le traitement habituel (ou un placebo) permettent d'avoir. - Lors d'une étude épidémiologique, il s'agit d'évaluer la valeur pronostique d'un ou plusieurs facteurs. C'est ce second volet qui nous intéressera ici, mais les modèles employés et les méthodes correspondantes sont essentiellement les mêmes. Le terme de durée de survie est employé de manière générale pour désigner le temps qui s'écoule jusqu'à la survenue d'un événement particulier qui n'est pas forcément la mort : il peut s'agir par exemple d'une rechute et la durée de survie est, dans ce cas, un délai de rémission, ou de la guérison, et la durée de survie représente le délai allant jusqu'à la guérison. Exemple 1 (Données de Freireich) : Freireich, en 1963, a fait un essai thérapeutique ayant pour but de comparer les durées de rémission, en semaines, de sujets atteints de leucémie selon qu'ils ont reçu ou non du 6 M-P (le groupe témoin a reçu un placebo et l'essai a été fait en double aveugle). Traitement Durée de rémission, en semaines 6 M-P 6, 6, 6, 6 +, 7, 9 +, 10, 10 +, 11 +, 13, 16, 17 +, 19 +, 20 +, 22, 23, 25 +, 32 +, 32 +, 34 +, 35 +. Placebo 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23. Les chiffres suivis du signe + correspondent à des patients qui ont été perdus de vue à la date considérée. Ils sont donc exclus "vivants" de l'étude et on sait donc seulement d'eux que leur "durée de survie" est supérieure à celle indiquée. Par exemple, le quatrième patient traité, par 6 M-P a eu une durée de rémission supérieure à 6 semaines. On dit que les perdus de vue ont été censurés, et ce problème de la censure demande un traitement particulier. En effet si l'on se contentait d'éliminer les observations incomplètes c'est-à-dire les 12 patients censurés du groupe traité par le 6 M-P on perdrait beaucoup d'information. Par exemple un test de Wilcoxon appliqué aux 9 patients restants dans le groupe 6 M-P et aux 21 patients du groupe Placebo sous-évaluerait l'effet du traitement très visiblement.

Survie 2 - Définition de la fonction de survie et du risque instantané : 63 Si on appelle X la variable aléatoire qui est la durée de survie, et si on examine n patients, leurs durées de survie X i, i = 1, 2,..., n sont supposées indépendantes et équidistribuées, de densité f (t) sur [0 ; + ], de fonction de répartition F (t) = P (Xt). Fonction de survie S(t) : Par définition,, c'est la probabilité de survivre au delà de l'instant t : S(t) = P (X t ) = 1 - F(t). Risque instantané λ (t) : Par définition, λ(t) dt désigne la probabilité pour un patient de mourir entre les instants t et t + dt sachant qu'il a survécu jusqu'à l'instant t : λ(t) dt = P (t X < t + dt X t). Par suite λ(t) = f(t) / S(t). D'autres termes sont quelquefois employés pour désigner λ, par exemple le "taux de hasard" (hazard rate en anglais) ou la "force de mortalité" (force of mortality), ou l'intensité de mort. Remarque : Si l'on connaît S, on peut calculer λ. En effet λ = - S' / S. Et, inversement, en intégrant cette égalité on obtient : t t λ(s) ds = [LogS(u)] 0 = - Log [S(t)] puisque S(O) = 1. 0 Ce qui s'écrit aussi : t S(t) = exp [ - λ(s) ds ] 0 Par exemple, si le risque instantané est toujours le même, c'est à dire égal à une valeur constante a, S(t) = exp ( - at ), et on reconnaît que la durée de vie X suit la loi exponentielle de paramètre a et de densité f(t) = a exp ( -at). 3 - Types de censure : a) Censure de type I : fixée Au lieu d'observer les variables X 1,..., X n qui nous intéressent, on n'observe T i que lorsque T i C, sinon on sait seulement que T i est supérieur à C. On note aussi T i = X i C. (le signe signifie : a b = min (a, b)), la plus petite des deux valeurs a et b. b) Censure de type II : attente On décide d'observer les durées de survie des n patients jusqu'à ce que r d'entre eux soient décédés et d'arrêter l'étude à ce moment là. Si l'on ordonne les durées de survie X 1,..., X n, soit X (1) la plus petite, X (i) la i ème etc... : X (1) X (2)... X (n)

Survie 64 On dit que les X (i) sont les statistiques d'ordre des X i. La date de censure est alors X (r) et on observe : T (1) = X (1) T (2) = X (2) T (r) = X (r) T (r+1) = X (r)... T (n) = X (r) c) Censure de type III : aléatoire A chaque patient i, associons non seulement son temps de survie X i mais aussi son temps de censure C i. On n'observera évidemment que le plus petit des deux, c'est-à-dire T i = X i C i Mais on peut supposer que, tout comme les X i, les C i sont indépendantes et équidistribuées (iid) de fonction de répartition G. On fait l'hypothèse que : C i et X i sont indépendantes. Alors pour le i ème patient, l'information dont on dispose peut être résumée par: - la durée réellement observée T i - un indicateur D i du fait qu'à l'issue de cette durée d'observation le patient est : - mort : D i = 1 - censuré : D i = 0. La censure aléatoire, lors d'un essai thérapeutique peut avoir plusieurs causes : 1. perte de vue : le patient peut décider d'aller se faire soigner ailleurs et on ne le revoit plus. 2. arrêt de traitement : le traitement peut avoir des effets secondaires si désastreux que l'on est obligé d'arrêter le traitement. 3. fin de l'étude : l'étude se termine alors que certains des patients sont toujours vivants. patient 1 X 1 patient 2 X 2 + patient 3 X 3 + 0 Fin de l'étude temps Le premier patient est entré au début de l'étude et il est mort à la date X 1. Le deuxième patient entré dans l'étude était toujours vivant à la fin. Et le troisième a été perdu de vue avant la fin de l'étude.

Survie 65 Remarque : L'hypothèse d'indépendance de X i et de C i est utile mathématiquement. Il est important de voir si elle se justifie. Dans les cas où la censure est due à un arrêt du traitement, elle n'est pas vérifiée. Notation : Par abus de notation, lorsqu'on ordonne les durées de survie (T i, D i ) selon les valeurs croissantes des T soit : On notera D (i) le D associé à T (i). T (1) T (2)... T (n) 4. Estimation de la fonction de survie Si l'on ne peut pas supposer a priori que la loi de la durée de survie obéit à un modèle paramétrique, on peut estimer la fonction de survie S grâce à plusieurs méthodes non- paramétriques dont la plus intéressante est celle de Kaplan-Meier. a) Estimateur de Kaplan-Meier : Cet estimateur est aussi appelé P-L car il s'obtient comme un produit-limite. Il est fondé sur la remarque suivante : La probabilité de survivre au-delà de l'instant t est égale au produit suivant : S(t+) = P (X > t X >t').s (t'). Si l'on renouvelle l'opération en choisissant une date t" antérieure à t', on aura de même S(t') = P (X >t' X > t").s (t"), et ainsi de suite. Si l'on choisit pour les dates où l'on conditionne celles où il s'est produit un événement, qu'il s'agisse d'une mort ou d'une censure, on aura seulement à estimer des quantités de la forme : P (X > T (i) X > T (i-1) ) = p i qui est la probabilité de survivre pendant l'intervalle de temps I i = ] T (i-1) T i ] quand on était vivant au début de cet intervalle. Notons : R i = le nombre des sujets qui sont vivants juste avant l'instant T (i), ce que l'on note: # vivants à l'instant T (i) ou # sujets de R (T (i) ) en désignant par R (t) l'ensemble des sujets à risque à l'instant t - M i = le nombre des morts à l'instant T (i) q i = 1 - p i est la probabilité de mourir pendant l'intervalle I i sachant que l'on était vivant au début de cet intervalle. Alors l'estimateur naturel de q i est q i = M i R i Supposons qu'il n'y ait pas d'ex-aequo Si D (i) = 1, c'est qu'il y a eu un mort en T (i) et donc M i = 1. Si D (i) = 0, c'est qu'il y a eu une censure en T (i) et donc M i = 0. Par suite, p i = 1-1 R i en cas de mort en T (i) 1 en cas de censure en T (i).

Survie 66 L'estimateur de Kaplan-Meier est donc dans ce cas : S(t) ˆ = ( 1 - T(i) t 1 n - i ) + 1 Exemple 2 : Sur 10 patients atteints de cancer des bronches on a observé les durées de survie suivantes, exprimées en mois : 1 3 4 + 5 7 + 8 9 10 + 11 13 + L'estimateur de Kaplan-Meier de la fonction de survie S (t) vaut : S(0) = 1 et S(t) = 1 pour tout t dans [0 1[ S(1) = (1-1 ) S(0) = 0,9 10 S(3) = (1-1 ) S(1) = 0,80 9 S(5) = (1-1 ) S(3) = 0,6857 7 S(8) = (1-1 ) S(5) = 0,5485 5 S(9) = (1-1 ) S(8) = 0,411 4 D(i) 1 0,5 0,2 0,1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 t (mois) Mais la plupart du temps il y a des ex aequo, comme dans le premier exemple qui est celui des données de Freireich.

Survie 67 Cas où il y a des ex-aequo : 1) Si ces ex-aequo sont tous des morts, la seule différence tient à ce que M i n'est plus égal à 1 mais au nombre des morts et l'estimateur de Kaplan-Meier devient : S(t) = π T (i) Š t 1 - M i R i 2) Si ces ex-aequo sont des deux sortes, on considère que les observations non censurées ont lieu juste avant les censurées. Voyons ce que donne l'estimateur de Kaplan-Meier dans le cas des données de Freireich. Pour le traitement : S(0) = 1 et S(t) = 1 pour tout t dans [0 6[ S(6) = (1-3 ) S(0) = 0,857 21 S(7) = (1-1 ) S(6) = 0,807 17 S(10) = (1-1 ) S(7) = 0,753 15 S(13) = (1-1 ) S(10) = 0,690 12 S(16) = (1-1 ) S(13) = 0,627 11 S(22) = (1-1 ) S(16) = 0,538 7 S(23) = (1-1 ) S(22) = 0,448 7 Pour le Placebo : S(1) = (1-2 ) S(0) = 0,905 21 S(2) = (1-2 ) S(1) = 0,895 19 S(3) = (1-1 ) S(2) = 0,842 17 S(4) = (1-2 ) S(3) = 0,737 16 S(5) = (1-2 ) S(4) = 0,632 14 S(8) = (1-4 ) S(5) = 0,421 12

Survie 68 S(11) = (1-2 ) S(8) = 0,316 8 S(12) = (1-2 ) S(11) = 0,210 6 S(15) = (1-1 ) S(12) = 0,158 4 S(17) = (1-1 ) S(15) = 0,105 3 S(22) = (1-1 ) S(17) = 0,053 2 S(23) = (1-1 1 ) S(22) = 0 b) Estimateur de Greenwood de la variance de S-chapeau(t) : L'estimateur de Greenwood de la variance de l'estimateur de Kaplan-Meier de la fonction de survie est obtenu heuristiquement en faisant deux approximations : Premièrement, on remarque que Log( S(t)) ˆ = (1 qˆ ) i :T i t Or la variance de chaque terme vaut p i q i. Deuxièmement, si les q i étaient indépendants, la variance de la somme serait égale à la somme des variances. Cela donne finalement : Var(Ŝ(t)) [Ŝ(t)] i n 2 i t t ni (ni m i i ) formule qui est obtenue en employant la delta-méthode qui consiste à faire l'approximation, si X est approximativement égal µ + σ Z, Z centré réduit et σ petit : Var(f(X)) Var(f(µ + σ Z)) Var(f(µ) + σ Z f''(µ)) (σ f''(µ)) 2, avec f = Log. 5 - Modèles paramétriques Voici les modèles les plus employés : a. Modèle exponentiel : Il correspond à un risque constant : λ étant une valeur constante,le risque de mort instantané est égal à λ : λ (t) = λ quel que soit t Alors la fonction de survie S (t) = exp ( - [0 t] λ ds ) = e - λt et la densité de la loi de la durée de survie est f (t) = - S'(t), c'est à dire : S (t) f (t) = e - λt = λ e -λt Son espérance et sa variance sont respectivement :

Survie 69 EX = 1 / λ et Var (X) = 1 / λ 2. b. Modèle Gamma : C'est une généralisation du modèle exponentiel, ayant pour densité : f(t) = λ a Γ(a) ta - 1 e - λ t a > 0, λ > 0. On voit que pour a = 1, on a le modèle exponentiel. Ici, EX = a / λ et Var (X) = a / λ 2. Densité gamma, pour λ = 1 et a = 1/ 2 : 1 a = 1 : 2 a = 2 : 3 a = 3 : 4 Densités des lois gamma. 1.5 1.0 densité 0.5 a = 0.5 a = 1 a = 2 a = 3 0.0 0 1 2 3 temps t 4 5 6 On pourrait calculer la fonction de survie, S (t) = [t [ f(s) ds et le risque instantané λ(t) = f(t) / S(t), mais ils ont dans ce cas une forme moins simple que celle de la densité. c. Modèle de Weibull : C'est une autre généralisation du modèle exponentiel : Alors, on en déduit : S(t) = e - (λt)α α > 0, λ > 0. λ(t) = λα (λt) α 1 ( = d dt Log(S(t)) ). f(t) = λα (λt) α 1 e - (λt)α ( = λ S(t) ).

Survie 70 Densité de Weibull pour λ = 1, α = 0.5 : 1 λ = 1, α = 1 : 2 λ = 0.5, α = 2 : 3 λ = 0.33, α = 3 : 4 Densités de lois Weibull. 1.5 a = 1 lambda = 1 a = 0.5 lambda = 1 1.0 a = 2 lambda = 0.5 densité 0.5 a = 3 lambda = 0.33 0.0 0 1 2 3 temps t 4 5 6 Les expressions de l'espérance et de la variance de X ne sont pas simples. d. Modèle de Rayleigh : Il correspond à une intensité linéaire en fonction du temps t : λ (t) = λ 0 + λ 1 t Alors S(t) = exp ( - λ o t - (1/2) λ 1 t 2 ) f(t) = ( λ 0 + λ 1 t ) exp ( - λ o t - (1/2) λ 1 t 2 ) e. Modèle Log-normal : Par définition, le logarithme de la durée de survie suit une loi normale : L (Log X i ) = N (µ, σ 2 ). Alors S (t) = P (Log X > Log t) = 1 - Φ [(Log t - µ ) / σ] où Φ désigne la fonction de répartition de la loi normale standard N (0, 1). f. Modèle de Pareto : On emploie ce modèle lorsqu'on est assuré que la survie dure au moins jusqu'à un instant a : λ(t) = α t 1 [a + [ (t) a > 0, α > 0 Alors

Survie 71 S(t) = a t α 1 [a + [ (t) et f(t) = α a α t α + 1 1 [a + [ (t) Les différents modèles sont classés suivant que le risque instantané est croissant ou décroissant : Risque instantané Constant Modèle Exponentiel Weibull (α >1) Croissant Gamma (a > 1) (RIC) Rayleigh (λ 1 > 0) Weibull (α < 1) Décroissant Gamma (a < 1) (RID) Rayleigh (λ 1 < 0) Pareto On peut aussi employer le risque moyen : pour la classification (RMC, RMD). RM(t) = 1 t 0 t λ(u) du RIC est généralement noté IFR (Increasing Failure Rate). RID est généralement noté DFR (Decreasing Failure Rate). 6. Un modèle semi-paramétrique : le modèle de Cox : Le modèle de Cox est employé lorsqu'on cherche à évaluer l'effet de certaines variables sur la durée de survie. a - Définition du modèle : Le cadre est le suivant : Les 2n variables X 1,..., X n et C 1,..., C n que sont les durées de survie et les temps de censure des n individus considérés sont supposées indépendantes. On observe la suite des n couples de variables (T i, D i ) : T i date de départ du i ème individu (en supposant qu'ils sont tous entrés à l'instant 0) D i indicatrice de la cause de départ ( D i = 1 si c'est la mort, 0 sinon) D i = 1 {X C}. Mais on a aussi observé sur chacun des individus une variable Z i = (Z i1,..., Z ip ) dont dépend la durée de survie X i. Cette variable Z est généralement appelée covariable. Le modèle des "hasards proportionnels", ou modèle de Cox suppose que

Survie 72 λ(t Z = z) = λ0(t) e b1 z1 + b2 z2 +... + bpz p b' = (b 1,..., b p ) est le vecteur des coefficients de la régression. λ 0 (t) est le risque instantané de base. En général, ils sont inconnus tous les deux. Remarque : La famille des lois d'un tel modèle est du type suivant : Toutes les fonctions de survie sont égales à une même fonction S o élevée à des puissances variées : S = S o γ t S o (t) = exp ( - λ o (u) du ) γ = exp ( Σ j = 1,.., p b j z j ) On dit qu'il s'agit d'une famille d'alternatives de Lehmann. Exemple : Prenons le cas le plus simple : 1 seule covariable (p = 1) prenant seulement les valeurs 0 ou 1. Il peut s'agir par exemple d'un essai thérapeutique destiné à comparer l'effet d'un nouveau traitement (Z = 1 pour les patients traités) à celui du traitement habituel ou d'un placebo (Z = 0), sur la durée de survie. On a alors deux populations : Si Z = 0, S (t) = S o (t) 0 Si Z = 1, S 1 (t) = S o (t) exp (eb ) soit S 1 = S γ o où γ = e b mesure l'effet du traitement. Le modèle comporte donc un paramètre qui est une fonction : λ 0, considéré en général comme nuisible et p paramètres réels b 1,..., b p qui sont les quantités à estimer, ou à tester, car elles représentent l'effet sur la durée de survie de chacune des covariables correspondantes. b) Vraisemblance partielle de Cox : Pour éliminer le "paramètre" nuisible totalement inconnu qu'est la fonction de hasard (risque instantané de base) λ 0, Cox dans son article initial (JRSS B, 1972), considère la vraisemblance "partielle" suivante : V (b, b,...,b c 1 1 1 ) = p (i) b z j j j = 1 e D = 1 p (i) (k) b z j j j = 1 e k R(i) où T (1) < T (2) <...< T (n) désignent la suite des instants où a lieu un évènement (mort ou censure), et à

Survie 73 l'instant T (i) sont observés : D (i) la nature de l'événement D (i) = 1 si c'est une mort = 0 sinon (censure) Z (i) la covariable, de dimension p, de l'individu à qui est arrivé l'événement R (i) les individus encore à risque à l'instant T (i) ainsi que la valeur de leurs covariables.: Z (k), k R (i). Et Cox traite cette vraisemblance partielle comme une vraisemblance ordinaire. En temps continu, l'hypothèse est faite qu'il n'y a aucun ex-aequo. Le raisonnement (heuristique) de Cox était à peu près le suivant (Plusieurs auteurs ont tenté depuis de donner des justifications théoriques : Gill et Andersen (AS 1982), Johansen (ISR 1983)) : Supposons que λ 0 soit arbitraire. Aucune information ne peut être donnée sur b par les intervalles de temps durant lesquels aucune mort n'a eu lieu, car on peut concevoir que λ 0 soit identiquement nulle dans ces intervalles. On devra alors travailler conditionnellement à l'ensemble des instants où une mort a lieu. (Si le temps est discrétisé, on conditionnera aussi sur le nombre des morts qui ont lieu à un instant donné, mais pour le moment nous travaillons en temps continu). A partir du moment où l'on désire une méthode d'analyse valable pour tout λ 0, il paraît inévitable de considérer cette loi conditionnelle. La probabilité pour qu'une mort se produise dans l'intervalle de temps [T (i) T (i) + T] vaut à peu près : p b j j = 1 k R(i) (k) z j e (i) λ 0 (T ) t et la probabilité pour que cette mort soit celle de (i) sachant qu'une mort a eu lieu vaut : p (i) b z j j j = 1 e p (k) b z j j j = 1 e k R(i) Et on reconnaît chacun des termes du produit qui forme la vraisemblance partielle de Cox V c. Cox propose de traiter cette vraisemblance partielle comme une vraisemblance exacte, c'est-à-dire que l'estimateur de Cox s'obtient en maximisant V c : Notant L c le logarithme de V c, le vecteur des dérivées partielles de L c par rapport aux composantes de b, ou vecteur des scores, est noté DL (b) et vaut

Survie 74 = c p c 2 c 1 L b... L b L b DL(b) Et l' estimateur de Cox, b n, est obtenu en résolvant le système des p équations DL (b n ) = 0. qui s'écrivent : 0 ) e e Z ( Z R(i) k (k) j (i) j 1 :D i ) ( i = = = = R(i) k p 1 j (k) j z j b p 1 j (i) j z j b Il y a en tout p équations, une pour chacune des p variables : j = 1, 2,..., p. En général, les solutions ne peuvent être obtenues que par itération. La matrice d'information, notée I, est la matrice carrée, pxp, qui a pour termes les dérivées secondes du logarithme de la vraisemblance. Une version empirique de cette matrice a pour terme en général 2 R(i) k (k) j' R(i) k (k ) j (k) j' R(i) k (k ) j 1 i:d e e Z e Z e e Z Z Ijj' ) (i = = = = = = = R(i) k p 1 j (k) j z j b p 1 j (i) j' z j' b p 1 j (i) j z j b R(i) k p 1 j (k) j z j b p 1 j (i) j z j b Si l' on dispose d' un estimateur initial b o, on le corrige au premier pas : b 1 = b o + I - 1 (b o ) DL(b o ) Cox affirme (toujours heuristiquement) que L ( n (b n - b)) N (0, I -1 (b))

Survie 75 Cette vraisemblance V c n'est : - ni une vraisemblance marginale, - ni une vraisemblance conditionnelle. En effet, considérons la suite des couples d'aléas tels que, dans l'intervalle (K i, L i ) [T' (i-1) T' (i) [ entre deux morts successives, K i et L i contiennent respectivement : K i : toute l'information relative aux censures ainsi que le fait qu'une mort a lieu à l'instant T' (i). L i : l'information selon laquelle c'est l'individu particulier (i) qui est mort à l'instant T (i), celui dont la covariable vaut Z (i). La loi marginale des L i (i = 1, 2,..., M s'il y a M morts effectivement observées) donne pour vraisemblance marginale : V m (b) = P (L 1,..., L M b ) = πi P (L i L 1,..., L i-1 ; b) Et la vraisemblance des L i conditionnellement aux K i est : V c (b) = P (L 1,..., L M K 1,..., K M ; b) La vraisemblance totale est : V t (s) = M π i = 1 p(l i L 1,..., L i - 1 ; K 1,..., K M ; b ) x M π i = 1 p(k i L 1,..., L i - 1 ; K 1,..., K i - 1 ; b ) et c'est le premier de ces deux produits que Cox appelle la vraisemblance partielle. Cox affirmait que la vraisemblance partielle contient la presque totalité de l'information sur le coefficient β de la régression et que l'on peut ignorer le second produit, sans pour cela perdre grand chose. (Cox, Biometrika (1975). Efron (JASA 1977) et Oaks (Biometrika 1977) ont comparé l'information de Fisher contenue dans la vraisemblance partielle et dans la vraisemblance totale pour plusieurs modèles : le rapport est en général de 90% et quelquefois même de 1, dans des cas assez rares il est vrai. La justification de la normalité asymptotique de l'estimateur du maximum de vraisemblance partielle a été traitée, a posteriori, par plusieurs auteurs et de plusieurs manières : Les unes, classiques, mais qui sont un peu lourdes (Bailey (Thèse, Chicago, 1979) utilise les projections de Hajek (Dupar et Hajek AM6 1969) et Tsiatis (AS 81) utilise la théorie générale des processus et des représentations intégrales) ; les autres sont fondées sur la théorie des processus ponctuels et sur le théorème limite central pour des martingales (Rebolledo ZfW 1980) et sont plus élégantes (Andersen et Gill AS 1982).

Survie 76 7 - Test de comparaison de deux échantillons (Test de Gehan) On suppose qu'on a deux échantillons indépendants de durées de survie, le premier de taille m, le second de taille n : X 1 X 2... X m Y 1 Y 2... Y n En fait, chaque observation consiste en un couple de valeurs, la première étant la durée observée, la seconde la nature de cette durée. On considérera qu'à chaque durée X ou Y est associée une indicatrice de mort observée, de telle sorte qu'après avoir ordonné ces m+n durées dans leur ensemble ce qui donne : Z 1 Z 2... Z m+n On peut associer à chaque Z i deux quantités : D i = 1 s'il s'agit d'un décès 0 s'il s'agit d'une censure G i = 1 si Z i appartient au premier échantillon (c'est-à-dire est un X) 0 si Z i appartient au second échantillon (c'est-à-dire est un Y) Les observations, une fois ordonnées peuvent donc s'écrire : (Z 1, D 1, G 1 ),..., (Z n+m, D n+m, G n+m ) et on n'a ainsi perdu aucune information par rapport aux données initiales. a) Définition du test de Gehan L'hypothèse nulle H o que l'on veut tester est l'hypothèse que les lois de durée de survie vraie, c'est-àdire sans censure, sont identiques dans les deux échantillons. Pour cela, on considère les scores suivants : +1 si Z i > Z j et D j = 1 U ij = - 1 si Z i < Z j et D i = 1 0 sinon On remarque que ces scores valent + 1 ou - 1 lorsque de l'ordre des deux durées Z i et Z j on peut conclure à un ordre sur les vraies durées de survie correspondantes, parce que la plus petite des deux correspond à une mort et non à une censure. Par contre, le score est nul lorsque de l'ordre des Z ne résulte pas l'ordre des décès, la plus petite étant censurée et l'autre quelconque. Disposant des U ij, on calcule un score global U de la manière suivante : On définit d'abord pour chaque rang i : U i * = Σ j i U ij (la sommation a lieu sur tous les j de 1 à m+n, excepté i)

Survie 77 qui est la différence entre le nombre de ceux dont on est sûr qu'ils sont morts avant lui et ceux dont on est sûr qu'ils sont morts après lui. Et on définit finalement : U = Σ i U i * Gi (la sommation a lieu sur tous les i de 1 à m + n) comme la somme de ces scores U i * prise uniquement sur les éléments du premier échantillon. Pour pouvoir tester l'hypothèse H o qui nous intéresse, on est amené à supposer que la censure agit de la même manière sur les deux échantillons de telle sorte que l'on teste en réalité l'hypothèse H oo : le couple (durée, indicatrice de censure) a la même loi dans chacun des deux échantillons. L'intérêt de U, sur lequel est fondé le test de Gehan, est que sous l'hypothèse H oo, sa loi, ainsi bien sûr que ses moments, s'obtiennent par permutation : Tout se passe en effet comme si dans la suite des : (Z i, D i, G i ) les m valeurs égales à 1 des G i étaient réparties au hasard sur les m+n places possibles dans la séquence (Z 1, D 1,. )... (Z m+n, D m+n,. ) supposée fixée. Par suite, si m et n ne sont pas trop grands on peut calculer la loi exacte de U en calculant la valeur de U pour chacune des répartitions différentes des éléments du premier échantillon dans cette séquence : La distribution qui en résulte pour les valeurs de U est la loi de U sous H 00, conditionnellement aux places des censures dans la suite des durées ordonnées. En particulier : car E (U i * ) = 0 puisque Uij = - U ji. Donc Var Hoo (U) = E [ (Σ i U i * Gi ) 2 ] soit : Var H00 (U) = 2 [ U* i Gi + U* i U* configurationsde G i i j m + m n j G G i j ] puisqu'il y a m+n configurations possibles pour la place des éléments du premier échantillon. m + n 1 Chaque U * i apparaît dans termes. m m + n 2 Chaque U* i U* j apparaît i j m 2 fois et j i U* j = U* i. ce qui donne - U i * 2 m + n - 2 m - 2.

Survie 78 Finalement (m + n 1)!m!n! (m + n 2)!m!n! m n VarH (U) 00 + = (m 1)! n!(m + n)! (m 2)! n!(m + n)! i= 1 U 2 * i = m m + n m(m 1) (m + n)(m + n 1) m n + i= 1 U * i 2 = mn (m n)(m n 1) + + m n + i= 1 U * i 2 Comme on peut démontrer que U est asymptotiquement normal sous H oo, le test sera fondé sur la valeur de U Var Hoo (U) Si cette valeur égale ou dépasse 2 (approximation pour 1, 96 donné par la table pour le quantile 0, 975 de la loi normale N (0, 1)), on pourra conclure au seuil de 5 % au rejet de l'hypothèse nulle, c'est-à-dire qu'on pourra affirmer, pour ce seuil de signification que les lois de la durée de survie ne sont pas les mêmes dans les deux échantillons. b) Un exemple d'application Les durées de survie de 10 patients auxquels est affecté soit le traitement A soit le traitement B sont les suivantes, l'indice supérieur + désignant une censure : traitement A 3 5 7 9 + 18 traitement B 12 19 20 20 + 33 + Après ordonnancement, on obtient le tableau suivant : Z D G nb < Z nb > Z U * 3 1 1 0 9-9 5 1 1 1 8-7 7 1 1 2 7-5 9 + 0 1 3 0 3 12 1 0 3 5-2 18 1 1 4 4 0 19 1 0 5 3 2 20 1 0 6 2 4 20 + 0 0 7 0 7 33 + 0 0 7 0 7 Donc U = - 9-7 - 5 + 3 + 0 = - 18

E Hoo (U) = 0 Var Hoo (U) = 5.5.286 10.9 = 79,44 Survie 79 U Var Hoo (U) = - 18 8,91 = - 2,02 Donc le test est significatif et son degré de signification asymptotique (puisqu'on a utilisé l'approximation normale) est de 5% environ. Mais on peut calculer son degré de signification exact. Il y a en tout C 5 10 = 252 valeurs possibles pour U (ou pour être plus précis : 252 configurations différentes pour les places du premier échantillon, certaines configurations pouvant conduire à la même valeur de U). Sur ces 252 valeurs seulement 6 peuvent être inférieures ou égales à celle qui a été observée. Ces 6 correspondent à l'interversion de -2 et 3, -2 et 0, 2 et 3, à la fois 3 et 2 et -2 et 1, à la fois 3 et 4 et -2 et 0. - 9-7 - 5-2 0 2 3 4 7 7 Donc le degré de signification exact est de 6 / 252 0,0238. c) Propriétés du test de Gehan α) Normalité asymptotique : Pour démontrer cette propriété, que nous avons utilisé ci-dessus, on utilise le fait que U peut s'écrire comme une somme de variables aléatoires, dont la loi ne change pas lorsqu'on permute ces variables entre elles.(e. A. Gehan, Biometrika 1965). β) Généralisation au cas censuré du test de Wilcoxon : En fait, le test de Gehan est une généralisation au cas censuré du test de Wilcoxon. effet supposons qu'il n'y ait ni ex aequo, ni censure. Alors En U i * = (i - 1) - (m + n + 1) = 2i - (m + n + 1) puisque i - 1 est le nombre des valeurs Z inférieur à la i ème Z i et m + n - i est le nombre des valeurs de Z supérieures à la i ème Z i. m n U * i Gi i 1 U + = = 2 x (somme des rangs du premier échantillon) m(m+n+1) = = 2 W - m (m+ n + 1) où W est la statistique de Wilcoxon habituelle, somme des rangs des éléments du premier échantillon. Dans le cas non censuré, le test de Gehan est donc identique au test de Wilcoxon.

analyse exploratoire des données 93 VIII ANALYSE DES DONNEES 1 - Introduction : Les méthodes de l'analyse des données sont destinées à l'étude de données numériques chaque fois que celles-ci peuvent être présentées sous la forme d'un tableau rectangulaire de trop grandes dimensions pour qu'une simple lecture fasse apparaître les phénomènes intéressants. Un tel tableau, à n lignes et p colonnes, pouvant être considéré comme représentant p vecteurs de R n, ou n vecteurs de R p, le principe commun à toutes ces méthodesest le suivant : Le nuage des p points de R n - ou celui des n points de R p - est projeté sur un sous espace de dimension inférieure. Ce sous espace est choisi en fonction du type de caractéristique du nuage que l'on veut mettre en valeur, et sa dimension doit réaliser un compromis entre les deux buts contradictoires suivants : - être assez petite pour que le résultat soit lisible - être assez grande pour qu'on n'ait pas perdu trop d'information par projection. 2 - Les données Soit M = (z ij ) 1= i = n, 1= j = p, le tableau rectangulaire des données, c'est à dire un tableau de chiffres tel que ceux que l'on peut rencontrer dans de nombreuses revues donnant les statistiques sur un sujet d'ordre économique, médical ou social (statistiques de l'insee sur la consommation, la qualité de l'habitat,...,statistiques de certains services de l'inserm, sur les suicides, les taux de mortalité par causes, etc.) Essentiellement deux types de données peuvent conduire à une telle représentation : a) On a observé p caractères Z 1,..., Z p sur n individus, c'est-à-dire que l'on dispose d'un n- échantillon de la variable aléatoire Z = (Z 1,..., Z p ) à p dimensions. Exemple 1 : On mesure la consommation d'alcool, tabac, sucre,pain, poivre,...pour n unités familiales.dans le tableau M, z ij mesure la consommation du j e produit Z j dans la famille i et se trouve à l'intersection de la ligne i et de la colonne j :

analyse exploratoire des données 94 M = - - - - - - z ij - - - - - - - - - ligne i : i ème observation observation i 1= i = n variable j 1 = j = p colonne j : j ème variable De manière générale, on notera M' la transposée d'une matrice M, c'est à dire la matrice obtenue en intervertissant lignes et colonnes. Par exemple M = a b a c a pour transposée M' = c d b d b) Un tableau tel que M peut être relatif au croisement de deux caractères : X, à n modalités, et Y, à p modalités. Alors z ij désignera, sur une population de N individus, la fréquence relative de ceux qui présentent X au niveau i et Y au niveau j. Les z ij seront alors des entiers représentant des effectifs. Exemple 2 : X est un indicateur de la catégorie socio-professionnelle (abrégée en CSP) et Y un indicateur des diverses causes de décès : Niveaux de X : techniciens, employés, ouvriers,... M = - - - - - - z ij - - - - - - - - - ligne i : niveau ide X colonne j : niveau jde Y z ij est l'effectif observé des individus appartenant à la CSP i et dont la mort est due à la cause j. Remarque Supposons que nous ayons à croiser plus de deux caractères, est-il encore possible de représenter les données sous forme d'un tableau rectangulaire? Oui, car les niveaux de Y par exemple peuvent être en réalité ceux d'une variable à k dimensions (Y 1,..., Y k ) dont chaque composante peut prendre un nombre fini de valeurs. Exemple 3 : Y peut désigner le profil symptomatique d'un patient, chacun des Y i désignant la présence ou l'absence de tel ou tel symptôme et X la maladie du patient en question.

analyse exploratoire des données 95 3 - Les problèmes A propos d'un tableau de données obtenu de l'une ou l'autre des façons qui viennent d'être indiquées, on peut se poser un certain nombre de problèmes.considérons l'exemple 1 : on peut s'intéresser aux liaisons qui existent entre les consommations des divers produits, au rapport qu'il peut y avoir entre telle ou telle classe de revenu et la consommation de ces produits etc...dans l'exemple 2, ce qui nous intéressera sera l'établissement d'une correspondance entre les diverses CSP et les causes de décès, dans l'exemple 3 la discrimination des maladies grâce aux symptômes. Donnons un aperçu de quelques uns des types de problèmes qu'on peut traiter par l'analyse des données. a) L'analyse générale : Il s'agit de repérer la position du nuage de points que représente M, par exemple dans R p.si l'on revient à l'exemple 1, chaque point du nuage est un consommateur (unité familiale) et chaque axe correspond à un produit de consommation. Il s'agit donc de visualiser l'ensemble des consommateurs dans le système d'axes des produits consommés. Pour parvenir à ce résultat, on commence par chercher l'axe L 1 (sous espace de dimension 1) qui ajuste le mieux le nuage, au sens des moindres carrés ; puis, M étant ainsi décomposé en sa projection M 1 sur L 1 et sa projection M 1 sur L 1 sous espace orthogonal de L 1 dans R p, on recommence la même opération avec le nuage M 1 de L 1, obtenant ainsi un deuxième axe L 2, et ainsi de suite : M = M 1 + M 2 +... + M p La succession des axes orthogonaux L 1,..., L p a été choisie de telle sorte que les contributions des M i aillent décroissant, et il se peut que M 1 +... + M q, q < p, soit une bonne représentation de M, le reste M q+1 +... + M p pouvant être considéré comme un résidu. b) L'analyse en composantes principales : Il s'agit cette fois de mettre en valeur la forme du nuage. La position du nuage par rapport à l'origine des axes ne nous intéresse plus ; on doit donc transporter l'origine 0 au centre de gravité G du nuage. (On peut remarquer à cette occasion que, lors de l'analyse générale, L 1 est l'axe qui joint 0 à G si G est distinct de 0). Cela revient à faire une analyse générale sur le tableau M déduit de M en remplaçant chaque élément z ij par z ij = z ij - n z ij i=1 n Interprétation statistique : Si M est un tableau de données du premier type, on peut associer à M une loi empirique

analyse exploratoire des données 96 de la v.a. Z = (Z 1,..., Z p ) dont on a observé un n-échantillon. On centre cette loi empirique en transformant Men M, puis on cherche à déterminer des combinaisons linéaires des Z i de variance empirique maximum. Le problème sera de tester si l'on a mis ainsi en évidence des combinaisons linéaires des Z i de variance effectivement maximum. c) L'analyse en composantes principales normées : On s'intéresse toujours à la forme du nuage, comme en b) mais cette fois pour mettre en valeur les liaisons éventuelles entre les diverses composantes de Z. On remarque que ce genre de problème concerne les données de type a). On suppose donc que M a déjà subi la transformation précédente pour devenir M. Cependant, les liaisons entre Z 1,...,Z p peuvent être masquées par le choix des unités qui ont servi à mesurer les v.a. Z i ; l'axe L 1 de plus grande dispersion du nuage risque de ne traduire qu'une évidence : dans l'exemple 1, si l'on a choisi comme unité de mesure, commune à toutes les données, le poids, le pain risque de tirer à lui le premier axe factoriel On éliminera les disparités des comportements individuels de chacun des Z i en faisant sur M la transformation suivante : z ij = z ij Σ i z ij 2 et c' est sur la matrice M = (z ij ), 1ŠiŠn, 1ŠjŠp, que l' on effectuera une analyse générale. Interprétation statistique : Chacun des vecteurs colonnes de M représente la loi empirique d' une composante Z j de Z, centrée réduite, dans le système d'axes des individus ; le point correspondant est donc sur la sphère de R n de rayon unité.ainsi, une proximité entre deux points sur cette sphère est l'indice d'une forte corrélation empirique entre les variables correspondantes : cette corrélation empirique est, en effet, égale au produit scalaire des deux vecteurs correspondants. d) Analyse des correspondances : Il s'agit d'établir, pour des données du type b), une correspondance entre les modalités de la première variable, X, et celles de la seconde, Y. Il se peut qu'une telle correspondance apparaisse d'emblée, si, par exemple, dans chaque colonne, toutes les cases sont vides sauf une (on peut imaginer, dans l'exemple 3, que maladies X et profils symptômatiques Y soient assez bien choisis pour que cela se produise).ce n'est toutefois pas le cas en général : Dans l'exemple 2 du croisement des CSP avec les causes de décès, les correspondances peuvent ne pas être évidentes a priori. Deux points de R p (ou de R n ) doivent être considérés comme proches si leurs coordonnées sont proportionnelles. On est ainsi amené à définir une nouvelle distance dans R p (ou R n ), ou bien, si l'on veut conserver la distance euclidienne

analyse exploratoire des données 97 usuelle, à faire la transformation suivante sur le tableau des données : * z ij - z i. z.j z ij = z i. z.j où un point en indice désigne, selon la convention habituelle, la sommation sur l'indice correspondant. Et on fera une analyse générale sur le tableau M * ainsi transformé. Interprétation statistique : Ce sont les lois empiriques de X conditionnelles aux valeurs de Y, j = 1, 2,..., p et de Y quand X vaut i = 1,..., n qui nous intéressent.l'inertie par rapport à 0 du nuage M * est la distance du entre la loi produit des lois empiriques marginales de X et de Y telles qu'elles sont données par M et la loi empirique du couple (X, Y) qui est donnée par M. 4 - L'analyse en composantes principales (ACP) a) Composantes principales d'une variable aléatoire : Soit Z une v. a. à valeurs dans R p et de carré sommable. On assimilera Z au vecteur colonne de ses composantes Z = Z 1.. Z p Z' désignant le vecteur ligne correspondant Z' = Z 1.. Z p On supposera que Z est centrée et on notera Σ sa matrice de covariance : Σ = E(Z Z') = (cov (Z i, Z j )) 1= i =p 1= j =p Rappel des propriétés de la matrice de covariance S : Σ étant une matrice symétrique réelle a toutes ses valeurs propres et ses vecteurs propres réels, et, de ses vecteurs propres, on peut extraire une base orthonormée de R p. Si L' est un vecteur ligne à p composantes, L' = (l 1,..., l p ), la variance de la v.a. L'Z, combinaison linéaire des composantes de Z, est égale à L'Σ L qui est donc une quantité positive ou nulle. Σ est donc une matrice semi-définie positive, et ses valeurs propres sont par suite toutes positives ou nulles.une condition nécessaire et suffisante pour qu'elles soient toutes

analyse exploratoire des données 98 strictement positives, autrement dit pour que Σ soit régulière, est que les composantes de Z soient linéairement indépendantes. 1) Transformation orthogonale de Z : Effectuons sur Z une transformation orthogonale définie par une matrice H dont les p vecteurs colonnes L 1,..., L p sont unitaires et orthogonaux, obtenant ainsi une nouvelle variable aléatoire U à valeurs dans R p : U = H'Z Par suite de sa définition, U est centrée et de carré sommable, comme Z.La matrice H étant orthogonale H -1 = H' et on obtient Z à partir de U : La matrice de covariance de U sera Z = HU. W = H'ΣH Invariants statistiques : Deux quantités associées à la matrice de covariance de Z se conservent dans la transformation qui fait passer de Z à U : - La variance généralisée de Z, égale par définition au déterminant de Σ : W = H'ΣΗ = Σ H'H = Σ - La trace de Σ, qui est égale à la somme des variances des composantes de Z : Σ i Var (Z i ) = tr (Σ) Σ i Var (U i ) = tr (W) = tr (H'ΣH) = tr (ΣHH') = tr (Σ) 2) Définition des composantes principales de Z : Définition : On appelle composantes principales de Z, ou de la loi de Z, les composantes U1,..., Up d'une v.a. U déduite de Z par une transformation orthogonale (2) et telle que : Var (U1) = Var (U2) =... = Var (Up) Var (U i ) maximum i = 1,..., p Autrement dit, on cherche des combinaisons linéaires (normées et orthogonales entre elles) des composantes de Z qui extraient tour à tour un maximum de variance de Z. Si,par exemple, les composantes de Z ne sont pas linéairement indépendantes, nous verrons que les dernières composantes principales seront de variance nulle, donc presque sûrement nulles. 3) Détermination des composantes principales : Proposition : Les composantes principales de Z, (U 1,..., U p ), s'obtiennent en faisant subir à Z la transformation orthogonale U = H'Z dont la matrice H a pour vecteurs colonnes L 1,..., L p les vecteurs propres de la matrice de

analyse exploratoire des données 99 covariance Σ de Z, les valeurs propres correspondantes λ 1,..., λ p étant rangées dans l'ordre décroissant : λ 1 = λ 2 =... = λ p. Remarques 1) Les composantes principales de Z ne dépendent de la loi de Z qu'à travers la matrice de covariance de Z. 2) La matrice de covariance de Z dépendant des unités choisies pour mesurer les composantes Z i de Z, les composantes principales de Z en dépendent aussi : Un changement d'unités peut être représenté par la multiplication par une matrice diagonale pxp. La v.a. Z devient alors dont la matrice de covariance est T = Z E(TT') = E( Z Z' ) = 2 Σ. Valeurs propres et vecteurs propres de 2 Σ sont généralement distincts de ceux de Σ.Les composantes principales dépendent donc des unités choisies. Pour éviter de faire jouer un rôle prépondérant aux variables Z i mesurés par des nombres élevés, dans la détermination des composantes principales, on peut remplacer les Z i par les variables réduites correspondantes : cela revient à choisir pour : = σ 1 1 0 σ 2 1 0 0 0 0 0 0 0. 0 0 0 0 σ p 1 où σ i 2 = Var (Z i ). Alors, la matrice de covariance Σ devient une matrice de corrélation. 3) Il résulte de la proposition que les composantes principales de Z sont non corrélées entre elles. En effet, la matrice de covariance W de U sera diagonale : λ 1 0 0 0 W = Η' ΣΗ = 0 λ 2 0 0 0 0. 0 οù λ 1 λ 2... λ Π 0 0 0 λ p

analyse exploratoire des données 100 La variance de la i eme composante principale U i de Z sera égale à L' i Σ L i = λ i, i eme valeur propre de Σ. L'intérêt de cette transformation est donc de réduire éventuellement la dimension de Z en éliminant les dernières composantes de U si elles sont de variance nulle, puisque cela signifie qu'elles sont presque sûrement nulles. Il se peut aussi que certaines des valeurs propres de Σ, sans être nulles, soient suffisamment voisines de 0 pour qu'on puisse considérer comme négligeables les composantes principales correspondantes. A la limite, si l 1 / ( S i l i ) est assez voisin de 1, on pourra considérer qu'il suffit de conserver la première composante principale U 1 puis qu'elle absorbe presque toute la variabilité de Z. Démonstration de la proposition : 1) Commençons par déterminer la première composante principale U 1 = L' 1 Z. Il s'agira de déterminer L 1 tel que : L' 1 L 1 = 1 L' 1 Σ L 1 maximum Il revient au même de rendre maximum, pour un réel λ 1 à déterminer (multiplicateur de Lagrange) l'expression : L' 1 Σ L 1 - λ 1 (L' 1 L 1-1) En dérivant cette expression par rapport aux éléments de L 1, on voit que L 1 doit être nécessairement un vecteur propre deσ : 2Σ L 1-2 λ 1 L 1 = 0 Σ L 1 = λ 1 L 1 Et, comme Var (U 1 ) = L' 1 Σ L 1 = λ 1 L' 1 L 1 = λ 1 doit être maximum, L 1 correspond à la plus grande valeur propre λ 1 de Σ. Deux cas peuvent alors se produire : - Ou bien λ 1 est valeur propre de multiplicité r >1 et alors les r premières composantes principales sont obtenues comme U i = L' i Z, i = 1,..., r les L i étant une base orthonormale du sous espace propre correspondant à λ 1. - Ou bien λ 1 est une racine simple de l'équation Σ λ Ι = 0. Plaçons nous dans ce cas pour déterminer la deuxième composante principale de Z. 2) La deuxième composante principale U 2 = L' 2 Z Elle doit être telle que : L' 2 L 2 = 1 (1) L' 2 L 1 = 0 (2) L' 2 Σ L 2 maximum

analyse exploratoire des données 101 Si on appelle λ 2 et µ 2 deux constantes quelconques, il revient au même de maximiser L' 2 Σ L 2 ou de maximiser L' 2 Σ L 2 - λ 2 (L' 2 L 2-1) - µ 2 L' 2 L 1 sous les contraintes (1) et (2). On appelle λ 2 et µ 2 les multiplicateurs de Lagrange. Par dérivation par rapport aux éléments de L 2, on obtient 2 Σ L 2-2 λ 2 L 2 - µ 2 L 1 = 0 En prémultipliant cette expression par L' 1 et en remarquant que L' 1 Σ = (Σ'L 1 )' = λ 1 L' 1 et L' 1 L 2 = 0, on voit que µ 2 = 0. Par suite Σ L 2 = λ 2 L 2 Var (U 2 ) = L' 2 Σ L 2 = λ 2 et L 2 est vecteur propre de Σ correspondant à la deuxième valeur propre (par ordre de grandeur décroissant) de Σ. On obtiendrait ainsi successivement tous les vecteurs colonnes de H comme vecteurs propres de Σ rangés dans l'ordre décroissant de leurs valeurs propres. 4) Rapport entre les composantes de Z et ses composantes principales : On peut se demander quelle est la contribution de chacune des composantes de Z à la première, ou à l'une quelconque, des composantes principales de Z. Cette contribution peut être mesurée en termes de covariance ou de corrélation entre Z i et U j. Or on sait que Z = HU; si on note C i les vecteurs lignes de H : Cov (Z i, U j ) = Cov (C' i U, U j ). Comme les U k sont non corrélées entre elles : Cov (Z i, U j ) = l ij Var (U j ) = l ij λ j. Si l'acp a été faite sur une variable Z centrée réduite ρ (Z i, U j ) = l ij λ ij. puisque Var (U j ) = λ j. b - Composantes principales d'un n - échantillon : 1) Définition : Supposons maintenant que nous ne connaissions pas la loi de Z, mais que nous disposions d'un n - échantillon d'observations de Z se présentant sous la forme d'un tableau M à n lignes et p colonnes.on désignera par X' i, i = 1,..., n les vecteurs lignes de M et par Y j, j = 1,..., p les vecteurs colonnes de cette matrice. X' i est la i è observation de Z.

analyse exploratoire des données 102 M = - - - - - - z ij - - - - - - - - - ligne i : X' i colonne j : Y j A la matrice M est associée une loi empirique pour Z. Commençons par centrer cette loi en remplaçant, dans M, z ij par z ij = z ij - n Σ z ij i = 1 n Alors M devient M = (z ij ) 1ŠiŠn, 1ŠjŠp et la matrice de covariance Σ e = 1 n Μ' Μ Comme nous avons remarqué que les composantes principales dépendaient des unités, on considérera plutôt la matrice de corrélation empirique R e = 1 n M' M où z ij = z ij 2 Σ z ij Mais par définition, les composantes principales de l'échantillon M sont les composantes principales de la loi empirique de Z définie par M. Par suite, tous les résultats du 1 concernant la détermination et les propriétés des composantes principales restent valables à condition de remplacer la loi de Z par sa loi empirique, et donc sa matrice de covariance Σ par la matrice de covariance empirique Σ e = 1 n Μ' Μ 2) Interprétation géométrique : Représentation dans R p : Au tableau M des données peuvent être associées trois notions équivalentes : - une loi empirique pour Z - Un nuage de n points de R p - Un nuage de p points de R n Nous allons nous intéresser, pour fixer les idées, au premier de ces deux nuages. Son centre de gravité G a pour coordonnées la moyenne emoirique de Z: donc transformer Men M, c'est à dire centrer la loi empirique, revient à transporter en G l'origine des axes. L'inertie du nuage par rapport à son centre de gravité est égale à la somme 2 Σ ij z ij qui est aussi la trace de la matrice de covariance Σ e = 1 n Μ' Μ

analyse exploratoire des données 103, somme des variances empiriques des composantes de Z. Chercher la droite F 1 de meilleur ajustement du nuage au sens des moindres carrés appelée premier axe factoriel, c'est chercher l'axe passant par G par rapport auquel l'inertie du nuage est la plus faible. Or, si P est un point du nuage, H 1 sa projection sur F 1, il revient au même de minimiser Σ PH 1 2 ou de maximiser Σ GH, 2 puisque PH 1 2 + GH 1 2 = GH 2 ne dépend pas de l'axe sur lequel on projette le nuage. Donc, le premier axe factoriel F 1 est un axe d'étalement maximum : ses composantes sont par conséquent celles de L 1 qui définit la combinaison linéaire (normée) des Z i de variance empirique maximum Z 2 F 1 = L 1 F 2 = L 2 G Z 1 De même pour les axes factoriels suivants, il s'agit de déterminer un changement d'axes orthonormés tels que chaque axe à son tour étale le nuage au maximum : le i è axe factoriel F i aura pour composantes celles de L i, et si M i désigne la projection du nuage M sur le i ème axe factoriel F i L i, on a et λ i mesure l' inertie de M i par rapport à G. M = M 1 + M 2 +... + M i +... + M p Cette interprétation purement géométrique des composantes principales comme axes factoriels permet de traiter de la même façon le tableau M', transposé de M, en considérant la représentation du nuage correspondant dans R n. 3) Représentation dans R n : Il y aura cette fois n axes factoriels Φ 1,..., Φ n qui seront, d'après ce qui précède, les vecteurs propres de la matrice n x n :

analyse exploratoire des données 104 V = 1 n M M' Pour trouver les relations qui existent entre les axes factoriels dans R p et dans R n, il faut chercher celles qu'il y a entre les vecteurs propres de Σ e et ceux de V. Soit L q le q ième vecteur propre de Σ e et λ q la valeur propre associée : Σ e L q = 1 n M' M L q = λ q L q Prémultiplions par M, on obtient : M L q est donc vecteur propre de V. On en déduit : 1 n M M' ( M L q) = λ q ( M L q ) - que les valeurs propres de V sont les mêmes que celles de Σ e - que Φ q = M L q M L = q = M L q M L q L' q M' M L q λ q Remarque : Dans R p, la coordonnée sur L q du point i (correspondant au vecteur X' i ) est X' i L q. Les coordonnées des n points X' 1,..., X' n forment donc le vecteur (X' 1 L q,..., X' n L q ) = M L q = λ q Φ q. Donc les projections du nuage sur L q ont pour abscisses les composantes de Φ q multipliées par λ q. On a, par symétrie, le même résultat en intervertissant les rôles de L et Φ. 4) Reconstitution du tableau M des données : Supposons que toutes les valeurs propres de M' M pxp soient différentes et non nulles, λ 1,..., λ p. L 1,..., L p sont les vecteurs propres correspondants relatifs à M' M et Φ 1,...,Φ p les vecteurs propres relatifs à MM' Pour reconstituer le nuage initial, il faut disposer : 1) des vecteurs (L q ) q = 1,..., p 2) des coordonnées sur les L q des points du nuage dont nous avons vu qu'elles étaient

analyse exploratoire des données 105 égales, sur L q, à Φ q / λ q. 3) des valeurs propres l q, q = 1,..., p De Φ q = 1 λ q Μ L q, on tire Μ L q λ q Φ q Μ Μ L q L' q = p Σ L q L' q = q = 1 p Σ q = 1 λ q Φ q L' q λ q Φ q L' q Les vecteurs L q étant unitaires et orthogonaux, Σ q=1,..,p (L q L' q ) = I pxp. Par suite : Μ = p Σ q = 1 λ q Φ q L' q On voit que si, à partir d'un certain rang s+1, vλ s+1 est petit on pourra se contenter de ne conserver que les s premiers axes factoriels. Par exemple, si n = 1000, p = 20, et si s = 3, on aura remplacé un tableau de 2.10 4 chiffres par 3(1 + 20 + 1000) = 3063 chiffres. 5) Interprétation statistique du résultat : En général, on ne sait rien de la forme de la loi de Z, et nous verrons tout à l'heure comment on peut tester la significativité des composantes principales extraites de l'échantillon. Il peut cependant arriver que l'on sache que Z a une loi normale N (0, Σ) : dans ce cas, les composantes principales empiriques sont les estimateurs du maximum de vraisemblance des composantes principales de Z. Cela tient à ce que la matrice de covariance empirique Σ e est un estimateur M-V de Σ. Dans les cas où la loi de Z est inconnue, nous voulons savoir si les q premières valeurs propres extraites sont anormalement élevées, autrement dit, si les q facteurs correspondants extraient bien une variance significative. Pour cela, on détermine, par simulation,une loi empirique des valeurs propres en question sous l'hypothèse H o d'indépendance des composantes de Z : On effectue sur le tableau M des données - supposé centré normé - des permutations au hasard sur les colonnes, détruisant ainsi l'éventuelle liaison qu'il pourrait y avoir entre les Z i. A chacun des nouveaux tableaux ainsi construits correspondent des valeurs propres λ' 1,...,λ' q. Supposons que l'on construise ainsi k tableaux de la sorte : on aura pour les v.a. Λ 1,..., Λ q une loi empirique sous H o. Suivant que λ i tombe ou non dans le domaine de fluctuation de Λ i dû

analyse exploratoire des données 106 au hasard on déclarera qu'il n'est pas,ou qu'il est, anormalement élevé, et donc, dans ce deuxième cas, qu'il extrait bien une bonne proportion de la variance totale. Si par exemple k = 19, on obtient 20 valeurs de la i è valeur propre : une valeur observée λ i et 19 valeurs simulées sous l'hypothèse Ho 0. Si Ho 0 est vraie, la valeur observée suit la même loi que les valeurs simulées et a donc une chance sur 20, soit 5 chances pour 100, d'être la plus grande. On obtient ainsi un test, au seuil de 5%, de signification des diverses valeurs propres. Ce test est appelé test de sphéricité. c) Utilisation pratique et exemples : Soit M un tableau de données (z ij ) 1= i = n, 1 = j =p. On calcule la matrice de covariance empirique Σ e - ou, plus souvent la matrice de corrélation empirique R e - associée : Σ e = 1 n M' M où z ij = z ij - n Σ z ij i = 1 n R e = 1 n M' M où z ij = z ij 2 Σ z ij On diagonalise R e, obtenant ainsi p vecteurs propres L 1,..., L p tels que λ 1 =...= λ p = 0. Si les deux premières combinaisons linéaires des p variables initiales, U 1 = L' 1 Z et U 2 = L' 2 Z extraient une bonne proportion de la variance totale, il suffira, pour visualiser le nuage des n points de R p de le projeter sur les deux premiers axes factoriels L 1 et L 2. (La proportion de la variance totale extraite par U i est λ i / Σ j λ j. Or si c'est la matrice de corrélation que l'on a considérée Σ j λ j = p. En général, on représente, dans les mêmes axes (L 1, L 2 ), les variables aléatoires initiales : la projection du point représentatif de Z i sur L 1 sera la corrélation entre Z i et U 1, soit Ú ij λ j où Ú ij est la i è composante de L j. Exemple 1 : (extrait du livre "Statistique et Informatique Appliquées" de Lebart et Fénelon, chez Dunod)) Le tableau M concerne n = 841 ménages et leurs dépenses annuelles (en Francs) pour p = 35 biens non alimentaires. On a calculé la matrice de corrélation R e et extrait les quatre premiers axes factoriels : Les pourcentages de variance expliquée par les deux premiers facteurs sont élevés :

analyse exploratoire des données 107 20,53% pour le premier axe et 5, 44% pour le second.en projetant le nuage dans le plan des deux premiers axes, on en obtient donc une bonne représentation. Comme n est grand, au lieu de représenter les 841 points, on a regroupé les ménages en 20 classes de revenus : on remplace les divers points ménages correspondants à une classe de revenu par leur centre de gravité. On a ainsi remplacé un nuage de 841 points dans R 35 par un nuage de 20 points dans R 2. Cet exemple ainsi que, celui concernant le croisement des catégories socio professionnelles et les causes de décès, est extrait du livre de Lebart et Fénelon : "Statistique et Informatique Appliquées" (Dunod)

analyse exploratoire des données 108 LISTE DES DEPENSES CLASSE DE REVENU (Revenu mensuel en F.) 1 Robes - Complets R1 moins de 800 6 Produits d'entretien R2 de 800 à 999 7 Chaussures R3 de 1000 à 1099 14 Mobilier au comptant R4 de 1100 à 1199 17 Meubles à crédit R5 de 1200 à 1299 20 Equipement ménager au comptant R6 de 1300 à 1399 21 Equipement ménager à crédit R7 de 1400 à 1499 24 Médecin - Pharmacie R8 de 1500 à 1599 25 Dentiste R9 de 1600 à 1699 26 Transports publics réguliers R10 de 1700 à 1799 27 Transports pour les loisirs R11 de 1800 à 1899 28 Transports publics (s.a.i) R12 de 1900 à 1999 31 Assurances véhicules R13 de 2000 à 2099 32 Carburant R14 de 2100 à 2199 35 Papeterie non scolaire R15 de 2200 à 2299 37 Radio - Electrophone R16 de 2300 à 2499 39 Télévision au comptant R17 de 2500 à 2699 40 Télévision à crédit R18 de 2700 à 2899 41 Concert - Musée R19 de 2900 à 3199 42 Disques - Films R20 3200 et plus 43 Cinéma 44 Jouets 45 Livres 46 Magazines 47 Appareils de sports 49 Piscine 50 Spectacles sportifs 51 Colonies de vacances 52 Vacances 54 Fêtes 55 Cadeaux 56 Scolarité 57 Fournitures scolaires 61 Argent de poche (enfant) 62 Argent de poche (père) Interprétation du tableau : - Une proximité plus ou moins grande entre deux points dépenses signifie que ces deux variables sont plus ou moins corrélées, et ceci d'autant plus que ces points sont plus éloignés de l'origine. Les points proches de l'origine sont sans corrélation significative avec les deux facteurs principaux. - Une proximité entre deux points ménages signifie que ces ménages ont des comportements voisins à l'égard des deux variables principales U 1 et U 2, et par suite aussi des comportements (certainement) assez voisins à l'égard des 35 variables considérées.

analyse exploratoire des données 109 - Une proximité entre un point-variable et un point-ménage signifie -en moyenne - que cette variable a une valeur élevée pour ce ménage ("en moyenne" parce que la position d'un pointménage dépend de toutes les dépenses à la fois). - Le premier facteur, très important, semble être un indice du niveau de revenu du ménage : Il étale les ménages par ordre croissant - à part de très légères interversions - de classe de revenu de la gauche vers la droite. C'est l'axe d'étalement maximum par construction. - On peut remarquer que la variable "argent de poche des enfants" est fortement positivement corrélée à la première composante principale, alors que ce n'est pas le cas pour la variable "argent de poche du père". Mais comme les vacances, les livres, les disques... sont comptés séparément, que reste-t-il sous la rubrique "argent de poche du père"? D'où sa non significativité dans l'étalement de l'échelle des revenus.

Analyse exploratoire des données 110

analyse exploratoire des données 114 5- Analyse factorielle des correspondances (afc) a) Les données Comme l'acp, l'analyse des correspondances (AFC) peut être appliquée à tout type de données se présentant sous forme d'un tableau rectangulaire. Mais elle a été développée principalement pour s'adapter à des données telles que celles du type b) défini dans l'introduction, c'est-à-dire M = (z ij ) 1= i = n 1= j = p z ij représentant, sur N individus observés, la proportion de ceux qui présentent un caractère X, à n modalités, sous la forme i, et un caractère Y, à p modalités, sous la forme j. Par exemple, M peut croiser les catégories socio-professionnelles (X) et les causes de décès (Y). z ij est alors la proportion des décès dus à la cause j dans la catégorie i, et le tableau M définit une loi empirique pour le couple (X, Y) : P e (X = i, Y = j) = z ij La loi marginale (empirique) de X est donnée par (1) z i. = Σ j z ij i = 1,..., n z i. caractérise donc l'importance de la CSP i. De même (2) z.j = Σ i z ij j = 1,..., p caractérise l'importance de la cause de décès j. Si l'on essaie d'établir une correspondance entre les CSP et les causes de décès, ce ne seront pas exactement les z ij qui nous intéresseront, mais plutôt la part de la cause j parmi les décès survenant dans chaque CSP i, soit : (3) d j : i z ij / z i. ou encore la part de la CSP i dans le nombre des décès dus à chacune des causes possibles : c j : j z ij / z.j Autrement dit, la quantité intéressante est la loi de X conditionnée par Y et, symétriquement, la loi de Y conditionnée par X. Plaçons nous par exemple dans R p ; on étudiera, au lieu de la matrice M nxp obtenue en divisant les éléments de chaque ligne par l'effectif total de cette ligne : z ij = z ij / z i. Ainsi, la ligne i de la matrice M nxpreprésente la loi empirique de Y conditionnellement à X = i, ou profil de i. Nous allons voir que cela va nous amener à définir,pour le nuage de n points que M représente dans R p, une autre distance que la distance euclidienne. Ou encore, si l'on veut conserver la distance euclidienne, on fera une nouvelle transformation sur les z ij.

analyse exploratoire des données 115 b) Distance appropriée Considérons le nuage de n points de R p que représente la matrice M nxp.la distance euclidienne entre les deux points i et i' relatifs à la i è et à la i' è lignes de M d 2 p (i,i' ) = ( z ij - z 2 i'j ) z j=1 i. z i'. fait intervenir chacune des modalités j de Y avec le même poids. Or, si un caractère j o est important c'est-à-dire si z jo est grand, dans la somme précédente, le terme correspondant à j o risque de jouer un rôle excessif dans la détermination des proximités entre deux profils. On choisira donc une distance δ qui pondère ces caractères, soit : δ 2 (i,i' ) = p j=1 1 z.j ( z ij z i. - z i'j z i'. ) 2 En intervertissant les rôles de X et Y, on voit qu'on est amené à définir de même dans R n la distance δ' 2 (j,j' ) = n i =1 1 ( z ij - z 2 ij' ) z i. z.j z.j' Propriété d'équivalence distributionnelle de la distance d : Lors de la subdivision des variables X et Y respectivement en n et p modalités, il y a presque toujours une part d'arbitraire : par exemple, si Y désigne la variable "cause de décès", va-t-on considérer séparément l'alcoolisme et la cyrrhose du foie, ou bien va-t-on au contraire les agréger pour en faire un seul niveau de Y? L'arbitraire d'une telle décision devrait influencer aussi peu que possible le résultat de l'analyse. C'est ce que réalise la distance X : Si deux points i 1 et i 2 sont confondus dans R p et si on les considère comme un seul point i o affecté de la somme des masses de i 1 et i 2 (ce qui correspond à l'agrégation de deux modalités voisines de X), alors les distances entre couples de points sont inchangées que ce soit dans R p ou dans R n. Cette propriété est appelée propriété d'"équivalence distributionnelle". Démonstration : a) Invariance des distances dans R p : Les deux lignes i 1 et i 2 de M sont remplacées par l'unique ligne i o telle que :

analyse exploratoire des données 116 z i o j = z i 1 j + z i 2 j Le calcul des z. j n'est donc pas affecté et les distances δ dans R p sont invariantes. b) Invariance des distances dans R n : Si les points i 1 et i 2 sont confondus dans R p, on a z i 1 j z i 2 j z i 1 j + z i 2 j = = = z i 1. z i 2. z i 1. + z i 2. La distance δ contient, avant transformation, deux termes, l'un relatif à i 1, l'autre à i 2, soient A (i 1 ) et A (i 2 ), et, après transformation un seul, relatif à i 0, soit A (i 0 ). Il s'agit donc de démontrer que A (i o ) = A (i 1 ) + A (i 2 ). Or A (i o ) peut s'écrire : A(i o ) = z i o. ( z i o j z i o. z.j - z i o j z i o. 2 z i o j' ) z i o. z.j' A (i 1 ) et A (i 2 ) peuvent s'écrire de manière analogue ; les quantités entre parenthèses seront égales d'après (8) et comme z i0 = z i1 + z i2 d'après (7), on aura bien A (i 0 ) = A (i 1 ) + A (i 2 ). c) Retour à la distance habituelle par transformation des données : Si M = (z ij ) 1= i = n est la matrice initiale des observations représentant la loi empirique de (X, Y), et M la 1= j = p matrice dont chaque ligne i est la loi empirique de Y conditionnée par X = i, on peut chercher à transformer M en de telle sorte que la distance δ entre deux lignes de M devienne la distance euclidienne entre les lignes correspondantes de : δ 2 (i,i' ) = p j=1 1 ( z ij - z 2 i'j ) z.j z i. z i'. = p j=1 ( z ij z i. z.j - 2 z i'j ) z i'. z.j Si l'on veut avoir une représentation simplifiée du nuage de points de R p défini par M, par projection sur des sous espaces de dimension inférieure, il suffira donc de faire une analyse en composantes principales du tableau M = (z ij ) 1 Š i Š n ; 1 Š j Š p

analyse exploratoire des données 117 z ij = z ij z i. z.j Remarque : La représentation dans R n nécessitera une transformation analogue à celle-ci, mais différente puisque celle-ci n'est pas symétrique en i et j : z ij = z ij z.j z i. Cependant, l'acp ne faisant intervenir les données qu'à travers la matrice de covariance empirique, nous allons voir qu'on peut ramener ces deux transformations à une seule. En effet, calculons la matrice de covariance empirique Σ e correspondant au tableau : M σ jj' = n z i. ( i =1 z ij z ij' - z z i. z.j ) ( - z.j z i. z.j' ).j' puisque la moyenne empirique m j de la j è composante vaut m j = n z i. i =1 z ij z i. z.j = z.j z.j = z.j Il revient au même d'écrire σ jj' ainsi : σ jj' = n z i. ( z ij - z i. z.j i =1 z i. z.j - z ij' - z i. z.j' z i. z.j' ) Appelons M * la transformée de M par z* ij = z ij - z i. z.j z i. z.j La recherche des composantes principales du nuage de R p revient à diagonaliser la matrice Σ = (M * )'M *. Et comme la transformation (12) est symétrique en i et j, les composantes principales du nuage de R n s'obtiendront en diagonalisant M * (M * )'. En résumé : L'analyse des correspondances d'un tableau M est équivalente à l'analyse en

analyse exploratoire des données 118 composantes principales du tableau M * déduit de M par la transformation ci-dessus. Donc tous les résultats obtenus lors de l'étude de l'acp seront identiques ici à la seule condition de remplacer par M *. Remarque : L'inertie du nuage de points ainsi transformé, par rapport à 0 est la distance du entre la loi empirique du couple (X, Y) telle qu'elle est définie par M et la loi produit des lois empiriques marginales de X et de Y telles qu'elles sont définies par M : d) Exemples Exemple 1 : Tableau croisant p = 8 cause de décès avec n = 13 catégories socio professionnelles, pour la classe d'âge 46-54 ans. On a projeté le tableau dans le plan des deux premiers axes factoriels F 1 = L 1 et F 2 = L 2. Pour une catégorie socio professionnelle donnée i, la répartition des causes de décès est visualisée par les proximités entre i et les divers points - causes de décès : un point i du nuage des CSP est barycentre - à l'homothétrie près - des points j du nuage des causes de décès, pondérés par z ij / z. j puisque : Φ q (j) = n λ q i = 1 1 F q (i) z ij z.j où Φ q (j) est la j è composante du q è axe factoriel dans R n et F q (i) la i è composante du q è axe factoriel dans R p (cf II c) remarque).

analyse exploratoire des données 119 TECHNICIENS Lésions vasculaires cérébrales F 2 AGRICULTEURS EXPLOITANTS SALARIES AGRICOLES CADRES MOYENS (public) CADRES MOYENS (privé) ACCIDENTS Coronarites et autres affections cardiaques Autres maladies Cancer EMPLOYES (privé) PROFESSIONS Causes de décès PATRONS (Industrie et commerce) CONTREMAÎTRES ET OUVRIERS QUALIFIES (privé) EMPLOYES (public) 0 CONTREMAÎTRES ET OUVRIERS QUALIFIES (public) OUVRIERS SPECIALISES (privé) Tuberculose pulmonaire OUVRIERS SPECIALISES (public) F MANOEUV Alcoolism et cirrhose

Exercices 120 EXERCICES ET PROBLEMES 1 - Exercices de Révision sur le Calcul des Probabilités 1 Urne Trouver, en fonction de r, la probabilité pour que, de r chiffres tirés au hasard de {0, 1, 2,...,9}, l'un après l'autre, avec remise, il n'y en ait pas deux qui soient égaux (r < 10). Indication : On pourra commencer par supposer que r = 2, puis r = 3, puis généraliser. 2 Cartes Un ensemble de 8 cartes contient un joker, et un seul. A et B sont deux joueurs. A choisit 5 cartes au hasard, B prenant celles qui restent. a) Quelle est la probabilité que A ait le joker? b) A jette maintenant 4 cartes et B 2. Quelle est alors la probabilité pour que A ait le joker sachant que ce dernier n'a pas été jeté? 3 Conseil de sécurité Le conseil de sécurité comporte 11 membres dont la Grande-Bretagne, la France, la Chine, les Etats Unis et la Russie sont des membres permanents.si, lors d'un meeting, les membres prennent place au hasard, quelle est la probabilité pour que : Britanniques et Français soient voisins Russes et Américains non a) dans le cas où ils sont alignés, b) dans le cas où ils sont autour d'une table ronde. Indication : on notera B, F, R, A les quatre représentants en question. 1) Compter le nombre total de dispositions possibles. 2) Pour un placement global donné de {B, F, R, A} réalisant la condition demandée, compter : a) le nombre de placements possibles de {B, F, R, A}, b) le nombre de placements possibles des autres membres. 3) Analyser la différence entre l'alignement et la table ronde. 4 Billes en bois et en verre Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2 / 3 des billes sont rouges, le reste noir. La moitié des billes rouges sont en bois, ainsi que le quart des noires. Vous devez plonger la main dans l'urne et parier sur la couleur. Que faites vous?

Exercices 5 Viager Avant d'acquérir une propriété en viager pour laquelle l'extinction de la rente annuelle et fixe dépend de la disparition des deux conjoints actuellement âgés de 60 anspour la femme et 70 ans pour le mari, un acheteur désire connaître la probabilité de continuation de la rente au bout de 10 ans. a) Comment est il possible d'évaluer cette probabilité à partir du tableau suivant? Table de mortalité Nombre de survivants Hommes Femmes Naissance 1 000 000 1 000 000 60 ans 381 065 428 583 70 ans 242 442 312 612 80 ans 80 381 139 349 b) En supposant que la rente annuelle est fixe (pas d'inflation, pas d'intérêt), quel doit être son montant r pour être équitable? 121 2 - Exercices de génétique Rappel de quelques définitions de génétique : Base Gamète : cellule reproductrice, mâle ou femelle, dont le noyau ne contient que n chromosomes. Toutes les autres cellules du corps en ont 2n chez les diploïdes. zygote : cellule résultant de la fécondation. diploide : se dit d'un noyau cellulaire possédant un nombre pair de chromosomes, double de celui des gamètes. Systèmes de croisement Les définitions qui suivent concernent uniquement des populations d'effectif infiniment grand, en l'absence de mutation et de sélection. Cette hypothèse d'absence de mutation et de sélection signifie que le polymorphisme de la population est conditionné par des gènes inaptes à subir des mutations d'une part, et tels qu'aucun des génotypes qu'ils définissent ne soit favorisé par la sélection d'autre part. L'absence de sélection est définie par les trois hypothèses : 1) Lorsqu'un zygote est formé, la probabilité qu'il a de se développer en adulte apte à la reproduction ne dépend pas de son génotype. 2) Le nombre de gamètes formés par un individu apte à la reproduction ne dépend pas de son génotype. 3) La probabilité pour qu'un gamète participe à la formation d'un zygote ne dépend, ni du génotype de l'individu qui l'a formé, ni de son propre génotype. Panmixie : L'hypothèse de panmixie est celle selon laquelle la formation des zygotes résulte de l'union au hasard entre gamètes femelles et gamètes mâles : Tout se passe comme si deux SBM_stat_cours 9_exercices.doc 121 07/09/03

Exercices 122 tirages au sort indépendants étaient faits, l'un parmi les gamètes mâles et l'autre parmi les gamètes femelles. Consanguinité Coefficient de parenté : Le coefficient de parenté de deux individus K et L, qui est noté f KL, est égal à la probabilité pour que, si l'on prend au hasard un des locus (ou loci) du génôme de K et un des locus homologues du génôme de L, ces deux locus soient identiques. Locus identiques : Deux locus sont dits identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre, ou si l'un est issu de l'autre par un certain nombre de duplications successives. Coefficient de consanguinité individuel : Le coefficient de consanguinité d'un individu diploide I est la probabilité pour que deux locus homologues de son génome soient identiques. On le note f I (Cela entraîne que, dans une espèce diploide, le coefficient de consanguinité de I est égal au coefficient de parenté de ses parents). Coefficient de consanguinité moyen α : d'une population. C'est la probabilité pour que deux locus homologues d'un individu quelconque de la population soient identiques. 6 Maladie génétique dans une population panmictique : Une malformation n'ayant pas de retentissement sur la fécondité et déterminée par un allèle a, récessifautosomique, présente dans une population donnée une fréquence q (= 1 / 10 000) ; on extrait au hasard 10 000 individusde cette population panmictique. a) Donner, sur cet échantillon, une estimation moyenne (ou estimateur de la moyenne) de : α) du nombre d'allèles a appartenant à des individus malades. β) du nombre d'allèles a appartenant à des individus cliniquement sains. b) Au sein de cette population, les mariages se font au hasard (panmixie). Quelles sont les fréquences moyennes des mariages suivants : α) Ceux dont la descendance sera épargnée par la maladie (On donnera une réponse littérale en fonction de p et q, fréquences respectives des allèles A et a) β) Ceux dont les enfants seront touchés avec une probabilité de 1 / 4 γ) Ceux dont les enfants seront touchés avec une probabilité de 1 / 2 c) Si au contraire les homozygotes aa ont une fécondité nulle et en admettant que la sélection n'ait pas d'effet sur les hétérozygotes, calculer quel taux de mutation assurerait à l'allèle a une fréquence stable. 7 Consanguinité : Soit un sujet dont les parents sont doubles cousins germains. a) Etablir l'arbre généalogique b) Simplifier cet arbre en faisant apparaître les chainons unissant les individus concernés. c) Calculer le coefficient de consanguinité de ce sujet. d) Calculer la probabilité a priori pour qu'un tel sujet consanguin développe une mucoviscidose (maladie récessive autosomique de fréquence 1 / 2500) sachant qu'on ne possède aucun

renseignement sur la famille. Exercices 123 8 Achondroplasie : Un couple de nains achondroplases I 1 et I 2 a eu successivement : - II 1 enfant achondroplase - II 2 enfant normal - II 3 enfant d'aspect achondroplase, décédé à la naissance. L'achondroplasie est une maladie dominante autosomique, et on peut considérer l'homozygotie comme létale en général. a) Donner les génotypes les plus probables des sujets : I 1, I 2, II 1, II 2 et II 3 b) Quel est le génotype le plus probable des parents de I 1 et de I 2? c) Quelle était la probabilité, a priori, pour que le couple ait cette descendance et dans cet ordre? d)... dans n'importe quel ordre? e) Quelle est la probabilité, a priori, pour qu'un tel couple ait 3 enfants tous sains? f) II 2 consulte pour un conseil génétique. Evaluer le risque d'achondroplasie pour sa descendance. 9 Groupes sanguins : 556 individus prélevés au hasard dans une population supposée infiniment grande présente les caractéristiquessuivantes, en ce qui concerne les gènes autosomaux codominants M et N : 167 sont M 280 MN 109 N EStimer la fréquence du gène responsable de la synthèse de l'antigène M dans la population étudiée. 10 Phosphatases érythrocytaires : Les hématies humaines renferment des phosphatases dénommées "Phosphatases érythrocytaires". Il en existe trois types, que l'on peut distinguer par électrophorèse, désignés par A, B et C. Chez certains individus, il existe une seule phosphatase érythrocytaire; selon le type de celle ci, on désigne le phénotype d'un tel individu par A, B ou C. Chez d'autres individus, deux sont présentes, les phénotypes correspondants sont AB, AC et BC. Sur 268 individus extraits au hasard d'une population humaine, on dénombre : 25 de phénotype A 106 B 113 AB 9 AC 15 BC Quelle est l'hypothèse la plus simple sur le déterminisme génétique de ces caractères et sur le mode de reproduction de la population, qui rende compte de cette distribution? SBM_stat_cours 9_exercices.doc 123 07/09/03

Exercices 124 11 Génétique et calcul conditionnel Le coefficient de parenté de deux individus K et L, noté f kl, est égal à la probabilité pour que, si l'on prend au hasard un des locus du génome de K et un des locus homologues du génome de L, ces deux locus soient identiques. On dit que deux locus sont identiques s'ils sont occupés par deux gènes issus par duplications successives d'un même gène ancêtre ou si l'un est issu de l'autre par duplications successives. 1) Quel est le coefficient de parenté de - deux soeurs? - deux cousins germains? 2) Les parents du sujet sont doubles cousins germains. a) Etablir l'arbre généalogique du sujet. b) Calculer le coefficient de consanguinité du sujet. On appelle coefficient de consanguinité d'un sujet la probabilité pour que deux locus homologues de son génome soient identiques. 3) La mucoviscidose est une maladie récessive autosomique de fréquence 1 / 25000. Quelle est la probabilité pour que le sujet développe une mucoviscidose? 4) Comparer ce risque à celui encouru par un sujet non consanguin. Conclusion? 3 - Exercices variés (Expérimentation biologique, épidémiologie, essais thérapeutiques) ; 12 Suspension d'organismes virulents Une grande suspension d'organismes virulents est diluée à la concentration moyenne de 1 organisme pour 0. 1 ml. En supposant que les organismes sont répartis aléatoirement dans la suspension et que tout organisme virulent causera une infection chez l'animal de laboratoire à qui il sera injecté, quelle proportion des animaux sera infectée si on injecte 0.1ml à chacun des animaux d'un lot important? 13 Rhumes Lors d'une étude portant sur les relations entre l'incidence des rhumes à différentes périodes de l'année, un échantillon de 100 personnes a été tiré (au hasard) d'une certaine population. On a obtenu les résultats suivants : - 42 ont été attaqués les deux fois. - 11 ont été attaqués pendant la première période mais pas pendant la seconde. - 19 n'ont jamais été attaqués. 1) Peut on considérer que le fait d'avoir été attaqué pendant la première période a un effet sur le risque encouru lors de la deuxième période? 2) Cet effet est il plutôt immunisant ou plutôt sensibilisateur? Justifier vos réponses par un test dont vous donnerez le degré de signification.

Exercices 14 poids de naissance Les données ci-dessous sont relatives au poids de naissance de 18 645 enfants dans le sudouest de l'angleterre en 1965 (données de Pethybridge, Brit. J. prev. Soc. Med. 28, p. 10-18 (1974). Poids [0 1[ [1 2[ [2 3[ [3 4[ [4 5[ [5 6[ [6 7[ [7 8[ Effectif 3 40 82 126 364 1182 4173 6723 Poids [8 9[ [9 10[ [10 11[ [11 12[ [12 13[ [13 14[ [14 15[ Effectif 4305 1365 240 39 2 0 1 Le poids moyen de naissance observé est de 7. 375 livres et l'écart-type observé de 1.2375. 1) Tracer sur un même graphique la fonction de répartition observée et la fonction de répartition de la loi normale de même moyenne et de même variance qu'elle. Ces deux lois vous paraissent elles proches? 2) Effectuer un test pour vérifier s'il est ou non acceptable de considérer que le poids de naissance suit une loi normale. 125 15. Poids de naissance et âge de la mère : On désire savoir s'il existe une liaison entre le poids de naissance Y d'un enfant et l'âge X de sa mère à l'accouchement. Dans ce but, on prélève 100 dossiers médicaux dans le fichier des naissances d'une maternité. Les résultats obtenus sont les suivants (X est exprimé en années et Y en kilogrammes) : Σ x i = 2 500 Σ x i 2 = 65 000 Σ y i = 300 Σ y i 2 = 925 Σ x i y i = 7545 1) Quelle(s) hypothèse(s) devez vous faire pour pouvoir envisager d'utiliser ces données pour répondre à la question que l'on se pose? Ces hypothèses seront faites dans toute la suite. 2) Tracer la droite de régression observée de Y par rapport à X.Quelle est sa pente? Commenter. 3) Quelles hypothèses proposez-vous de tester pour mettre en évidence l'existence d'une liaison entre le poids à la naissance d'un enfant et l'âge de sa mère? Effectuer ce test et énoncer clairement la conclusion correspondante. 4) On a prélevé 1 0 dossiers médicaux de femmes qui ont accouché récemment, par tirage au sort dans l'ensemble des maternités relatives à la population considérée. Les résultats ainsi obtenus en ce qui concerne l'âge des mères sont les suivants : Σ x i = 26 80 Σ x i 2 = 74 350 Quelles hypothèses proposez-vous de tester pour pouvoir vérifier si au moins une partie des hypothèses faites au 1) est justifiée? 16. Aptitude à goûter la phénylthiocarbamide : L'aptitude à être goûteur ou non goûteur de la PTC (Phénylthiocarbamide) est contrôlée par un locus à 2 allèles T et t, de fréquences respectives p et q. Les individus tt sont non SBM_stat_cours 9_exercices.doc 125 07/09/03

Exercices 126 goûteurs. Les individusb TT et Tt sont goûteurs (T est dominant). 1) Quelle est, en fonction de p et q la fréquence des génotypes TT, Tt et tt? (On suppose que les gènes s'associent de manière indépendante pour former les génotypes). 2) On suppose que les mariages ont lieu au hasard. Combien y a-t-il de mariages différents possibles? Quelles sont leurs probabilités? 3) Sur cinq familles de parents Tt x tt ayant un seul enfant chacune, quelle est la probabilité : a) que 3 exactement de ces familles aient un enfant goûteur? b) que chacune de ces familles ait un enfant goûteur? 4) Pour estimer la fréquence p' des goûteurs dans la population, on a réalisé une enquête portant sur n = 625 sujets. Parmi eux, 500 sont goûteurs et 125 non goûteurs. Donner un intervalle de confiance de coefficient de confiance 98 % pour p'. 5) Pouvez-vous déduire de la question précédente un intervalle de confiance pour q? 6) Sachant qu'un couple a cinq enfants en tout dont un seul est goûteur, quelle est la probabilité qu'il s'agisse d'un couple Tt x tt? 17. Dénombrement de globules rouges Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un hématimètre est donné ci-dessous : X = i le nombre de 0 1 2 3 4 5 6 7 8 9 10 N globules d'une case n i = nombre 13 41 90 112 100 66 45 22 9 1 1 500 de cases ayant i globules On donne Σ x 2 = Σ n i i 2 = 8 114. I 1) Calculer la moyenne observée m du nombre X de globules par case et la variance s 2 de X. 2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique. 3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ 0 l'estimation de µ par le maximum de vraisemblance. Comparer avec le résultat du 1). 4) (ne nécessite pas d'avoir résolu le 3)).Quel estimateur peut-on donner de µ? Quelles sont les propriétés de cet estimateur? II 1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test permettant de savoir, au risque α, si les résultats obtenus peuvent provenir d'un sujet sain. 2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m [m 1, m 2 ] où m 1 et m 2 sont définies par Prob [m (m 1, m 2 ) / µ = 4] = 5 %. Quelles sont vos conclusions? 3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que µ = 4, la répartition théorique moyenne du nombre de globules est donnée par le tableau suivant où R i est l'effectif théorique ou "attendu" des cases ayant i globules:

Exercices 127 X = i 0 1 2 3 4 5 6 7 8 9 10 11 R i 9,1 36,6 73,3 97,7 97,7 78,1 52,1 29,8 14,9 6,6 2,7 1,4 Peut-on admettre au risque de 5 % que les résultats observés initialement sont ceux d'un sujet sain? 4) Comparez aux résultats du II - 2) et commentez. III Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on recommence l'expérience une semaine après. Pour ce deuxième prélèvement on ne compte que le nombre de cases sans globules. On obtient alors les résultats suivants : X 0 21 Nbre total de cases 1er prélèvement 13 487 500 2ème prélèvement 19 481 500 La proportion de cases vides est-elle la même pour ces deux prélèvements? 18. Délai d'apparition d'une maladie On suppose que le délai X d'apparition d'une maladie après la mise en contact avec un milieu polluant est une variable aléatoire dont la loi admet la densité f (x) = a.exp (-ax) si x = 0 = 0 si x < 0 1) Quelle est la fonction de répartition F (x) de cette variable au point x? 2) Calculer EX et Var (X). 3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant un délai moyen d'apparition M = 8 X1 +... +Xn) / n. Que valent l'espérance EM et la variance V(M) de M? 4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un écart type empirique de 5 jours. peut on en déduire un intervalle de confiance au risque 3 % pour le paramètre inconnu a? 5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme sur le segment [0 a] SBM_stat_cours 9_exercices.doc 127 07/09/03

Exercices 128 19. Diabète infantile Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête sur le diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet avant qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie, c'est à dire le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit supérieure à 15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes. Durée Nombre de Rétinopathies R 1 R 2 R 3 d'évolution cas 15 < t = 20 173 67 45 15 7 20 < t = 25 58 32 17 12 3 t > 25 38 22 12 7 3 TOTAL 269 121 74 34 13 Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que la durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans. Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en sont atteints ont été répartis en trois catégories : R 1, R 2 et R 3 d'après la gravité de la rétinopathie : R 1 si l'atteinte est légère, R 2 si elle est moyenne et R 3 si elle est forte. a) Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de signification accepterait on cette hypothèse? b) Donner une estimation par un intervalle de confiance à 5 % de la proportion des malades atteints de rétinopathie dans chacune des classes de durée d'évolution. Peut-on considérer que ce pourcentage croit significativement en même temps que la durée d'évolution, au seuil de 5 %? c) Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de la durée d'évolution du diabète? d) 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la tension, et obtenu au bout de 40 jours de traitement les résultats suivants : Numéro du 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 patient Différence +1 +4 +5-5 -1 +2 +8-25 -12-16 -9-8 -18-5 -22-21 -15-11 de tension Peut-on considérer que ce traitement est efficace? (On pourra pour cela tester au seuil de 5% l'hypothèse H 0 selon laquelle le traitement n'a aucun effet).

Exercices 129 20. Capacité respiratoire et pollution atmosphérique Lors d'une étude destinée à mettre en évidence d'éventuelles relations entre les affections respiratoires et la pollution atmosphérique, on a obtenu les résultats suivants dans des quartiers bien définis de quatre grandes villes françaises (*) : Concentration en SO2 (UG / M3) Prévalence des symptomes respiratoires Bordeaux B1 42 26, 2 B2 37 27, 3 B3 69 29, 3 B4 47 26, 8 Lyon L1 88 31, 5 L2 100 31, 2 L3 56 29, 2 L4 94 28, 4 Marseille M1 60 28, 2 M2 105 30, 2 M3 120 27, 7 M4 48 26, 6 Toulouse T1 32 25, 9 T2 34 28, 7 T3 13 26, 1 1) Peut on considérer que les deux villes de Bordeaux et de Lyon sont comparables en ce qui concerne la pollution par le dioxyde de soufre? 2) Ce tableau de données permet-il de conclure à l'existence d'une liaison entre la prévalence des symptômes respiratoires et la concentration en dioxyde de soufre? (Comme il serait trop long de décrire le protocole de l'enquête qui a permis de recueillir ces données, on pourra supposer vérifiées les hypothèses qui permettent d'effectuer un test) 3) Le volume expiratoire moyen en une seconde, appelé Vems, est une quantité qui dépend de la taille et de l'âge. Les mesures faites sur 8 individus adultes ont donné les résultats suivants Individu Age (an) Taille (m) Vems (1 / s) 1 30 1. 85 4. 5 2 32 1. 72 3. 6 3 35 1. 51 2. 7 4 36 1. 62 3. 1 5 37 1. 6 3. 6 6 31 1. 80 4. 4 7 36 1. 75 4. 3 SBM_stat_cours 9_exercices.doc 129 07/09/03

Exercices 130 8 33 1. 68 3. 8 Un modèle de régression linéaire a été proposé pour la liaison entre le Vems et la taille, illustré par la figure suivante : Vems (l/s) 30-39 ans 5,0 4,5 40-49 ans 4,0 3,5 50-59 ans 3,0 2,5 2,0 Taille (m) 1,5 1,6 1,7 1,8 1,9 4) L'échantillon des 8 personnes interrogées parait-il être conforme à ce modèle, c'est à dire V i = a. T i + b + Z i où V est la variable qui désigne le Vems, T la taille, et Z une variable Normale N (0; 0, 06) et i est l'indice désignant l'individu. 5) En fait, les 4 premières personnes ont été tirées au hasard d'une population soumise à une pollution atmosphérique significativement plus importante que les 4 autres. Ces données vous permettent-elles de conclure à l'existence d'une liaison entre la pollution atmosphérique et le Vems? 6) Trois régions sont classées suivant la teneur de l'air en poussières, par ordre croissant (I, II, III), et on extrait dans chacune de ces régions un échantillon d'individus dont on mesure le Vems; les valeurs du Vems sont subdivisées en quatre classes notées 1, 2, 3, 4 (1 correspond à un Vems très bas, 2 à un Vems bas, 3 à un normal,4 à un supérieur à la normale) : Région I II III Vems 1 12 23 42 2 54 73 67 3 124 102 85 4 10 7 8 Peut-on considérer qu'il existe une liaison significative entre la teneur de l'air en poussières et le V.e.m.s.? (*) D'après :

Exercices Enquête du groupe coopératif PAARC, Bull. Europ. Physiopath. Respiratoire, 1980, 16,745-767;1982,18, 87-99; 101-116 21. Fumée de papier à cigarette et cancer du poumon Une expérience a été menée dans le but de mettre en évidence un éventuel effet de la fumée de papier à cigarette sur la génèse du cancer du poumon. Au cours de cette expérience, 74 souris ont été utilisées, dont 36 ont servi de contrôle. Les 38 souris expérimentales ont été placées dans la cage expérimentale et les 36 souris de contrôle dans la cage de contrôle de la machine à fumer. La machine produisait la fumée de 108 papiers à cigarette par jour, six jours par semaine et cela pendant un an. A la fin de l'expérience, les animaux furent sacrifiés. Il y avait 13 tumeurs parmi les souris expérimentales et 11 parmi les témoins. L'auteur conclut : "Il existe une très légère prépondérance du nombre des tumeurs chez les souris expérimentales par rapport aux souris témoins, et cette prépondérancen'est pas significative si l'on en fait une analyse statistique...les résultats de cette expérience indiquent que le papier à cigarette a peu ou pas d'effet sur la génération de cancer du poumon chez les souris albinos". a) Faire l'analyse statistique appropriée pour vérifier la première de ces deux conclusions. b) Etes-vous d'accord avec la deuxième conclusion de l'auteur? 131 22. Calories et mortalité infantile Le tableau suivant donne, pour plusieurs pays, le nombre moyen de calories absorbées par personne et par jour ainsi que le taux de mortalité infantile : Pays Nombre de calories par personne et par jour Mortalité infantile (taux pour 1000) Pays Nombre de calories par personne et par jour Mortalité infantile (taux pour 1000) x y x y Argentina 2,730 98.8 Iceland 3,160 42.4 Australia 3,300 39.1 India 1,970 161.6 Austria 2,990 87.4 Ireland 3,390 69.6 Belgium 3,000 83,1 Italy 2,510 102,7 Burma 2,080 202.1 Japan 2,180 60.6 Canada 3,070 67.4 New Zealand 3,260 32.2 Ceylon 1,920 182.8 Norway 3,160 40.5 Chile 2,240 240.8 Netherlands 3,010 37.4 Columbia 1,860 155.6 Poland 2,710 139.4 Cuba 2,610 116.8 Sweden 3,210 43.3 Denmark 3,420 64.2 Switzerland 3,110 45.3 Egypt 2,450 162.9 U.K 3,100 55.3 France 2,880 66.1 U.S.A 3,150 53.2 Germany 2,960 63.3 Uruguay 2,380 94.1 Greece 2,600 113.4 a) Peut-on considérer que chacune des deux variables en question, X et Y, a une distribution normale? (On identifiera, pour tester ces hypothèses, l'espérance et la variance de X et de Y à leurs estimateurs usuels respectifs). SBM_stat_cours 9_exercices.doc 131 07/09/03

Exercices 132 b) Tracer dans un plan x0y le diagramme représentatif de ces pays. Le résultat obtenu suggère-t-il l'existence d'une corrélation entre les deux variables X et Y? Effectuer le test correspondant et conclure. c) pouvez-vous, des résultats précédents, déduire qu'un apport important de calories peut réduire la mortalité infantile? 23. Souris infectées par des larves On s'intéresse à l'effet d'une dose faible de cambendazole sur les infections des souris par la Trichinella Spiralis. 16 souris ont été infectées par un même nombre de larves de Trichinella et ensuite réparties au hasard entre deux groupes. Le premier groupe de 8 souris a reçu du cambendazole, à raison de 10 mg par kilo, 60 heures après l'infection. Les 8 autres souris n'ont pas reçu de traitement. Au bout d'une semaine, toutes les souris ont été sacrifiées et le nombre suivant de vers adultes ont été retrouvés dans les intestins : Souris non traitées Souris traitées 51 4 55 6 62 9'4 63 11 68 13 71 14 75 15 79 16 44 1 47 2 49 3 53 5 57 7 60 8 62 9'4 67 12 Que peut-on conclure au sujet d'une éventuelle efficacité du cambendazole, dosé à 10 mg / kg, pour le traitement des infections des souris par la Trichinella Spiralis? 24. Papillons On étudie une variété de papillons qui se présentent sous l'une des trois couleurs suivantes : jaune, orange ou noir (1). I. On a remarqué que dans les régions au climat rigoureux les papillons noirs semblaient être, en proportion, plus nombreux que dans les régions dont le climat est doux. On a donc observé deux échantillons de ces papillons, l'un de 360 et l'autre de 180 papillons sous l'un et l'autre climats, et obtenu les résultats suivants : papillons noirs oranges jaunes Total climat climat doux 42 164 154 360 climat rude 39 73 68 180 a) Tester, au niveau d = 2 %, l'hypothèse H 0 selon laquelle la répartition des papillons entre les trois couleurs est indépendante de la rigueur du climat. b) Quelle autre hypothèse H' 0 auriez-vous pu choisir de tester dans le but de vérifier si effectivement les papillons noirs étaient proportionnellement plus nombreux dans les régions froides? Indiquez les grandes lignes de la résoluton de ce nouveau problème de test de votre choix. II. Les trois couleurs possibles jaune, orange et noir, correspondent respectivement aux trois génotypes aa Aa AA. Or les deux variétés allèles A et a du gène de coloration sont réparties, dans la population des papillons, dans les proportions respectives θ et 1 - θ, où θ est un paramètre inconnu, strictement compris entre 0 et 1. De plus les croisements sont supposés avoir lieu au hasard. (Autrement dit pour former un papillon de génotype donné,

Exercices tout se passe comme si l'on effectuait deux tirages avec remise dans une urne contenant une proportion θ de A et 1 - θ de a). a) Quelles sont, en fonction de θ, les probabilités p 1, p 2 et p 3, pour qu'un papillon soit respectivement noir, orange ou jaune? b) On tire au hasard n papillons et on désigne respectivement par X 1, X 2 et X 3 le nombre de ceux qui sont de génotype AA Aa et aa. On considère les évènements suivants : E 1 = {X 1 = n 1 } ; E 2 = {X 2 = n 2 } ; E 3 = {X 3 = n 3 } E 12 = {X 1 = n 1, X 2 = n 2 } = E 1 E 2 E 123 = {X 1 = n 1, X 2 = n 2, X 3 = n 3 } = E 12 E 3 = E 1 E 2 E 3 Calculer, en fonction de p 1, p 2 et p 3, les probabilités suivantes : P(E 1 ), P(E 2 / E 1 ), P(E 12 ), P(E 3 / E 12 ). En déduire P(E 123 ). Voyez-vous une autre façon, plus directe, de calculer P(E 123 )? Exprimer P(E 123 ) en fonction de θ. (2) c) Sur un échantillon de n papillons dont n 1 sont noirs, n 2 oranges et n 3 jaunes, on cherche à estimer la valeur de θ. Donner, en fonction de n 1, n 2 et n 3, l'estimateur du maximum de vraisemblance de θ. Application numérique : On se limite aux régions dont le climat est doux, et on utilise les données figurant dans la première ligne du tableau de la question I. III Une théorie conduit à donner à θ la valeur 1 / 3. a) Tester l'hypothèse H 0 : (θ = 1 / 3) au seuil de 10 %, en ce qui concerne les papillons qui vivent dans les régions dont le climat est doux. A partir de quel seuil aurait-on rejeté H 0? (Utiliser les données de la 1ère ligne du tableau I). b) On s'est aperçu que l'excédent de papillons noirs dans les régions au climat rude, est dû au fait que les papillons jaunes et oranges semblent y survivre moins bien. Pour vérifier l'exactitude de cette remarque, on compare, dans ces régions, les durées de vie des papillons noirs et des autres. On fait 100 observations indépendantes sur la différence D entre la durée de vie d'un papillon noir et d'un papillon d'une autre couleur, comparables en tous points (autre que la couleur) et situés dans les mêmes conditions de vie. Ces 100observations (d i ) i = 1,..., 100, mesurées en jours, ont pour moyenne empirique m = Σ d i / 100 = 10 jours, et s 2 = Σ (d i - m ) 2 / 100 = 16 pour variance empirique. Tester au seuil de 5 % l'hypothèse H 0 : la durée de vie de cette espèce de papillons est indépendante de leur couleur, noir ou non, dans les régions au climat rigoureux. c) On s'aperçoit, après coup, que les mesures de la différence D entre les durées de vie ont été faussées par l'appariement de telle sorte que l'échantillon de taille 100 (en fait 200observations) n'est pas représentatif. Comme on n'a plus ni le temps, ni les moyens de recommencer l'expérience sous une forme comparable, on mesure les durées de vie de 10 papillons noirs et de 10 papillons d'une autre couleur, tirés au hasard et on obtient : SBM_stat_cours 9_exercices.doc 133 07/09/03 133

Exercices 134 Papillons noirs 14 10 11 12 13 12 9 16 18 17 Autres 8 17 9 10 12 11 14 7 8 13 Peut on conclure? (1) Les parties I, II et III sont indépendantes (sauf en ce qui concerne la question III a) qui nécessite le résultat de la question II a)). (2) On trouve résultat que l'on pourra utiliser pour résoudre la question suivante II c). 25. Nématodes Deux espèces de nématodes (parasites de l'homme), G. primum et G. secundum, sont décrites comme ayant des oeufs très similaires morphologiquement mais différant par la loi de leur taille. On sait que les oeufs de l'espèce primum ont une longueur moyenne de plus de 50 microns et ceux de l'espèce secundum de moins de 50 microns. Douze oeufs de ce type morphologique ont été trouvés dans les selles d'un patient. La longueur de ces oeufs est donnée ci-dessous, exprimée en microns : 37, 2 38, 6 41, 2 42, 4 44, 8 46, 3 48, 1 49, 4 49, 7 50, 4 51, 6 52, 7 A votre avis, ces données permettent-elles de conclure à laquelle de ces deux espèces appartiennent ces oeufs, en supposant qu'une seule des deux espèces est présente? Justifiez votre réponse. 26. Durée de vie des bactéries On sait par expérience que la durée de vie d'un certain type de bactéries a une loi de probabilité dont la densité vaut, pour x positif f (x) = θ.e -θx θ est un paramètre réel positif inconnu, x est exprimé en jours. 1) On observe les durées de vie x 1,..., x n de n de ces bactéries tirées au hasard a) Proposer un estimateur de θ. On l' appellera θ. b) Quelle est, en fonction de θ, la durée de vie moyenne de ces bactéries? Quelle est la variance de cette durée de vie? c) Peut on déduire de l'estimateur θ de θ des estimateurs de l'espérance et de la variance de la durée de vie de ces bactéries? d) Quelle est la probabilité, lorsqu'on en observe 100, que la durée de l'expérience soit plus du double de la durée de vie moyenne d'une bactérie? e) On a observé un échantillon de n = 100 bactéries et noté leurs durées de vie en jours, obtenant les résultats suivants

Exercices 135 Durée Nombre de Durée Nombre de de vie bactéries de vie bactéries 0 5 10 5 1 14 11 2 2 15 12 2 3 9 13 2 4 12 14 6 5 10 15 3 6 4 16 1 7 2 17 3 8 1 18 1 9 2 38 1 Donner un intervalle de confiance à 95 % pour θ. 2) Un autre expérimentateur du même laboratoire a trouvé plus simple pour estimer θ, de se contenter d'observer le nombre D de bactéries qui sont mortes au bout d'un temps t qu'il s'est fixé par avance (Les 100 bactéries initiales sont supposées nées en même temps à l'instant 0). a) Quelle est en fonction de θ, la probabilité pour qu'une bactérie, tirée au hasard, ait une durée de vie inférieure à t? b) Quelle est la loi de D? c) Quel estimateur de θ ce second expérimentateur peut il proposer? On appellera cet estimateur θ. Quelle valeur de θ obtient il s'il fait son observation au bout de 3 jours? 3) Que pensez vous de ces deux points de vue? Pourriez vous en proposer un troisième pour estimer θ à partir de ces mêmes 100 bactéries initiales? 27. Vermicularis entérobius Lors d'une étude de la relation entre la longueur et la production d'oeufs de la femelle de l'"enterobius vermicularis", les données, fondées sur 14 vers, et le diagramme publié, sont les suivants : numéro longueur x nombre des oeufs, du en mm y, contenu ver dans le ver 1 6.7 4,672 2 7.0 7,698 3 7.5 4,902 4 8.1 12,782 5 8.8 8,790 6 8.8 8,706 7 9.0 10,507 8 9.0 8,506 9 9.0 11,810 10 9.2 14,703 11 9.3 14,816 12 9.4 6,345 13 9.4 11,024 SBM_stat_cours 9_exercices.doc 135 07/09/03

Exercices 136 14 9.7 14,451 15 Nombre d'oeufs 14 13 12 11 10 9 8 7 6 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Numéro du ver Oeufs en milliers Longueur en mm Pourriez-vous suggérer une meilleure représentation de ces résultats et étudier une éventuelle corrélation entre les deux variables concernées? 28. Détresse respiratoire du nouveau-né Un essai thérapeutique est fait pour tester l'efficacité du traitement par le trishydroxyméthyl-amino-méthane (THAM) comparé au bicarbonate de sodium, de la détresse respiratoire idiopathique aigue (double aveugle) : 25 ont été traités par le THAM et 25 par le bicarbonate et les résultats ont été les suivants : 1 si l'enfant a survécu, y = 0 si l'enfant est mort. x 1 = 1 si le traitement est THAM, 0 si le traitement est le bicarbonate. x2 = durée (minutes) écoulée jusqu'à la respiration spontanée. x 3 = poids de naissance (kg).

Exercices 137 Pour les enfants qui sont morts Enfant y x 1 x 2 x 3 Enfant y x 1 x 2 x 3 1 0 1 2 1.050 15 0 0 8 1.225 2 0 1 2 1.175 16 0 0 10 1.262 3 0 1 0.5 1.230 17 0 0 0 1.295 4 0 1 4 1.310 18 0 0 2 1.300 5 0 1 0.5 1.500 19 0 0 3 1.550 6 0 1 10 1.600 20 0 0 0 1.820 7 0 1 0.5 1.720 21 0 0 0.5 1.890 8 0 1 0 1.750 22 0 0 5 1.940 9 0 1 6 1.770 23 0 0 10 2.200 10 0 1 2 2.275 24 0 0 0 2.270 11 0 1 0 2.500 25 0 0 0 2.440 12 0 0 7 1.030 26 0 0 2 2.560 13 0 0 0.5 1.100 27 0 0 0 2.730 14 0 0 0 1.185 Pour les enfants qui ont survécu Enfant y x 1 x 2 x 3 Enfant y x 1 x 2 x 3 28 1 1 0.5 1.130 40 1 1 0 3.640 29 1 1 0 1.575 41 1 1 0 2.830 30 1 1 15 1.680 42 1 0 1 1.410 31 1 1 4 1.760 43 1 0 2 1.715 32 1 1 1 1.930 44 1 0 2 1.720 33 1 1 0 2.015 45 1 0 4 2.040 34 1 1 0 2.090 46 1 0 5 2.200 35 1 1 0 2.600 47 1 0 2 2.400 36 1 1 0 2.700 48 1 0 1 2.550 37 1 1 10 2.950 49 1 0 0.5 2.570 38 1 1 3 3.160 50 1 0 0 3.005 39 1 1 0.5 3.400 Ce qui conduit aux résultats : Σy =23, Σy 2 = 23, Σx 1 = 25, Σx 1 2 = 25, Σx 2 = 127.0, Σx 2 2 =927.00, Σx 3 = 98.747, Σx 3 2 = 216.41875, Σx 1 y = 14, Σx 2 y = 51.5, Σx 3 y = 53.071 a) Faire une régression de Y sur X 1, X 2, X 3. Interpréter le résultat obtenu. b) Comment proposez-vous de prédire la survie d'un enfant dont vous connaissez les valeurs de x 1, x 2 et x 3? c) Que concluez-vous en ce qui concerne l'efficacité du THAM? d) Critiquer l'emploi d'une régression dans ce cas particulier. SBM_stat_cours 9_exercices.doc 137 07/09/03

Exercices 138 29. Caries dentaires 1) Lors d'une étude de propriétés anti-caries de divers dentifrices,423 enfants utilisaient le dentifrice A et 408 le dentifrice B. Au bout de 3 ans, 163 des enfants sous A et 119 de ceux qui sont sous B sont sortis de l'expérience. Les auteurs suggèrent que la raison principale de cette perte est le goût plus ou moins agréable du dentifrice. Ces données permettent-elles de conclure que l'un des dentifrices a un goût significativement moins agréable que l'autre? Slack G.L., (1971), Birt. dent. J;. 130, 154. 2) Les résultats ci-dessous concernent, pour plusieurs villes de Grande Bretagne, les caries et la teneur en fluorides de l'eau potable : Région Surrey Slough Harwich Burnham West Total et Essex Mersea Teneur en fluorides 0,15 0,9 2,0 3,5 5,8 Nombre d'enfants ayant des 243 83 60 31 39 456 caries Nombre d'enfants n'en 16 36 32 31 12 127 ayant pas Nombre d'enfants examinés 259 119 92 62 51 583 Il s'agit uniquement d'enfants entre 12 et 14 ans. a) La proportion des caries varie-t-elle significativement d'une région à l'autre? Justifier la réponse par un test dont vous donnerez le degré de signification. b) Quel effet du fluor sur les caries dentaires est ainsi mis en évidence par ce test?