Introduction. 1. le modèle de survie de COX utilisé par O. Brandmeyer dans son stage de Master 2 IMOI au Centre de Médecine Préventive de Nancy ;

Dimension: px
Commencer à balayer dès la page:

Download "Introduction. 1. le modèle de survie de COX utilisé par O. Brandmeyer dans son stage de Master 2 IMOI au Centre de Médecine Préventive de Nancy ;"

Transcription

1 Introducton Le groupe de Bo-Statstque a eu une actvté soutenue en Cette dernère s est concrétsée par des réunons de petts groupes de traval autour de thèmes de recherche partculers et par la tenue d un groupe de traval hebdomadare avec tous les membres de l équpe. Pour la trosème année consécutve, nous édtons des Actes qu reprennent la majeure parte des conférences données en On trouve dans ce fasccule des travaux de recherche réalsés par des membres de l équpe nancéenne et de jeunes doctorants extéreurs. Nous avons auss donné la possblté à deux étudantes du Master 2 professonnel IMOI, parcours "Ade à la décson", de présenter la parte statstque de leur stage. La dversté des exposés ans que leur nature nous ont naturellement conduts à regrouper leur présentaton dans deux partes dstnctes, l une de "Synthèse" et l autre de "Recherche". Dans la "Synthèse", gurent en tout début deux exposés d Analyse des Données. Le premer est d ntérêt général et porte sur les méthodes de class caton non supervsée ; J.M. Monnez présente la class caton ascendante hérarchque, les méthodes des nuées dynamques et les algorthmes fasant ntervenr les modèles de mélange. Le second d O. Collgnon trate du modèle logstque bnare dans le cas où les caractères explcatfs sont qualtatfs. Pus gurent deux exposés concernant les tests. O. Collgnon et J.M. Monnez présentent des méthodes de contrôle du rsque de premère espèce dans un ensemble de tests ; ce problème ntervent en partculer en protéomque, lorsque des mllers de caractères sont mesurés sur un ensemble restrent d ndvdus et que l on cherche des caractères dscrmnants vs-à-vs d une varable cble. A.Koudou présente les tests de permutaton et développe l exemple du test de Wlcoxon. Ensute gurent sx exposés concernant la modélsaton :. le modèle de surve de COX utlsé par O. Brandmeyer dans son stage de Master 2 IMOI au Centre de Médecne Préventve de Nancy ; 2. l analyse des rsques concurrents dans le cadre de l analyse de la surve, par A. Latouche ; 3. la théore des modèles "zero-n ated" qu I. Baly a mse en œuvre dans le cadre de son stage de Master 2 IMOI à l INRA de Champenoux ; le but en est l étude de l apparton de bourgeons épcormques sur des troncs d arbre ; sgnalons que ce traval constue le pont de départ de la thèse de M Saad encadrée par Y. Guédon de Montpeller et S. Ferrgno ;

2 4. une présentaton de Y. Guédon des modèles statstques utlsés pour l analyse de la crossance et de la structure des plantes ; 5. une ntroducton de P.Vallos au score local avec des applcatons en génomque ; 6. des méthodes de régresson non paramétrque applquées par S. Ferrgno pour modélser la crossance fœtale (en collaboraton avec A. Muller et M.Folguet de la Faculté de Médecne de Nancy. La parte "Recherche" débute par une ntroducton de J.M. Monnez à l analyse des données en lgne. Ce thème de recherche devrat être développé dans un futur proche par notre groupe pour trater en temps réel des masses de données statstques arrvant en ux contnu. La méthode classque consste à fractonner ces données par paquets et à e ectuer pérodquement des analyses statstques. L approche alternatve développée par J.M. Monnez est d e ectuer des analyses en lgne en actualsant les résultats obtenus au fur et à mesure de l arrvée des données. Les tros derners artcles de cette parte concernent la modélsaton. Ceux de A. Samson et N. Lalam tratent de l estmaton de paramètres dans des modèles à e ets mxtes. En n, A. Muller développe un modèle de chaînes de Markov à temps contnu pour décrre des réactons chmques entre des réseaux de gènes. Nancy le 23 févrer 2008 Jean-Mare Monnez et Perre Vallos. 2

3 TABLE DES MATIERES Synthèses. Méthodes de classfcaton non supervsée Jean-Mare Monnez 5 2. Modèle logstque bnare sur varables qualtatves Olver Collgnon Contrôle du rsque de premère espèce dans un ensemble de test Olver Collgnon et Jean-Mare Monnez Un aperçu du prncpe des tests de permutatons Angelo Koudou Régresson non-paramétrque unvarée et multvarée Sande Ferrgno L analyse des données de surve par le modèle de Cox Olva Brandmeyer Analyse des rsques concurrents Aurélen Latouche Théore des modèles zero-nflated - Isabelle Baly Méthodes et modèle statstques pour l analyse de la crossance et de la structure des plantes Yann Guédon Introducton au score local et applcatons Perre Vallos..02 Travaux de recherches. Introducton à l analyse factorelle des données en lgne - Jean-Mare Monnez Estmaton dans les modèles mxtes et applcaton à la modélsaton de l'nfecton par le VIH - Adelne Samson Maxmum lkelhood estmaton for a gene regulatory network defned by dfferental equatons Nada Lalam 3 4. Représentaton de séquences bologques avec la chaos game représentaton Peggy Cénac Modélsaton de réactons chmques dans les réseaux de gènes. Problème de convergence de processus markovens vers un processus détermnste par morceaux Auréle Muller

4 4

5 Méthodes de classfcaton non supervsée Jean-Mare MONNEZ Sot un ensemble d ndvdus I = {,, n} muns de pods {p,, p n } sur lesquels on a observé des caractères quanttatfs ou qualtatfs. Le but de la classfcaton non supervsée (ou smplement classfcaton est de consttuer des classes d éléments de I telles que : chaque classe sot composée d ndvdus semblables vs-à-vs des caractères (homogénété ntra-classes ; 2 les classes soent hétérogènes entre elles vs-à-vs des caractères (hétérogénété nterclasses. De façon générale : Sot un ensemble d objets I = {,, n} (ndvdus, classes d ndvdus, modaltés de caractères qualtatfs, caractères quanttatfs, ponts d un espace euclden. Sot {p,, p n } = P un ensemble de pods attrbués aux objets tels que : 0 p ; n p =. = Sot d une dssmlarté, applcaton de I I dans R + telle que : d(, 2 = d( 2, (axome de symétre d(, = 0 (axome de séparaton, parte drecte On a la structure (I, P, d. Le but de la classfcaton est de construre des classes d éléments de I homogènes à l ntéreur et hétérogènes entre elles au sens de la dssmlarté d. On va étuder tros famlles de méthodes de classfcaton : une méthode de constructon d une hérarche de partes de I en effectuant des regroupements successfs de partes par l algorthme de classfcaton ascendante hérarchque (CAH ; on obtent à chaque pas de l algorthme une classfcaton de I ; 2 des méthodes de parttonnement en un nombre fxé a pror de classes : méthodes des nuées dynamques (MND ; 3 des méthodes basées sur l utlsaton de modèles probablstes de mélange. 5

6 . Premère parte : La classfcaton ascendante hérarchque (CAH Algorthme de CAH. Hérarche ndcée et dendrogramme (arbre de classfcaton Sot un ensemble I. Sot π(i l ensemble des partes de I. Défnton Un sous-ensemble H de π(i est appelé une hérarche s : I H 2 I, {} H 3 H, H H (H H (H H ou H H. Exemple I = {, 2, 3, 4, 5, 6, 7} H = {{}, {2}, {3}, {4}, {5}, {6}, {7}, {, 2, 4}, {3, 5}, {3, 5, 6}, {3, 5, 6, 7}, {, 2, 3, 4, 5, 6, 7}}. Défnton Une hérarche H de partes de I est dte ndcée (respectvement ndcée au sens large s l exste une applcaton f : H R + appelée ndce telle que : f(h = 0 I : H = {} 2 H, H H (H H, H H (f(h < f(h ( resp. f(h f(h. Exemple f ( {} = = f ( {7} = 0 f ( {, 2, 4} = 2 f ( {3, 5} = f ( {3, 5, 6} =, 5 f ( {3, 5, 6, 7} = 3 f ( {, 2, 3, 4, 5, 6, 7} = 4 On peut représenter cette hérarche ndcée par un dendrogramme ou arbre de classfcaton..2 Algorthme Sot la structure {I, P, d}. A partr de d, on défnt une dstance entre classes ; on étudera dans la sute la défnton de pluseurs dstances entre classes. On consdère alors le trplet {I, P, }. er pas : On consdère la partton P 0 = { {}, {2},..., {n} }. On calcule, pour tous les couples (, 2 d éléments de I, ( { }, { 2 }. On regroupe en une seule classe les deux classes {l} et {m} pour lesquelles cette dstance est mnmale. On consdère la partton P = { {l, m}, {},..., {n} } à (n éléments. } {{ } sauf {l} et {m} 6

7 r eme pas : On part de la partton P r à (n (r éléments. On calcule les dstances entre les couples d éléments de cette partton ; en fat, l ne reste à calculer que les dstances entre la classe conttuée au pas (r par réunon de deux classes et les autres classes. On regroupe les deux classes à dstance mnmale et on consttue ans la partton P r à (n r + = n r éléments. (n eme pas : On consttue la partton P n = {I}. Notons I r la classe consttuée au pas r de la CAH. L ensemble des classes { {} {n}, I, I 2,, I n = I } est par constructon une hérarche de partes de I..3 Indce de la hérarche dans le cas de la réductblté Défnton On dt que la dstance entre classes est réductble s, quelles que soent tros partes I, I 2, I 3 de I deux à deux dsjontes, quel que sot ρ > 0, ( (I3, I ρ, (I 3, I 2 ρ, (I, I 2 ρ ( (I 3, I I 2 ρ. Proposton S la dstance entre classes est réductble, les dstances entre les classes de la partton P r consttuée au pas r de la CAH sont supéreures ou égales à la dstance entre les classes réunes à ce pas. Démonstraton Au pas r, on part de la partton P r = {I, I 2, I 3,, I n r+ }. Supposons que l on réunsse I et I 2 en une classe pour consttuer P r = {I I 2, I 3,, I n r+ }. Sot l et m > 2. On a (I l, I m (I, I 2, car I et I 2 sont à dstance mnmale. Consdérons (I l, I I 2. Prenons ρ = (I, I 2. On a (I l, I ρ, (I l, I 2 ρ, (I, I 2 = ρ, donc comme est réductble, (I l, I I 2 ρ = (I, I 2. Conséquence Dans ce cas, on peut prendre pour ndce de la classe I I 2 consttuée au pas r de la CAH le nombre (I, I 2, car la dstance entre les classes réunes au pas r + sera supéreure ou égale à (I, I 2. 2 Cas où les objets sont représentés par des ponts d un espace euclden Cadre d étude : I = {, 2,, n} A (R p, M P = {p, p 2,, p n } d = d M I est un ensemble d objets, A le pont représentatf de l objet dans R p, P un ensemble de pods attrbués aux objets, d la dstance eucldenne assocée à la métrque M. 7

8 2. Exemples d applcaton 2.. Tableaux (ndvdus caractères quanttatfs On a observé sur n ndvdus numérotés de à n des caractères quanttatfs x,..., x p. On a le tableau des mesures des caractères : n x.. x j.. x p x j a Classfcaton des ndvdus. I = {,, n} A (x,, x P (R P, M (M peut être par exemple la métrque de l ACP normée ou de l ACG ou de l AFM. b Classfcaton des caractères. I = {x,, x p }, ensemble des caractères Q = {q,, q p }, ensemble de pods attrbués aux caractères. Le caractère x j est représenté par le pont B j (x j,, x n} R n. S on munt R n de la métrque D des pods des ndvdus, on a : d(b j, B j = n p (x j xj 2 = s x j x s = 2 2s j x j x j x + j s2. x j = S les caractères sont réduts, on a : Dans ce cas : d(b j, B j = 2 2 r x j x j. s r x j x j = +, d(bj, B j = 0 ; s r x j x j =, d(bj, B j = 2. 8

9 2..2 Tableaux de contngence On a observé sur n ndvdus deux caractères qualtatfs x, de modaltés a,..., a r, et y, de modaltés b,..., b s. On a le tableau de contngence : x\y b.. b j.. b s a... a n j n.... a s n.j n On peut classfer les modaltés de x ou de y : I = {a, (, a r } fj a A f, j =,, s R s P = {f,, f r } d est la dstance du kh-deux 2..3 Tableaux (ndvdus ndcatrces de modaltés de caractères qualtatfs On a observé sur n ndvdus numérotés de à n des caractères qualtatfs x,..., x r.on a le tableau des valeurs des ndcatrces des modaltés des caractères : n x... x m. x jk. x r... x rmr x jk On peut classfer les ndvdus ou les modaltés de caractères qualtatfs en tratant formellement ce tableau comme un tableau de contngence. 9

10 2.2 Crtère de parttonnement basé sur l nerte Sot le cadre d étude : I = {,, n}, ensemble d objets parttonné en classes I,, I r. A (R p, M P = {p,, p n } d = d M Notons G k le barycentre des ponts (A, p, I k. Notons P k = I k p. Notons G le barycentre des ponts (A, p, I. On a la formule de HUYGENS : r r p d 2 (A, G = p d 2 (A, G k + P k d 2 (G k, G I k= I } {{ } } k k= {{ } } {{ } nerte totale = nerte ntra + nerte nter Notons G l ensemble des barycentres. La formule s écrt : J I (G = r J Ik (G k + J G (G. k= On défnt le crtère de parttonnement : détermner la partton en r classes d nerte ntra mnmale ou, de façon équvalente, d nerte nter maxmale. Cec est en pratque rréalsable, car le nombre de parttons est trop élevé. Notons P nk le nombre de parttons en k classes d un ensemble de n éléments. On a : P nk = P n,k + kp n,k. En effet : sot un élément fxé de I ; deux cas sont possbles : a consttue à lu seul une classe ; l y a P n,k parttons de ce type ; b n est pas seul dans une classe ; I {} est alors dvsé en k classes : l y a P n,k parttons de I {} ; or peut fare parte de n mporte laquelle de ces k classes : l y a donc kp n,k parttons de ce type. On démontre alors par récurrence que : P nk = k ( k n!(k! =0 Pour n = 50 et k = 0, on a P nk = 2,

11 2.3 La dstance de WARD Défnton Sot I et I 2 deux classes d éléments de I, de pods restectfs P et P 2. Sot G et G 2 les barycentres respectfs des ponts (A, p pour I et I 2. Sot G,2 le barycentre des ponts (A, p pour I I 2. La dstance entre classes de WARD est : (I, I 2 = P P 2 d 2 (G, G 2 P + P 2 ( = P d 2 (G G,2 + P 2 d 2 (G 2, G,2 (2 Démonstraton On démontre faclement que ( = (2. Montrons que (2 = (3. Ecrvons la formule de Huygens pour l ensemble I I 2 : = J I I 2 (G,2 J I (G J I2 (G 2 (3 J I I 2 (G,2 = J I (G + J I2 (G 2 } {{ } + P d 2 (G, G,2 + P 2 d 2 (G 2, G,2 } {{ }. On en dédut que (2 = (3. Proprété Sot I, I 2, I 3 tros classes d éléments de I deux à deux dsjontes. On a : (I 3, I I 2 = P + P 2 + P 3 ( (P + P 3 (I, I 3 + (P 2 + P 3 (I 2, I 3 P 3 (I, I 2. On peut utlser cette formule à chaque pas de la CAH pour calculer la dstance entre une classe et la nouvelle classe consttuée par réunon de 2 classes. Proprété La dstance entre classes est réductble. Démonstraton Sot ρ > 0. ( (I, I 3 ρ, (I 2, I 3 ρ, (I, I 2 ρ ( (I 3, I I 2 (P + P 3 ρ + (P 2 + P 3 ρ P 3 ρ = ρ. P + P 2 + P 3 On prend alors pour ndce de la classe I I 2 obtenue par réunon de deux classes à un pas de l algorthme de CAH la dstance (I, I 2 entre ces deux classes. Sot la partton P r obtenue au pas r de la CAH : P r = {I, I 2,, I n r }. On note J Gr (G son nerte nter-classes. On suppose qu au pas (r +, ce sont les classes I et I 2 qu sont regroupées : P r+ = {I I 2, I 3,, I n r }. On note J Gr+ l nerte nter-classes de la partton P r+.

12 Proposton Sot la dstance de Ward. On a : J Gr (G J Gr+ (G = (I, I 2. Démonstraton On écrt la formule de Huygens : J I (G = J I (G + J I2 (G J In r (G n r + J Gr (G (pas r J I (G = J I I 2 (G,2 + J I3 (G J In r (G n r + J Gr+ (G (pas r + = J Gr (G J Gr+ (G = J I I 2 (G,2 J I (G J I2 (G 2 = (I, I 2. Conséquence Lorsqu on utlse la dstance de WARD comme dstance entre classes, l nerte nter-classes dmnue de façon mnmale du pas r au pas (r + de la CAH. La partton P r étant fxée, la partton P r+ est la melleure au sens du crtère d nerte nter classes maxmale lorsqu on utlse la dstance de Ward. 2.4 Autres dstances entre classes (I, I 2 = P P 2 P + P 2 d 2 (G, G 2 = J I I 2 (G,2 J I (G J I2 (G 2 2 (I, I 2 = (I, I 2 P + P 2 3 (I, I 2 = J I I 2 (G,2 4 (I, I 2 = 3(I, I 2 P + P 2 5 (I, I 2 = d(g, G 2 3 Cas général où l on a une dssmlarté entre objets Sot la structure (I, P, d. Sot le tableau de dssmlartés :... j... n.. d(, j.... n 2

13 3. Défnton de dstances entre classes Dstance du len mnmal (sngle lnkage (I, I 2 = mn ( d(, 2, I, 2 I 2 2 Dstance du len maxmal (complete lnkage 2 (I, I 2 = max ( d(, 2, I, 2 I 2 3 Dstance du len moyen (average lnkage 3.2 Calcul de (I 3, I I 2 On démontre faclement que : 3 (I, I 2 = P P 2 I 2 I 2 p p 2 d(, 2 (I 3, I I 2 = mn ( (I 3, I, (I 3, I 2 ; 2 (I 3, I I 2 = max ( 2 (I 3, I, 2 (I 3, I 2 ; 3 (I 3, I I 2 = ( P 3 (I 3, I + P 2 3 (I 3, I 2. P + P 2 Proprété Les tros dstances entre classes défnes sont réductbles. 4 Ultramétrque assocée à une hérarche ndcée. 4. Défnton d une dstance ultramétrque Défnton On appelle dstance ultramétrque toute applcaton u : I I R + telle que : u(, 2 = u( 2, (axome de symétre 2 u(, 2 = 0 = 2 (axome de séparaton 3 u(, 2 max ( u(, 3, u( 3, 2 (négalté ultramétrque. Remarque Une ultramétrque est une dstance : u(, 2 max ( u(, 3, ( 3, 2 u(, 3 + u( 3, 2. Proprété Tout trangle (, 2, 3 est socèle et le trosème côté est au plus égal aux deux côtés égaux. Démonstraton Sot u(, 2 le plus pett des tros côtés. Donc : u(, 3 = u( 2, 3 u(, 2. u(, 3 max ( u(, 2, u( 2, 3 = u( 2, 3 u( 2, 3 max ( u( 2,, u(, 3 = u(, 3 3

14 4.2 Bjecton entre ultramétrque et hérarche ndcée 4.2. Constructon d une hérarche ndcée à partr d une ultramétrque On utlse l algorthme de CAH pour construre une hérarche ndcée. Au premer pas de la CAH, on a P 0 = {{},..., {n}}. On défnt la dstance entre classes ( { }, { 2 } = u(, 2. Montrons, par récurrence sur r, que étant donné 2 classes I et I 2 obtenues par l algorthme de CAH, la dstance entre un élément de I et un élément de I 2 est toujours la même : on prend alors cette valeur commune pour défnr (I, I 2. Sot la partton P r = {I, I 2,, I n r } ; on suppose l hypothèse de récurrence vérfée pour P r. Sot la partton P r+ = {I I 2, I 3,, I n r }. Montrons que la dstance entre un pont de I I 2 et un pont de I l, l > 2, est toujours la même. Sot I, 2 I 2, l I l. Consdérons le trangle (, 2, l. Par hypothèse de récurrence : Or : u(, u 2 = (I, I 2 ; u(, u l = (I, I l ; u( 2, u l = (I 2, I l. (I, I 2 (I, I l ; (I, I 2 (I 2, I l. Donc : u(, 2 u(, l = u( 2, l. Par conséquent : (I, I l = (I 2, I l. On défnt alors (I I 2, I l = (I, I l = (I 2, I l (I, I 2. On peut prendre pour ndce de la classe I I 2 la dstance (I, I 2. On note g l applcaton qu assoce à l ultramétrque u la hérarche ndcée (H, f Constructon d une ultramétrque à partr d une hérarche ndcée Sot une hérarche ndcée (H, f de partes de I. Sot H(, 2 la plus pette parte de la hérarche contenant et 2 : H(, 2 est la réunon de deux éléments de H, l un contenant, l autre contenant 2. On défnt u(, 2 = f ( H(, 2. Montrons que u est une ultramétrque. On a : H(, 2 = H( 2, ; donc u(, 2 = u( 2,. 2 u(, 2 = 0 = f ( H(, 2 H(, 2 a un seul élément = 2. 3 Sot, 2, 3 tros éléments de I. On consdère les classes H(, 2, H(, 3 et H( 2, 3. Supposons que : H(, 2 H(, 3 On a alors : H( 2, 3 = H(, 3 Donc : H(, 2 H(, 3 = H( 2, 3 f ( H(, 2 f ( H(, 3 = f ( H( 2, 3 u(, 2 u(, 3 = u( 2, 3 4

15 u(, 2 max ( u(, 3, u( 3, 2 Supposons que : H(, 3 H(, 2 Alors : H( 2, 3 = H( 2, H(, 3 H(, 2 = H( 2, 3 f ( H(, 3 f ( H(, 2 = f ( H( 2, 3 u(, 3 u(, 2 = u( 2, 3 u(, 2 = max ( u(, 3, u( 3, 2. On établt le théorème suvant : Théorème L applcaton g est une bjecton de l ensemble des ultramétrques sur I dans l ensemble des hérarches ndcées de partes de I. Concluson Lorsqu on dspose d une dstance ultramétrque entre éléments de I et que l on utlse l algorthme de CAH, le chox de la dstance entre classes est naturel : c est la dstance commune entre un élément d une classe et un élément d une autre classe. Lorsque l on dspose d une dssmlarté, on peut défnr dfférentes dstances entre classes ; on peut alors poser le problème suvant : détermner l ultramétrque la plus proche en un certan sens de la dssmlarté donnée. 4.3 Proprété d optmalté des dstances du len mnmal et du len maxmal 4.3. Cas de la dstance du len mnmal (I, I 2 = mn ( d(, 2, I, 2 I 2 En utlsant l algorthme de CAH, on construt une hérarche ndcée (H, f. A cette hérarche ndcée est assocée par la bjecton g défne dans le paragraphe précédent une ultramétrque u. (H, f u u (, 2 = f ( H(, 2 = f (I I 2 ( I, 2 I 2 = (I, I 2 d(, 2 Donc u d. On établt la proposton suvante : Proposton L ultramétrque u est l enveloppe supéreure des ultramétrques nféreures ou égales à d : u (, 2 = sup ( u(, 2, u d. C est donc l ultramétrque la plus proche nféreurement de la dssmlarté d. 5

16 4.3.2 Cas de la dstance du len maxmal 2 (I, I 2 = max ( d(, 2, I, 2 I 2 2 (H 2, f 2 u 2 u 2 (, 2 = f 2 ( H(, 2 = f 2 (I I 2 = 2 (I, I 2 d(, 2. Donc : u d. On établt la proposton suvante : Proposton L utramétrque u 2 est un élément mnmal dans l ensemble des ultramétrques supéreures ou égales à d. Remarque Il peut exster pluseurs éléments mnmaux dans l ensemble des ultramétrques supéreures ou égales à une dssmlarté d. Par exemple : I = {a, b, c} ; d(a, b = 3 ; d(a, c = 2 ; d(b, c =. Il y a deux éléments mnmaux u et u 2 dans l ensemble des ultramétrques supéreures ou égales à d : u (a, b = 3 ; u (a, c = 2 ; u (b, c = 3 ; u 2 (a, b = 3 ; u 2 (a, c = 3 ; u 2 (b, c =. 5 Algorthme accéléré pour grands tableaux : la méthode des vosnages réductbles On suppose la dstance entre classes réductble. Lorsqu on effectue une CAH, le nombre de calculs à effectuer peut être très mportant. On cherche par un algorthme accéléré à dmnuer ce nombre. Algorthme ère étape : On fxe un nombre ρ. er pas : On consdère l ensemble P 0 (ρ des classes à un élément telles qu l exste au mons une autre classe à une dstance nféreure à ρ ( proprété (a. On regroupe les deux classes les plus proches et on consttue l ensemble P (ρ. 2ème pas : On élmne de P (ρ les classes qu ne vérfent plus (a. On regroupe les deux classes les plus proches et on consttue l ensemble P 2 (ρ. etc..., jusqu à ce que l ensemble des classes sot vde. 2ème étape : On fxe un nombre ρ 2 > ρ. On utlse le même algorthme que dans la premère étape en consttuant P 0 (ρ 2 à partr de l ensemble de toutes les classes élmnées à la premère étape. etc..., jusqu à la constructon de la classe I. On établt la proposton suvante : Proposton Lorsque la dstance entre classes est réductble, la hérarche obtenue par cet algorthme est la même que celle obtenue par l algorthme habtuel. 6

17 Le nombre de calculs à effectuer est mons mportant, car on élmne à chaque étape des classes pour lesquelles on ne fat aucun calcul ultéreur dans cette étape. 6 Partton en classes et stablté A partr d une hérarche ndcée, on peut obtenr une partton de I en coupant à un certan nveau le dendrogramme (ce qu revent à retenr une partton obtenue à un pas de l algorthme. Une règle emprque est de retenr une partton obtenue à un pas précédant une crossance forte de l ndce. Dans le logcel SPAD, l ade à l nterprétaton des classes permet d en défnr les caractérstques (procédure DECLA. Par exemple, sot des classes d ndvdus sur lesquels on a mesuré des caractères quanttatfs ; on dspose alors pour chaque classe d une lste des caractères dont la moyenne dans la classe s écarte beaucoup au sens d un certan crtère de la moyenne générale. Pour vérfer s l ensemble de données dont on dspose se prête effectvement à une classfcaton, on peut procéder à pluseurs classfcatons en utlsant dfférentes dstances entre classes. S les données sont effectvement classfables, l ne dot pas y avor trop de dfférences entre les parttons à pett nombre de classes. Les objets toujours classés ensemble consttuent les partes vrament homogènes de I. Deuxème parte : La méthode des nuées dynamques (MND 7 Méthode d agrégaton autour de centres mobles 7. Cadre d étude I = {,, n} A (x (R p, M P = {p,, p n } d = d M I est un ensemble d objets, A le pont représentatf de l objet dans R p, P un ensemble de pods attbués aux objets, d la dstance eucldenne assocée à la métrque M. L objectf de la méthode est de fare une partton de I en r classes (r est fxé a pror. 7

18 7.2 Algorthme Intalsaton : On chost r ponts de R p (par exemple, au hasard parm les ponts A : g 0,, g0 r. Autour de ces ponts, on consttue r classes en affectant chaque objet à la classe correspondant au pont dont l est le plus proche : pour k =,, r, I 0 k = { I : j =,, r, d(x, g 0 k d(x, g 0 j }. (en cas d égalté, on prend une conventon d affectaton. Remarque L ntalsaton peut être une partton de I. l ème pas : On détermne les barycentres des classes I l k : g l,, gl. r Autour de ces ponts, on consttue r classes en utlsant la règle d affectaton précédente : I, l, Ir. l Convergence : On montre qu à chaque pas, l nerte ntra-classes r k= I l k p d 2 (x, g l décroît ; donc, elle k converge vers un mnmum local qu dépend de g 0,, g 0. En outre, la sute des parttons r de I ( {I, l, Ir} l converge vers une forme stable qu dépend du chox de g 0,, g0. r Remarque Mnmser l nerte ntra équvaut à maxmser l nerte nter. Cet algorthme donne une soluton locale au problème de la recherche d une partton d nerte nter maxmale. Remarque On peut utlser cet algorthme pour amélorer (on dt également consolder une partton obtenue par coupure d un dendrogramme obtenu par une CAH : à partr de cette partton, on construt par l algorthme une partton d nerte ntra plus fable. C est ce que fat le logcel SPAD. 7.3 Les formes fortes On peut applquer pluseurs fos cet algorthme en fasant dfférentes ntalsatons. Les objets toujours classés ensemble consttuent les partes vrament homogènes de I : on les appelle les formes fortes. 8 Méthode des nuées dynamques. 8. Cadre d étude Dans l algorthme des centres mobles, on constate que : les éléments de I ont une représentaton eucldenne ; 8

19 2 on représente une classe d objets par un pont (le barycentre des ponts représentatfs des objets de la classe. Dans l algorthme des nuées dynamques : On consdère la structure générale (I, P, d (d : dssmlarté ; 2 une classe d éléments de I est représentée par un noyau, comme par exemple : pour des données eucldennes : un pont, un sous-espace affne ; pour des données quelconques : un sous-ensemble de q éléments de la classe. 8.2 Crtère à optmser 8.2. Structure de représentaton de classe Défnton : C est la donnée d un ensemble L appelé espace de représentaton, dont les éléments sont appelés noyaux, et d une applcaton D de I L dans R + appelée mesure de dssemblance d un objet à une représentaton. Exemples Agrégaton autour de centres mobles L objet est représenté par le pont A (x (R p, M ; L = R p. Un noyau est un pont L(l. La mesure de dssemblance D est défne par : D (, L = p d 2 (x, l 2 Analyse factorelle typologque L objet est représenté par le pont A (x (R p, M Un noyau L représentant une classe est un sous-espace affne de dmenson q fxée de R p. Sot Π L l opérateur de projecton orthogonale sur L. La mesure de dssemblance D est défne par : D (, L = p d 2 (x, Π L x. 3 Sot la structure (I, P, d. On suppose que l on dspose d un tableau de dssmlartés entre les objets. On peut défnr comme noyau représentant une classe un sous-ensemble L = (,, q de q éléments de cette classe. On peut défnr la mesure de dssemblance D par : D (, L = p q j= p j d( j, Mesure de dssemblance d une parte de I à une représentaton Défnton C est une applcaton D : P(I L dans R + telle que pour toute parte P de I et toute représentaton L, D(P, L = P D (, L. Exemple Dans la méthode des centres mobles : D(P, L = P p d 2 (x, l (nerte des ponts de P par rapport au pont L. 9

20 8.2.3 Défnton du crtère Consdérons un r-uplet de partes de I consttuant une partton de I : P = (P, P 2,, P r Consdérons un r-uplet de représentatons : L = (L, L 2,, L r On défnt : r W (P, L = D(P k, L k Remarque Sot k le numéro de la classe à laquelle appartent l objet. On a : k= W (P, L = r k= P k D (, L k = n D (, L k. = Exemple Dans la méthode des centres mobles : W (P, L = r k= P k p d 2 (x, l k. On pose le problème d optmsaton suvant : Détermner P et L tels que W (P, L sot mnmal pour P = P et L = L. 8.3 Algorthme des nuées dynamques 8.3. Foncton d affectaton Défnton C est une applcaton f : (L, L 2,, L r (P, P 2,, P r (partton de I telle que : P k = { I : pour j =, 2,, r, D (, L k D (, L j }. En cas d égalté, on prend une conventon d affectaton. Proposton Comme W (P, L = n = D (, L k, P = f(l rend W (P, L mnmal à L fxé. Exemple Dans la méthode des centres mobles : D (, L = p d 2 (x, l P k = { I : pour j =, 2,, r, d(x, l k d(x, l j }. 20

21 8.3.2 Foncton de représentaton Défnton C est une applcaton g : (P, P 2,, P r (L, L 2,, L r telle que, pour k =, 2,, r, L k rende mnmale D(P k, L. fxé. Hypothèse On suppose l exstence et l uncté de L k. r Proposton Comme W (P, L = D(P k, L k, L = g(p rend W (P, L mnmal à P k= Exemple Dans la méthode des centres mobles : D(P k, L = P k p d 2 (x, l est mnmale pour l = g k barycentre de la classe P k. En effet, D(P k, L est l nerte J Pk (l par rapport à L de l ensemble des ponts A pour P k et : Algorthme J Pk (l = J Pk (g k + q k d 2 (l, g k (q k pods de P k. C est un algorthme d optmsaton alternée. Intalsaton : L 0 P 0 = f(l 0 er pas : L = g(p 0 P = f(l.. lème pas : L l = g(p l P l = f(l l.. Théorème On a W (P l, L l W (P l, L l W (P l, L l W (P l, L l+. Les sutes ( W (P l, L l et ( W (P l, L l convergent en décrossant vers une lmte qu dépend de L 0. 2 La sute ( (P l, L l converge vers une forme stable qu dépend de L 0. Démonstraton { L On a : l = g(p l P l = f(l l L l rend W (P l, L mnmal ; donc W (P l, L l W (P l, L l. P l rend W (P, L l mnmal ; donc W (P l, L l W (P l, L l. On a W (P l, L l W (P l, L l W (P l, L l+ ; la sute (u l = ( W (P l, L l est décrossante mnorée. Donc elle converge. W (P l, L l W (P l, L l ; la sute v l = ( W (P l, L l est décrossante mnorée. Donc elle converge. 2

22 2 La sute ( W (P l, L l converge. W (P l, L l = W (P l, g(p l. Or l ensemble des parttons de I en r classes est fn. W ( P l, g(p l ne peut avor qu un ensemble fn de valeurs. Donc, la lmte de la sute ( W (P l, L l est attente. Sot N le rang à partr duquel elle est attente : W (P N, L N = W (P N, L N+ =. Donc d après, W (P N, L N = W (P N, L N+. Or, L N+ qu rend mnmal { W (P N, L est unque. L Par conséquent, on a : N = L N+ P N = f(l N = P N+. Exemple Dans la méthode des centres mobles : r W (P l, L l = p d 2 (x, g l est l nerte ntra-classes de la partton k Pl ; donc, k= I l k la sute des nertes ntra-classes converge vers un mnmum local et la sute des parttons de I converge vers une forme stable qu dépend de (g 0,, g0 r. Trosème parte : Modèles probablstes en classfcaton 9 Modèle de mélange 9. Cadre d étude I = {, 2,, n} A (x (R p, M P = {,, } pods unformes n n d = d M I est un ensemble d ndvdus, A le pont représentatf de l ndvdu dans R p, P l ensemble des pods unformes attrbués aux ndvdus, d la dstance eucldenne assocée à la métrque M. 9.2 Modélsaton probablste On fat l hypothése que l ensemble des vecteurs d observatons (x,, x n est un échantllon..d. d un vecteur aléatore X dans R p défn sur un espace probablsé (Ω, A, P parttonné en classes Ω, Ω 2,, Ω r. On suppose que la densté de probablté condtonnelle de X dans la classe Ω k appartent à une famlle paramétrée de denstés F = { f( ; a, a R s} ; dans le cas où X est dscret, f(x ; a k = P (X = x Ω k. 22

23 Notons P (Ω k = p k. La densté de X est g(x ; a,, a r = r p k f(x ; a k : c est une densté de mélange. k= 0 Estmaton des paramètres du modèle et classfcaton par la méthode du maxmum de vrasemblance classfante 0. Crtère du maxmum de vrasemblance classfante Consdérons un échantllon P k ssu de la classe Ω k. On défnt la vrasemblance de cet échantllon : L(P k ; a k = P k f(x ; a k On défnt la vrasemblance classfante : L(P,, P r ; a,, a r = r L(P k ; a k = k= r k= P k f(x ; a k On pose le problème suvant : détermner une partton P = {P,, P r } et un r-uplet de paramètres L = {a,, a r} qu rendent la vrasemblance L(P,, P r ; a,, a r maxmale. 0.2 Algorthme des nuées dynamques On a à maxmser lnl = r k= P k ln f(x ; a k On défnt pour mettre en oeuvre l algorthme les fonctons d affectaton et de représentaton. Foncton d affectaton f Elle est défne par : f : L = (a,, a r P = (P,, P r avec P k = { I : pour j =,, r, f(x, a k f(x ; a j } 2 Foncton de représentaton g Elle est défne par : g : P = (P,, P r L = (a,, a r telle que pour k =,, r, a k rende maxmale P k ln f(x ; a. a k est donc l estmaton du paramètre a au sens du maxmum de vrasemblance à partr de l échantllon P k. 23

24 3 Algorthme Au pas l de l algorthme, on détermne { L l = g(p l P l = f(l l. 0.3 Cas partculer d un mélange de los multnormales Dans ce cas, la densté condtonnelle de X dans Ω k est f(x ; a k = det Σk (2π p/2 e 2 (x m k Σ k (x m k, a k = (m k, Σ k On a à maxmser r k= l k ln f(x ; a k (. ln f(x ; a k = 2 ln det Σ k p 2 ln 2π 2 (x m k Σ k (x m k r ( ( ln det Σk + (x m k Σ k (x m k mn P k k= On a obtenu une règle de classement quadratque. Plaçons-nous dans le cas partculer : Σ = = Σ r = Σ. r r Le crtère s écrt alors : (x m k Σ (x m k = x m k 2 Σ mn. k= P k k= P k On suppose la matrce de covarance Σ connue. Pour détermner un mnmum local, on utlse l algorthme des nuées dynamques avec les fonctons d affectaton et de représentaton suvantes. Foncton d affectaton f : L = (a,, a r P = (P,, P r P k = { I : pour j =,, r, f(x, a k f(x ; a j } = { I : pour j =,, r, x m k Σ x m j Σ }. Foncton de représentaton g : P = (P,, P r L = (a,, a r ponts Pour k =,, r, m k rend mnmale P k x m 2 Σ ( x, pour P k. n ; m k est le centre de gravté des Algorthme Au pas l de l algorthme, on détermne : On retrouve l algorthme des centres mobles. { L l = g(p l P l = f(l l. 24

25 Estmaton des paramètres du modèle par la méthode du maxmum de vrasemblance et classfcaton Ω est parttonné en classes Ω,, Ω r. D après le théorème de Bayes, on a : P(Ω k X = x = P (Ω kf(x ; a k. r P (Ω j f(x ; a j j=. Equatons de la vrasemblance La densté de X est g(x ; a,, a r = r p k f(x ; a k. k= Sot (x,, x n un échantllon..d. de X. Sa vrasemblance est : ( n r L(x,, x n ; p,, p r, a,, a r = p k f(x ; a k lnl = = k= ( n r ln p k f(x ; a k = k= On recherche p 0 k et a0 k, k =,, r qu rendent maxmale lnl. On note a kj la j ème composante de a k, j =,..., s. On pose le système des équatons de la vrasemblance : lnl = 0, k =,, r p k lnl = 0, k=,,r a kj j=,,s Proposton Le système des équatons de la vrasemblance s écrt : p k = n P (Ω k X = x n, k =,, r n = = P (Ω k X = x ln f(x ; a k = 0, k=,,r a kj j=,,s Démonstraton On a à maxmser ( n r ln p k f(x ; a k = k= sous la contrante r p k =. k= 25

26 On utlse pour cela la méthode des multplcateurs de Lagrange. Sot la foncton ( n r ( r Φ(p,, p r, a,, a r ; λ = ln p k f(x ; a k λ p k. r k= p k Φ p k = Φ p k = n = n = = k= f(x ; a k λ = 0, k =,, r. r p l f(x ; a l l= r p k f(x ; a k k= λ r p l f(x ; a l l= Φ p k = 0 n n n n = n = n = k= r p k = n λ = 0 ; donc, λ = n. k= f(x ; a k = r p l f(x ; a l l= p k f(x ; a k = p r k p l f(x ; a l l= P (Ω k X = x = p k. Φ a kj = = n = = p k a kj f(x ; a k r p l f(x ; a l l= = n = a kj f(x ; a k p k f(x ; a k r p l f(x ; a l l= n P (Ω k X = x ln f(x a ; a k = 0. kj f(x ; a k =.2 Algorthme EM On utlse une méthode tératve de résoluton du système des équatons de la vrasemblance. Au pas m, on obtent une estmaton p m k de p k et a m k de a k, k =,, r. Au pas m +, on effectue deux étapes : Etape E (estmaton On estme P (Ω k X = x = P (Ω kf(x ; a k r P (Ω l f(x ; a l l= par t m k (x = pm k f(x ; a m k r. p m l f(x ; a m l l= 26

27 2 Etape M (maxmsaton On calcule p m+ k = n t m k (x n, k =,, r. = On résout, pour k =,, r, le système d équatons : n = On obtent alors a m+ k. t m k (x ln f(x ; a k a kj = 0, j =,, s. Cas partculer : mélange de los multnormales On a dans ce cas a k = (µ k, Σ k. µ m+ k = n t m k (x x = n t m k (x =, Σ m+ k = n = t m k (x (x µ m+ k n t m k (x = (x µ m+ k..3 Classfcaton On affecte l ndvdu à la classe Ω k telle que l estmaton de la probablté condtonnelle P (Ω k X = x sot maxmale. 2 Algorthme des k-means de Mac Queen 2. Crtère de classfcaton s ω Ω k On note I k la varable aléatore ndcatrce de la classe Ω k : I k (ω = 0 snon. On défnt le crtère de parttonnement de Ω suvant : détermner une partton (Ω,, Ω r de Ω et un r-uplet de ponts g,, g [ r r ] que l nerte ntra-classes E I k X g k 2 sot mnmale. k= r Or I k (ω X(ω g k 2 mn X(ω g k k 2. k= [ r ] [ ] Donc E I k X g k 2 E mn X(ω g k k 2. k= On cherche alors g, g 2,, g r qu rendent E [ ] mn X(ω g k k 2 mnmale. telle 27

28 Pour estmer une soluton locale de ce problème, on peut utlser un algorthme séquentel d approxmaton stochastque : au pas l, on ntrodut une observaton x l de X et on actualse l estmaton g l de g, k =,, r. k k Remarque Un algorthme d approxmaton stochastque est récursf. Un exemple élémentare est le suvant. Sot un échantllon..d. (x,, x n, d une varable aléatore réelle X. On estme l espérance E [X] à partr des n premères observatons par x n = x + x x n n et à partr des n + premères observatons par x n+ = x + + x n + x n+ n + = x n n + (x n x n+. = n n + x n + n + x n+ On a ans défn un algorthme récursf d approxmaton stochastque de l espérance de X. 2.2 Algorthme Intalsaton : On chost r ponts g 0,, g0 de r Rp. er pas : On calcule d(x, g 0, k =,, r. k Sot k 0 la valeur de k pour laquelle cette dstance est mnmale. On défnt : g = g 0 (g 0 x k 0 k 0 wk k 0, wk 0 = 2 ( 0 on a : g = g0 + x k 0 k 0 2 g k = g 0 k, w k =, pour k k 0. l ème pas : On calcule d(x l, g l, k =,, r. k Sot k 0 la valeur de k pour laquelle cette dstance est mnmale. On défnt : g l k 0 = g l k 0 w l k 0 (g l k 0 x l, w l k 0 = w l k 0 + g l k = g l, w l k k = w l k, pour k k 0. Remarque A chaque pas, on affecte une seule observaton à une classe. Dans la méthode des centres mobles, on affecte à chaque pas chacune des observatons à une classe. 2.3 Convergence On démontre que, sous certanes hypothèses, E [ mn X g l 2] converge vers un mnmum k k local de E [ mn X g k k 2]. 28

29 Modèle logstque bnare sur varables qualtatves Olver Collgnon Modèle Sot I = {,..., n} un ensemble d ndvdus sur lequel on observe p varables x = (x,..., x p. On observe également un caractère y {0, }. On suppose que x et y sont des réalsatons de varables aléatores X et Y. On souhate estmer la probablté π(x = P (Y = X = x. (. Supposons que les varables (x,..., x p soent quanttatves. Nous verrons dans la sute comment adapter le modèle logstque à des caractères qualtatfs par un codage des varables. Exemple : On mesure sur un ndvdu { x : le taux d une proténe ( dans le sang, et on pose : x 2 : le taux d une proténe (2 dans le sang, y = { s l ndvdu est malade 0 snon. On veut estmer la probablté P (Y = X = x, X 2 = x 2 que l ndvdu sot malade sachant qu l a des taux sanguns x et x 2 de proténes ( et (2. On consdère le modèle suvant appelé modèle logstque, dans lequel on suppose l exstence de p + nombres réels β 0,..., β p tels que : (.2 (.3 Logt(π(x = p β j x j, x 0 :=, (.4 j=0 où Logt(x = ln( x, x ]0, [. x Cette relaton s écrt de manère équvalente π(x = exp( p j=0 βj x j + exp( p j=0 βj x j. (.5 Le modèle logstque peut être utlsé à des fns prédctves ; pour un nouvel ndvdu sur lequel on observe x unquement, on peut estmer π(x. Il nous faut pour cela estmer les paramètres β à partr d un ensemble d apprentssage. 29

30 2 Estmaton des paramètres On dspose de n observatons ndépendantes (x, y n, y {0, } et x = (, x,..., x p R p+ (on pose x 0 =. On note β = (β 0,..., β p. Remarquons que comme pour y {0, }, on a P (Y = 0 X = x = π(x = + e β x, (2.6 P (Y = y X = x = eβ yx + e β x. (2.7 Les paramètres du modèle sont estmés par la méthode du maxmum de vrasemblance. La vrasemblance des données est défne par : L(y,..., y n, x,..., x n ; β = = = n P (Y = y X = x (2.8 = n = e β y x + e β x (2.9 e β n = y x n = ( + eβ x. (2.0 La vrasemblance L est maxmale s et seulement s est maxmal. ln(l(y,..., y n, x,..., x n ; β = β n y x = n ln( + e β x (2. On annule les dérvées partelles du logarthme de la vrasemblance ; on dot résoudre le système d équatons, pour j {0,..., p} : = n ln(l β j = 0 (2.2 x j eβ x = y x j n = +e β x = 0 (2.3 n = xj (y π(x = 0. (2.4 Il s agt donc de résoudre un système de p + équatons à p + nconnues. On peut pour cela utlser l algorthme de Newton-Raphson. 3 Tests sur les paramètres 3. Tests sur un unque paramètre On veut savor s le caractère x j a une acton sur le caractère y, autrement dt s l est ntéressant de retenr ce caractère. On souhate pour cela réalser le test : { H0 : β j = 0 H : β j (

31 S l on rejette H 0, cela sgnfe que la varable x j de paramètre β j est dscrmnante, et apporte une certane nformaton sur y. Tros méthodes sont classquement utlsées pour réalser le test (3.5 :. Le test de Wald. Sot la statstque W = ˆβ j s( ˆβ j (3.6 où ˆβ j est l estmateur du paramètre β j et s( ˆβ j l estmateur de son écart-type. Sous H 0, W 2 χ 2. (3.7 Notons que cec est un résultat asymptotque (l estmateur au sens du maxmum de vrasemblance est asymptotquement normal. 2. Le test du rapport de vrasemblance. Sot la statstque ˆβ j ˆβ j+ G = 2ln L(y, x; ˆβ 0, 0 ˆβ 0,..., 0, 0, 0,..., ˆβ 0 p L(y, x; ˆβ 0,..., ˆβ, (3.8 p où ˆβ k 0 est l estmateur du paramètre β k sous H 0, k {0,..., p} {j}. Asymptotquement sous H 0, 3. Le test du score. Sot la statstque G χ 2. (3.9 S = U( ˆβ 0 [J( ˆβ 0 ] U( ˆβ 0 (3.20 où ˆβ 0 est le vecteur des estmatons des paramètres sous H 0, U est le vecteur des dérvées partelles de la log-vrasemblance ln(l, et J la matrce hessenne des dérvées secondes de ln(l. Asymptotquement sous H 0, Les tros tests ont la même règle de décson : S χ 2. (3.2 Règle de décson : S la p-value est nféreure au seul fxé α, on rejette H 0 ; snon on ne rejette pas H Tests sur un sous-ensemble de paramètres Sot { β (,..., β (r} un sous-ensemble de paramètres de {β 0,..., β p }. On note { α (,..., α (p+ r} les autres paramères. On souhate tester l acton globale de l ensemble des caractères { x (,..., x (r}. On consdère alors le test { H0 : β ( =... = β (r = 0 H : j {,..., r} tel que β (j ( Les tros tests présentés précédemment peuvent être adaptés pour vérfer cette hypothèse. Asymptotquement sous H 0, la statstque de Wald 3

32 la statstque du rapport de vrasemblance W = ˆβ 0 J( ˆβ0 ˆβ 0, (3.23 L(y, x; ˆα( 0,..., ˆα (p+ r 0, 0,..., 0 G = 2ln L(y, x; ˆβ 0,..., ˆβ, (3.24 p et la statstque du score suvent toutes tros la lo χ 2 r. On a la même règle de décson que précédemment : S = U( ˆβ 0 [J( ˆβ 0 ] U( ˆβ 0 (3.25 Règle de décson : S la p-value est nféreure au seul α fxé, on rejette H 0 ; snon on ne rejette pas H 0. 4 Valdté du modèle 4. Quelques crtères Il peut être ntéressant d utlser dfférents modèles sur un même jeu de données. Afn de pouvor les comparer, on défnt dfférents crtères de qualté.. Le crtère AIC (Akake Informaton Crteron AIC = 2 ln L(y, x; ˆβ + 2q, (4.26 où q est le nombre de paramètres à estmer (dans le cas du modèle logstque q = p + ; 2. Le crtère BIC (Bayesan Informaton Crteron ou SC (de Schwartz BIC = SC = 2 ln L(y, x; ˆβ + q ln(n, (4.27 où q est défn comme précédemment et n est le nombre d observatons. Pour comparer pluseurs modèles, on préfèrera celu pour lequel ces valeurs sont les plus fables. 4.2 Capacté prédctve Un des ntérêts du modèle logstque est de pouvor prédre la survenue de l événement (Y = en foncton de l observaton X = x. Pour évaluer la capacté prédctve du modèle, on consdère tous les couples d observatons (, j I 2 avec < j tels que y = 0 et y j =. On note t le nombre de tels couples. Un couple est dt concordant s π(x < π(x j, dscordant s π(x > π(x j et lé ou ex-aequo s π(x = π(x j. On note n c (resp. n d le nombre de couples concordants (resp. dscordants. t n c n d est donc le nombre d ex-aequo. On ntrodut alors les quatre ndces suvants : C = (n c + 0.5(t n c n d /t (4.28 D de Somer = (n c n d /t (4.29 Gamma de Goodman Kruskal = (n c n d /(n c + n d (4.30 T au a de Kendall = (n c n d /(0.5n(n. (4.3 Plus ces coeffcents sont proches de, melleure est la capacté prédctve du modèle. 32

33 5 Codage de varables qualtatves Dans la pratque, les varables explcatves peuvent être qualtatves. On est alors amené à ntrodure un codage de ces varables pour pouvor utlser le modèle (.5. En général, une varable qualtatve x j à m j modaltés est remplacée par m j varables D j,k, k =,..., m j, appelées varables desgn ou dummy (fentes. S toutes les autres varables explcatves sont quanttatves, la relaton (.4 se réécrt : Logt(π(x = β 0 + β x m j k= δ j,k D j,k + β p x p. (5.32 Nous allons présenter c-dessous les dfférents codages utlsés par SAS. Ils nécesstent tous d ordonner les modaltés s elles ne sont pas déjà ordnales. On dot pour cela leur attrbuer à chacune un score s,..., s mj, qu est par défaut, 2, 3,..., m j. Pour fxer les dées nous consdèrerons le cas d une unque varable explcatve x à quatre modaltés a, b, c, d. Chaque codage est présenté dans un tableau à double entrée, dans lequel se trouve à la lgne les valeurs que prennent les varables D, D 2, D 3 quand x a la -ème modalté.. Codage GLM (Generalzed Lnear Model : Sot I, I 2, I 3, I 4 les ndcatrces des modaltés de la varable x. Le modèle s écrt : Logt(π(x = γ 0 + Le modèle est sur-paramétré : on passe alors de 5 à 4 paramètres. Pusque on a : Ans, pour tout j =,..., 4, on a et 4 γ j I j. (5.33 j= I + I 2 + I 3 + I 4 =, (5.34 Logt(π(x = γ 0 ( = = 4 I j + j= 4 γ j I j j= 4 (γ 0 + γ j I j j= 4 β j I j. (5.35 j= β j = γ 0 + γ j, (5.36 D j = I j. (5.37 Ce changement de paramètres peut être récaptulé dans le tableau suvant : x D D 2 D 3 D 4 a b c d

34 2. Codage reference : Le modèle s écrt : 4 Logt(π(x = β j I j j= = δ δ j D j. (5.38 j= En posant D j = I j pour j =, 2, 3, on obtent le système : β = δ 0 + δ β 2 = δ 0 + δ 2 β 3 = δ 0 + δ 3 β 4 = δ 0, (5.39 qu est équvalent à δ 0 = β 4 δ = β β 4 δ 2 = β 2 β 4 δ 3 = β 3 β 4. (5.40 La quatrème modalté est la modalté de référence. Par alleurs, tester H 0 : δ = 0 revent à tester H 0 : β = β 4, e l n y a pas de dfférence entre les modaltés et 4 dans leur acton sur y. 3. Codage effect : Le modèle s écrt : x D D 2 D 3 a 0 0 b 0 0 c 0 0 d Logt(π(x = 4 β j I j j= = δ δ j D j. (5.4 j= En posant D j = I j I 4, on obtent le système : β = δ 0 + δ β 2 = δ 0 + δ 2 β 3 = δ 0 + δ 3 β 4 = δ 0 δ δ 2 δ 3, (5.42 qu est équvalent à 34

35 δ 0 = 4 (β + β 2 + β 3 + β 4 δ = β δ 0 δ 2 = β 2 δ 0 δ 3 = β 3 δ 0. (5.43 x D D 2 D 3 a 0 0 b 0 0 c 0 0 d Codage ordnal : Le modèle s écrt : 4 Logt(π(x = β j I j j= = δ δ j D j. (5.44 j= En posant on obtent le système : qu est équvalent à D = I 2 + I 3 + I 4, D 2 = I 3 + I 4, D 3 = I 4, β = δ 0 β 2 = δ 0 + δ β 3 = δ 0 + δ + δ 2 β 4 = δ 0 + δ + δ 2 + δ 3, δ 0 = β δ = β 2 β δ 2 = β 3 β 2 δ 3 = β 4 β 3. (5.45 (5.46 ( Codage polynomal : x D D 2 D 3 a b 0 0 c 0 d On note s a, s b, s c, s d le score de a, b, c, d respectvement. 35

36 x D D 2 D 3 a s a s 2 a s 3 a b s b s 2 b s 3 b c s c s 2 c s 3 c d s d s 2 d s 3 d On peut également pour chacun des codages (sauf le codage GLM, utlser à la place des vecteurs D, D 2, D 3, leur orthogonalsé de Gram-Schmdt. Références [] JJ. Droesbeke, M. Lejeune, G. Saporta, Modèles statstques pour données qualtatves., Edtons TECHNIP, SFDS, 2005 [2] E. Stokes, S. Davs, G. Koch, Categorcal Data Analyss Usng The SAS System, Second Edton., SAS Insttutes Inc, [3] D. W. Hosmer, S. Lemeshow, Appled Logstc Regresson., Wley, 989. [4] SAS Onlne Documentaton. 36

37 Contôle du rsque de premère espèce dans un ensemble de tests. Olver Collgnon et Jean-Mare Monnez Cet exposé a été réalsé d après les références [] et [2]. Introducton. Lorsque l on est amené à effectuer des mllers, vore des mllons de tests smultanés, l se pose le problème du contrôle du rsque de premère espèce de cet ensemble de tests. Par exemple, dans l analyse des données du transcrptome, on cherche à savor quels sont les gènes dfférentellement exprmés entre deux condtons expérmentales. On dspose de m gènes. Pour =,..., m, on consdère le test : { H 0, : le gène n est pas dfférentellement exprmé, ( H, : le gène est dfférentellement exprmé. On note m 0 le nombre de gènes dans H 0 (c est-à-dre tels que H 0 sot vrae, et m le nombre de gènes dans H. Sot une statstque T qu permet de tester H 0,. On note t, obs la réalsaton observée de T. On note p la réalsaton de la probablté crtque (p-value: p = P (T t, obs sous H 0 (2 = P (T < t, obs sous H 0 = F 0, (t, obs, où F 0, est la foncton de répartton de T sous H 0. p est la réalsaton observée de la varable aléatore réelle (v.a.r : P = F 0, (T. (3 Sous certanes hypothèses (par exemple : F 0, contnue et strctement crossante, la lo de F 0, (T est U(0, sous H 0, ; alors, sous H 0,, la lo de P est U(0,. On fat dans la sute les hypothèses :. P U(0,, 2. les varables aléatores réelles P,..., P m sont mutuellement ndépendantes. 2 Procédures de tests multples : éléments de base 2. Règle de décson Défnton. Une procédure de test multple est une règle de décson qu consste à défnr un seul t et, pour tout, à rejeter l hypothèse H 0, lorsque p t. Problème: Défnr t, seul ou rsque de premère espèce de chaque test. 37

38 2.2 Faux postfs et faux négatfs Défntons : On dt qu un test est postf s l on rejette H 0, faux postf s l on rejette H 0 alors que H 0 est vrae, vra postf s l on rejette H 0 alors que H 0 est fausse, négatf s l on ne rejette pas H 0, vra négatf s l on ne rejette pas H 0 alors que H 0 est vrae, faux négatf s l on ne rejette pas H 0 alors que H 0 est fausse. On défnt les varables aléatores :. V (t, le nombre de faux postfs au seul t, 2. S(t, le nombre de vras postfs au seul t, 3. R(t = V (t + S(t, le nombre de postfs au seul t, 4. U(t, le nombre de vras négatfs au seul t, 5. T (t, le nombre de faux négatfs au seul t, 6. W (t = U(t + T (t, le nombre de négatfs au seul t. Représentons ces varables dans le tableau suvant : H 0 acceptée H 0 rejetée Somme H 0 vrae U(t V (t m 0 H vrae T (t S(t m Somme W (t R(t m Remarquons que m 0 et m sont des constantes nconnues. Par contre, W (t et R(t sont deux varables aléatores observées. Lo de V (t On consdère les m 0 tests pour lesquels H 0 est vrae. Sot, pour =,..., m 0 : V (t = { s l on rejette H 0, au eme test, 0 snon. (4 P (V (t = = P (P t = t (car H 0, est vrae. (5 Les v.a.r V (t,..., V m0 (t sont mutuellement ndépendantes sous l hypothèse 2. Or : V (t = V (t V m0 (t, (6 donc 38

39 De même V (t B(m 0, t. (7 U(t B(m 0, t. (8 Lo condtonnelle de V (t par rapport à V (t 2, t 2 > t Comme t < t 2, V (t V (t 2, car p t mplque p t 2. Supposons V (t 2 = k 2 : l y a k 2 tests pour lesquels p t 2 ; V (t a alors pour réalsatons possbles 0,,..., k 2 ; la probablté condtonnelle P (P t P t 2 est égale à P (P t = t P (P t 2 t2 ; donc la lo condtonnelle de V (t lorsque V (t 2 = k 2 est B(k 2, t t2. On a donc : L(V (t V (t 2 = B(V (t 2, t t 2. (9 E[V (t V (t 2 ] = V (t 2 t, pour t < t 2 (0 t [ ] 2 V (t E V (t 2 = V (t 2, pour t < t 2 ( t t Crtères de détermnaton du seul t 2.3. Contrôle large a On a E[V (t] = m 0 t mt. (2 Crtère. On cherche t tel que E[V (t] sot majorée par un nombre fxé. Défntons.. E[V (t] est appelé le taux d erreur par famlle (P F ER. 2. E[V (t] m est appelé le taux d erreur par comparason (P CER. b Crtère. Un nombre maxmal v de faux postfs étant fxé, on cherche t tel que P (V (t > v < α, pour α fxé. Défnton. P (V (t > v est appelé le taux d erreur global généralsé (gf W ER(v Contrôle ntermédare a Défnton. Le taux de fausses découvertes est [ ] V (t F DR(t = E R(t (R(t>0. (3 C est le taux moyen de faux postfs parm les postfs. Crtère. On cherche t tel que F DR(t < α, pour α fxé. 39

40 b Crtère. α étant fxé, un taux moyen β de faux postfs parm les postfs étant fxé, on cherche t tel que Contrôle strct P ( V (t R(t (R(t>0 > β < α. (4 Défnton. P (V (t > 0 est appelé le taux global d erreur (F W ER : c est la probablté de rejeter H 0, pour au mons un. Crtère. α étant fxé, on cherche t tel que P (V (t > 0 < α. Dans le cas de tests ndépendants : P (V (t > 0 = ( t m 0. (5 Or pour α 0 : ( t m 0 < α t < ( α m 0. (6 ( α m 0 < α m 0 α m 0 < ( α m 0. (7 Il sufft de prendre t = α m 0. S on ne connaît pas m 0, on peut prendre t = α m α m 0. 3 Résultats sur le taux de fausses découvertes (F DR Théorème 3. Sot 0 < β <. On suppose les p ordonnés : p... p m. Sot r = max { : mp β }. En prenant t = p r, s les statstques de test sont ndépendantes, on a : Ce résultat a été établ par Benjamn et Hochberg [3]. F DR(t m 0 β. (8 m 40

41 3. Estmaton du FDR Storey et al. [4] ont établ deux théorèmes : a Cas où m 0 est connu Théorème 3.2 Sot On a F DR(t = { m0 t R(t s R(t > 0 0 s R(t = 0. (9 E[ F DR(t] F DR(t. (20 L estmateur F DR(t de F DR(t a un bas postf ou nul. b Cas où m 0 est nconnu Sot ˆm 0 (λ = W (λ, où λ [0, [ (W (λ est le nombre de tests négatfs au seul λ. λ On a W (λ = U(λ + T (λ U(λ. (2 L estmateur W (λ λ E[W (λ] E[U(λ] = m 0 ( λ de m 0 a un bas postf ou nul. E[W (λ] λ m 0. (22 Théorème 3.3 Sot On a F DR(t, λ = { ˆm0 (λt R(t s R(t > 0 0 s R(t = 0. (23 E[ F DR(t, λ] F DR(t. (24 L estmateur F DR(t, λ de F DR(t a un bas postf ou nul. 3.2 Contrôle du FDR a S l on connaît m 0, on défnt t α par : Théorème 3.4 F DR(t α = α. t α = sup { } t : F DR(t α. (25 b S l on ne connaît pas m 0, on défnt t α par : { } t α = sup t : F DR(t, λ α. (26 Théorème 3.5 F DR(t α = ( λ m 0 α α. 4

42 4 Estmaton de π 0 = m 0 m La connassance d une estmaton de π 0 nous permettra par exemple d avor une estmaton du nombre moyen de faux postfs, E[V (t] = m 0 t. L estmaton de π 0 va être réalsée à partr de la dstrbuton du degré de sgnfcaton P. Exprmons la densté de P. Notons : f 0 la densté de P sous H 0 (densté unforme sur (0, ; f la densté de P sous H ; sous H, p est en général vosn de 0 ; donc, f ( 0. La densté de P s écrt sous la forme d un modèle de mélange : f(x = π 0 f 0 (x + ( π 0 f (x. (27 f( = π 0 + ( π 0 f ( π 0. (28 Dans le cas où f est décrossante, f( est le plus pett majorant de π 0. On va alors chercher un estmateur de f(, ce qu donnera un surestmateur de π Méthode Q value. Elle est due à Storey et Tbshran [5]. Sot F la foncton de répartton de P : F (λ = P (P < λ. W (λ = nombre des p > λ ; W (λ = ˆF (λ est un estmateur de F (λ. m Sot la foncton ˆπ 0 (λ = ˆm 0(λ m = W (λ m( λ. est une estmaton de f(. lm ˆπ 0(λ = lm ˆF (λ λ λ λ a On modélse ˆπ 0 (λ par une foncton splne cubque : on découpe (0, en ntervalles (t, t ; (29 = ˆF (λ ˆF ( lm λ λ (30 = ˆf( (3 la restrcton de ˆπ 0 (λ sur un ntervalle est un polynôme de degré 3 ; ˆπ 0 (λ est de classe C 2. b On détermne alors lm λ ˆπ 0 (λ. 42

43 4.2 Méthode BUM Elle est due à Pounds et Cheng [6]. a On modélse f(x pour x [0, ] par f(x; a, λ = λ + ( λax a, λ [0, ], a [0, [ (32 (mélange d une lo unforme et d une lo bêta B(a, ; f (x = ax a est décrossante pour 0 < a <. b On estme les paramètres a et λ par la méthode du maxmum de vrasemblance respectvement par â et ˆλ. Pour cela : on effectue le changement de varables : a ψ = logt(a = ln(, ϕ = logt(λ ; (33 a on estme ϕ par ˆϕ et ψ par ˆψ au sens du maxmum de vrasemblance en utlsant une méthode d optmsaton numérque ; on obtent alors c On estme f( par â = e ˆψ + e et ˆλ = e ˆϕ. (34 ˆψ + e ˆϕ ˆf(; â, ˆλ = ˆλ + ( ˆλâ. ( Méthode SPLOSH Elle est due à Pounds et Morrs [7]. Les étapes de la méthode sont les suvantes : a Les gènes sont ordonnés suvant leurs degrés de sgnfcaton : p (... p (m. On estme P (P p ( par a ( = 2 m. b On estme la densté de P au pont m mleu de (p (, p (+ par δ = a (+ a ( p (+ p (. (36 c On fat le changement de varables : { x = arcsn(2(p (on élogne les valeurs extrêmes des valeurs centrales 2 y = ln(δ (on unformse les écarts entre les dfférentes valeurs de δ Pour toute valeur de x, on effectue une régresson polynomale d ordre 2 au sens d un crtère des mondres carrés pondérés de y par rapport à x dans un vosnage de x ; on obtent ŷ(x. d Sot ˆf (p ( = eŷ(x. La densté de P est estmée par ˆf ˆf(p (p = ˆf 0 (pdp (l ntégrale est calculée numérquement par la méthode des trapèzes. e On estme f( par mn m ˆf(p ˆf(. (37 43

44 4.4 Méthode LBE (Locaton Based Estmator Elle est due à Dalmasso, Broët et Moreau [7]. La densté de P est f(x = π 0 f 0 (x + ( π 0 f (x. E[P ] = R xf(xdx = π 0E 0 [P ] + ( π 0 E [P ] (38 E[P ] = π E 0 [P ] 0 + ( π 0 E [P ] π E 0 [P ] 0. (39 Or E 0 [P ] = 2, car L(P H 0 = U(0,. Donc 2E[P ] π 0. Un estmateur sans bas de 2E[P ] est 2 m m = P ; c est un estmateur de π 0 avec un bas postf. Théorème 4. Sot ϕ une foncton contnue de ]0, [ dans R + telle que :. lm x ϕ(x = + ; 2. lm x 0 ϕ(x < ; 3. ϕ est convexe ; 4. ϕ(e 0 [P ] E 0 [P ]. m = ϕ(p Alors, le bas de l estmateur m E 0 de π [ϕ(p ] 0 est nféreur à celu de 2 m m = P. On a consdéré les fonctons ϕ(x = ( ln( x n, n N. Comme, sous H 0, ln( P sut la lo exponentelle de paramètre, E 0 [( ln( P n ] = n!. La famlle d estmateurs est dans ce cas : m m = ( ln( P n = ˆπ 0(n. (40 n! Proposton 4.2 Le bas de l estmateur ˆπ 0(n dmnue lorsque n augmente. Proposton 4.3 Lorsque m est grand, ˆπ 0(n sut approxmatvement une lo normale de moyenne E[P ] E 0 et de varance majorée par Cn 2n. [P ] m m étant fxé, on chost alors un majorant arbtrare L de la varance et on prend n = max(, max(n N : Cn 2n m L. (4 44

45 Bblographe [] BAR-HEN A., DAUDIN J.J, ROBIN S. (2005. Comparasons multples pour les mcroarrays, Journal de la SFDS, 46, -2, [2] DALMASSO C., BROET P. (2005. Procédures d estmaton du false dscovery rate basées sur la dstrbuton des degrés de sgnfcaton, Journal de la SFDS, 46, -2, [3] BENJAMINI Y., HOCHBERG Y. (995. Controllng the false dscovery rate : a practcal and powerful approach to multple testng, Journal of the Royal Statstcal Socety Seres B, 57 (, [4] STOREY J.D., TAYLOR J.E., SIEGMUND D. (2004. Strong control, conservatve pont estmaton, and smultaneous conservatve consstency of false dscovery rates : A unfed approach, Journal of the Royal Statstcal Socety Seres B, 66, [5] STOREY J.D., TIBSHIRANI R. (2003. Statstcal sgnfcance for genomewde studes, Proceedngs of the Natonal Academy of Scences, 00, 6, [6] POUNDS S., CHENG C. (2004. Improvng false dscovery rate estmaton, Bonformatcs, 20, [7] POUNDS S., MORRIS S.W. (2003. Estmatng the occurence of false postves and false negatves n mcroarray studes by approxmatng and parttonng the emprcal dstrbutons of p-values, Bonformatcs, 9, [7] DALMASSO C., BROET P., MOREAU T. (2005. A smple procedure for estmatng the false dscovery rate, Bonformatcs, 2,

46 Un aperçu du prncpe des tests de permutaton A. E. Koudou Introducton Les tests de permutaton appartennent à la famlle des tests non paramétrques. On trouve leur orgne dans des références datant des années 30 : vor Fsher (935 ou Ptman (937. La théore a évolué depus ces travaux fondateurs, et on peut en trouver une présentaton moderne dans certans ouvrages récents : par exemple, Good (995, Pesarn (200 ou Edgngton(995. Pour effectuer un test statstque, on suppose souvent que les observatons sont les réalsatons d une varable aléatore dont la lo appartent à une famlle paramétrque (test paramétrque. Les tests de permutaton appartennent à la famlle des tests non paramétrques. Un test de permutaton peut être défn vaguement de la manère suvante : c est un test pour lequel la lo de la statstque utlsée est obtenue (ou approxmée en calculant toutes les valeurs possbles de cette statstque pour les dfférentes permutatons possbles des labels des observatons. Après avor donné dans la premère parte une défnton plus formelle du test et un exemple smple, nous abordons en deuxème parte un cas partculer de test de permutaton tré de Saporta(990, le test de Wlcoxon-Mann-Whtney. Défnton et exemple Soent X et Y des varables ndépendantes. Dans la pratque, X et Y correspondent à la même grandeur observée dans deux groupes dfférents G et G 2 (exemple: G est un groupe de personnes ayant suv un tratement, G 2 est un groupe de personnes non tratées. On dspose de la réalsaton d un n -échantllon d X,..., X n de X et d un n 2 - échantllon d Y,..., Y n2 de Y, avc n + n 2 = n. On veut tester l hypothèse nulle selon laquelle les deux populatons dont sont trés le n -échantllon et le n 2 -échantllon sont homogènes pour la grandeur observée (exemple : tratement sans effet sgnfcatf. Cela peut se tradure par les varables X et Y sont de même lo. On consdère le n-uplet (Z, Z 2,..., Z n = (X,..., X n, Y,..., Y n2. Insttut Ele Cartan, Laboratore de Mathématques, B.P. 239, F Vandoeuvre-lès-Nancy cedex 46

47 On peut auss consdérer que l on observe les réalsatons d une varable aléatore Z et d une varable de Bernoull C à valeurs dans {, } et que l on veut tester l hypothèse nulle de l égalté des los condtonnelles de Z sachant C = et sachant C =. Sot T = T (Z,..., Z n la statstque de test utlsée. Par exemple T = X X n n Y Y n2 n 2 pour une comparason blatérale de moyennes. Sot P n l ensemble des partes de cardnal n de I = {, 2,..., n}. Pour chaque A P n on calcule T A = T ( (Z A ; (Z j j I\A. Sot t la réalsaton de T pour l échantllon observé. On prend pour p-value la proporton p = card{a P n ; T A > t} ( n des valeurs de T plus élevées que celle observée. Un début de justfcaton de ce chox est que, par un calcul mmédat, l espérance mathématque de la varable aléatore p sous l hypothse nulle est égale à P (T > t pour tout t. Remarques n L avantage de cette méthode est qu elle peut être applquée à toute statstque T, que sa lo sot connue ou non. La lmtaton majeure de la méthode est que sa valdté nécesste que les observatons soent échangeables sous l hypothèse nulle. C est le cas, par exemple, s chaque ndvdu a été affecté à un groupe (tratement ou non tratement avec probablté /2. Approche Monte-Carlo : Au leu de retenr, pour le calcul de p, tous les éléments de P n, on effectue un trage( aléatore d un certan nombre (par exemple 000 de n sous-ensembles A parm les possbles. n Voc un exemple : On veut tester l effcacté d une certane méthode d ensegnement. On dspose d un groupe de 44 étudants, dont 2 ont suv un ensegnement basé sur la méthode à tester et 23 ont suv un ensegnement classque. La statstque T utlsée est la dfférence des moyennes. La réalsaton de T pour( l échantllon observé est t = 9, Au leu d effectuer le calcul de T pour chacune des réparttons possbles des 44 2 étudants en deux groupes de 2 et 23, on fat un trage aléatore de 999 combnasons possbles. On observe alors que la valeur t est supéreure à 9,954 pour 4 combnasons sur les 999, sot une proporton de 0,04, d où le rejet de l hypothèse nulle d égalté des moyennes des deux groupes, au seul de 5%. 47

48 2 Le test de Wlcoxon-Mann-Whtney Cette parte est trée du lvre de Saporta. Soent (x,..., x n et (y,..., y m les observatons qu sont supposées être les réalsatons respectves d un n-échantllon et d un m-échantllon de deux varables aléatores X et Y mesurant la même grandeur dans deux groupes dfférents. L dée du test est que s l on mélange les deux séres de valeurs et que l on ordonne le tout par valeurs crossantes, on dot obtenr un mélange homogène sous l hypothèse nulle d absence de dfférence entre les deux populatons dont les échantllons sont trés. Les deux sutes étant réordonnées, on compte le nombre U de couples (, j tels que x < y j. La varable aléatore U prend les valeurs entères entre 0 et nm. On peut démontrer que sous l hypothèse nulle L(X = L(Y, IE(U = nm 2 nm(n + m +, V ar(u =. 2 U sut asymptotquement une lo gaussenne, et l approxmaton est bonne dès que n 8 et m 8. On rejette H 0 s U nm est grand. 2 Au leu d utlser la statstque U, on peut consdérer la somme W X des rangs des ndvdus du premer groupe. On peut montrer que de sorte que, sous l hypothèse nulle, IE(W X = La régon crtque est alors W X W X = U + n(n +, 2 n(n + m +, V ar(w X = 2 n(n + m + 2 nm(n + m +. 2 nm(n + m + > u α/2, 2 où u α/2 est le quantle d ordre α de la lo normale standard. 2 Un exemple : On veut comparer les performances de deux groupes d élèves à des tests d hableté manuelle. On chost aléatorement 8 ndvdus du premer groupe et 0 du deuxème. Les résultats sont les suvants : er groupe : 22, 3, 4, 9, 24, 28, 27, 28. 2è groupe : 25, 3, 20,, 23, 6, 2, 8, 7, 26. Lorque les 8 observatons sont rangées dans l ordre crossant, la somme des rangs des ndvdus du premer groupe, est w x = = 98. Sous H 0, IE(W X = 8( = 76, 48

49 V ar(w X = 8.0( = 26, 7. Comme ,7 =, 96, on rejette l hypothèse nulle au seul 0%. Remarques En effectuant un test de Student, on aboutt au rejet de l hypothèse nulle d égalté des moyennes au seul 0%. Mas compte tenu de la talle rédute des échantllons, le test de Student n est pas utlsable pour ces données. Comme ndqué dans Martz (995, le test de Wlcoxon-Mann-Whtney est un test de permutaton où on prend comme statstque de test References T = #{(, j; x < y j } nm 2. [] Edgngton, E. (995. Randomzaton Tests, New-York: Marcel-Dekker [2] Fsher, R. A. (935. The Desgn of Experment, New-York: Hafner [3] Good, P. (2005. Permutaton, Parametrc and Bootstrap Tests of Hypotheses, Sprnger. [4] Martz J. S. (995. Dstrbuton-Free Statstcal Methods, Monographs on Statstcs and Appled Probablty, 7, Chapman and Hall, Ltd., London. [5] Pesarn, (200. Multvarate Permutaton Tests, Wley [6] Ptman, E. J. G. (937. Sgnfcance tests whch may be appled to samples from any populaton. J. Royal Stat. Socety, [7] Saporta, G. (990. Probabltés, Analyse des Données et Statstque, Pars: Technp. 49

50 Régresson non paramétrque unvarée et multvarée Sande FERRIGNO Le but de cette présentaton est de décrre et de comprendre les relatons qu caractérsent certanes varables aléatores en fasant appel à des méthodes statstques permettant d obtenr des modèles. Les méthodes statstques généralement utlsées reposent sur des hypothèses contragnantes qu dovent être vérfées pour que le modèle obtenu sot valde. Les méthodes de régresson non paramétrque permettent d alléger ces hypothèses et certanes d entre elles sont présentées dans ce traval. Cas unvaré.. Introducton. Nous nous ntéressons à l étude de la relaton entre une varable dépendante Y et une varable explcatve X. Pour cela, nous avons la possblté d utlser un certan nombre d outls : La régresson lnéare qu est facle à calculer et à nterpréter. On part du modèle : y = β 0 + β x + ɛ. On peut en partculer effectuer des tests sur les paramètres s les hypothèses portant sur les résdus sont vérfées. Cependant, ce modèle résulte d une hypothèse très restrctve : la lnéarté de la relaton. Cette hypothèse est souvent non vérfée lorsqu on possède un nombre mportant de données. On peut essayer de spécfer d autres formes paramétrques comme la régresson polynomale ou va une transformaton des données. Les nconvénents sont qu l exste une multtude de transformatons envsageables et que la forme précse du modèle transformé suppose un traval laboreux pour trouver la bonne relaton. La régresson non paramétrque : les données ndusent la forme de la relaton entre les varables. On ne spécfe aucune forme partculère pour l estmateur ce qu donne plus de flexblté. On utlse généralement ce type de régresson lorsque le modèle lnéare ne s applque pas ou pour suggérer la forme que prendrat un modèle de régresson paramétrque. Cette régresson est basée sur la dualté bas-varance. Présentaton générale des fonctons de lssage : 50

51 Le modèle de régresson non paramétrque se présente sous la forme : où y = µ(x + ɛ, =,..., n, - ɛ sont les erreurs aléatores non corrélées entre elles, de moyenne 0 et de varance σ 2. - µ(. est la foncton de régresson que l on cherche à estmer par des fonctons de lssage. On peut mettre en place des tests sur l estmateur mas cela suppose la normalté des erreurs. L ntroducton d un paramètre de lssage va nous permettre de fare le comproms entre le lssage et la flexblté de l estmateur : c est ce qu on appelle la dualté bas-varance..2 Estmaton à noyau. L estmateur à noyau a été proposé par Nadaraya et Watson (964. On obtent une estmaton de la foncton de régresson en calculant une moyenne pondérée des y sur toutes les observatons : ˆµ(x = n = w(x, x y n = w(x, x, où w(x, x est le pods donné à l observaton (x, y dans le calcul de la foncton ˆµ au pont d abscsse x. Ce pods est d autant plus grand que x et x sont proches. Les fonctons de pods utlsées sont de la forme : où w(x, x = nh K ( x x - n est la talle de l échantllon. - h est le paramètre de lssage dt fenêtre d ajustement. - K est le noyau d ajustement, foncton de la dstance entre x et x. L estmateur à noyau peut alors s écrre : ( n = K x x y h ˆµ(x = (. n = K x x h Les fonctons de pods ont certanes proprétés. Elles s écrvent sous la forme : ( x x K = K(u, h où h, 5

52 - K(u 0 est symétrque et d ntégrale égale à. - K(u est maxmal lorsque u = 0 et décroît quand u croît. Donnons deux exemples de noyaux abondamment utlsés : - Noyau Gaussen : K(u = 2π exp( u Noyau d Epanechnkov : K(u = 3 4 ( u2 pour u, 0 snon. Concernant mantenant la fenêtre d ajustement h, elle joue, contrarement au chox du noyau, un rôle crucal pour l estmateur. D une part, plus h est grand, plus le lssage est mportant, la courbe varant lentement. On lmte dans ce cas la varance de l estmaton. En revanche, plus h est pett, plus la courbe est rrégulère, on lmte le bas mas la varance de l estmaton est mportante. Le chox de h est donc un comproms entre la précson de l estmaton et le bas. C est auss un comproms entre le souc de présenter une courbe lsse et celu de ne pas fare dsparaître d nformatons concernant un pett groupe de données partculères. Son nfluence est mportante sur l allure de la courbe. En concluson sur la méthode à noyau, celle-c est adaptée au cas où X et Y sont quanttatves. Elle nécesste la spécfcaton du paramètre de lssage h, ce qu est un problème délcat qu sera abordé ultéreurement. En revanche, le chox du noyau d ajustement n est pas crucal. Enfn, cette méthode peut donner des résultats basés aux bornes de l ntervalle de varaton de X..3 Estmaton lnéare locale (loess. Elle a été ntrodute par Cleveland (979 et Haste et Tbshran (990. C est la méthode la plus utlsée pour fare de la régresson non paramétrque car elle est smple et rapde d exécuton par rapport aux autres méthodes. C est un bon outl lorsqu on veut connaître l allure générale de la courbe dans le but de fare de la régresson paramétrque par exemple. La procédure d estmaton est la suvante : - Pour tout pont d abscsse x, on défnt un vosnage V (x qu est un ntervalle de longueur fxée et symétrque autour de x. - On attrbue à chaque observaton (x, y de ce vosnage V (x un pods w(x, x qu mesure la dstance entre x et x. - L estmaton de µ en x est donnée par une régresson lnéare sur les ponts pondérés au vosnage V (x de chaque pont x. - On note parfos par λ = N la fracton des observatons prses en compte pour estmer µ en n un pont donné, où N est le nombre d observatons parm n qu appartennent au vosnage V (x. 52

53 Rappelons que l on cherche l estmateur lnéare local de µ(x = E(Y X = x = β 0 + β x. Cela nous mène à la résoluton du problème des mondres carrés pondérés : mn β0 (x, β (x n ( [y β 0 (x β (xx ] 2 x x K, h = où K(. et h > 0 sont respectvement le noyau et la fenêtre d ajustement. Pour alléger les notatons, on propose une expresson matrcelle de l estmateur. On pose : ( - X = (x j =,...,n,j=0,. - P = dag ( K ( x x. h =,...,n - Y le vecteur de dmenson n contenant les observatons y. Le problème de mnmsaton précédent revent à chercher : T ( mn β (Y Xβ P Y Xβ. Alors ˆβ = ˆβ 0 (x ˆβ (x = ( X T P X X T P Y et de ce fat, ˆµ(x = ( x T ( X T P X X T P Y = n l (xy. =.4 Estmaton polynomale locale. C est la généralsaton de la procédure précédente à des polynômes de degré nféreur ou égal à p. Cela nous condut à la résoluton du problème des mondres carrés pondérés : mn β0,..., β p [ n y = ] 2 p ( β ν x ν x x K. h ν=0 A nouveau, on utlse une expresson matrcelle. On pose : ( -X = (x j. =,...,n j=0,...,p 53

54 -P = dag ( K ( x x. h =,...,n -Y le vecteur de dmenson n contenant les observatons y. Le problème des mondres carrés précédent revent à chercher ˆβ tel que : T ( ˆβ = mn β (Y Xβ P Y Xβ. ˆβ = ( X T P X X T P Y et de ce fat, par des calculs smples, on en dédut que : ˆµ(x = ( x... x p T ( X T P X X T P Y = ˆβ 0 (x + p j= ˆβ j (xx j. ˆµ(x = n = l (xy..5 Chox des paramètres de lssage. Le chox du noyau n a pas une très grande mportance concernant la qualté de l estmateur. Concernant mantenant le chox de fenêtre, on rappelle que le but est d obtenr le melleur comproms entre le lssage et la flexblté. L dée premère serat d utlser un échantllon complémentare formé d une nouvelle observaton y pour chaque valeur x et de mnmser les erreurs de prédcton. On chosrat l estmateur ˆµ h qu mnmserat la moyenne des espérances des erreurs de prédcton au carré : P SE(h = n n E{y ˆµ h (x } 2, = où y = µ(x + ɛ serat une nouvelle observaton au pont x et où ɛ serat non corrélée avec les autres erreurs ɛ. C est une méthode de sélecton objectve du paramètre de lssage. Cette quantté possède de nombreux estmateurs souvent utlsés dans les lvres ou les artcles scentfques. Une de ces méthodes est d utlser la moyenne des résdus au carré donnée par : ASR(h = n n {y ˆµ h (x } 2. = Cette méthode est non recommandée car elle est basée et donne généralement de mauvas résultats. Un autre crtère est celu du C p de Mallows : C p (h = ASR(h + 2tr(S hˆσ 2, n 54

55 avec S h matrce telle que Ŷ = S hy ne dépendant plus des y mas unquement des x et ˆσ 2 un estmateur de σ 2. Enfn, une méthode très fréquemment utlsée en pratque est la valdaton crosée : CV (h = n n = {y ˆµ h (x } 2, où ˆµ h (x est l estmaton obtenue au pont x lorsque le pont (x, y est exclu de l échantllon pour le calcul de l estmateur. Cette méthode se généralse au crtère de valdaton crosée généralsée : GCV (h = n n = {y ˆµ h (x } 2 / [ C(h n où C(h est une foncton qu dépend du paramètre de lssage et qu vare selon le type de régresson non paramétrque utlsé..6 Les splnes de régresson et de lssage. Les splnes de régresson. On les utlse surtout en analyse numérque et en modélsaton graphque. Cette méthode d estmaton présente des qualtés mathématques de par la smplcté des calculs et une expresson explcte. Le modèle y = µ(x + ɛ s écrt de la façon suvante, en utlsant la formule de Taylor avec reste ntégral à l ordre (m : où y = m j= θ j x j + [(m!] et où µ (m (. est la m ème dérvée de µ(.. u + = u s u 0, 0 s u < 0, ] 2, µ (m (ξ(x ξ m + dξ + ɛ, On approche l ntégrale par : k j= δ j(x ξ j m +. On obtent alors la foncton de régresson : s Λ (x = m θ j x j + j= k j= δ j (x ξ j m +, où θ,..., θ m, δ,..., δ k sont des coeffcents et où Λ = {ξ,..., ξ k } est un ensemble de ponts appelés noeuds. La famlle des fonctons splnes concerne des fonctons contnues, défnes par ntervalles et dont les morceaux sont des polynômes de degré m. Λ = {ξ,..., ξ k } est l ensemble des 55

56 noeuds, c est à dre les bornes des ntervalles. On utlse fréquemment des splnes cubques (polynômes de degré 3 et des splnes lnéares (polynômes de degré. Exemple : Splne lnéare. Autre écrture : ŝ Λ (x = x (x (x S x < 24.7 alors ŝ Λ (x = x. S 24.7 x < 34.7 alors ŝ Λ (x = x. S x 34.7 alors ŝ Λ (x = x. Regardons à présent l estmaton des paramètres. Posons β = (θ,..., θ m, δ,..., δ k et : B j (x = x j, j =,..., m, Alors : B m+j (x = (x ξ j m +, j =,..., k. 3 paramètres nconnus : m, Λ et β. s Λ (x = m+k j= β j B j (x. On fxe m au départ (pour des splnes cubques, m = 4. Supposons que Λ sot connu. Alors s Λ est une foncton lnéare des paramètres β j et on obtent faclement l estmateur de β par la méthode des mondres carrés. On mnmse alors la somme des résdus au carré par rapport à β : RSS(β, Λ = n (y = m+k j= β j B j (x 2. S on défnt la matrce X Λ = {B j (x } =,...,n,j=,...,m+k, alors l estmateur de β sot ˆβ = ( ˆβ,..., ˆβ m+k est donné par : S Λ est nconnu. ˆβ = (X T Λ X Λ X T Λ y. Méthode exploratore : La plus smple mas la mons pratque. On détermne l emplacement des noeuds smplement en observant les données. Dans le cas des splnes lnéares, on 56

57 placera un noeud à tous les endrots où la pente change. Dans le cas des splnes cubques, on placera un noeud près d un pont d nflexon. Méthode aléatore : On fxe le nombre k de noeuds pus on les place de façon unforme sur le domane ou sur les statstques d ordre de la varable prédctve. Autres méthodes : Pour un certan nombre k de noeuds et un degré m fxés, on utlse une méthode d optmsaton numérque pour obtenr les estmateurs qu mnmsent RSS(β, Λ par rapport à β et à Λ smultanément. On utlse des méthodes adaptatves avec lesquelles l estmateur est obtenu sans fxer le nombre et l emplacement des noeuds. Elles se basent sur les données de l échantllon pour estmer tous les paramètres (sauf m et sur une procédure pas à pas qu ajuste une sére de modèles, pus chost celu qu mnmse un certan crtère d ajustement. (Exemple : méthode MARS. Les splnes de lssage. Ces fonctons sont basées sur la mnmsaton d un crtère précs qu combne la mesure classque de la qualté de l ajustement, la somme des résdus au carré, et une mesure de la quantté de lssage (défne c par une ntégrale : n n (y µ(x 2 + λ = µ (m (t 2 dt, où λ 0 est le paramètre de lssage et m est fxé et sert à défnr le degré des polynômes ajustés. λ détermne la flexblté de l estmateur. Plus λ est proche de 0 plus l estmateur est flexble. Plus on augmente la valeur de λ plus on donne d mportance à la deuxème parte du crtère et de ce fat l estmateur est plus lsse car on oblge l ntégrale à être plus pette. L unque foncton qu mnmse ce crtère est une foncton splne de degré 2m avec des noeuds à chacune des valeurs dstnctes de la varable explcatve ; on ajoute la contrante qu elle sot formée de polynômes de degré m en dehors de l ntervalle de couverture de la varable explcatve [x (, x (n ]. Ces fonctons sont nommées splnes naturelles. En supposant qu l n y at pas d égalté dans la varable explcatve, l estmateur des splnes de lssage est donné par : ˆβ = (X T X + nλω X T y, et ˆµ(x = n j= ˆβ j B j (x, où X = (B j (x,j=,...,n est la matrce des bases des splnes naturelles et où Ω = { B (m (tb (m j (tdt},j=,...,n. 57

58 L avantage est qu l s agt d un crtère assez précs pour la détermnaton des estmateurs outre la faclté de calcul. L nconvénent est que cette méthode est dffcle à généralser au cas multvaré. Vor pour cela les splnes de lssage à plaques mnces et les modèles addtfs généralsés (GAM. 2 Cas multvaré. 2. Introducton. Le but est l étude de la relaton entre une varable dépendante Y et p varables explcatves X,..., X p. Les outls dont nous dsposons sont : La régresson lnéare multple qu est facle à calculer et à nterpréter. Le modèle s écrt sous la forme : y = β 0 + β x β p x p + ɛ. Il s agt de la généralsaton du modèle de régresson lnéare smple. On retrouve l hypothèse très restrctve du contexte unvaré : la lnéarté de la relaton ce qu rédut le champ d applcatons. D autre part, ce modèle ne tent pas compte des nteractons possbles entre les varables explcatves. On peut essayer l ajustement d un modèle polynomal ou fare dfférents types de transformatons sur les varables. L ajout de ces termes permet de tenr compte de l nteracton entre certanes varables. Toutes ces technques nécesstent cependant d avor une bonne dée de la forme que devrat prendre le modèle. La régresson non paramétrque mult-dmensonnelle. Le modèle s écrt sous la forme : y = µ(x,..., x p + ɛ. On ne suppose aucune forme précse pour la relaton entre la varable réponse et les varables explcatves, l objectf étant d obtenr une estmaton de µ(.. Pour cela, dfférentes méthodes sont proposées comme par exemple les modèles GAM, les splnes de régresson multvarées et les méthodes à noyau et polynomale locale mult-dmensonnelles. 2.2 Méthodes à noyau et polynomale locale. C est une généralsaton smple des méthodes unvarées en modfant la manère de calculer la dstance entre les ponts du domane. On consdère une mesure de dstance dans l espace à p dmensons pour pouvor applquer la noton de vosnage. Le chox de la norme est mportant et l peut mener à des résultats dfférents surtout lorsque p est grand. Par exemple, l utlsaton de la dstance eucldenne produt un vosnage en forme de sphère. On peut auss par exemple utlser une autre mesure de dstance basée sur la matrce de covarance des varables explcatves. L nconvénent de cette méthode est la Curse of 58

59 Dmensonnalty c est à dre que lorsqu on fxe le nombre de ponts d un vosnage, l devent de mons en mons local à mesure que p devent grand. D autre part, cette méthode lmte auss le nombre de varables explcatves et donne leu à des problèmes d nterprétablté. 2.3 Modèles addtfs généralsés. Les GAM sont une verson non paramétrque des modèles lnéares généralsés. Il s agt d une technque smple d utlsaton développée par Haste et Tbshran (990. On suppose l écrture suvante pour le modèle : y = α + p µ j (x j + ɛ, j= où les erreurs ɛ sont non corrélées entre elles, de moyenne 0 et de varance σ 2 et les µ j sont des fonctons arbtrares. L addtvté du modèle est un avantage au pont de vue de l nterprétaton et de la vsualsaton de la foncton de régresson. S l y a des nteractons mportantes entre les varables explcatves, les résultats peuvent en revanche être erronés. Le but de cette méthode est d estmer smultanément les µ j de manère non paramétrque. Chacune peut prendre une des formes non paramétrques présentées dans la premère parte mas auss des formes bvarées s on tent compte d nteractons. Le type d estmateur peut varer à l ntéreur d un même modèle pourvu que celu-c sot défn au départ. On ajuste d autre part le modèle par l algorthme de Backfttng. Algorthme Backfttng : Premère étape : Intalsaton. On estme smultanément la constante α par ȳ et les fonctons µ j par ˆµ 0 j. La façon de calculer les ˆµ 0 j dépend de la connassance que l on a des µ j. Comme d habtude on possède très peu d nformaton sur ces fonctons, l est d usage de fxer ˆµ 0 j = 0 ou d effectuer une régresson lnéare multple de Y sur les varables explcatves pour évaluer ces estmateurs. 2 Deuxème étape : Itératon. On a : y α j k µ j (x j = µ k (x k + ɛ. On estme à tour de rôle chacune des fonctons µ k à partr des résdus partels y ˆα j k ˆµ j (x j, =,..., n. 59

60 3 Trosème étape. On tère la deuxème étape en mettant à jour les estmatons des fonctons µ k jusqu à ce qu elles se stablsent. Remarques : - C est une méthode permettant l ajustement d une multtude de modèles spécfques à chaque stuaton. - Les modèles non paramétrques utlsés sont smples et facles d nterprétaton. - Les fonctons de lssage de type lnéare locale et les splnes de lssage sont les plus utlsées. 2.4 Splnes de régresson multvarées. La foncton de type splnes de régresson multvaré de degré m mplquant les varables explcatves X,..., X p et un certan ensemble de noeuds Λ peut s écrre sous la forme : s Λ (x = j β j B j (x, où la varable x est vectorelle et les B j peuvent par exemple être des bases de fonctons tronquées unvarées de la forme x d j ou (x j ξ d + pour j =,..., p, d =,..., m et un certan noeud ξ. S Λ est connu, les estmateurs des paramètres β j sont calculés avec la méthode des mondres carrés. S Λ n est pas connu, on cherche une façon de trouver les bases qu permettent de décrre le meux possble cette relaton : on utlse pour cela des méthodes adaptatves. La méthode MARS : Multple Adaptatve Regresson Splne développée par Fredman (99 en est une. Elle consste en l utlsaton des données pour détermner le nombre et l emplacement des noeuds ans que la valeur des coeffcents du modèle. 3 Concluson. Les méthodes non paramétrques sont très utles dans un contexte d exploraton des données pour comprendre et observer les relatons qu exstent entre les varables. Elles sont facles d utlsaton et accessbles va des programmes nformatques permettant de les applquer. De nouvelles approches sont actuellement développées dans le cas multdmensonnel. Notons enfn que les champs d applcatons sont vastes. 60

61 4 Bblographe. [] Fan, J. & Gjbels, I. (996. Local polynomal modellng and ts applcatons. Chapman & Hall, London, 34p. [2] Haste, T., Tbshran, R. & Fredman, J. (200. The elements of statstcal learnng. Sprnger Seres en Statstcs, London, 533p. [3] Vandal, N. (2005. La régresson non paramétrque multdmensonnelle. Théore et applcaton à une étude portant sur la densté mammare. Mémore d Etude de la Maîtrse en Statstque de l Unversté de Laval, 08p. 6

62 L'analyse des données de surve par le modèle de Cox Olva Brandmeyer L'analyse de surve est l'une des plus ancennes méthodes statstques, elle est largement utlsée dans des études statstques médcales. Son but est de quanter les relatons entre la durée de surve et un ensemble de varables explcatves. Les données de surve Les données de surve sont des données mesurant le temps de réalsaton d'un événement ; cet événement peut être la mort du sujet, l'apparton d'une malade ou la réponse à un tratement. Les sujets entrent dans l'étude au fur et à mesure qu'elle se déroule. Pour chaque sujet, l faut connaître la date de début d'observaton (date d'orgne, la date des dernères nouvelles (date de survenue de l'événement étudé ou de la n de la pérode d'observaton et l'état aux dernères nouvelles (décédé ou vvant, guér ou non guér. Une partcularté des données de surve est que l'événement étudé est rarement observé chez tous les sujets. Lorsque la réponse par rapport à la survenue de l'événement étudé est négatve, on dt alors que l'on a des données censurées ; on a donc smplement une nformaton ndquant que la durée de surve est supéreure à la durée de l'étude. Il y a également des ndvdus qu sont perdus de vue à un nstant de l'étude, on ne connaîtra pas leur état à la n de l'étude, on sat smplement que leur durée de surve est supéreure au temps de perte de vue. Ces ndvdus consttuent également des données censurées. Les valeurs ou modaltés des varables explcatves z j sont notées pour chaque sujet à la date de son entrée dans l'étude. Ces varables peuvent être qualtatves ou quanttatves. La varable consdérée T est le déla entre la date d'orgne et la date de survenue de l'événement étudé. Ans, au moment où l'on eectue l'analyse des données, on dspose en général d'un échantllon composé de deux types d'nformaton (on se place dans le cas où l'événement étudé est la mort du sujet : - Certans ndvdus sont décédés, et on dspose alors d'une nformaton complète, de la forme (T = t, où T est la varable aléatore durée de surve. - D'autres ndvdus, au contrare, sont vvants ou alors perdus de vue. Tout ce qu'on connaît de leur durée de surve est que celle-c est supéreure au temps qu s'est écoulé entre l'nstauraton du suv et le moment de l'analyse. On a donc une nformaton de la forme (T > t. Ces ndvdus consttuent des données censurées. 2 Fonctons de surve et rsque nstantané Notons z j les varables explcatves qualtatves ou quanttatves. La varable durée de surve T (déla entre la date d'orgne et la date de survenue de l'événement est une varable aléatore non négatve et contnue : la probablté de décès à chaque nstant t est nnment pette. La densté de probablté de la durée de surve s'exprme de la façon suvante : La foncton de répartton de T est donnée par : f(t = lm dt 0 P(t T < t + dt dt F (t = P(T < t = t 0 f(udu On s'ntéresse à la probablté d'avor une durée de surve supéreure ou égale à t : c'est la foncton de surve S(t donnée par : S(t = P(T t = P(T < t = F (t 62

63 Le rsque nstantané de décès, que l'on appelle auss foncton de rsque, s'exprme de la façon suvante : h(t = lm dt 0 P (t T < t + dt T t dt Cette foncton représente la probablté pour un sujet d'avor une durée de surve comprse entre t et t + dt, condtonnellement au fat que ce sujet sot encore vvant au bout de la durée t. On a : h(t = lm dt 0 P (t T <t+dt,t t P (T t dt P (t T < t + dt = lm = f(t dt 0 P (T tdt S(t = (t S S(t = d dt ln(s(t S h(t est ntégrable, on a : ( et donc S(t = exp t 0 h(udu t 0 h(udu = ln (S(t Notons H(t la foncton de rsque cumulé de h(u entre 0 et t ou S(t = exp ( H(t t H(t = h(udu = ln (S(t 0 On obtent ans : f(t = h(ts(t = h(t exp ( H(t 3 Modèle de Cox : approche sem-paramétrque La dculté est de trouver une relaton entre la dstrbuton du temps de surve et le vecteur des covarables z. Cox propose en 972 un modèle à rsque proportonnel pour l'analyse des données de surve. Le modèle de Cox permet la prse en compte smultanée de pluseurs varables pour explquer la surve sans donner aux fonctons de surve des formes paramétrques précses. Les varables explcatves sont qualtatves ou quanttatves. Ce modèle permet d'exprmer le rsque nstantané de survenue de l'événement en foncton de l'nstant t et des varables explcatves z j. 3. Rsque nstantané Notons z = (z,..., z p le vecteur des varables z. Ces varables représentent la plupart du temps des ndcatrces correspondant aux dérentes modaltés des cofacteurs ntroduts dans le modèle. Pour chaque ndvdu j, notons z (j = (z j,..., z pj le vecteur des observatons pour les varables z,..., z p. La dépendance est mesurée par le vecteur des coecents de régresson β = (β, β 2,..., β p. Le rsque nstantané pour un ndvdu à l'nstant t s'écrt : h(t, z = h 0 (t exp(β z = h 0 (t exp( p β z Le rsque nstantané se décompose en deux termes dont l'un dépend du temps t et l'autre des varables z. S, par exemple, les varables z représentent des facteurs de rsque et s elles sont toutes égales à 0, h 0 (t est le rsque nstantané de survenue de l'événement des sujets ne présentant aucun facteur de rsque. Cox a proposé de consdérer h 0 (t comme une foncton nconnue qu'on ne cherchera pas à estmer. C'est l'assocaton entre les varables z et la survenue de l'événement consdéré qu est l'ntérêt central du modèle. Cela revent à détermner les coecents β. La foncton de surve s'écrt de la façon suvante : = 63

64 S(t, z = exp t 0 h 0 (u exp(β zdu La relaton entre le rsque nstantané et les covarables est log-lnéare. En eet, on a log (h(t, z = log (h 0 (t + p β z. Le rapport des rsques nstantanés de 2 ndvdus dont les caractérstques sont z ( = (z,..., z p et z (2 = (z 2,..., z p2 est : h(t, z ( h(t, z (2 = exp ( β z ( exp ( β z (2 Ce rapport ne dépend pas du temps. mportante du modèle de Cox. = Le modèle est dt à rsques proportonnels ; c'est une hypothèse Le rapport des rsques nstantanés de décès représente le rsque relatf à l'nstant t des sujets de caractérstques z ( par rapport aux sujets de caractérstques z (2. Comme dans tout modèle de régresson, on peut ntrodure dans le vecteur z des termes d'nteractons entre covarables ou des fonctons (logarthme, pussance, etc. des covarables. 3.2 Interprétaton des coecents Consdérons une varable z dchotomque ; z prend la valeur 0 ou selon l'absence ou la présence de la caractérstque consdérée. Le rapport des rsques nstantanés des sujets de la classe par rapport à la classe 0 est : h(t, h(t, 0 = eβ Le coecent β est donc le logarthme du rsque nstantané relatf de la classe par rapport à la classe 0. S β >0 (RR >, alors les sujets de la classe ont un rsque relatf de survenue de l'événement plus élevé que les sujets de la classe 0. De façon générale, les coecents β j représentent l'eet de la caractérstque z j sur la survenue de l'événement. S β j est nul, la j-ème caractérstque n'a pas d'nuence sur l'événement consdéré. S β j est postf et s 2 sujets ne dérent que par la j-ème caractérstque, des valeurs élevées de la j-ème caractérstque sont assocées à un rsque nstantané plus élevé. Inversement, s β j est négatf, des valeurs élevées de la j-ème caractérstque sont assocées à un rsque nstantané plus fable. 3.3 La vrasemblance de Cox Le prncpe du modèle de Cox est de n'estmer que les coecents β j. On ne cherche pas à estmer h 0 (t. Les estmateurs des β j sont obtenus par la méthode du maxmum de vrasemblance. Consdérons m ndvdus dont on observe les durées de surve. Parm ces m ndvdus : - k ndvdus sont décédés, on connaît donc leur durée de surve que l'on note t < t 2 <... < t k - m k ndvdus sont censurés : pour un certan ndvdu j, on sat que sa durée de surve est à t j ; on note ces durées t k+ < t k+2 <... < t m Nous noterons ans t, ( =,.., k les durées de surve des ndvdus décédés et t j (j = k +,..., m les temps de censure des ndvdus censurés. La vrasemblance s'écrt de la façon suvante : V = k f(t, z ( = m j=k+ S(t j, z (j 64

65 V = k h 0 (t exp(β z ( S(t, z ( = m j=k+ S(t j, z (j où S(t, z ( représente la probablté pour l'ndvdu de caractérstques z ( d'avor une durée de surve supéreure ou égale à t. La contrbuton à la vrasemblance d'un sujet décédé au bout d'une durée de surve t est égale à : f(t, z ( = h 0 (t exp(β z ( exp Celle d'un sujet censuré au bout d'une durée t j est égale à : S(t j, z (j = exp t j 0 t 0 h 0 (u exp(β z ( du h 0 (u exp(β z (j du On cherche mantenant à exprmer l'événement suvant : A = " L'ndvdu a une durée de surve égale à t et l'ndvdu 2 a une durée de surve égale à t 2 et... et l'ndvdu k a une durée de surve égale à t k et l'ndvdu k+ a une durée de surve à t k+ et... et l'ndvdu m a une durée de surve à t m " On dént ans les événements suvants : D = " l'ndvdu a une durée de surve égale à t " C = " l'ndvdu j a une durée de surve à t j avec t < t j < t " j Notons les ndvdus censurés de la façon suvante : (,..., l les ndvdus censurés dont le temps de censure appartent à [0 ; t [ ( 2,..., l2 2 les ndvdus censurés dont le temps de censure appartent à [t ; t 2 [ ( k+,...,l k+ k+ les ndvdus censurés dont le temps de censure est supéreur ou égal à t k. On peut ans exprmer l'événement C de la façon suvante : C =" l'ndvdu a une durée de surve à t (< t et... et l'ndvdu l a une durée de surve à tl (< t " On a donc : A = C D C 2 D 2... D k C k+ Condtonnellement aux temps de décès observés, la vrasemblance en C D...C k+ s'écrt : sot : V (A = P(C P(D C P(C 2 C D... P(C k+ C...C k D...D k V (A = k C P[D ( D ( ] = k+ où : C ( est l'ntersecton des événements : C, C 2,..., C et D ( est l'ntersecton des événements : D, D 2,..., D. = P[C C ( D ( ] La lo des événements de censures est, a pror, ndépendante de la lo de durée de surve (Les censures sont causées par un processus ndépendant de la mortalté. Ans, le second facteur ne content pas ou peu d'nformaton sur β, l'nformaton sur β est entèrement, ou à peu près, contenue dans le premer facteur. Ce premer facteur correspond à la "vrasemblance" de Cox auss appelée "vrasemblance partelle" : L = k C P[D ( D ( ] ( = Dans l'expresson (, condtonner D par C ( D ( revent à consdérer comme connus l'ensemble des sujets décédés qu ont une durée de surve nféreure à t et l'ensemble des sujets censurés avant la durée t. Par complémentarté, on consdère donc comme connu l'ensemble rsque R des sujets qu sont encore vvants 65

66 au bout d'une durée t (.e. qu ont une durée de surve à t. La vrasemblance de Cox se calcule donc comme le produt des probabltés condtonnelles d'observer l'événement D sachant que l'on avat le groupe R de sujets vvants au bout de la durée t. Contrbuton d'un décès à la vrasemblance : L = k P[D R ] = La probablté qu'un ndvdu avec un vecteur de covarables z ( meurt au bout d'une durée t condtonnellement à l'ensemble rsque R est le rato des rsques donné par : P [D R ] = P ( " l'ndvdu a une durée de surve égale à t " l R P ( " l'ndvdu l a une durée de surve égale à t " P [D R ] = h(t, z ( h(t, z (l = l R h 0 (t exp ( β z ( l R h 0 (t exp ( β z (l = exp ( β z ( l R exp ( β z (l La vrasemblance partelle de Cox L(β se calcule alors comme le produt de toutes ces contrbutons, pour les dérents temps de décès dstncts. Elle ne content pas la foncton h 0 (t. On a: L(β = k = exp ( β z ( l R exp ( β z (l Pour faclter la résoluton du problème de maxmsaton, on calcule le logarthme de la foncton de vrasemblance : ( k exp(β z ( k k ln L(β = ln exp(β z = (l = β z ( ln exp(β z (l = = l R l R 3.4 Estmaton des coecents du modèle Nous allons mantenant estmer les coecents β j par la méthode du maxmum de vrasemblance. Cette méthode consste à prendre comme estmaton du vecteur β, le vecteur ˆβ qu rend maxmale la foncton de vrasemblance L(β. On cherche donc la soluton de l'équaton de la vrasemblance : Résultats : La log vrasemblance est la suvante : ln L(β = ln k = exp(β z ( l R exp(β z (l = ln L(β = 0 β k β z ( Le maxmum de vrasemblance est la soluton du système d'équatons : On calcule alors les dérvées premères : U j (β = β j ln L(β = = ( k ln exp(β z (l l R = β j ln L(β = 0 pour j =,..., p ( k ( k ( β z ( ln exp(β z (l β j β = j = l R 66

67 Dérvons, tout d'abord, le premer terme : ( k β z ( β j Pus, le second ( terme ( : k β j ln exp(β z (l = l R = k = k ( β j ( p β mz ml exp l R m= ( p = exp β mz ml l R m= ( p z jl exp β mz ml l R m= ( p = exp β mz ml l R m= z jl exp(β z (l l R exp(β = z (l l R = k Fnalement, on obtent : U j (β = = = = β j ( k = β j ( ( k ln = La matrce d'nformaton a pour terme général : = m= l R exp P β m z m = k = ( p β m z ml m= k ( zj A (j (β z jl exp ( β z (l l R avec A (j (β = I jm (β = 2 ln L(β β j β m = k C (jm (β = avec C (jm (β = z jl z ml exp(β z (l l R exp(β z (l l R z j l R exp ( β z (l A (j (βa (m (β L'estmaton de β par le maxmum de vrasemblance est obtenue à l'ade de l'algorthme de Newton-Raphson. La méthode de Newton-Raphson est une méthode tératve de gradent. Elle s'appue sur la relaton suvante : β + = β + I (β U(β β est la soluton courante à l'étape. (β 0 = (0,..., 0est une ntalsaton possble U(β est le vecteur des dérvées partelles premères de la vrasemblance. I(β est la matrce des dérvées partelles secondes de la vrasemblance. Les tératons sont nterrompues lorsque la dérence entre deux vecteurs de solutons successfs est néglgeable. Cette dernère matrce est ntéressante car son nverse représente l'estmaton de la matrce de varancecovarance de β. [ Cov( ˆβ = I ( ˆβ 2 ln L( = ˆβ ] ˆβ 2 Elle sera mse à contrbuton dans les dérents tests d'hypothèses pour évaluer la sgncatvté des coecents. 67

68 3.5 Test d'hypothèse d'un coecent On consdère le test suvant : z j Notons : ˆβ R = ˆβ 0 = ˆβ. ˆβ j ˆβ j+. ˆβ p ˆβ. ˆβ j 0 ˆβ j+. ˆβ p { H0 : β j = 0 H : β j 0 le sous-ensemble des estmatons des coecents calculées dans le modèle restrent (sans Le test du score La statstque utlsée est la suvante : U ( ˆβ 0 I ( ˆβ 0 U( ˆβ 0 avec U( ˆβ 0 le vecteur des dérvées premères du log de la foncton de vrasemblance partelle évaluées en β = ˆβ 0 et I( ˆβ [ ] 0 = 2 ln L(β β β = ˆβ0 la matrce des dérvées secondes évaluées en β = ˆβ 2 0. Le test de Wald Ce test est basé sur la normalté asymptotque de ˆβ j. Sous H 0, ˆβ j N (0, σ j ˆβ j σ j N (0, ˆβ 2 j σ 2 j χ 2 La statstque utlsée est : V ar( ˆβ j ˆβ 2 j Le test du rapport de vrasemblance ( La statstque utlsée est : 2 ln L( ˆβ R ln L( ˆβ Ces tros statstques suvent asymptotquement, sous l'hypothèse nulle, des dstrbutons du χ 2 à degré de lberté. Notons s la statstque utlsée, réalsaton d'une varable aléatore S qu, sous l'hypothèse nulle, sut une lo du χ 2 à degré de lberté. Pour un seul xé α, notons k la valeur crtque telle que P (H0 [S k] = α. La règle de décson est la suvante : S s k, alors on rejette (H 0 ; snon, on ne rejette pas (H 0. 68

69 3.6 Adéquaton du modèle de Cox : étude des fonctons de surve Le prncpe est de consdérer un modèle straté et d'estmer les logarthmes des fonctons de rsque cumulé pour chaque nveau de la stratcaton. On chost comme varable de stratcaton une varable suspectée d'avor un eet non proportonnel sur la foncton de rsque. On peut alors étuder le graphe des estmatons de Ln [H j (t] en foncton de t. Ln (H j (t = Ln ( Ln(S j (t = Ln exp(β z t 0 h 0j (udu = β z + Ln t 0 h 0j (udu L'hypothèse de proportonnalté condut à exprmer h 0j (t de la façon suvante : h 0j (t = α j h 0 (t Consdérons ensute 2 strates et j et comparons Ln (H j (t et Ln (H (t. Ln (H j (t = β z + Ln Ln (H (t = β z + Ln t 0 t 0 α j h 0 (udu = β z + Ln (α j + Ln α h 0 (udu = β z + Ln (α + Ln Ln (H j (t Ln (H (t = Ln Ln (H j (t = Ln (H (t + Ln ( αj α ( αj α t 0 t 0 h 0 (udu h 0 (udu S l'hypothèse de proportonnalté est réalsée, alors les dérences entre les Ln [H (t] des strates restent à peu près constantes, le modèle à rsques proportonnels est adéquat pour la varable de stratcaton, sous réserve que le codage adopté pour cette varable corresponde à ces dérences. S les fonctons de rsque cumulé H (t sont superposables, la prse en compte du facteur de stratcaton est nutle. Les technques proposées pour étuder l'adéquaton des modèles de surve ne sont que partellement satsfasantes. Ces problèmes sont encore en cours d'étude. 4 Exemple d'applcaton Le modèle de Cox a été utlsé dans une étude épdémologque d'une cohorte adulte de sujets suvs au Centre de médecne préventve de Vandoeuvre-les-Nancy dont on connaît les habtudes de consommaton de bossons alcoolsées et les prncpaux paramètres bologques et bo métrques. L'objectf de cette étude est de détermner les relatons entre la consommaton de bossons alcoolsées et le rsque de mortalté. L'analyse a été réalsée sur un groupe d'hommes âgés de 40 à 60 ans. Le modèle de Cox est ajusté sur les varables explcatves suvantes: - âge - tabac - TAS - cholestérol - BMI - dplôme - actvté physque - consommaton de bossons sucrées - consommaton d'eau - consommaton de bossons alcoolsées Ces dérentes varables sont codées sous forme de varables ndcatrces. Ans, pour les varables dscrètes comportant p modaltés, p- varables ndcatrces sont créées. En ce qu concerne les varables contnues, elles sont dscrétsées pour créer également des varables ndcatrces. Par exemple, la varable tabac comporte 5 modaltés : non fumeur, ex-fumeur, fumeur < 0 cgarettes / jour, fumeur 0-9 cgarettes / jour, fumeur 20 cgarettes / jour. On chost une modalté de référence : non 69

70 fumeur. La varable est donc codée à l'ade de 4 varables ndcatrces de la façon suvante : fum fum2 fum3 fum4 non fumeur ex-fumeur fumeur < 0 cgarettes / jour fumeur 0-9 cgarettes / jour fumeur 20 cgarettes / jour Ce codage des varables permet ans de pouvor faclement nterpréter les résultats obtenus et notamment le rsque relatf de chaque modalté par rapport à la modalté de référence, mas auss de mettre en évdence d'éventuels eets non lnéares. Voc le tableau des résultats obtenus à l'ade du logcel BMDP : 70

71 Varable Eectf Coecent Rsque relatf Intervalle de conance (95 % P-value Age ans 763 Référence ans [.47,.420] < ans [.360,.676] < ans [.497,.846] < ans [.905, 2.334] < ans [ 2.33, 2.62] < ans [ 2.44, 2.997] < ans [ 3.044, 3.739] < ans [ 3.809, 4.677] < ans [ 4.23, 5.288] < Tabac non fumeur 942 Référence ex-fumeur [.294,.56] < fumeur < 0 cg/j [.65,.462] < fumeur 0-9 cg/j [.994, 2.372] < fumeur 20 cg/j [ 3.064, 3.578] < TAS < Référence [25;35[ [.034,.93] [35;45[ [.59,.34] < [.458,.676] < Cholestérol < Référence [5.2;5.9] [ 0.87,.04] 0.20 [5.9;7.] [ 0.907,.042] [ 0.958,.8] BMI [20;25[ 2839 Référence < [.478,.826] < [25;30[ [ 0.848, 0.943] < [.022,.203] Dplôme bac 574 Référence < bac [.220,.45] < Act.Phys sportf 0 Référence sédentare [.289,.536] < act.peu exgeantes [.082,.240] < Sucre Référence /2 L/J [ 0.930,.056] > /2 L/j [.062,.325] Eau > /2 L/j 2990 Référence /2 L/j [ 0.879, 0.983] [.054,.20] Buveur Abstnent 653 Référence Vn -32 g/j [ 0.79, 0.96] Vn g/j [ 0.797, 0.969] Vn g/j [ 0.995,.25] Vn 99-3 g/j [.006,.585] Vn 32 g/j [.494,.978] < Autres -32 g/j [ 0.867,.224] Autres g/j [ 0.929,.209] Autres g/j [ 0.995,.236] Autres 99-3 g/j [.022,.287] Autres 32 g/j [.37,.779] < La dernère colonne du tableau ndque la p-value pour chaque varable ndcatrce du modèle qu permet de tester s la varable ntrodute est sgncatve pour le modèle (test du rapport de vrasemblance qu teste l'hypothèse H 0 que le coecent est nul. On prend comme seul p=0,05. De plus, le calcul de l'ntervalle de conance à 95 % du rsque relatf permet d'ndquer la précson de l'estmaton et de tester sa sgncatvté. S cet ntervalle de conance ne comprend pas la valeur, on conclut alors que l'assocaton entre le facteur de rsque et le décès est statstquement sgncatve. Les rsques relatfs nterprétables dans ce modèle sont ndqués en gras dans le tableau. S le rsque relatf est supéreur à, le facteur augmente le rsque de décès. 7

72 S le rsque relatf est nféreur à, le facteur est dt protecteur et dmnue le rsque de décès. On vot par exemple qu'une personne ayant une tenson artérelle systolque (TAS supéreure à 45 présente un rsque,56 fos plus élevé de décéder qu'une personne ayant une TAS nféreure à 25. La varable qu nous ntéresse plus partculèrement est la varable buveur. On dstngue ans les non buveurs, les buveurs exclusfs de vn (et apértfs à base de vn et les autres buveurs (tous alcools confondus. Pour les buveurs de vn et les autres buveurs, la consommaton d'alcool est calculée à l'ade des correspondances suvantes : 0.25 ltre de vn correspond à 22 grammes d'alcool ltre de bère correspond à grammes d'alcool. apértf correspond à 5 grammes d'alcool. On peut vor qu'un buveur de vn dont la consommaton d'alcool par jour ne dépasse pas 54 grammes a un rsque plus fable de décès qu'un non buveur (RR=0,879 pour à 32 g d'alcool par jour, RR = 0,8787 pour 33 à 54 g d'alcool par jour. Par contre, lorsque la consommaton d'alcool dépasse 55 grammes par jour, le rsque de décès augmente par rapport aux abstnents (RR >. En ce qu concerne les autres buveurs, les rsques relatfs sont supéreurs à quelle que sot la quantté d'alcool consommée. Ans, bore une quantté modérée de vn aurat un eet protecteur sur le rsque de décès comparé aux abstnents et contrarement aux autres buveurs notamment de bère. Bblographe Catherne Hll, Analyse statstque des données de surve Edton INSERM-Flammaron Médecne-Scences 996 D. R. Cox, Regresson Models and Lfe-Tables Imperal College, London

73 Analyse des Rsques Concurrents Aurélen Latouche Unversté Versalles St-Quentn, Laboratore Santé Vellssement EA 2506 Abstract L analyse de surve concerne la modélsaton des délas de réalsaton d un unque événement. Dans de nombreuses stuatons cependant, les ndvdus sont soums à pluseurs causes d événement exclusves, défnssant un cadre dt de rsques concurrents ou compéttfs. Nous présentons une ntroducton à l analyse des rsques dt concurrents. Les quanttés fondamentales sont ntrodutes pus des modèles de régresson pour ces quanttés fondamentales (rsque cause spécfque et ncdence cumulée. Enfn, les statstques de tests comparants les ncdences cumulées (entre 2 groupe de patents sont ntrodutes. Ce traval consdére des modèles à rsque proportonnel avec notamment le modèle de Cox (972 (pour la foncton de rsque cause spécfque et le modèle de Fne Gray (JASA, 999 qu modélse la foncton de rsque assocé à l ncdence cumulée. Introducton Le terme de rsques concurrents (ou compéttfs se rapporte au domane de l analyse de surve où, en plus d un temps d événement T, on observe auss le type d événement ε {,..., k} (ou la cause. Le formalsme le plus courant pour ntrodure et caractérser les rsques compéttfs est celu des temps latents [Sampford, 952, Tsats, 998]. Ce formalsme est ben adapté aux applcatons ndustrelles en fablté. Cette approche consdère k varables aléatores, T,... T k, chacune correspondant au temps de survenue d un des événements consdérés, dans la stuaton hypothétque où ce type d événement est le seul possble. Le temps T est alors le mnmum des T et la cause d événement ε est lorsque T = T. 73

74 Sous l hypothèse d une dstrbuton jonte de (T =,,k contnue, l exste un unque tel que T = T. Ce qu permet de défnr sans ambguté ε. Ces temps latents ne sont généralement pas observables. Les observatons consstent en des réalsatons de (T, ε et pluseurs dstrbutons jontes des (T =,,k sous dfférentes condtons d ndépendance mutuelle condusent à la même vrasemblance des observatons [Prentce et al., 978]. Par abus de langage, on parle des rsques ndépendants, ce qu correspond à l ndépendance des temps latents [Andersen et al., 2002]. De plus, l est courant dans les études clnques que ces données soent soumses à un processus de censure ndépendant de (T, ε (aléatore ou pas. S l observaton est censurée ε = 0 et C < T. Pour analyser des données dans un cadre de rsques compéttfs, on défnt la probablté brute d événement de type en présence des autres types d événements, dte auss foncton d ncdence cumulée ou foncton de sous-répartton (subdstrbuton de l événement de type, F (t = P(T t, ε =. Consdérons 2 événements concurrents.e. k = 2. La foncton de surve, S(t = P(T > t, s exprme comme S(t = (F (t + F 2 (t (event free survval. Une autre quantté fondamentale est la foncton de rsque cause-spécfque d événement de type, défne par: P(t < T t + h, ε = T t λ (t = lm, h 0 h qu est dentfable à partr des observatons [Prentce et al., 978]. La foncton de rsque cause spécfque s exprme auss λ (t = df (t/dt. ( S(t Pour modélser de manère réalste les événements concurrents on s attachera à modélser des quanttés brutes, afn de s affranchr des hypothèses d ndépendence des temps latents. La probablté nette d événement de type est égale à P(T < t. Elle correspond à la probablté d événement dans la stuaton où le rsque spécfque consdéré serat le seul à agr sur la populaton. Cependant, les probabltés nettes ne sont pas des quanttés dentfables à partr des observatons, pas 74

75 h (t Evt d ntéret 0 h 2 (t 2 Evt concurrent Fgure : Modèle à 2 rsques concurrents, et Transtons h, =, 2. plus que la dstrbuton jonte des (T =,,k, à mons de supposer par exemple que les temps latents T,..., T k sont mutuellement ndépendants, ce qu ne peut être vérfé [Tsats, 975]. Dans le cas où k = 2, la Fgure représente un modèle à rsques concurrents. Les transtons h et h 2 pouvant être des fonctons de rsques cause spécfques. 2 Regresson Le modèle à rsques proportonnels de Cox [972] rele la foncton de rsque à une covarable Z par la relaton: λ (t; Z = λ 0 (texp(bz, (2 où λ 0 est une foncton contnue non spécfée, représentant un rsque de base (pour les ndvdus ayant la covarable Z = 0. Z pouvant être une covarable bnare, ndquant un groupe de tratement ou une varable dépendant du temps représentant la mesure d un taux bologque. La relaton entre la foncton de rsque cause-spécfque et la foncton d ncdence cumulée du même type d événement est F (t = t 0 S(uλ (udu, où S(t = P(T > t est la foncton de surve margnale de la varable aléatore T. Cette relaton est une conséquence de (. 75

76 Or ds(t = d( k = F (t = k = df (t = k = S(tλ (tdt d où S(t = exp { k = t 0 λ (udu La foncton de surve dépend donc de toutes les fonctons de rsque cause-spécfques agssant sur la populaton. Ou de manère smlare, la foncton de rsque cause spécfque de l événement d ntérêt dépend de toutes les fonctons d ncdences cumulées. En partculer, l effet d une covarable sur la foncton de rsque cause-spécfque peut être très dfférent de celu sur la foncton d ncdence cumulée correspondant à l événement de même type [Gray, 988]. Illustrons cette dfférence de l effet d une covarable sur la foncton de rsque nstantané causespécfque et la foncton d ncdence cumulée en présence de 2 types d événements et 2 groupes de patents. On consdère des rsques cause-spécfques constants tels que λ = 3 et λ 2 = 2 pour l événement de type (groupes et 2 alors que λ 2 = 3 et λ 22 = pour l événement 2 (groupes et 2. Les ncdences cumulées sont donc F (t = ( exp( 6t/2 dans le groupe et F 2 (t = 2( exp( 3t/3. Pour t log(3/3, F (t < F 2 (t alors que λ > λ 2. C est ce qu a motvé le développement de modèles de régresson drectement pour la foncton d ncdence cumulée [Fne and Gray, 999, Fne, 200]. Fne and Gray [999] ont proposé un modèle à rsques proportonnels de formulaton smlare au modèle de Cox, pour la foncton de rsque assocée à la foncton d ncdence cumulée proposée par Gray [988]. Introdusons cette foncton de rsque (subdstrbuton hazard : }. α (t = d dt log{ F (t} = df (t F (t. Le modèle à rsques proportonnels s écrt alors α (t; Z = α 0 (texp(βz, (3 avec α 0, une foncton contnue non spécfée. Cette foncton correspond à la foncton de rsque nstantané de la pseudo-varable aléatore T = [ε=] T + [ε ]. 76

77 3 Estmaton Nous présentons la vrasemblance partelle pour un modèle de Fne Gray, ans que le comportement asymptotque de l estmateur du paramètre de régresson en absence de censure, pus en présence d une censure à drote. On consdère n ndvdus, soums à K causes exclusves. Sot Y (t = I(T t, la varable qu ndque s l ndvdu est à rsque avant l nstant t et Y (t = n = Y (t. On ntrodut le processus qu compte la survenue d événement de type, N (t = I(T t, ε = et N(t = n = N (t. Absence de censure En l absence de censure, la vrasemblance partelle pour l échantllon de talle n porte sur le trplet (T, ε, Z =,...,n. L ensemble des ndvdus à rsque (rsk-set s exprme comme R = {j : (T j > T (T j T ε j }. La vrasemblance partelle pour la foncton d ncdence cumulée de l événement de type est [ ] I(ε= n exp(βz j L(β =. j R exp(βz j = Le score s exprme alors U(β = [ ] n j R I(ε = Z Z j exp(βz j, j R exp(βz j = ou, en utlsant les processus de comptage, U(β = n = 0 [ Z (s n j= Y j(sz j exp βz j n j= Y j(sexp βz j ]dn (s. (4 L estmateur de β vérfe U(ˆβ = 0. Sot β 0 la valeur théorque de β. L utlsaton classque des processus de comptage et du théorème de lmte centrale pour les martngales (Rebodello, 978 permet d établr le comportement asymptotque de ˆβ : n(ˆβ β 0 est gaussen centré, de matrce de varancecovarance Ω où Ω est estmée par ˆΩ = n n = [ ] S (2 (ˆβ, T S (0 (ˆβ, T Z(ˆβ, T 2 77

78 où pour un vecteur v, v 0 =, v = et v 2 = vv, S (p (β, u = n n = Y (tz p exp(βz (p = 0,, 2 et Z(β, u = S( (β,u S (0 (β,u. On constate que, horms la formulaton des ndvdus à rsque, les méthodes d estmaton se dédusent de celles employées pour le modèle de Cox. Censure à drote Dans le cas où les données sont soumses à une censure à drote, la méthode de pondératon de la probablté nverse de censure est utlsée (nverse probablty of censorng weghtng technque, Robns et Rotntzky, 992. Cette méthode permet d obtenr un estmateur du score (4 en présence de censure à drote. Sot G(t = P(C t la probablté de ne pas être censuré à l nstant t. Le statut vtal d un ndvdu à l nstant t est r (t = I (C > T t. S r (t =, Y (t et N (t sont observables et estmables à partr des données jusqu à l nstant t. On défnt la pondératon suvante : Ĝ(t, s N Ĝ(t T (t est observable w (t = 0, snon où Ĝ est l estmateur de Kaplan Meer de G, qu est convergent quand la censure est ndépendante. Le score pondéré s écrt Ũ(β = n = 0 [ Z (s n j= w j(ty j (sz j expβz j n j= w j(ty j (sexp βz j ] w (tdn (s. Un estmateur consstant de β est obtenu en resolvant Ũ(β = 0. Un développement en sére de Taylor au vosnage de la soluton théorque, β 0 nous fournt l approxmaton au premer ordre n(ˆβ β0 I {Ũ(β 0/ n}. Un estmateur consstant de I en présence de censure à drote est donné par Î = n n = [ ] S (2 2 (ˆβ, T S (0 2 (ˆβ, T E(ˆβ, T 2 78

79 où et S (p 2 (β, u = n E(β, T = S( 2 (β, u S (0 2 (β, u n = w (ty (tz p exp(βz, p = 0,, 2. On montre ensute que Ũ(β 0/ n converge vers une lo gaussenne centrée, de matrce de varance covarance Σ. La forme de ˆΣ est donnée dans [Fne and Gray, 999, page 500]. 4 Test d égalté des ncdences cumulées et Proportonalté des rsques Nous abordons dans cette parte, les tests concernant l egalté d ncdences cumulées. Le premer test a été proposé par Gray [988], c est un analogue du test du log rank (pondéré. Ce test est utlsé pour comparer 2 (ou plus ncdences cumulées (foncton de sous réparton (k-sample test. Il est optmal pour des fonctons de rsques de sous répartton proportonnels [Latouche and Porcher, 2007]. est : Sot F jk (t l ncdence cumulée pour la cause j dans le groupe k à l nstant t. L hypothèse testée H 0 : F (t = = F K (t = F 0 (t, t τ versus H A : au mons une F k (t est dfferente pour t τ. où F 0 ( est une ncdence cumulée non spécfée et τ est le temps maxmal de suv. Cette statstque de test est basée sur la v.a X k, =,...,n k, k =,...,K. Cette v.a. est défne par : Xk = T k, f δ k =,, f δ k >. la survenue d un événement concurrent se produsant à l. 79

80 Alors P(X k t = P(T k t, δ k = = F k (t le rsque assocé à X k est γ k(t qu s exprme γ k (t = df k(t/dt F k (t. (5 Cette statstque de test compare les dfférences (pondérées entre l estmaton de γ k (t et l estmaton poolée γ (t (réunssant les k bras de tratement. Sot ˆF k (t l ncdence cumulée pour l echantllon k et l événement. Alors un estmateur du rsque cumulé pour la cause d ntéret dans l echantllon k, Γ k (t = t 0 γ k(udu, est fournt par ˆΓ k (t = t 0 d ˆF k (u ˆF k (u. (6 Les tests sont fondés (K echantllons sur un score de la forme suvante Z k = τ 0 W k (t{dˆγ k dˆγ 0 }(t, (7 où les W k ( sont des pods et ˆΓ 0 (t est l estmateur (6 obtenu sur l ensemble de l échantllon. En pratque le pods W k (t sont de la forme L(tR k (t où L(t et R k (t est le nombre de patents à rsqkues dans le groupe k à l nstant t. Quand L(t =, on obtent la pondératon utlsée par le test du log rank. Nous présentons mantenant deux statstques de tests récentes de type Reny pour comparer 2 ncdences cumulées. La premère proposée par Jao [997] s exprme comme : z (t = n n 2 n t 0 W (u{df df 2 }(u, t τ. où W est défne par W (u = C (uc 2 (u p C (u + p 2 C 2 (u avec p k, k =, 2 postves vérfant p + p 2 = et C k (t = P(U k t la dstrbuton de la censure et U k le temps de censure Après estmaton, la statstque de test est défne par: où Z (t = n n 2 n t 0 Ŵ (u{d ˆF d ˆF 2 }(u, Ŵ (u = Ĉ (uĉ2(u ˆp Ĉ (u + ˆp 2 Ĉ 2 (u 80

81 avec ˆp k = n k /n, k =, 2 et Ĉk(t est l estmateur de Kaplan Meer de C k (t. Un estmateur de la varance de Z (t, σ 2 (t est donné par σ 2 (t = ˆp 2ˆσ 2 (t + ˆp 2ˆσ 2 (t, où σ 2 k (t = t + 0 t 0 {Ŵ(uŜk(u t u Ŵ(ud ˆF k (u} 2 dn k(u Y k (u/n k Y k (u { t u Ŵ(ud ˆF k (u} 2 dn 2k(u Y k (u/n k Y k (u La statstque de test, pour une hypothèse alternatve b-latérale, est donnée par : Q = sup{ Z (t, t τ}/ˆσ (τ. Sous l hypothèse nulle, Z (t/σ (τ vers converge vers un processus gaussen centré B(σ(t/σ(τ, où B( est le mouvement brownen. D où Z sup (t 0 t τ ˆσ (τ d sup B(t. 0 t Sous l hypothèse nulle, lo de Q est approxmatvement celle de sup( B(x, 0 x. Un autre test a été proposé par Bajorunate et Klen (2004 sa partcularté étant d etre plus sensble aux hypothèses alternatves de non-proportonnalté des rsques. Notamment quand 2 fonctons de rsques de sous répartton se crosent. Pour construre ce test, une modfcaton du test de Gray a été proposée. Dans le cas de deux événements concurrents (k = 2 et 2 groupes, le test de Gray s exprme comme : Z (τ = τ 0 W (t{dˆγ dˆγ 0 }(t, ˆΓ (t et ˆΓ 0 sont les estmatons des rsques de sous répartton cumulés pour l événement de type, obtenues dans le groupe et en réunssant les 2 groupes (pooled. Sot ˆσ 2 (τ l estmaton de la varance de Z (τ. La statstque de test de Bajorunate Klen [Bajorunate, 2004] est Q = sup{ Z (t, t τ}/ˆσ(τ, 8

82 avec Z (t = t 0 W (u{dˆγ dˆγ 0 }(u. Sous les hypothèses du Théorème de Gray, Z (t/σ(τ converge vers B(σ(t/σ(τ. Une étude du comportement des tests de Bajorunate Klen et Gray a été réalsée dans les stuatons suvante : sous l hypothèses nulle, sous l alternatve avec des rsque proportonnels et sous l alternatve avec des rsques non proprotonnels [Latouche and Porcher, 2007]. 5 Concluson Nous avons presenté les modèles à rsques proportonnel pour 2 types de fonctons de rsques dans une approche à temps latents. Il est mportant de remarquer que cette approche est de mons en mons utlsée afn d évter les problèmes classque d dentfablté. Une autre type de représentaton des événements concurrents est la suvante [Andersen et al., 993, 2002] : on observe le couple ( T, ε, avec T qu est le mnmum entre le temps d événement T et le temps de censure C, T = mn(t, C, et ε ndque le type d événement. S l observaton est censurée ε = 0 et C < T. S T C, alors ε correspond à au type d événement avec ε = étant l événement d nteret et ε = 2 l autre événement concurrent. Sot (X t t 0, le processus ndquant l état où se stue un ndvdu à l nstant t, X t {0,, 2}. L observaton du processus (X t t 0 est soumse à de la censure C. Un ndvdu demeure dans l état 0 (.e. X t = 0 tant qu aucun événement ne s est produt. Ce processus part de l état ntal 0 au temps T, T = nf{t > 0 X t 0} et le type d événement est l état dans lequel le processus entre à l nstant T, X T {, 2}. Le type d événement s exprme ε = (T C X T. La foncton de rsque cause spécfque s exprme alors : λ (t = lm tց0 P(T [t, t + t, X T = T t, =, 2. t Les modèles à rsques proportonnels sont omnprésents en analyse de surve cependant, l s avère que des modèles spécfant d autres formes fonctonnels entre fonctons de rsques et varables explcatves permettent des analyses complémentares et sont clnquement plus réalstes [Klen, 2006]. 82

83 Une alternatve aux modèles à rsques proportonnels a été proposée par Aalen [989]. L ntéret de ce modèle est de pouvor modélser des effets dependants du temps. La foncton de rsque s exprme de manère addtve, h(t, Z = β 0 (t + β(tz. L ntéret se porte sur les coeffcents cumulés t 0 β udu. Pour une présentaton exhaustve de ce modèle, on se reportera à l ouvrage Martnussen and Scheke [2006]. Une revue exhaustve des processus de comptage et de l analyse de surve se trouve dans les références [Flemng and Harrngton, 99, Andersen et al., 993]. Les modèles de regresson de Cox et Fne Gray sont mplémentés dans le logcel R, dans les paquetages survval et cmprsk. Le test de Gray est auss présent dans le paquetage cmprsk. Enfn, un excellent tutorel est dsponble dans l artcle suvant [Putter et al., 2007]. References O O Aalen. A lnear regresson model for the analyss of lfe tmes. Statstcs n Medcne, 8(8: , 989. P. K. Andersen, 0. Borgan, R. D. Gll, and N. Kedng. Statstcal Models Based on Countng Processes. Sprnger-Verlag, New York, 993. P. K. Andersen, S. Z. Abldstrøm, and S. Rosthøj. Competng rsks as a mult-state model. Statstcal Methods n Medcal Research, (2:203 25, R. Bajorunate. Comparson of Falure Probabltes n the Presence of Competng Rsks. PhD thess, Medcal College of Wsconsn, D. R. Cox. Regresson models and lfe tables. Journal of the Royal Statstcal Socety, Seres B, 34: , 972. J. P. Fne. Regresson modellng of competng crude falure probabltes. Bostatstcs, 2:85 97, 200. J. P. Fne and R. J. Gray. A proportonal hazards model for subdstrbuton of a competng rsk. Journal of the Amercan Statstcal Assocaton, 94(446: ,

84 T. R. Flemng and D. Harrngton. Countng processes and survval analyss. Wley Seres n Probablty and Mathematcal Statstcs. John Wley & Sons, New York, 99. R. J. Gray. A class of k-sample tests for comparng the cumulatve ncdence of a competng rsk. The Annals of Statstcs, 6:4 54, 988. J Jao. Hypotheses testng n competng rsks theory. PhD thess, Unversty of Illnos at Chcago, 997. John P Klen. Modellng competng rsks n cancer studes. Statstcs n Medcne, 25(6:05 034, A. Latouche and R. Porcher. Sample sze calculatons n the presence of competng rsks. Stat Med, Oct T. Martnussen and T. H Scheke. Dynamc Regresson Models for Survval Data. Spnger, R. L. Prentce, J. D. Kalbflesch, A. V. Peterson, N. Flournoy, V. T. Farewell, and N. E. Breslow. The analyss of falure tmes n the presence of competng rsks. Bometrcs, 34:54 554, 978. H Putter, M Focco, and R B Geskus. Tutoral n bostatstcs: competng rsks and mult-state models. Statstcs n Medcne, 26(: , M. R. Sampford. The estmaton of response tme dstrbutons. II. Multstmulus dstrbutons. Bometrcs, 8: , 952. A. A. Tsats. A nondentfablty aspect of the problem of competng rsks. Proceedng of the Natonal Academy of Scences, 72(:20 22, 975. A. A. Tsats. Competng rsks. In P Armtage and T Colton, edtors, Encyclopeda of Bostatstcs, pages John Wley & Sons, New York,

85 THEORIE DES MODELES ZERO-INFLATED Isabelle Baly Introducton Les modèles de régresson de Posson fournssent une trame standard pour l analyse des données de comptage. En pratque, toutefos, ces données de comptage sont souvent surdspersées par rapport à la dstrbuton de Posson. Une manfestaton fréquente de la sur dsperson est que l ncdence de zéros est plus grande qu attendue pour la dstrbuton de Posson. Ce qu l faut comprendre c c est qu l exste pluseurs statuts de zéros en comptage. Par exemple, s l on compte le nombre de lésons dues à une malade sur des plantes, une plante peut n avor aucune léson parce qu elle est résstante à cette malade : zéros de structure, ou smplement parce qu aucune spore de cette malade ne s y est déposée : zéros d échantllon. C est la dstncton entre les zéros de structure, qu sont névtables, et les zéros d échantllon qu arrvent au hasard [9]. On s ntéresse depus peu de plus en plus à des modèles pour des données de comptage qu autorsent un excès de zéros. Lambert [6] dans son artcle sur les défauts dans l ndustre, propose une technque appelée Zero-Inflated Posson (ZIP régresson. Elle part du prncpe selon lequel la probablté d un état parfat (c est-à-dre état zéro-défaut et la moyenne de l état mparfat (état non-zéro-défaut dépendent des covarables. Un certan nombre d autres études concluent que la ZIP régresson est tout à fat adaptée à la modélsaton de données de comptage avec beaucoup de zéros, spécalement par sa smplcté d nterprétaton une fos le modèle ben comprs [], [7], [2].. Zero-Inflated Posson régresson. Le modèle Reprenons l exemple des lésons dues à une malade sur des plantes. On suppose que l on est dans l état parfat avec une probablté p et dans l état Posson avec une probablté p où p est un paramètre nconnu à estmer [3], [4]. Notons Y le nombre de lésons de la plante ( Y = 0,, 2,... ; X est un vecteur de covarables pour la plante. Pour prendre en compte les deux statuts de zéros vus précédemment (zéros de structure et zéros d échantllon on pose que la probablté de zéros est une combnason des probabltés de chaque statut pondérée avec la probablté de chaque état, on a alors : Pr [ Y = 0 X ] = p + ( p R (0 où R (0 est la probablté de Posson prse en 0. La probablté des comptages postfs est donnée par : Pr [ Y > 0 X ] = ( p R ( Y 85

86 où R ( Y est la probablté de Posson pour Y > 0. On peut donc écrre : Pr Comme logstque : [ Y X ] p + ( p = ( p e λ e λ k λ k! s Y s Y = 0 = k où k p est la probablté d être dans l état parfat, Dane Lambert utlse le modèle > 0 p ' logt( ln p = = Aθ p pour =,, n où A est le vecteur ( k des valeurs des k covarables pour l ndvdu et θ est le vecteur ( k des paramètres. On suppose que la moyenne λ dans l état Posson vérfe une relaton log-lnéare avec les covarables telle que : ' ln( λ = B β pour =,, n où B est le vecteur ( k des valeurs des k covarables pour l ndvdu et β est le vecteur ( k des paramètres. Les covarables qu affectent la moyenne de l état Posson peuvent être ou non les mêmes que les covarables qu affectent la probablté de l état parfat. Le modèle s écrt donc :. p ' logt( p = ln = A θ p ' ln( λ = B β pour =,, n. On peut donc exprmer p et λ : p ln ' = A θ p ' exp( A θ p = ( ' + exp( A θ ' ln( λ = B β ' λ = exp( B β (2 86

87 87 ( ( = = + + = 0 0 ' ' ' ln exp( ln y y A B A e e e θ β θ ( ( > > > + = '! ln( ln ' ' y y y A B y e e B y θ β β.2 Estmaton des paramètres par la méthode du maxmum de vrasemblance Il faut mantenant d après le modèle, estmer les paramètres. Pour ce fare on utlse la méthode du maxmum de vrasemblance. Il faut donc commencer par écrre la log-vrasemblance notée c L. On a :. On remplace p et λ par leurs expressons ( et (2 : On commence par trater le premer terme : = = + + = ' ' ' ' ' ' ' exp( ln exp( ln y y A B A B A A A e e e e e e e θ β θ β θ θ θ Pus on trate le second terme : ( > > > > + = ! ln( ln exp( ln! exp( ln ' ' ' ' ' ' y y y A B y B y B y B A y e e e y e e e θ β β β β θ. On obtent donc en ajoutant les deux termes : ( ( [ ] ( ( ( > = > = = 0 0 ' 0! ln ln exp ln, ;,..., ( ' ' ' ' y n y A B y B A n y e e B y e e y y L θ β β θ β β θ La maxmsaton paraît dffcle notamment à cause du premer terme qu content. On ntrodut alors une nouvelle varable de la manère suvante :. ( [ ] = > + + = 0 0! ( ln ( ln, ;,..., ( y y y n y e p e p p y y L λ β θ λ λ ( ( ( = > = 0 0! exp ln exp ln, ;,..., ( ' ' ' ' ' ' ' ' ' y y B y B A A B A A A A n y e e e e e e e e e y y L β β θ θ β θ θ θ θ β θ θ et β = snon (proba 0 on est dans l'état parfat (proba s p p Z

88 L On a alors : Pr( Y = 0, Z = / X = p Pr( Y = 0, Z = 0 / X = ( p e Pr( Y = k, Z = 0 / X = ( p e Donc la log-vrasemblance s écrt : λ (( y, z,...,( yn, zn ; θ, β = ln p + ln [( p e ] = λ λ λ k k! + y = 0, z = y = 0, z = 0 y > 0, z = 0 ln ( p e ln p + [ ln( p λ ] + [ ln( p λ + y ln λ ln( y! ] y = 0, z = y = 0, z = 0 y > 0, z = 0 λ y λ y! = z ln p + ( z [ ln( p λ ] + ( z [ ln( p λ + y ln λ ln( y! ] y = 0 y = 0 y > n : ( z y ln λ = ( z y ln λ car s y = 0 alors la somme est nulle y > 0 = 2 : ( z ln( y! = ( z ln( y! car s y = 0 alors ln( y! = 0 y > 0 = n n 3 : ( z λ ( z λ = ( z λ y = 0 y > 0 = n 4 : ( z ln( p + ( z ln( p = ( z ln( p y = 0 y > 0 = n n n : z ln p + ( z ln( p = z ln p + ( z ln( p = 0 = = = y car pour y > 0 on a z = 0 n n n n p [ ] = ln( p + z ln p ln( p = ln( p + z ln = = = = p On a donc : n p n n n L( ( y =, z,..., ( yn, zn ; θ, β z ln + ln( p + ( z [ y ln λ λ ] ( z ln( y! = p = = = 88

89 On remplace p et λ par leurs expressons ( et (2 : L ' n n A θ n ( = + e ' ' ' B β ( y, z,...,( yn, zn ; θ, β z Aθ ln + ( z [ y B β e ] ( n ( z ln( y! A θ = = + e = = = n n ' ' ' Aθ ' B β [ z Aθ ln( + e ] + ( z [ y B β e ] = = = n ( z ln( y!. L ( y, z,...,( y n, z ;θ L ( y, z,...,( y n, z ; β ( n Cette log-vrasemblance est plus facle à maxmser pusque L ne dépend que de θ et L 2 ne dépend que de β. Il faut utlser c l algorthme EM [2] dans le cas de données ncomplètes car on ne connaît pas les z. Cet algorthme z est consttué de deux pas : le pas E correspond à l étape d estmaton et le pas M correspond à l étape de maxmsaton. Avec cet algorthme la log-vrasemblance ncomplète est maxmsée de manère tératve en alternant entre l estmaton de Z par son espérance sous les estmatons courantes de ( θ, β, pas E, et la maxmsaton de L c ( θ, β; y, z, pas M. Lorsque les estmatons des paramètres ( θ, β convergent on arrête les tératons. Les estmatons de l tératon fnale sont les maxmums ( ˆ, θ ˆ β pour la log-vrasemblance. Voc plus en détal l tératon (k+ de cet algorthme qu comporte tros pas: on dspose à ce stade d une estmaton (k de et (k θ θ β de β Pas E : (k Il consste à estmer z par son espérance sous les estmatons courantes θ et notons que s y > 0 alors z = 0 et dans ce cas l n y a pas d estmaton à fare. On a alors : ( k z [ Z / Y = 0] = Pr( Z = / Y = 0 = Ε Pr = ( Z =, Y = 0 Pr( Y = 0 Or Pr Y = 0, Z = = p et λ Pr( Y = 0, Z = 0 = ( p e ; donc, ( Pr 2 ( n λ ( Y = 0 = p + ( p e.. (k β ; 89

90 90 ( 0 s exp ( ' ( ' = + = B A y e e k k β θ On a alors : s On remplace mantenant et par leurs expressons ( et (2 : Donc on a : ( = + = snon 0 0 s exp ( ' ( ' ( B k k y e A z k β θ. Pas M pour: θ Il consste à trouver ( + k θ en maxmsant On dot donc résoudre :. Pas M pour β : Il consste à trouver ( + k β en maxmsant On dot donc résoudre :. e p p p z k λ + = ( ( = 0 y p λ ( ( ( ' ( ' ( ' ( ' ( ' ( ' ( ' ( ' ( ' exp exp ( k k k k k k k k k B A A B A A A A A k e e e e e e e e e z β θ θ β θ θ θ θ θ + = = ( ( [ ] = + = n A k k n n k e A z z y z y L ' ( ( ( ' ln ;,,...,(, ( θ θ θ 0 ( ' ' = + = = n A A k A e e z L θ θ θ ( ( [ ] = = n B k k n n k e B y z z y z y L ' ( ( ( 2 ' ;,,...,(, ( β β β ( [ ] 0 ' ( 2 = = = B n k B e y z L β β

91 2. Zero-Inflated Negatve Bnomal régresson Il se peut que les données de comptage soent surdspersées à tel pont qu elles suvent une lo bnomale négatve et non plus de Posson. Dans le cas où on a également une sur-représentaton de zéros, cec nous amène à consdérer la Zero-Inflated Negatve Bnomal régresson (ZINB [3], [4], [8]. Commençons par rappeler la défnton d une lo bnomale négatve. On dt que Y ~ BnNeg( µ, k où µ dépend de l ndvdu et k est le paramètre de la surdsperson s : Pr( Y Γ = y = Γ( y ( y + k + Γ( k γ k y ( γ où y = 0,,2,... avecγ =. k k + µ On procède exactement de la même manère que pour le modèle ZIP en dstnguant les deux statuts de zéros. Avec toujours une probablté p d être dans l état parfat et p dans l état Posson. On a alors : Pr p ( Y X = Γ( y + k ( p Γ( y + Γ( k + ( p γ k γ k ( - γ y s Y s Y = 0 = y où y > 0. On consdère alors de la même manère le modèle : ' logt( p = A θ ' ln( µ = B β pour =,, n. Et donc on a les expressons de p et µ suvantes : p ' Aθ e = ' et A θ + e µ ' B β = e. Ensute l faut écrre la log-vrasemblance pour estmer les paramètres. On a : L Γ( y + ln ( k k ( = > Γ( + Γ( y p γ γ y y 0 y 0 k k (( y,..., yn ; θ, β, k = ln[ p + ( p γ ] + On remplace p et µ par leurs expressons : 9

92 92 ( ( = = = + + = ' ' ' ' ' ln ln ln y y A k A y A k A A e e e e e θ θ θ θ θ γ γ ( ( ( [ ] ( > > > > Γ + Γ + Γ = Γ + Γ + Γ ln ln ln ( ln ( ( ( ( ln ' ' y y A y y y k A e y k k y k y k y k y e θ θ γ γ γ γ ( = > Γ + Γ + Γ = 0 0 ( ( ( ( ln ln,, ;,..., ( ' ' ' ' y y y k A A k A A n k y k y e e e e k y y L γ γ γ β θ θ θ θ θ avec β γ ' B e k k + =. On commence par étuder le premer terme :. Pus on trate le second terme : On obtent donc : Pour estmer les paramètres on procède exactement de la même manère que pour le ZIP. On ntrodut pus on construt la log-vrasemblance des données ncomplètes que l on maxmse par l algorthme EM. 3. Zero-Inflated Mxed modèles Un modèle mxte est composé d effets fxes et d effets aléatores. L dée de base d un modèle avec effets aléatores est de consdérer que chaque unté d étude a sa probablté de réponse qu lu est propre [4]. Nous allons donc présenter c le modèle ZIP avec effets aléatores tout en sachant qu l exste de la même manère le modèle ZINB avec effets aléatores [5], [0], [], [3]. On a toujours la probablté d un ZIP suvante : ( > = = + = 0! ( 0 ( Pr où k k Y s k e p Y s e p p X Y k λ λ λ. Mas le modèle change pour prendre en compte les effets aléatores. On a mantenant : ( ( [ ] ( = > = > + Γ + Γ + Γ = ' ' ln ( ( ( ln ln( ln ln,, ;,..., ( y y n A y k A n e k y k y y k e k y y L θ θ γ γ γ β θ Z

93 ' logt( p = Aθ + u ' ln( λ = B β + v. Notons u = u,..., u ' et v = v,..., v '. On suppose que u et v sont ndépendants et ont pour ( n ( n 2 lo respectve Normale(0, σ I u n et Normale( 0, σ 2 I v n où I n est la matrce dentté ( n n. On a donc : p ' Aθ + u e = ' A θ + u + e et λ ' B β + v = e. Pus selon la méthode du maxmum de vrasemblance l faut écrre la log-vrasemblance pus maxmser la log-vrasemblance des données ncomplètes à l ade de l algorthme EM. Bblographe [] Chn H.C., Quddus M.A. (2003 Modelng Count Data Wth Excess Zeroes. An Emprcal Applcaton to Traffc Accdents. Socologcal Methods & Research, Vol. 32, pp [2] Dempster A.P., Lard N.M., Rubn D.B. (977 Maxmum Lkelhood Estmaton from Incomplete Data va the EM Algorthm (wth dscusson. Journal of the Royal Statstcal Socety, Ser. B, Vol. 39, pp [3] Flynn M. (2005 Fttng Extended Count Data Models to Insurance Clams. CAS Ratemakng Semnar. [4] Gasqu P. (2004 Modélsaton des rsques lés à des événements rares : éléments d analyse de la sur-dsperson. INRA Clermont-Ferrand-Thex. Présentaton Power Pont. [5] Hall D.B. (2000 Zero-Inflated Posson and Bnomal Regresson wth Random Effects : A Case Study. Bometrcs, Vol. 56, pp [6] Lambert D. (992 Zero-Inflated Posson Regresson, Wth an Applcaton to Defects n Manufacturng. Technometrcs, Vol. 34, pp. -4. [7] Martn T.G., Wntle B.A., Rhodes J.R., Kuhnert P.M., Feld S.A., Low-Choy S.J., Tyre A.J., Possngham H.P. (2005 Zero tolerance ecology : mprovng ecologcal nference by modellng the source of zero observatons. Ecology Letters, Vol. 8, pp

94 [8] Mwall S.M., Lesaffre E., Declerck D. (2004 The Zero-Inflated Negatve Bnomal Regresson Model Wth Correcton for Msclassfcaton : An Example n Cares Research. Interunversty Attracton Pole Statstcs Network, [9] Rdout M., Demétro C.G.B., Hnde J. (998 Models for count data wth many zeros. Internatonal Bometrc Conference, Cape Town, [0] Yau K.K.W., Lee A.H. (200 Zero-nflated Posson regresson wth random effects to evaluate an occupatonal njury preventon programme. Statstcs n Medcne, Vol. 20, pp [] Yau K.K.W., Wang K., Lee A.H. (2003 Zero-Inflated Negatve Bnomal Mxed Regresson Modelng of Over-Dsperses Count Data wth Extra Zeros. Bometrcal Journal, Vol. 45, pp [2] Yp K.C.H., Yau K.K.W. (2005 On modelng clam frequency data n general nsurance wth extra zeros. Mathematcs and Economcs, Vol. 36, pp [3] Wang K., Yau K.K.W., Lee A.H. (2002 A zero-nflated Posson mxed model to analyze dagnoss related groups wth majorty of same-day hosptal stays. Computer Methods and Programs n Bomedcne, Vol. 68, pp [4] Wkpeda, the Free Encyclopeda (

95 Méthodes et modèles statstques pour l analyse de la crossance et de la structure des plantes Yann Guédon CIRAD, UMR Développement et Améloraton de Plantes (DAP & Équpe projet INRIA Vrtual Plants TA A-96/02, Montpeller Cedex 5 E-mal : guedon@crad.fr Introducton Au début des années 90, la crossance et la structure de la plante n avaent quasment pas fat l objet de développements de méthodes d analyse spécfques à l excepton du domane très partculer de la dendrochronologe qu consste en l étude des largeurs ou surface de cernes successfs du bos en relaton avec les condtons clmatques. De ce pont de vue, ce sujet état très en retard par rapport à d autres champs de la bologe (bologe moléculare avec les méthodes d analyse de séquences d ADN et de séquences protéques, écologe avec par exemple les modèles de capture-recapture ou encore le domane bomédcal avec l applcaton des méthodes d analyse de surve ou d analyse de données longtudnales. À l échelle macroscopque, une plante peut être vue comme un ensemble structuré d enttés élémentares. Ces enttés, appelées métamères ou phytomères, sont consttuées d un nœud, d une ou pluseurs feulles nsérées à ce nœud, et de l entre-nœud sous-jacent. À partr de ces enttés élémentares, de nouvelles enttés plus macroscopques peuvent être défnes comme l unté de crossance (successon de métamères ms en place pendant une pérode de crossance donnée, la pousse annuelle (successon de métamères ms en place pendant une année ou l axe (successon de métamères construts par un même mérstème ; cf. Barthélémy & Caraglo (2007 pour une ntroducton à l archtecture des plantes. La topologe d une plante peut alors être vue comme une sére d arborescences, chaque arborescence correspondant à une échelle de descrpton donnée, les arborescences à deux échelles successves étant relées par des relatons de décomposton. Cette structuraton de la plante a été formalsée par Godn et Caraglo (998. Le développement de la plante est le résultat de deux mécansmes fondamentaux, à savor la dfférencaton et l allongement de nouveaux organes d une part, et la ramfcaton d autre part. La plante se construt à partr d enttés élémentares sot se succédant le long d axes, sot dérvant les unes des autres par ramfcaton, ce qu ndut deux types de relatons entre les enttés d une arborescence à une échelle donnée de descrpton. L acton de ces deux mécansmes affecte un grand nombre d enttés de la plante smultanément, ce qu ndut une compétton entre les organes nouvellement créés (par exemple pour les ressources en eau et en nutrments. Enfn le développement de la plante est globalement affecté par les contrantes du mleu physque (condtons clmatques mas auss gêne physque et ombrage des enttés. 95

96 Les proprétés de l objet archtecture des plantes (structure arborescente en développement de nature dscrète aux échelles macroscopques, pluseurs échelles de descrpton correspondant à des enttés bologques de dfférentes natures ont ndut certanes spécfctés dans les développements des méthodes d analyse : données structurées en séquences ou arborescences (temporelles ou topologques ; Beaucoup des modèles statstques utlsés sont donc des processus stochastques ; cf Guttorp (995 et Lndsey (2004 pour l utlsaton de processus stochastques dans une démarche statstque. mportance des structuratons en motfs et zones homogènes/ruptures à dfférentes échelles de descrpton de la plante, données censurées lées à l observaton à une date donnée de plantes en crossance et aux lmtes de l observaton rétrospectve dues à l effacement des marqueurs morphologques par élagage ou crossance en épasseur des axes. On retrouve là un parallèle avec l analyse de données génomques (ncluant entre autres les séquences d ADN, les séquences protéques, les structures secondares d ARNs et de proténes où les spécfctés structurelles de ces données condtonnent très fortement les méthodes d analyse proposées. Le parallèle va au-delà de cette smple constataton dans la mesure où, dans les deux champs d applcatons, les technques d algnement de séquences basées sur les opératons d édton (Gusfeld, 997 et les modèles markovens cachés (Ephram & Merhav, 2002 ; Cappé et al., 2005 pour l dentfcaton de zones homogènes ou de ruptures tennent une très grande place. On dstngue usuellement les deux échelles de descrpton macroscopque de la plante suvantes : Échelle de l unté de crossance, de la pousse annuelle, de l axe. On se focalse c sur les mécansmes fondamentaux de développement de la plante, à savor la dfférencaton et l allongement de nouveaux organes d une part, et la ramfcaton d autre part. L expresson de ces processus fondamentaux est étudée à une échelle comprse entre quelques jours dans le cas de suvs de crossance, et une ou deux années s on s ntéresse aux structures de ramfcaton (du fat du décalage fréquent entre la mse en place de l entté porteuse et des enttés portées. Les données sont le plus souvent structurées en séquences dont le paramètre d ndex est sot de nature temporelle (cas des suvs de crossance pour l étude de l allongement, sot de nature topologque (rang du nœud pour l étude des structures de ramfcaton. Échelle du système ramfé, de la plante entère. On se focalse c sur les mécansmes de développement de la structure de la plante entère en s appuyant sur des notons comme l âge physologque des mérstèmes (Gatsuk et al., 980 ; Barthélémy et al., 997. Les données sont c structurées en séquences ou en arborescences, les enttés élémentares n étant plus des métamères mas des enttés plus macroscopques comme l unté de crossance ou la pousse annuelle. L échelle temporelle correspondante se compte généralement en années. L objectf prncpal des méthodes d analyse mses en œuvre est d nférer des connassances 96

97 bologques, par exemple en proposant des explcatons fonctonnelles des régulartés ou structures remarquables mses en évdence. 2 Échelle de l unté de crossance, de la pousse annuelle, de l axe ; analyse des structures de ramfcaton Les mécansmes de ramfcaton jouent un rôle majeur dans l édfcaton de la plante. Dans la présentaton classque de la démarche archtecturale, tros prncpaux types de structures de ramfcaton sont dstngués : la ramfcaton contnue où chaque nœud est ramfé, la ramfcaton rythmque où les rameaux sont groupés à un endrot prvlégé de la pousse, la stuaton la plus courante étant alors celle de rameaux portés au sommet de l unté de crossance. la ramfcaton dffuse qu recouvre toutes les autres stuatons. On peut noter un décalage entre cette classfcaton quelque peu smplste et la fnesse de caractérsaton morphologque des enttés portées jouant à la fos sur le déla entre la mse en place de l entté porteuse et des enttés portées (ramfcaton mmédate par opposton à ramfcaton décalée d un an, d un cycle... et sur l allongement (rameaux court ou long ou sur la qualté des enttés portées (rameau florfère.... En collaboraton avec des collègues bologstes, nous avons progressvement ms en place un ensemble de méthodes permettant d analyser les structures de ramfcaton jusque là qualfées de dffuse ; cf. Guédon et al. (200, 2003 pour une synthèse. Il ressort de ces travaux que la ramfcaton présente souvent une structuraton remarquable à deux échelles : une échelle très locale où un nœud ramfé a tendance à être entouré de nœuds non-ramfés. Ce mécansme d nhbton vrasemblablement de nature physologque peut donner des motfs de ramfcaton très complexes comme dans le genre Cupressus. une échelle plus macroscopque fasant apparaître des zones de ramfcaton ben dfférencées le long de la pousse. Les structures de ramfcaton d untés de crossance sont typquement représentées sous forme de séquences dont le paramètre d ndex est le rang du noeud et la varable assocée à chaque noeud code la ramfcaton (type de rameau porté, nombre de rameaux portés.... L analyse des motfs de ramfcaton fat essentellement appel aux chaînes de Markov d ordre varable (Wenberger et al., 995 ; Ron et al., 996 ; Bühlmann & Wyner, 999 où l ordre n est plus fxe mas dépend du contexte. La structure de ces modèles se représente sous forme d une arborescence des mémores où l on dérve d un vertex père donné autant de vertex fls qu l y a d états en préfxant la mémore du vertex père par chacun des états possbles. Dans le cas bnare, on peut ans dérver de la mémore d ordre, 0, les deux mémores d ordre 2, 00 et 0. Ces modèles peuvent auss s nterpréter comme des chaînes de Markov d ordre fxe pour lesquelles les mémores dérvant d un ancêtre commun (correspondant à leur suffxe commun dont les los de transton sont dentques sont agrégées. Ce type de modèle pose un dffcle problème de 97

98 sélecton de modèles dans la mesure où, le nombre d arborescences de mémores possbles devent très rapdement extrêmement grand pour un nombre d états et un ordre maxmum fxé. Il n est donc pas possble de fare une comparason exhaustve des chaînes de Markov d ordre varable sur la base des crtères de sélecton de modèles usuels comme l AIC ou le BIC. La premère soluton ben fondée à ce dffcle problème de sélecton de modèle a récemment été proposée par Csszár et Talata (2006. L analyse des zones de ramfcaton fat prncpalement appel aux sem-chaînes de Markov cachées, pour la modélsaton statstque sur la base d un échantllon de séquences, et aux algorthmes d algnement de séquences par programmaton dynamque pour le calcul de dstances entre séquences (Guédon et al., 200, Le même ensemble de méthodes a été ms en œuvre dans le cadre de l étude de sgnaux prncpalement acoustques (Rabner, 989 ; Jelnek, 997 et de séquences génomques (Gusfed, 997 ; Durbn et al., 998 ben que chaque domane d applcaton nduse un certan nombre de spécfctés méthodologques. Les sem-chaînes de Markov cachées ont été proposées comme une améloraton possble des chaînes de Markov cachées afn de s affranchr de l hypothèse de los géométrques d occupaton des états (ou de temps de séjour dans les états. Cette hypothèse est en effet peu réalste notamment s les états sont supposés représenter des zones homogènes, les temps de séjour dans ces états représentant alors les longueurs de zone. L mportance des sem-chaînes de Markov cachées pour l analyse des structures de ramfcaton a suscté dfférents développements méthodologques : algorthme d estmaton de complexté mnmale (quadratque en temps dans le pre cas et lnéare en espace pour des sem-chaînes de Markov cachées correctement spécfées (Guédon, 2003, c est à dre où le temps passé dans le derner état vsté est censuré, modèles hybrdes combnant états markovens et sem-markovens (Guédon, 2005, méthodes d exploraton de l espace des séquences d états (Guédon, 2007 utlsées comme outls de valdaton et de dagnostc. 3 Échelle du système ramfé, de la plante entère Cette échelle peut être étudée sur la base de méthodes d analyse de séquences ou d arborescences. L analyse de séquences offre une palette de méthodes d analyse plus large que l analyse d arborescences mas n est complètement justfée que dans le cas de plantes ben hérarchsées (ce qu est souvent le cas des plantes jeunes où l nformaton lée au développement de la plante peut être résumée dans une séquence parcourant l axe prncpal de celle-c. 3. Analyse de séquences L objectf de l analyse des successons de pousses annuelles ou d untés de crossance le long de l axe prncpal de plantes est d dentfer et de caractérser les dfférentes composantes de la crossance de la plante à savor : composante ontogénque, 98

99 composante envronnementale avec notamment l nfluence du clmat pour les arbres en forêt ou les plantes cultvées en plen champ, composante ndvduelle modulant la composante ontogénque. Deux types de protocole d observaton rétrospectve sont couramment ms en oeuvre : un pett nombre d arbres adultes sont décrts. Dans ce cas, les méthodes de détecton de ruptures multples ont perms de mettre en évdence des ruptures d ampltude mportante entre des phases statonnares relatvement longues (jusqu a pluseurs dzanes d année dans la pérode de vellssement de l arbre (Guédon et al., 2007, ce qu remet en cause des hypothèses bologques couramment admses. Un grand nombre d arbres jeunes sont observés : Dans ce cas, les analyses s appuent prncpalement sur des combnasons sem-markovennes de modèles lnéares mxtes (sem- Markov swtchng lnear mxed model consttuées (cf. Frühwrth-Schnatter (2006 pour une ntroducton aux combnasons markovennes de modèles : d une sem-chaîne de Markov pour représenter la successon des phases de crossance, des modèles lnéares mxtes attachés à chaque état de la sem-chaîne de Markov pour représenter conjontement dans chacune des phases, l nfluence des covarables envronnementales ans que l hétérogénété nter-ndvduelle résultant de facteurs non-observés. Ces modèles permettent de quantfer l nfluence des facteurs envronnementaux et d estmer la part de varance due à l hétérogénété nter-ndvduelle et ce, foncton des phases de crossance (Chaubert et al., Analyse d arborescences Les méthodes d analyse d arborescences applquées aux structures de plantes peuvent être vues comme une transposton aux arborescences des méthodes d analyse de séquences précédemment évoquées (sem-chaînes de Markov cachées pour l analyse de zones homogènes et algorthmes d algnement de séquences. Dans le cas des modèles d arbre de Markov caché (Durand et al., 2004, 2005, l objectf est d dentfer des zones homogènes dans des arborescences ou des ruptures entre zones mas, à la dfférence des sem-chaînes de Markov cachées applquées aux séquences, l n est pas possble de représenter la talle des zones et la paramétrsaton des modèles d arbre de Markov caché est smlare à celle d une smple chaîne de Markov. Les méthodes d algnement d arborescences basées sur les opératons d édton (Ferraro & Godn, 2000 permettent quant à elles de quantfer la ressemblance entre deux structures de plantes, et sont utles auss ben pour comparer des sortes de modèles de développement de plantes à des plantes réelles que pour comparer des structures de plantes foncton de dfférents facteurs (orgne génétque, condtons de culture... dans le cadre d expérmentatons agronomques. La plante se construt à partr d enttés élémentares sot se succédant le long d axes, sot dérvant les unes des autres par ramfcaton. Le mécansme de ramfcaton ndut le plus souvent des ruptures s l on compare les caractérstques morphologques et fonctonnelles des enttés portées à celle de l entté porteuse alors que l on observe le plus souvent une certane contnuté dans les caractérstques d enttés se succédant le long d un axe. Ces caractérstques morpholo- 99

100 gques et fonctonnelles ncluent par exemple, la longueur de l entté, le nombre d entrenœuds, la présence ou non de sexualté (éventuellement mâle ou femelle, la drecton de crossance. L exstence de ruptures franches entre entté porteuse et enttés portées (et quelquefos entre entté précédente et entté suvante tradut l exstence d un nombre relatvement rédut de classes d enttés (de l ordre de 5 à 0 pour fxer les dées. Ces classes sont ordonnées et peuvent alors être nterprétées comme une échelle d âges physologques. Un chemn dans la plante depus la premère entté édfée jusqu à une entté termnale correspond alors à une successon remarquable d âges physologques. La noton d âge physologque (Gatsuk et al., 980 ; Barthélémy et al., 997, que l on peut nterpréter comme un potentel de développement, offre une grlle de lecture très effcace du développement de la plante et a été utlsée avec succès pour dfférentes espèces, dfférents stades de développement ou condtons de crossance. Néanmons, l utlsaton effectve de cette noton requert une très bonne expertse en botanque. Notre objectf est de proposer une approche quanttatve de l âge physologque basée prncpalement sur une modélsaton statstque par modèle d arbre de Markov caché ; cf. Durand et al. (2005 pour des premers résultats. Bblographe Barthélémy, D. & Caraglo, Y. (2007. Plant morphology and archtecture : A dynamc, multlevel and comprehensve approach of plant form and ontogeny. Annals of Botany 99(3, Barthélémy, D., Caraglo, Y. & Costes, C. (997. Archtecture, gradents morphogénétques et âge physologque chez les végétaux. In : Modélsaton et Smulaton de l Archtecture des Végétaux (Bouchon, J., de Reffye, P. & Barthélémy, D., eds., Scence Update, Pars : INRA édtons, Bühlmann, P. & Wyner, A. J. (999. Varable length Markov chans. The Annals of Statstcs 27(2, Chaubert, F., Caraglo, Y., Lavergne, C., Trotter, C. & Guédon, Y. (2007. A statstcal model for analyzng jontly growth phases, the nfluence of envronmental factors and nter-ndvdual heterogenety. Applcatons to forest trees. In : 5th Internatonal Workshop on Functonal- Structural Plant Models, Naper, New Zealand, P43, -3. Csszár, I. & Talata, Z. (2006. Context tree estmaton for not necessarly fnte memory processes, va BIC and MDL. IEEE Transactons on Informaton Theory 52(3, Cappé, O., Moulnes, E. & Ryden, T. (2005. Inference n Hdden Markov Models. New York : Sprnger. Durand, J.-B., Gonçalvès, P. & Guédon, Y. (2004. Computatonal methods for hdden Markov tree models - An applcaton to wavelet trees. IEEE Transactons on Sgnal Processng 52(9, Durand, J.-B., Guédon, Y., Caraglo, Y. & Costes, E. (2005. Analyss of the plant archtecture va tree-structured statstcal models : The hdden Markov tree models. New Phytologst 66, Durbn, R., Eddy, S. R., Krogh, A. & Mtchson, G. J. (998. Bologcal Sequence Analyss : Probablstc Models of Protens and Nuclec Acds. Cambrdge : Cambrdge Unversty Press. Ephram, Y. & Merhav, N. (2002. Hdden Markov processes. IEEE Transactons on Informaton Theory 48(6, Ferraro, P. & Godn, C. (2000. A dstance measure between plant archtectures. Annals of Forest Scence 57,

101 Frühwrth-Schnatter, S. (2006. Fnte Mxture and Markov Swtchng Models. New York : Sprnger. Gatsuk L. E., Smrnova O. V., Vorontzova L. I., Zaugolnova L. B. & Zhukova L. A. (980. Age states of plants of varous growth forms : a revew. Journal of Ecology 68, Godn, C. & Caraglo, Y. (998. A multscale model of plant topologcal structures. Journal of Theoretcal Bology 9(, -46. Guédon, Y. (2003. Estmatng hdden sem-markov chans from dscrete sequences. Journal of Computatonal and Graphcal Statstcs 2(3, Guédon, Y. (2005. Hdden hybrd Markov/sem-Markov chans. Computatonal Statstcs & Data Analyss 49(3, Guédon, Y. (2007. Explorng the state sequence space for hdden Markov and sem-markov chans. Computatonal Statstcs & Data Analyss 5(5, Guédon, Y., Barthélémy, D., Caraglo, Y. & Costes, E. (200. Pattern analyss n branchng and axllary flowerng sequences. Journal of Theoretcal Bology 22(4, Guédon, Y., Caraglo, Y., Heuret, P., Lebarber, E. & Meredeu, C. (2007. Analyzng growth components n trees. Journal of Theoretcal Bology 248(3, Guédon, Y., Heuret, P. & Costes, E. (2003. Comparson methods for branchng and axllary flowerng sequences. Journal of Theoretcal Bology 225(3, Gusfeld, D. (997. Algorthms on Strngs, Trees, and Sequences - Computer Scence and Computatonal Bology. Cambrdge : Cambrdge Unversty Press. Guttorp, P. (995. Stochastc Modelng of Scentfc Data. London : Chapman & Hall. Jelnek, F. (997. Statstcal Methods for Speech Recognton. Cambrdge, MA : MIT Press. Lndsey, J. K. (2004. Statstcal Analyss of Stochastc Processes n Tme. Cambrdge : Cambrdge Unversty Press. Rabner, L. R. (989. A tutoral on hdden Markov models and selected applcatons n speech recognton. Proceedngs of the IEEE 77, Ron, D., Snger, Y. & Tshby, N. (996. The power of amnesa : learnng probablstc automata wth varable memory length. Machne Learnng 25, Wenberger, M. J., Lempel, A. & Zv, J. (992. A sequental algorthm for the unversal codng of fnte memory sources. IEEE Transactons on Informaton Theory 38(3,

102 Introducton au score local et applcatons P. Vallos Score local Sot (ɛ une sute de v.a à valeurs dans Z, ndépendantes et de même lo. On désgne par (S n la marche aléatore assocée : S n = n ɛ, n, et S 0 = 0. (. = Consdérons (H n le processus crossant. H n := max (S j S. (.2 0 j n Par constructon H n 0. En génomque, la sute (ɛ peut provenr de comparasons terme à terme de deux séquences bologques. Soent S = ( a, a 2,, a n et S2 = ( b, b 2,, b n deux séquences bologques de même longueur n, où les symboles a, a 2,, a n et b, b 2,, b n appartennent à un ensemble fn A. On peut penser à deux sutes de nucléotdes, dans ce cas A = {A, C, G, T }. On suppose qu l exste une foncton de score s : A A Z telle que s(a, a = 0 et s(a, b > 0 (resp. s(a, b < 0 lorsque a et b sont jugés proches. Sous certanes hypothèses sur les deux sutes S et S 2, les v.a. ɛ := s(a, b, n sont ndépendantes et de même lo. Il est en général dffcle de calculer la dstrbuton de H n avec n fxé, en foncton de la lo de ɛ, lorsque cette dstrbuton est quelconque. Karln et Dembo [7] ont étudé le comportement asymptotque de H n, n, lorsque E[ɛ ] < 0. Théorème. (Karln et Dembo Lorsque E(ɛ < 0 alors : lm P (H n ln n + x = e Ke λx, x R, (.3 n λ où K, λ désgnent deux paramètres assocés à la lo de X. Sgnalons que Etenne, Daudn et Vallos ([2] et [3] se sont ntéressés à la convergence en lo H n n, n, dans le cas centré,.e. E[ɛ ] = 0 et auss dans sous d autres hypothèses. On s ntéresse à présent au calcul de la lo de H n. Nous adoptons l approche développée par Daudn et Mercer [] et reprse ndépendamment par Nuel [0] (vor auss [9] pour des applcatons. On commence par donner un algorthme pour calculer H n. Proposton.2 Sot ( U n n 0 la sute de v.a. défne par récurrence : Alors : U 0 = 0 et U j+ = max (U j + ɛ j+, 0, j 0. (.4 H n = max 0 j n U j. (.5 02

103 Peuve D après la défnton de H n, on a : H n = max 0 j n (S j S, = max 0 j n ( max 0 j (S j S, = max 0 j n U j. avec U j = S j mn 0 j S. On note : mn{a, b} = a b, max{a, b} = a b. (.6 Montrons : U j = U j pour tout j 0. Pusque U 0 = U 0, l sufft de montrer que ( U j vérfe la relaton de récurrence (.4. Partons de U j+, on a : U j+ = S j+ mn j+ S = S j+ ( mn j S S j+ = S j+ (S j U j S j+ = S j+ [ S j+ + (S j U j S j+ 0 ] = ( U j ɛ j+ 0 = (ɛ j+ + U j 0. Sot a un enter. On s ntéresse à présent au calcul de P (H n a. On revent au contexte du score local H n, lorsque n est fxé. Sot (U la sute de v.a. assocée à (S n comme l est ndqué à la Proposton.2. Pour tout a > 0, on ntrodut (Y j la sute de v.a. défne par récurrence de la manère suvante. Y 0 = 0 (.7 { U s U a Y = (.8 a s U a. Lorsque Y = a, on pose : Y k = a, pour tout k. S Y = U a, on pose : Y 2 = { U 2 a s U 2 a snon et ans de sute. Par conséquent, (Y est défne par récurrence par les relatons : a s Y = a Y + = U + s Y a et U + a a s Y a et U + a. (.9 03

104 Remarquons que : Y = nf { U ( T a, a }, avec Ta := nf{j ; U j a}. (.0 On vérfe faclement que (Y j est une chaîne de Markov à valeurs dans l ensemble {0,,..., a } {a} et a est un état absorbant. Sot Γ sa matrce de transton. Il est clar que Γ peut s écrre sous la forme : ( R ν Γ = 0 où R = ( R(, j est la matrce carrée d ordre a et ν est un vecteur uncolonne de coordonnées ( ν(0,, ν(a le vecteur uncolonne détermnés par les relatons : R(0, 0 = P ( max (0, ɛ = 0 = P (ɛ 0 (. R(0, j = P ( max (0, ɛ = j = P (ɛ = j, j a (.2 R(, 0 = P ( max ( + ɛ, 0 = 0 = P (ɛ, a (.3 R(, j = P ( max ( + ɛ, 0 = j = P (ɛ = + j,, j a (.4 ν(0 = P ( max (0, ɛ a = P (ɛ a (.5 ν( = P ( max (0, + ɛ a = P (ɛ + a, a. (.6 Proposton.3 Sot n un enter et a un réel strctement postf. Alors : P (H n a = P (Y n = a, (.7 où (Y k est la sute défne par les relatons (.7 et (.9. Preuve D après la Proposton.2 : { Hn < a } = { max 0 j n U j < a } = { U < a,, U n < a } = { Y n < a }, la dernère égalté provent de la défnton de la sute des Y k. Par conséquent : { H n a } = { Y n a } = { Y n = a }. Proposton.4 P (H n a = (ν + Rν R n ν 0, (.8 où la matrce R (resp. le vecteur a-dmensonnel ν est défne par (.-(.4 (resp. (.5 et (.6 et l ndce 0 dans le membre de drote de (.8 correspond à la premère coordonnée du vecteur. Preuve Sachant que Y 0 = U 0 = 0 et (Y k est une chaîne de Markov de matrce de transton Γ, on a : 04

105 0 P (Y n = a = (, 0,..., 0 Γ n. 0 Calculons Γ n en rasonnant par récurrence sur n. Supposons : ( Γ n R n ν = n. 0 (.9 (.20 La relaton est vérfée pour n = avec ν = ν. On suppose que (.20 a leu, montrons la formule au rang n +. On dédut de (.20 : Ce qu condut à poser : Γ n+ = ( R n ν n 0 ( R ν 0 Sachant que ν = ν, on en dédut asément : Revenons à (.9 : P (Y n = a = (, 0,..., 0 = ν n+ = ν n + R n ν. ν k = ν + Rν + + R k ν. ( R n ν n 0 ( R n+ R n ν + ν n 0 0. = (, 0,, 0 ( νn. Remarque. Notons que la matrce R et le vecteur ν dépendent de a. 2. La relaton (.7 rend posble le calcul de P (H n a. Sgnalons que le fat s assocer à H n une chaîne de Markov apparat dans [8] et [4]. 3. Lorsque (ɛ ne sont pas des enters mas des nombres décmaux, on peut multpler chaque ɛ par une pussance de 0 convenable de telle sorte que 0 a ɛ sot et un enter. Le score local est juste multplé par le facteur 0 a. 4. Il est possble de modfer l algorthme pour prendre en compte le cas où (S n est une chaîne de Markov. 2 Applcatons Applcaton. Nuel ([0] consdère la dstrbuton des amno-acdes de la banque de données Swssprot (verson 47.8 et Kyte-Doolttle hydrophobe. On dspose ans d envron séquences 05

106 de longueur varable. On vérfe que la moyenne (emprque vaut -0,244 ; elle donc négatve. Il donc possble d applquer la formule (.3. On fat l hypothèse que les scores sont ndépendants et ont la même dstrbuton. Il est ans possble, avec les séquences, de détermner une approxmaton de la lo de la varable aléatore ɛ, et donc d obtenr une estmaton des paramètres K et λ : λ = 5, , K =, Posons a = ln n λ + x. Alors e λx = e λa e ln n = ne λa. Par conséquent, d après la Proposton. : P (H n < a exp( Kne λa. a Pour chaque séquence ( , on détermne un score emprque h ( n formule (.4. b Il est donc possble de calculer une p-value p K pour chaque séquence : va la p K = exp( Kne λh( n. c Pour chaque séquence, on évalue la matrce R et le vecteur ν (avec a = h ( n. Ce qu fournt une nouvelle p-value notée p N. Nuel fat une comparason avec Karln et sa méthode en traçant les ponts de coordonnées ( log0 (p N, log 0(p N, Ans, les résultats obtenus par les deux méthodes sont vosns lorsque les ponts correspondant sont proches de la premère dagonale. Nuel observe que pour des séquences de longueur n 2000, les deux méthodes fournssent des résultats proches. Remarquons que seulement 0,5% de l ensemble des proténes ont une longueur supéreure à 2000, ce qu rend la méthode de Nuel ntéressante. Notons qu l exste des correctons à la formule (.3, mas cela ne modfe guère les résultats précédents. Applcaton 2. Dans [5], les auteurs assocent à chaque poston (de l ADN ou l ARN, un score ndvduel : plus l est élevé plus l tradut une assocaton forte avec une malade (cancer par exemple. On peut chosr ɛ = ln 0 p, où p est la p-value assocée au résultat d un test (par exemple du ch-deux. Pour avor une v.a d espérance négatve, on consdère plutôt : ɛ = ɛ δ = log 0 p δ, δ > 0. Les auteurs proposent une méthode alternatve à celle basée sur les comparasons multples va le score local et (.3. References [] J. J. Daudn and S. Mercer. Dstrbuton exacte du score local d une sute de varables ndépendentes et dentquement dstrbuées. C. R. Acad. Sc. Pars Sér. I Math., 329(9 :85 820, 999. [2] J.J. Daudn, M. P. Etenne, and P. Vallos. Asymptotc behavor of the local score of ndependent and dentcally dstrbuted random sequences. Stochastc Process. Appl., 07( : 28,

107 [3] M. P. Etenne and P. Vallos. Approxmaton of the dstrbuton of the supremum of a centered random walk. Applcaton to the local score. Methodol. Comput. Appl. Probab., 6(3 : , [4] J. C. Fu and M. V. Koutras. Dstrbuton theory of runs : a Markov chan approach. J. Amer. Statst. Assoc., 89(427 : , 994. [5] M. Guedj, D. Robeln, and al. Detectng local hgh-scorng segments : a frst-stage approach for genome-wde assocaton studes. Statstcal Applcatons n Genetcs and Molecular Bology, 5(, [6] M. Guedj, D. Robeln, M. Hoebeke, M. Lamarne, J. Wojck, and G. Nuel. Detectng local hgh-scorng segments : a frst-stage approach for genome-wde assocaton studes. Stat. Appl. Genet. Mol. Bol., 5 :Art. 22, 8 pp. (electronc, [7] S. Karln and A. Dembo. Lmt dstrbutons of maxmal segmental score among Markovdependent partal sums. Adv. n Appl. Probab., 24( :3 40, 992. [8] W. Y. Wendy Lou. An applcaton of the method of fnte Markov chan mbeddng to runs tests. Statst. Probab. Lett., 3(3 :55 6, 997. [9] S. Mercer, D. Celler, F. Charlot, and J.J. Daudn. Exact and asymptotc dstrbuton of the local score of one..d. random sequence. In Computatonal bology, volume 2066 of Lecture Notes n Comput. Sc., pages Sprnger, Berln, 200. [0] G. Nuel. Effectve p-value computatons usng Fnte Markov Chan Imbeddng (FMCI : applcaton to local score and to pattern statstcs. Algorthms for Molecular Bology, I(5,

108 Introducton à l analyse factorelle des données en lgne Jean-Mare Monnez Introducton On peut dstnguer tros phases dans l évoluton dans le temps des méthodes statstques de tratement des données. Dans la premère phase, on tratat des tableaux de données dont les nombres d ndvdus et de caractères étaent relatvement petts en utlsant les méthodes classques de statstque descrptve et nférentelle. Dans la deuxème phase, dont le développement sut celu de l Informatque, on a pu trater de grands tableaux de données en utlsant les méthodes de l Analyse des Données. On peut actuellement trater des tableaux avec un très grand nombre d ndvdus, par exemple pluseurs centanes de mllers de clents dans une banque. Le cas de tableaux avec un très grand nombre de caractères pose des problèmes de méthodologe statstque ; par exemple : le contrôle du rsque de premère espèce dans les tests multples ; certanes méthodes d analyse sont nutlsables dans leur formulaton d orgne lorsque le nombre de caractères est supéreur au nombre d ndvdus, comme l analyse factorelle dscrmnante. Actuellement, on a de plus en plus souvent des données qu arrvent en lgne, par exemple des données d enquête sur Internet, des données de contrôle de processus. On a un flux contnu, rapde, llmté de données qu sont lues une fos et pour lesquelles on souhate fare une analyse en temps réel, sachant que l on dspose d une mémore lmtée (Agular-Ruz On dot alors dans cette trosème phase développer des méthodes de tratement en lgne de cette masse de données. C est dans ce cadre que l on va se placer. Un exemple de méthode de tratement en lgne de données est l algorthme des k-means de MacQueen (967 en classfcaton. Sot un ensemble d ndvdus à répartr en classes. Au temps n, on ntrodut un vecteur d observatons fates sur un ndvdu et on actualse l estmaton des centres de classes en calculant une dstance du vecteur d observatons à chacun des centres de classes estmés au pas précédent, en affectant l ndvdu à la classe correspondant au centre dont l est le plus proche et en actualsant alors le centre de cette classe augmentée. On s ntéresse c à l estmaton en lgne des facteurs d une analyse factorelle. Pour présenter le problème, on consdère un cas partculer d analyse factorelle, celu de l analyse en composantes prncpales (ACP. Lorsque l on effectue l ACP d un tableau de données, celu-c est consttué de n vecteurs de données z, z 2,..., z n dans R p que l on a observés sur n ndvdus d une populaton. Supposons mantenant que ces données arrvent en lgne : au temps n, on dspose d un nouveau vecteur de données z n. Fasons alors l hypothèse que z n est la réalsaton d un vecteur aléatore Z n 08

109 dans R p ; fasons en outre l hypothèse que la sute des vecteurs (Z,..., Z n est un échantllon..d. d un vecteur aléatore Z dans R p. Cette hypothèse pourrat être affable en consdérant des observatons non ndépendantes ou non dentquement dstrbuées (Monnez On défnt alors l ACP du vecteur aléatore Z, présentée dans le paragraphe 2. R p étant mun d une métrque M, Covar [Z] désgnant la matrce de covarance du vecteur aléatore Z, les facteurs dans le dual R p de R p sont vecteurs propres de la matrce B = MCovar [Z] assocés aux valeurs propres λ,..., λ p rangées par ordre décrossant. La matrce B est M - symétrque ( M B est symétrque et admet donc p valeurs propres réelles ; l exste en outre une base M -orthonormée de R p formée de vecteurs propres de B, (V,..., V p. On étude c l estmaton en lgne des r premers vecteurs propres de B, V,..., V r : après avor observé au temps n la réalsaton du vecteur Z n, on actualse l estmaton des r premers facteurs de l ACP du vecteur Z fate à partr des observatons de Z,..., Z n. Dans le paragraphe 3, on présente des éléments d algèbre extéreure utlsés dans les démonstratons de la convergence des processus d estmaton des facteurs. Dans les paragraphe 4, 5 et 6, on présente dfférents processus d estmaton en lgne des vecteurs propres d une matrce M -symétrque. On donne en concluson la domane d applcaton de cette méthode, qu concerne toutes les méthodes usuelles d analyse factorelle. 2 ACP d un vecteur aléatore Sot un vecteur aléatore Z dans R p, défn sur un espace probablsé (Ω, A, P, de composantes Z, Z 2,..., Z P de carré ntégrable. On note Covar [Z] ou C la matrce de covarance de Z. On munt R p d une métrque M ; on note. la norme assocée : Z(ω 2 = Z (ωmz(ω. A partr de M est défne la dstance entre deux réalsatons Z(ω et Z(ω de Z qu est la mesure de la dfférence vs-à-vs de Z entre les éléments, ou ndvdus, ω et ω. Le chox de cette métrque est prmordal et condtonne les résultats de l ACP. On désgne par F r un sous-espace affne de R p de dmenson r auquel appartent l espérance mathématque E [Z] de Z. On note ΠZ le vecteur aléatore dans R p qu, à tout ω Ω, fat correspondre la projecton orthogonale, au sens de la métrque M, ΠZ(ω de Z(ω sur F r. On a E [Z] = E [ΠZ] et : E [ Z E (Z 2] = E [ Z ΠZ 2] + E [ ΠZ E (Z 2] 2. Etude géométrque L ACP du vecteur aléatore Z consste à détermner un sous-espace F r qu resttue au meux en dmenson r la dsperson de Z mesurée par E [ Z E (Z 2], donc qu sot tel que E [ ΠZ E (Z 2] sot maxmale ou E [ Z ΠZ 2] mnmale. S l on note (u, u 2,..., u r une base M-orthonormée de F r, on a E [ ΠZ E (Z 2] = r u kmcmu k. k= 09

110 Le problème équvaut alors à rechercher pour k =, 2,..., r un vecteur u k qu rende maxmale la forme quadratque u MCMu sous les contrantes d être M-untare et M-orthogonal aux vecteurs u j, j =,..., k ; on montre que u k est vecteur propre de la matrce CM assocé à la k ème plus grande valeur propre λ k ; on a u k MCMu k = λ k ; l axe (E [Z], u k est appelé le k ème axe prncpal de l ACP de Z. 2.2 Interprétaton statstque La formulaton statstque, équvalente à la géométrque, est le cadre usuel de présentaton de l ACP d un vecteur aléatore. Sot l élément a k = Mu k du dual R p de R p, appelé k ème facteur prncpal de l ACP de Z. A partr du crtère de détermnaton de u k, on obtent que a k rend maxmale la forme quadratque a Ca sous les contrantes a Ca j = 0, j =, 2,..., k et a M a = ; la combnason lnéare des composantes centrées de Z, C k = a k (Z E (Z, appelée kème composante prncpale, est donc de varance maxmale sous les contrantes d être non corrélée aux composantes précédentes et que a k sot M -untare. On montre que a k est vecteur propre assocé à la k ème plus grande valeur propre λ k de la matrce M -symétrque MC et on a a k Ca k = λ k. On a en outre le résultat suvant : v k = a k λk rend maxmale la forme quadratque v CMCv sous les contrantes v Cv j = 0, j =, 2,..., k et v Cv =. En effet, une soluton de ce problème est vecteur propre de C CMC = MC assocé à sa k ème plus grande valeur propre, comme a k ; mas a k Ca k = λ k ; on peut prendre v k = a k λk. 2.3 Cas où l espace fondamental est fn On constate que, lorsque Ω est un ensemble fn de cardnal N, la probablté du ème élément, ou ndvdu, de Ω étant notée p, l ACP du vecteur aléatore Z est l ACP classque, ou descrptve, du tableau des réalsatons des p varables aléatores Z,..., Z p pour les N ndvdus de Ω affectés respectvement des pods p,..., p N, la métrque dans R p étant M. 3 Eléments d algèbre extéreure Pour établr la démonstraton de la convergence des processus d estmaton des vecteurs propres d une matrce M -symétrque, on utlse des éléments d algèbre extéreure. L algèbre extéreure permet de caractérser un sous-espace vectorel de dmenson r d un espace vectorel E par la donnée d un sous-espace à une dmenson d un espace appelé pussance extéreure d ordre r de E. S désgne le produt extéreur, s x,..., x r d une part, y,..., y r d autre part sont des vecteurs lnéarement ndépendants et s l exste un réel α tel que x... x r = αy... y r, alors (x,..., x r et (y,..., y r engendrent le même sous-espace et récproquement. En ACP, on cherche un sous-espace F r de dmenson r engendré par les vecteurs propres V,..., V r d une matrce B assocés respectvement aux r plus grandes valeurs propres. Cec revent à chercher dans la pussance extéreure d ordre r de R p un vecteur colnéare à V... V r ; on montre que V... V r est un vecteur propre assocé à la plus grande valeur propre d un endomorphsme de cette pussance extéreure. 0

111 3. Produt tensorel de r espaces vectorels Sot pour =,..., r, E un espace vectorel de dmenson n sur un corps commutatf K ; sot (e,..., e n une base de E. Sot G un espace vectorel de dmenson n.n 2...n r sur K. Sot (g,..., r, {,..., n },..., r {,..., n r } une base de G. On défnt l applcaton multlnéare ϕ de E... E r dans G telle que ϕ(e,..., e rr = g,..., r. Sot, pour j =,..., r, x j = n j j = x j j e j j. On a : n n r ϕ(x,..., x r =... = r= x...x r r g,..., r. Défnton ϕ(x,..., x r est appelé le produt tensorel des vecteurs x,..., x r et noté x... x r. G est appelé le produt tensorel de E,..., E r et noté E... E r. Les éléments de G sont appelés tenseurs. 3.2 Pussance extéreure d ordre r Sot un espace vectorel E de dmenson n, de base (e,..., e n. On consdère le produt tensorel d ordre r, E... E, noté E (r. Sot un tenseur T de E (r : n n T =... t... r e... e r. = r= On dt que le tenseur T est ant-symétrque s, lorsque l on effectue une permutaton d ordre mpar sur (,..., r, la composante t change de sgne en conservant la même valeur absolue. Sot σ = (σ(,..., σ(r une permutaton de (,..., r. Sot ɛ(σ le nombre d nversons de cette permutaton et G r l ensemble de ces permutatons. Défnton Le vecteur σ G r ( ɛ(σ e σ(... e σ(r de E (r est appelé le produt extéreur de e,..., e r et noté e... e r. Défnton Le sous-espace de E (r de dmenson C r n engendré par les vecteurs e... e r ( <... < r n est appelé la pussance extéreure d ordre r de E et noté r sc E. C est l ensemble des tenseurs ant-symétrques de E (r. Défnton On appelle produt extéreur de r vecteurs x,..., x r de E l élément de r sc E x... x r = σ G r ( ɛ(σ x σ(... x σ(r. Proposton L applcaton de E... E dans r sc E qu à (x,..., x r fat correspondre x... x r est multlnéare. Sot x = n j= xj e j, =,..., r.

112 Sot la matrce M,..., r = x x r x r x r r. Proposton x... x r = <...< r n det M,..., r e... e r. Proposton Sot des vecteurs de E lnéarement ndépendants x,..., x r d une part, y,..., y r d autre part. S ls engendrent le même sous-espace vectorel de E de dmenson r, alors l exste α 0 tel que y... y r = αx... x r et récproquement. 3.3 Endomorphsmes dans une pussance extéreure Sot un endomorphsme U dans E. Sot (e... e r, <... < r n une base de r sc E. Défnton Pour j r, on note rj U l endomorphsme dans r sc E tel que rj U(e... e r = e... Ue h... Ue hj... e r. h <...<h j r Défnton On appelle r ème pussance extéreure de l endomorphsme U dans E l endomorphsme rr U dans r sc E tel que Proposton Pour j r, on a rj U(x... x r = rr U(e... e r = Ue... Ue r. h <...<h j r Proposton rr (I + U = rr I + r j= rj U. Sot l endomorphsme r U tel que x... Ux h... Ux hj... x r. r U(e... e r = r e... Ue h... e r. h= Proposton S U est dagonalsable, de valeurs propres réelles λ,..., λ n auxquelles sont assocés respectvement les vecteurs propres V,..., V n, r U admet les Cn r valeurs propres r h= λ h, auxquelles sont assocés les vecteurs propres V... V r ( <... < r n. 2

113 3.4 Produt scalare dans une pussance extéreure On reprend les notatons des paragraphes précédents. On suppose E mun d un produt scalare.,.. Proposton La forme blnéare ϕ de r sc E r sc E dans R telle que ϕ(e... e r, e j... e jr = ( ɛ(σ e, e jσ(... e r, e jσ(r σ G r est un produt scalare dans la pussance extéreure r sc E. On note désormas ce produt scalare.,.. Proposton S la base (e,..., e n de E est orthonormée, alors la base (e... e r, <... < r n de r sc E est orthonormée au sens du produt scalare ϕ. Proposton Sot x,..., x r, y,..., y r des vecteurs de E. Alors on a x... x r, y... y r = σ G r ( ɛ(σ x, y σ(... xr, y σ(r. 4 Premer processus d estmaton en lgne des facteurs 4. Méthode tératve dans le cas où la matrce B est connue C est le cas par exemple de l ACP d un vecteur aléatore Z dans R p qu a un ensemble fn de n réalsatons possbles connues mun de l équprobablté ; cec revent à fare l ACP habtuelle du tableau (n, p des réalsatons de Z. On étude dans ce paragraphe une méthode tératve de détermnaton des facteurs de cette ACP dans l ordre décrossant des valeurs propres. 4.. Détermnaton du premer facteur Sot (a n une sute de nombres réels postfs. On défnt récursvement le processus détermnste (X n dans R p tel que X n+ = (I + a n BX n. Etude de la convergence du processus (X n On suppose que B est M -symétrque. Sot (V,..., V p une base M -orthonormée de R p formée de vecteurs propres de B assocés respectvement aux valeurs propres λ > λ 2 λ 3... λ p. a On décompose X n dans la base (V,..., V p : p X n = αnv j j j= X n+ = (I + a n B p αnv j j = j= p αn( j + λ j a n V j j= α j n+ = ( + λ j a n α j n, j =,..., p. 3

114 b On se place dans le cas j >. S α 0 ( X n est pas orthogonal à V : α j n+ α n+ S a n 0 lorsque n : S a n = : = + λ ja n + λ a n α j n α n = n = + λ j a + λ a α j α + λ j a n = + (λ j λ a n + λ (λ λ j a 2 n + λ a n + λ a n + (λ j λ a n ln( + (λ j λ a n (λ j λ a n ln( + (λ j λ a n = n = + λ j a 0 (n + λ a α j n+ α n+ 0 (n c On en dédut que : X n+ α n+ = V + p j=2 α j n+ V αn+ j V. Remarque S λ > 0, α n+ = n = ( + λ a α. Donc, la norme de X n tend vers l nfn Détermnaton du deuxème facteur et des suvants Défnton du processus On défnt récursvement le processus détermnste (X n,..., X r n dans (R p r tel que, pour n et =,..., r : Y = (I + a n BXn, =,..., r ( X n+,..., Xn+ r = orthm (Yn+,..., Yn+ r ( X n+,..., Xn+ r = orthm (Yn+,..., Yn+ r sgnfe que ( Xn+,..., Xn+ r est obtenu en orthogonalsant au sens de Gram-Schmdt (Yn+,..., Yn+ r par rapport à M : Xn+ = Yn+ Y n+, X j n+ j< M X j n+ X j n+ 2. M 4

115 Prncpe de l étude de la convergence d ordre 2 de R p. On a : On se place d abord dans la pussance extéreure X n+ X 2 n+ = X n+ Y 2 n+ = (I + a n BX n (I + a n BX 2 n = X n X 2 n + a n ( BX n X 2 n + X n BX 2 n + a 2 n BX n BX 2 n = ( I + a n 2 B ( X n X 2 n + a 2 n 22 B ( X n X 2 n. L endomorphsme 2 B de la pussance extéreure d ordre 2 de R p admet pour plus grande valeur propre λ + λ 2, à laquelle est assocé le vecteur propre V V 2. On démontre alors que X n X 2 n converge en drecton vers V V 2. Comme X n converge en drecton vers V et que X 2 n est M -orthogonal à X n, on peut en dédure que X 2 n converge en drecton vers V 2. On étend cette technque à l étude de la convergence du processus (X n,..., X r n dans la pussance extéreure d ordre r de R p vers V... V r ; on peut en dédure que X j n converge en drecton vers V j, j =,..., r. Etude de la convergence de X n X 2 n a Dans 2 sc R p, on a le processus (Z n tel que : Z n+ = (I + a n C + a 2 ndz n avec Z n = Xn Xn, 2 C = 2 B, D = 22 B. dm 2 sc R p =C 2 p=q ; sot µ... µ q les valeurs propres de C. µ. Sot Γ =.. = P CP (P matrce de passage. µ q On rapporte 2 sc R p à la base orthonormée formée de vecteurs propres de C : avec = P DP. b Sot U n = P Z n. On a : n l= (+µ a l P Z n+ = P (I + a n C + a 2 ndp P Z n = (I + a n Γ + a 2 n P Z n U n+ = I + a nγ + a 2 n U n + a n µ + a n µ l = a n (µ µ l + (µ µ l µ a 2 n + a n µ + a n µ = a n µ ln avec µ ln = µ µ l + O(a n pour l >, µ n = 0. U n+ = (I a n Γ n U n + a 2 n + a n µ U n 5

116 avecγ n = 0 µ 2n... µ qn c On a : U n+ 2 = (I a n Γ n U n (I a n Γ n U n, U n + a n µ a 4 n + ( + a n µ U n 2. 2 S a n 0, I a n Γ n = ; alors : U n+ 2 U n 2 + a 2 n Γ n 2 U n U n 2 + a n µ a 4 n a 2 n a 2 n + ( + a n µ 2 2 U n 2 2a n U n, Γ n U n U n+ 2 ( + O(a 2 n U n 2 2a n U n, Γ n U n. On a une négalté du type : Sot z n+ ( + α n z n β n, avecz n 0, α n 0, β n 0. z n zn = n l= ( + α l, β n = n l= ( + α l. n n zn+ zn βn zn+ + β zn + La sute postve décrossante ( zn + n = β converge ; donc, la sute crossante majorée ( n = β converge ans que la sute (z n. S ( n ( + α l converge, (z n et ( n β convergent. Par conséquent, s a2 n <, on a : U n 2 T ; = β n a n U n, Γ n U n <. d Sot U n la premère composante de U n, la premère lgne de. U n+ = U n + = a 2 n + a n µ U n = U + n = = β a 2 + a µ U a 2 U a 2 U < + a µ + a µ = 6

117 Donc, (U n converge vers un réel U. e Sot U n = ( U n U b n, Γ b n = µ 2n. Il exste µ > 0 et N N tels que : mn l nf n N µ ln > µ.. µ qn. a n U n, Γ n U n = N a n U b n, Γ b nun b > µ a n U b n 2 N Donc, a n U b n 2 converge ; comme Un converge ans que Un, U b n converge ; s a n =, U b n tend vers 0. Par conséquent, U n tend vers le vecteur (U et Z n tend en drecton vers V. 4.2 Cas où la matrce B est nconnue 4.2. Processus de Benzécr On se place dans le cas où B = E [A], B est M symétrque et la matrce M est connue ; on suppose que l on peut observer un échantllon..d. (A,..., A n,... de A. On défnt le processus (X n,..., X r n dans (R p r tel que, pour n : Y n+ = (I + a n A n Xn, =,..., r ( ( X n+,..., Xn+ r = orthm Y n+,..., Yn+ r La convergence presque sûre de ce processus est établ dans (Benzécr Travaux effectués On consdère le cas où l on dspose d une sute de matrces aléatores (B n convergeant presque sûrement vers B (Monnez 982, Bouamane 986 et d une sute de matrces aléatores (M n convergeant presque sûrement vers M. On défnt le processus (X n,..., X r n dans (R p r tel que, pour n : Y n+ = (I + a n B n Xn, =,..., r ( ( X n+,..., Xn+ r = orthm n Y n+,..., Yn+ r 2 On défnt alors le cas général suvant (Monnez 994. Sot (T n une sute crossante de sous-trbus. Sot (B n et (M n deux sutes de matrces aléatores telles que E [B n /T n ] B p.s., M n est T n -mesurable, M n M p.s. On défnt le processus (X n,..., X r n dans (R p r comme précédemment. La démonstraton de la convergence de ce processus, fasant ntervenr une méthode de martngales, est fate dans (Monnez 994. Cas de l analyse en composantes prncpales 7 N

118 On a dans ce cas : B = M Covar [Z] = M (E [ZZ ] E [Z] E [Z ] Sot (Z,..., Z n,... un échantllon..d. du vecteur aléatore Z dans R p. Sot Z n = n n = Z. On défnt tros types de processus selon les observatons utlsées à chaque pas. a On peut utlser une seule observaton à chaque pas. B n = M n ( Z n Z n Z n Z n La matrce aléatore M n est foncton de Z,..., Z n. La trbu T n est engendrée par X, Z,..., Z n. M n E [B n /T n ] = M n (E [ZZ ] Z n Z n B p.s. Remarques On a à effectuer au pas n l orthogonalsaton au sens de Mn. La détermnaton de ne présente pas de dffculté s par exemple M n est dagonale. Dans des cas où cette détermnaton serat dffcle ou longue à mettre en oeuvre, on pourrat procéder de la façon suvante. S V est vecteur propre de M (E [ZZ ] E [Z] E [Z ], M V = W est vecteur propre de C = (E [ZZ ] E [Z] E [Z ] M assocé à la même valeur propre. La matrce C est M-symétrque. On estme alors par un processus du type précédent les vecteurs propres W de C, l orthogonalsaton étant fate au pas n au sens de M n. Dsposant de l estmaton Wn de W, on en dédut l estmaton Vn = M n Wn de V. 2 On a : Y n+ = (I + a n B n Xn ( = (I + a n M n Z n Z n Z n Z n Xn ( = Xn + a n M n Z n Z nx n Z n Z n X n βn = Z nx n R, γn = Z n X n R ( Yn+ = Xn + a n M n β n Z n γnz n On n a donc pas à stocker en mémore les matrces Z n Z n et Z n Z n carrées d ordre p et à les multpler par X n. S par alleurs, M n est dagonale, on peut calculer rapdement les vecteurs M n Z n et M n Z n. On peut donc utlser cette méthode également lorsque l on dspose d un nombre p très élevé de composantes de Z. b On peut utlser un lot de l n observatons au pas n. 8

119 On note : L n = n j= l j. B n = M n l n L n j=l n + M n est foncton de Z,..., Z Ln. La trbu T n est engendrée par Z,..., Z Ln. Z j Z j Z Ln Z Ln E [B n /T n ] = M n (E [ZZ ] Z Ln Z Ln B p.s. c On peut utlser toutes les observatons jusqu au pas n. B n = M n ( n M n est foncton de Z,..., Z n. n Z Z Z n Z n B p.s. 5 Deuxème processus d estmaton en lgne des facteurs 5. Méthode tératve dans le cas où la matrce B est connue On suppose que B est M -symétrque. On défnt dans la sute une méthode tératuve de détermnaton d un vecteur propre assocé à la plus grande valeur propre λ de B. On peut également défnr en utlsant le procédé d orthogonalsaton une méthode de détermnaton des vecteurs propres suvants. Sot la foncton. g(x = x, Bx M x 2 M On a g(x λ ; le maxmum est attent pour x = V. On calcule le gradent de g : ( 2M g(x = Bx x, Bx M x M x x 2 x M On défnt alors le processus de gradent (X n dans R p tel que : ( (I + a n X n+ = B X n, BX n M X n 2 I M On démontre de façon parallèle à celle utlsée pour le premer processus d estmaton en lgne que (X n converge en drecton vers V. Mas on va montrer que celu-c converge auss en norme, contrarement au précédent. 9 X n

120 Etude de la convergence en norme du processus (X n On note et on a : β n = X n, BX n M X n 2 M λ = B M On supprme dans la sute l écrture de M dans le produt scalare et la norme. On a : Or : Donc : X n+ = (I + a n (B β n I X n X n+ 2 = X n 2 + 2a n X n, (B β n I X n + a 2 n (B β n I X n 2 X n, (B β n I X n = X n, BX n β n X n, X n = 0 X n+ 2 ( + 4 B 2 a 2 n Xn 2 X n+ 2 X n 2 ( + 4 B 2 = v a 2 n n = ( + 4 B 2 a 2 n = La sute (v n postve décrossante est convergente. S ( a2 n <, on a = + 4 B 2 a 2 <. Donc, X n converge. 5.2 Cas où la matrce B est nconnue 5.2. Processus de Krasulna On se place dans le cas où B = E [A] et B est symétrque. Sot (A,..., A n,... un échantllon..d. de A. On défnt le processus (X n dans R p tel que : ( X n+ = (I + a n A n X n, A n X n X n 2 I X n La convergence presque sûre de (X n vers un vecteur propre assocé à la plus grande valeur propre de B est étable dans (Krasulna 970 en utlsant une technque d optmsaton stochastque Travaux effectués On se place dans le cas où B est une matrce M -symétrque. Sot (T n une sute crossante de sous-trbus. On suppose que l on dspose de deux sutes de matrces aléatores (B n et (M n telles que E [B n /T n ] B p.s., M n est T n -mesurable, M n M p.s. On défnt le processus (Xn,..., Xn r dans (R p r tel que, pour n : ( (I + a n Y n+ = B n X n, B n Xn M Xn 2 M n ( X n+,..., Xn+ r = orthm (Y n n+,..., Yn+ r n I X n, =,..., r La démonstraton de la convergence de ce processus est fate dans (Bouamane et Monnez

121 6 Généralsaton Après le processus de Benzécr, d autres processus ont été défns, chacun fasant l objet d une étude spécfque de la convergence. Par exemple : a le processus de Krasulna, défn précédemment (970 ; b le processus de Shmura-Ima (973 ; c le processus de Oja-Karhunen (985. Ces processus peuvent être consdérés comme des cas partculers du processus général suvant, défn et étudé dans (Bouamane et Monnez 997. Sot B une matrce M -symétrque d ordre p. Sot (T n une sute crossante de sous-trbus. On suppose que l on dspose de deux sutes de matrces aléatores (B n et (M n telles que E [B n /T n ] B p.s., M n est T n -mesurable, M n M p.s. Sot (F n une sute de fonctons aléatores de R p dans R. On défnt le processus (X n,..., X r n dans (R p r tel que, pour n : Y n+ = ( ( ( I + a n Bn F n X n I X n, =,..., r ( X n+,..., Xn+ r = orthm (Y n n+,..., Yn+ r En outre, des processus d estmaton des valeurs propres sont défns dans (Bouamane et Monnez Domane d applcaton On peut défnr des processus d estmaton en lgne des facteurs pour les méthodes usuelles d analyse factorelle placées dans un cadre probablste. Analyse factorelle d un vecteur aléatore Le cas de l analyse en composantes prncpales d un vecteur aléatore, qu a été exposé précédemment, est traté dans (Monnez 994. Dans le cas où l ensemble des composantes du vecteur aléatore peut être dvsé en groupes de composantes auxquels on veut donner la même mportance, les méthodes suvantes ont été étudées dans (Monnez 994, 2006 : a l analyse factorelle des correspondances multples ; b l analyse factorelle multple ; c l analyse canonque généralsée. Analyse factorelle d une espérance condtonnelle Etant donné un vecteur aléatore X dans R p et un vecteur aléatore Y dans R q, on veut effectuer une analyse factorelle de l espérance condtonnelle E [Y/X] = h(x. Le cas de l analyse en composantes prncpales projetée, qu rentre dans ce cadre, est étudé dans (Monnez 998. Cette méthode admet pour cas partculer l analyse canonque, qu admet elle-même pour cas partculers l analyse factorelle dscrmnante et l analyse factorelle des correspondances. Analyse factorelle d un résdu 2

122 Etant donné un vecteur aléatore X dans R p et un vecteur aléatore Y dans R q, on veut effectuer une analyse factorelle du résdu Y E [Y/X]. Le cas de l analyse en composantes prncpales partelle, qu rentre dans ce cadre, est étudé dans (Monnez References [] Agular-Ruz, J.S. (2006, Recent advances n data stream mnng, 38 èmes Journées de Statstque de la SFDS (Clamart. [2] Benzécr, J.P. (969, Approxmaton stochastque dans une algèbre normée non commutatve, Bull. Soc. Math. France 97, [3] Bouamane, A. (986, Analyse factorelle séquentelle par approxmaton stochastque, thèse de doctorat de l Unversté de Nancy. [4] Bouamane, A. (996, Méthodes d approxmaton stochastque en analyse des données, thèse de doctorat d Etat ès Scences Applquées (Unversté Mohammed V, EMI, Rabat. [5] Bouamane, A., Monnez, J.M. (997, Convergence d une classe de processus d approxmaton stochastque de vecteurs propres, Pub. Inst. Stat. Unv. Pars XXXXI, fasc. -2, [6] Bouamane, A., Monnez, J.M. (998, Approxmaton stochastque de vecteurs et valeurs propres, Pub. Inst. Stat. Unv. Pars XXXXII, fasc. 2-3, [7] Krasulna, T.P. (970, Method of stochastc approxmaton n the determnaton of the largest egenvalue of the mathematcal expectaton of random matrces, Automaton and Remote Control 2, [8] Lebart, L. (974, On the Benzécr s method for computng egenvectors by stochastc approxmaton (the case of bnary data, Proceedngs n Computatonal Statstcs, Physca Verlag, Venne, [9] MacQueen, J. (967, Some methods for classfcaton and analyss of multvarate observatons, Proceedngs of the 5 th Berkeley Sumposum on Probablty and Statstcs, [0] Monnez, J.M. (982, Etude d un processus général multdmensonnel d approxmaton stochastque sous contrantes convexes, applcatons à l estmaton statstque, thèse de doctorat d Etat ès Scences Mathématques (Unversté de Nancy. [] Monnez, J.M. (994, Convergence d un processus d approxmaton stochastque en analyse factorelle, Pub. Inst. Stat. Unv. Pars XXXVIII, fasc., [2] Monnez, J.M. (998, Approxmaton stochastque d analyses en composantes prncpales, CIMASI 98 (Casablanca. 22

123 [3] Monnez, J.M. (2002, Méthode séquentelle d analyse en composantes prncpales partelle, CIMASI 2002 (Casablanca. [4] Monnez, J.M. (2006, Approxmaton stochastque en analyse factorelle multple, Pub. Inst. Stat. Unv. Pars L, fasc. 3, [5] Monnez, J.M. (2006, Stochastc approxmaton of the factors of a generalzed canoncal correlaton analyss, soums. [6] Monnez, J.M. (2007 Analyse en composantes prncpales d un flux de données d espérance varable dans le temps, soums. [7] Oja, E., Karhunen, J. (985, On stochastc approxmaton of the egenvectors and egenvalues of the expectaton of a random matrx, Journ. Math. Anal. Applc. 06, [8] Shmura, M., Ima, T. (973, Nonsupervsed classfcaton usng the prncpal component, Pattern Recognton 5, Jean-Mare Monnez Insttut Ele Cartan UMR 7502 Nancy-Unversté, CNRS, INRIA BP F Vandoeuvre-lès-Nancy Cedex monnez@ecn.u-nancy.fr 23

124 Estmaton dans les modèles mxtes Applcaton à la modélsaton de l nfecton par le VIH Adelne Samson Laboratore MAP5, Unversté Pars Descartes (Pars 5 Introducton Parm les grands problèmes actuels de recherche bomédcale, la prse en charge thérapeutque des malades chronques (nfecton par le vrus de l mmunodéfcence humane, par les vrus d hépattes, cancer, affectons rhumatsmales... tent une place majeure. L évaluaton de ces tratements repose sur l analyse statstque de données longtudnales représentant, au cours du temps et pour chaque ndvdu, un crtère prncpal qu peut être le nombre de vrus dans le sang dans les nfectons vrales, la talle des tumeurs dans les cancers, etc. L évoluton du processus observé est en général smlare chez tous les patents. Les données sont donc décrtes par un même modèle paramétrque, mas chaque courbe ndvduelle est paramétrsée par ses propres paramètres, qu fluctuent autour d une valeur moyenne de populaton. Les modèles à effets mxtes ont été développés à cet effet. L ntérêt de ces modèles provent notamment du fat qu ls dstnguent deux sources de varablté : une varablté entre les ndvdus, dte nter-sujet et une varablté des données au cours du temps pour un même ndvdu, dte ntrasujet. Cec permet d évaluer la dstrbuton des paramètres du processus bologque étudé au sen de l ensemble de la populaton en consdérant dans le modèle statstque les paramètres ndvduels comme des varables aléatores (effet aléatore centrées autour de la valeur moyenne (effet fxe de la populaton. On note y j la donnée observée de l ndvdu ( =,..., N à l nstant t j (j =,..., n. On suppose qu l exste une relaton non-lnéare, décrte par la foncton f, entre ces observatons et le vecteur des paramètres ndvduels φ : y j = f(φ, t j + ε j, où ε j représente l erreur résduelle du sujet au temps t j, qu, pour tout et j, est ndépendamment et dentquement dstrbuée dans une lo normale de moyenne nulle et de varance σ 2. On suppose que le vecteur φ est la réalsaton d une varable aléatore gaussenne : φ = X µ + b avec b N (0, Ω, où µ est la matrce des effets fxes, X le vecteur des covarables connues, b le vecteur des effets aléatores, supposés ndépendants de ε et Ω la matrce de varance nter-ndvduelle des effets 24

125 aléatores. On s ntéresse dans ce cas à l estmaton du vecteur θ = (µ, Ω, σ 2 Θ où Θ est un sous-ensemble de R p. L estmaton de θ par maxmsaton de la vrasemblance est non trvale mas a été largement étudée. Ces travaux sont fondés sur l algorthme d estmaton par maxmum de vrasemblance SAEM, une verson stochastque de l algorthme Expectaton-Maxmsaton (EM adaptée et développée par Delyon et al. [2] et Kuhn et Lavelle [8] dans le cadre des problèmes nverses ou à données manquantes. Les modèles à effets mxtes rentrent dans ce cadre : on consdère que les données observées y, de dstrbuton p(y; θ, sont en fat ssues de l observaton partelle du jeu de données complet contenant les données observées y et des données manquantes φ = (φ,..., φ N avec (y, φ p(y, φ; θ. L algorthme EM, ntrodut par Dempster, Lard et Rubn [3], repose sur le calcul de l espérance condtonnelle de la log-vrasemblance complète par rapport aux données observées y : Q(θ θ = E(log p(y, φ; θ y; θ. A l tératon k, cet algorthme est réalsé en deux étapes : premèrement, on calcule l espérance condtonnelle de la log-vrasemblance complète Q(θ θ k (étape E; deuxèmement on détermne θ k+ en maxmsant Q(θ θ k en θ (étape M. Pour des modèles de type exponentel et sous des hypothèses générales de régularté, on obtent la convergence de la sute (θ k k vers un pont crtque de la vrasemblance observée p(y; θ [2, 2]. Dans de nombreuses stuatons, l étape E ne peut être réalsée de façon exacte, c est en partculer le cas pour les modèles non-lnéares mxtes. On a alors recours à une verson stochastque appelée SAEM (Stochastc Approxmaton EM, proposée par Delyon et al. [2]. Cet algorthme calcule la foncton Q de l étape E par approxmaton stochastque au cours de deux étapes : la premère smulant les données manquantes φ (k dans la lo condtonnelle de φ sachant y et la valeur courante des paramètres θ k, et une deuxème étape d approxmaton stochastque effectuée comme sut : Q k+ (θ = Q k (θ + γ k (log p(y, φ (k ; θ k Q k (θ, où (γ k k est une sute décrossante de pas postfs. L étape de maxmsaton est nchangée. La convergence de la sute (θ k k vers un maxmum local de la vrasemblance observée a été démontrée sous des hypothèses générales de régularté par Delyon et al. [2]. Cependant, excepté dans le cas des modèles lnéares ou gaussens, l est souvent mpossble de smuler un échantllon de données manquantes φ (k sous la dstrbuton condtonnelle p(φ y, θ. Kuhn et Lavelle [8, 7] ont proposé d ntrodure une méthode de Monte Carlo par chaînes de Markov pour réalser cette étape de smulaton. Ils ont étendu les résultats de convergence de Delyon et al. [2] à cet algorthme. 25

126 Nous présentons c le développement de l algorthme SAEM pour l analyse de données longtudnales par modèles non-lnéares à effets mxtes, en partculer dans un domane d applcaton spécfque : la modélsaton de la dynamque vrale sous tratement dans l nfecton par le vrus de l mmunodéfcence humane (VIH. Avant l ntaton d un tratement, cette nfecton se tradut notamment par une concentraton de vrus dans le sang (charge vrale élevée et un fable nombre de cellules mmuntares lymphocytes T CD4 +. A l ntaton du tratement, la dynamque vrale se modfe, la charge vrale décroît et la concentraton de CD4 + augmente. L effcacté des tratements ant-rétrovraux est donc évaluée à partr d observatons de l évoluton smultanée de ces deux marqueurs bologques au cours du temps. Cette analyse est complquée par pluseurs problèmes, qu sont résumés c-dessous. 2 L algorthme SAEM pour la comparason de groupes dans l analyse de données longtudnales Après l ntaton d un tratement ant-vih, la décrossance de la charge vrale est réalsée en deux phases et est fréquemment décrte par un modèle b-exponentel proposé par Dng et Wu [4]. Un tratement ant-vih effcace se tradut en partculer par une forte décrossance lors de la premère phase. La comparason de l effcacté de deux tratements ant-vih peut donc être réalsée à partr de l analyse de l ensemble des données longtudnales de charge vrale, en testant une dfférence d effet du tratement sur la premère pente de la décrossance. Nous avons développé des tests de Wald et du rapport de vrasemblance fondés sur l algorthme SAEM permettant de comparer l effet d une covarable sur le vecteur µ à partr de l analyse de données longtudnales par modèle mxte. La matrce de Fsher, utlsée pour le test de Wald, est estmée par approxmaton stochastque en utlsant le prncpe de Lous [9] relant les fonctons du gradent et hessenne de la vrasemblance observée p(y; θ et celles de la vrasemblance des données complètes p(y, x; θ. La vrasemblance, utlsée pour le test du rapport de vrasemblance, peut être évaluée par méthode de Monte-Carlo mas cet estmateur a alors une grande varance. Pour rédure cette varance, nous avons proposé de l estmer par échantllonnage préférentel : log p T (y; θ = T T t= p(y x (t ; θp(x (t ; θ h(x (t ; θ où x (t h( ; θ, h étant une lo nstrumentale à chosr avec son en foncton du modèle. Dans le cas où la covarable consdérée est l appartenance à un groupe de tratement, nous avons également proposé une méthode de calcul du nombre de sujets nécessares pour assurer une pussance fxée à un test de Wald d effet tratement. Cette méthode permettant la planfcaton d essas clnques est de premer ntérêt pour les clncens []. 26

127 3 Extenson de l algorthme SAEM pour l analyse de données censurées à gauche Cependant l analyse de données de charge vrale est complquée par l exstence d une censure de la mesure de ce marqueur. Lorsque le nombre de vrus est trop fable, sa concentraton dans le sang ne peut pas être mesurée précsément. Dans ce cas, les apparels de mesure utlsés permettent seulement de savor que la charge vrale est nféreure à un seul de détecton, mas sans connaître sa valeur exacte. Cette censure, s elle n est pas prse en compte dans l analyse statstque des données de charge vrale, ndut un bas dans l estmaton des paramètres du modèle. En présence de données censurées de la charge vrale, on note LOQ la lmte de quantfcaton. On défnt les ensembles I obs = {(, j y j LOQ} et I cens = {(, j y j LOQ} d observatons observées et censurées respectvement. Les données observées sont alors les suvantes : { yj obs yj s (, j I = obs LOQ s (, j I cens. Nous avons proposé une extenson de l algorthme SAEM ntégrant un algorthme de Gbbs hybrde de smulaton des données censurées [0]. Nous avons montré la convergence de ce nouvel algorthme. Nous avons llustré sur une étude de smulaton que cette méthode s affrancht de ce bas, contrarement aux méthodes actuellement consellées (omsson des données censurées, mputaton à une valeur arbtrare. Nous avons également adapté les tests de Wald et du rapport de vrasemblance de l effet d une covarable sur µ et llustré leurs proprétés statstques dans le cadre de la comparason de deux tratements ant-vih. L utlsaton de cette méthode de modélsaton pour l analyse de la décrossance de charge vrale d un essa clnque de l Agence Natonale de Recherche sur le Sda (ANRS a ms en évdence une melleure réponse des patents à l un des deux tratements comparés, ce qu n a pas pu être montré par une approche classque. 4 Estmaton des paramètres de modèles mxtes défns par des systèmes dynamques Les tratements ant-rétrovraux étant de plus en plus effcaces, la charge vrale sous tratement devent de plus en plus fable et la part de données de charge vrale censurées augmente. Une évaluaton à long terme des tratements ne peut donc pas reposer unquement sur l analyse de ce marqueur, et dot également s appuyer sur l évoluton de la concentraton de cellules lymphocytes T CD4 +, qu est corrélée à celle de la charge vrale. La dynamque conjonte de ces deux marqueurs est décrte par des systèmes dfférentels complexes, sans solutons analytques. Dans ce cadre, la foncton de régresson f : R R k R d du modèle non-lnéare mxte est 27

128 défne comme la soluton de l équaton dfférentelle ordnare suvante f(t, φ = F (f(t, φ, t, φ ( t f(t 0, φ = f 0 (φ où la foncton F : R d R R k R d est connue ans que la condton ntale f 0 (φ R d, t [t 0, T ]. Nous avons consdéré l estmaton des paramètres de ces modèles à la fos par maxmum de vrasemblance, mas également par approche bayesenne en consdérant une lo a pror sur le paramètre θ [5]. Nous avons proposé deux algorthmes d estmaton adaptés à ces modèles, un algorthme SAEM pour l approche par maxmum de vrasemblance et un échantllonneur de Gbbs pour l approche bayesenne. En partculer, nous avons développé un nouveau schéma de lnéarsaton locale pour la résoluton d équatons dfférentelles, schéma fondé sur une lnéarsaton par rapport au temps et aux paramètres de l équaton dfférentelle. Ce schéma permet d optmser le temps de calcul de l algorthme de marche aléatore de Metropols-Hastngs ntégré dans ces deux algorthmes d estmaton. Nous avons montré la convergence de ce nouveau schéma de lnéarsaton locale et celle des deux algorthmes d estmaton. Nous avons ensute proposé une borne de l erreur d estmaton due à l utlsaton d une méthode numérque de résoluton de système dfférentel, en foncton du pas de cette approxmaton. Ce résultat n avat jamas été proposé dans la lttérature. Nous avons llustré cette méthode sur des données de pharmacocnétque (étude de la relaton entre la dose admnstrée d un médcament et sa concentraton dans l organsme smulées à partr d une équaton dfférentelle de dmenson un. 5 Estmaton des paramètres de modèles mxtes défns par des processus de dffuson Dans certans cas, les versons détermnstes de ces équatons dfférentelles sont nadéquates et ne permettent pas une modélsaton satsfasante des processus bologques étudés. En partculer, elles sont souvent trop rgdes par rapport aux perturbatons observées dans la réalté. L ntroducton d une varablté supplémentare dans le système dfférentel, aboutssant ans à des systèmes dfférentels stochastques, permet de prendre en compte ces perturbatons. Ces modèles permettent en partculer de représenter les erreurs résduelles corrélées dans le temps, dues par exemple à une mauvase spécfcaton du modèle, à des erreurs sur les temps de prélèvements, les doses, etc. On s ntéresse alors à l estmaton des paramètres d un modèle mxte dont la foncton de régresson f est un processus de dffuson défn par une équaton dfférentelle stochastque : dz(t = F (Z, t, φ dt + γdw (t, Z(t 0, Φ = Z 0 (φ, 28

129 où W est un mouvement brownen, F est la foncton de dérve connue, t [0, T ] et γ est le coeffcent de volatlté à estmer. Nous avons développé deux méthodes d estmaton adaptés à ces modèles, un algorthme SAEM pour l approche par maxmum de vrasemblance et un échantllonneur de Gbbs pour l approche bayesenne [6]. La méthode d Euler-Maruyama est utlsée pour approcher le processus de dffuson. Nous avons montré la convergence de ces algorthmes. A partr de résultats proposés par Bally et Talay [], nous avons proposé une borne de l erreur sur la vrasemblance due à l approxmaton d Euler-Maruyama en foncton du pas de la dscrétsaton. La précson de la méthode d estmaton SAEM est llustrée par une étude sur données smulées à partr d un modèle dfférentel à une dmenson de pharmacocnétque. L analyse des données réelles de la pharmacocnétque de la théophyllne (médcament ant-asthmatque llustre la pertnence de l approche stochastque par rapport à l approche détermnste, les courbes ndvduelles étant meux prédtes par le modèle dfférentel stochastque. 6 Concluson Nous avons proposé des méthodes d estmaton adaptées à l analyse de données longtudnales par modèles mxtes. Ces méthodes sont basées sur dfférents algorthmques stochastques dont nous avons étudé les proprétés de convergence. Cette méthodologe a été applquée en partculer pour la modélsaton de la dynamque vrale dans l nfecton par le VIH. Ces méthodes sont également applcables aux études pharmacodynamques mses en place dans d autres affectons chronques (hépattes, cancer, etc. De plus, l analyse d études pharmacocnétques condusant à ces mêmes problématques, l ensemble de nos résultats peut être utlsé dans ce domane. References [] V. Bally and D. Talay. The Euler scheme for stochastc dfferental equatons: error analyss wth Mallavn calculus. Math. Comput. Smulaton, 38:35 4, 995. Probabltés numérques (Pars, 992. [2] B. Delyon, M. Lavelle, and E. Moulnes. Convergence of a stochastc approxmaton verson of the EM algorthm. Ann. Statst., 27:94 28, 999. [3] A. P. Dempster, N. M. Lard, and D. B. Rubn. Maxmum lkelhood from ncomplete data va the EM algorthm. J. R. Stat. Soc. B, 39: 38, 977. [4] A.A. Dng and H. Wu. Assessng antvral potency of ant-hiv therapes n vvo by comparng vral decay rates n vral dynamc models. Bostatstcs, 2:3 29, Mar

130 [5] S. Donnet and A. Samson. Estmaton of parameters n msng data models defned by dfferental equatons. J. Stat. Plan. Inference, 37:285 3, [6] S. Donnet and A. Samson. Parametrc nference for mxed models defned by stochastc dfferental equatons. ESAIM PS, [7] E. Kuhn and M. Lavelle. Couplng a stochastc approxmaton verson of EM wth a MCMC procedure. ESAIM Probab. Stat., 8:5 3, [8] E. Kuhn and M. Lavelle. Maxmum lkelhood estmaton n nonlnear mxed effects models. Comput. Statst. Data Anal., 49: , [9] T. A. Lous. Fndng the observed nformaton matrx when usng the EM algorthm. J. R. Stat. Soc. B, 44: , 982. [0] A. Samson, M. Lavelle, and F. Mentre. Extenson of the SAEM algorthm to left-censored data n non-lnear mxed-effects model: applcaton to HIV dynamcs model. Comput. Statst. Data Anal., 5: , [] A. Samson, M. Lavelle, and F. Mentré. The SAEM algorthm for group comparson tests n longtudnal data analyss based on non-lnear mxed-effects model. Statst. Med., 26: , [2] C.F. Wu. On the convergence propertes of the em algorthm. Ann. Statst., :95 03,

131 Maxmum lkelhood estmaton for a gene regulatory network defned by dfferental equatons Nada Lalam Chalmers Unversty of Technology Department of Mathematcal Scences, SE Gothenburg, Sweden lalam@math.chalmers.se Abstract Inferrng the relatonshps between genes nteractng n a regulatory network presents a fundamental challenge n modern genomcs. Gene regulaton may be modelled by a set of determnstc dfferental equatons descrbng the tme rate evoluton of the gene product concentratons, and contanng parameters accountng for the regulatory relatonshps occurrng n the gene network. We present maxmum lkelhood based estmators of the parameters arsng n ths formalsm and prove that they have desrable propertes. Our results may be appled to a gene regulaton model yeldng the early Drosophla segments formaton relyng on a statstcal modellng of gene expresson data obtaned by confocal laser scannng mcroscopy. The proposed statstcal model accounts for the uncertanty n the measurement of gene expresson and the uncertanty n the tme at whch the measurements are performed. Keywords: Dfferental equatons, Gene regulatory networks, Maxmum lkelhood estmaton Introducton A gene s made up of three man parts, two of whch are regulator sectons. Between these two regulator sectons s the secton that provdes the code for a proten. A regulatory nteracton between a gene and a set of other genes s formed when the proten produced by the gene bnds the other genes DNA regulatory sequences and affects ther expresson. These protens are called transcrpton factors. The regulaton of gene expresson s acheved through regulatory systems structured by networks of nteractons between DNA, protens and small molecules. Analyss of 3

132 gene regulaton mechansms through qualtatve and quanttatve studes has known a strong mpetus n modern computatonal bology and s mportant for understandng the functonng of organsms at the molecular level. De Jong et al. (2002 revewed mathematcal formalsms used for the analyss of gene regulatory networks. Several formalsms have been proposed, and they are from very dfferent forms allowng qualtatve or quanttatve descrptons. They may be dscrete, contnuous, stochastc or determnstc. We wll descrbe n secton 2 some of the models used for studyng gene regulatory networks. For more detals, see de Jong et al. (2002. We wll focus our attenton on the partcular formalsm of determnstc dfferental equatons. Wthn ths framework, we am at nference of the gene network from expermental data by quantfyng gene-gene nteractons wth regulatory strengths summarzed n a regulatory matrx. Secton 3 wll descrbe the proteomc data used to make nference. The gene regulatory network model wll be descrbed n secton 4. The statstcal nference of the unknown parameters of the model wll be treated n secton 5. Secton 6 wll be devoted to an example of applcaton of the proposed method. 2 Mathematcal formalsms for gene regulatory networks Boolean networks are dscrete qualtatve models whch have been wdely used to model gene regulatory networks because of the smplcty of ther formulaton. The state of a gene from the network s assumed to be a Boolean varable whose value represent whether the gene s actve or nactve. The actvated functon of each gene s a Boolean functon, whch depends on the values of the N elements that partcpate n the regulatory network. For example, an actvated functon f l ( may be defned by f l (x = ( N k= W lkx k h l > 0, where l {,...,N} and where x = (x,...,x N {0, } N represents the state vector that, at a gven tme, ndcates the actvty of the N elements that conform the regulatory network. If the sgn of W lk s postve, then the actvaton of the gene assocated to gene k allows the actvaton of the element assocated to gene l, and the opposte otherwse. For each such Boolean functon, the weghts 32

133 W lk and the threshold value h l are not unque, however the sgn of each coeffcent W lk s unquely determned. Boolean networks are dynamc models whch may be ether synchronous or asynchronous,.e. the element values are ether updated at the same tme or at dfferent (possbly stochastc tmes. Drected graphs are statc qualtatve models whch are used to descrbe how genes nteract wthn a regulatory network. A drected graph s defned by a set of edges and a set of nodes. Nodes represent genes, and drected edges ndcate the nteractons occurrng between the genes. Several databases, such as KEGG, RegulonDB, or amaze contan catalogs of drected graphs representng gene networks. Dynamc Bayesan networks are probablstc models whch are more and more used to represent gene regulatory networks (Zou and Conzen, They are formed by nodes and edges representng stochastc dependences between them. Nodes of the network account for random varables descrbng gene expresson levels. Condtonal dstrbutons of the nodes, gven ther drect parents, represent the random relatonshps wthn the network. Stochastc models, descrbed by so-called stochastc master equatons, have been developped n the context of gene regulaton. In ths formalsm, the state varables of the model are the numbers of the dfferent molecules nteractng n the network at the cellular level. Denote by P(X, t the probablty that X molecules are present n the cell at tme t, wth X = (X,...,X N beng the state vector of the elements consttutng the network. Assume that r chemcal reactons are possble between these molecules. The state of the system at tme t + t s defned by P(X,t + t = P(X,t( r α l t + l= r β l t, l= where α l t s the probablty that reacton l occurs durng [t,t+ t] gven that X molecules are present at tme t, and β l t represents the probablty that the system s one l reacton removed from the state X at tme t and then undergoes l n [t,t + t]. Lettng t tend to 0 provdes the followng master stochastc equaton: P(X,t t = r (β l α l P(X,t. l= 33

134 Ths equaton descrbes how the probablty of the system beng n a certan state changes wth tme. The formalsm that we wll use to analyze a gene regulatory system, conssts of a set of coupled nonlnear ordnary dfferental equatons (ODE s satsfed by the gene product concentratons nsde the cells of the organsm under study. The ODE formalsm models the concentratons of the elements of the network by tme-dependent varables. Regulatory nteractons are accounted for by functonal and dfferental relatons between the concentraton varables. 3 Gene expresson data Performng a spatal and temporal study of gene regulaton n stu s mportant. To acheve ths, confocal laser scannng mcroscopy s partcularly adapted. The expermental gene expresson data that we consder, are obtaned wth ths methodology. The raw gene expresson data set conssts of mcrophotographs at the resoluton of a cell nucleus, of organsms (Drosophla embryos n the example from Fgure staned at dfferent tmes. Wth the current measurng devce, three gene products at most may be staned at a tme on a fxed tssue whereas the regulatory network may contan many more nteractng genes. A mcrophotograph s an mage of the concentratons of three gene products n each cell of the organsm under study. The observed stanng ntensty s converted through proportonalty constants nto numercal data ndcatng the concentratons of the staned gene products wthn each cell. These quanttatve gene expresson data, whch are n relatve unts due to the stanng converson, are used for nferrng the regulatory nteractons between genes. 4 Gene regulatory network model Let N g be the number of genes nteractng n the network. Denote by g kl (t;θ the concentraton of gene product l, l N g, n cell k, k K, at tme t and let g(t;θ denote the vector (g kl (t;θ, k K, l N g, where θ s the unknown fnte-dmensonal parameter of nterest accountng for the relatonshps between genes n the network. 34

135 Fgure : Drosophla embryo staned for the three genes even-skpped (red, knrps (green, and hunchback (blue. Mcrophotograph obtaned by confocal laser scannng mcroscopy. Davd Kosman and John Rentz, c 997 and 998. We assume that the gene product concentratons g kl (t;θ satsfy, for all k K and l N g, the followng ODE s: dg kl (t;θ dt = σ kl (g(t;θ,u(t,θ, for all t t 0, ( wth the gene product concentratons g kl (t 0 ;θ ndependent of θ at the startng tme t 0, and wth u( an nput functon. The goal s estmaton of the true parameter value θ 0. 5 Statstcal approach 5. Statstcal modellng We develop a statstcal model for the gene expresson data dvded nto d groups. The data n a group correspond to the ndvdual organsms that belong to the same temporal class, and that are staned for the same gene products. The data n each group, d, are vewed as realzatons of..d. random varables X j, j n, dstrbuted accordng to some unknown dstrbuton F (. Each X j s a table (X jkl k,l where k ndexes the cells and l ranges over the subset of staned gene products. The vector of functons g θ = (t g kl (t;θ : t t 0, k K, l N g 35

136 denotes the soluton of system ( under parameter value θ and wth gven ntal condtons. The mcrophotograph of ndvdual j, j n, of group, d, contans only lmted nformaton about g θ : t yelds measurements x jkl of g kl (t ;θ, k K, l L, where L {,...,N g } s the subset of staned gene products n group, and t s the ntended tme of observaton. We vew these measurements x jkl as realzatons of X jkl, where X jkl = g kl (t + τ δ δ j ;θ + τ ε ε jkl, l L, k K, j n, d, wth ε jkl and δ j random errors wth varance, and wth τ ε and τ δ the unknown standard devatons of the errors n gene product concentraton and tme determnaton respectvely. Usng the lnear Taylor approxmaton g kl (t + τ δ δ j ;θ g kl (t ;θ + σ kl (t ;θτ δ δ j wth σ kl (t ;θ = σ kl (g(t ;θ,u(t,θ the rght-hand sde of ( at tme t, our statstcal model reads X jkl = g kl (t ;θ + σ kl (t ;θτ δ δ j + τ ε ε jkl, (2 where all ε jkl are assumed to be..d. wth unknown densty functon f( wth varance, and all δ j are..d. wth unknown densty functon p( wth varance. We also assume that ε jkl and δ j are ndependent and centered wth mean 0. Wthn the model gven by ( and (2, we am at estmatng the true value of the parameter γ = (θ,τε 2,τδ 2 whch belongs to some set Γ. 5.2 Inference of the parameters We use a lkelhood based method to nfer the parameter value. The lkelhood of (X jkl,j,k,l s d n = j= K [ R k= l L f( X jkl g kl (t ;θ σ kl (t ;θτ δ y ]p(ydy. τ ε Snce f( and p( are unknown, we estmate the true value of the parameter γ, denoted by γ 0, by usng the maxmum lkelhood method when 36 τ ε

137 replacng the denstes f( and p( n the above lkelhood functon by the standard normal densty functon φ(x = (2π /2 exp( x 2 /2. Let N = d = n be the number of observed organsms and assume henceforth that lm N n /N = p > 0, for all d. The maxmum lkelhood estmator (MLE γ N = ( θ MLE N, τ 2 MLE ε N the lkelhood based cost functon M N (γ = /N d = m (X j,γ = (K L log τ 2 ε + τ 2 ε τ2 δ [ K k= K, τ δ 2 MLE N of γ 0 mnmzes n j= m (X j,γ wth (X jkl g kl (t ;θ 2 k= l L l L (X jkl g kl (t ;θσ kl (t ;θ] 2 l L σ 2 kl (t ;θ τε 2 (τε 2 + τδ 2 K k= K + log (τε 2 + τδ 2 σkl(t 2 ;θ. k= l L When the tme measurement s assumed to be performed wthout error, MLE.e. τ δ = 0, then the MLE θ N reduces to the ordnary least squares estmator classcally used for parameter estmaton of dfferental equatons. 5.3 Asymptotc propertes By the strong law of large numbers, M N (γ converges a.s. under the true parameter value γ 0 to some functon M(γ;γ 0. Defne Γ 0 = {γ Γ : γ mnmzes M(γ;γ 0 }. Ths set contans γ 0, and f t conssts of the sngleton {γ 0 }, then the statstcal model s locally dentfable. Consstency. If the functons σ kl (,, are Lpschtz contnuous n ther frst and thrd argument wth Lpschtz constants ndependent of the second argument, and f γ 0 belongs to a compact subset of Γ, then the MLE s consstent n the sense that, for all ε > 0, lm P γ 0 ( nf d( γ N,γ ε = 0. N γ Γ 0 If Γ 0 = {γ 0 }, then γ N s weakly consstent under γ 0 n the classcal sense,.e. for all ǫ > 0, lm P γ 0 (d( γ N,γ 0 ǫ = 0. N 37

138 N-consstency. Let Γ0 = {γ 0 } hold and let the functons σ kl (,, be twce contnuously dfferentable n ther frst and thrd argument wth ther frst and second dervatves bounded unformly n the second argument of σ kl (,,. Then the matrx of second dervatves of d = p m (X j,γ w.r.t. γ at γ = γ 0 exsts a.s. and has fnte expectaton -I(γ 0 under γ 0. If γ N s weakly consstent under γ 0 and the Fsher nformaton matrx I(γ 0 s nonsngular, then γ N s N-consstent at γ 0,.e. lm M lm sup P γ0 ( Nd( γ N,γ 0 > M = 0. N The proofs of these results are gven n Lalam and Klaassen (2006. Because of the system (, dervng the value of the MLE s typcally very complex. Therefore, t may be obtaned va Smulated Annealng (Krkpatrck et al., 983, a stochastc optmzaton algorthm ntroduced n ths settng by Rentz and Sharp (995: an ntal approxmate soluton s repeatedly mproved by makng small local alteratons untl no such alteraton yelds a better approxmate soluton, these alteratons beng stochastcally drven. 6 Applcaton: Drosophla segmentaton We consder the model of Mjolsness et al. (99 for the gene regulatory network controllng the segmentaton mechansm of the Drosophla embryo. Concentratons of regulatory protens are assumed to change accordng to exstng concentratons of regulators, exchange of regulatory molecules between nucle by dffuson, and decay. Mjolsness et al. (99 noted that the expresson level of segmentaton genes s approxmately a functon of the poston along the antero-posteror axs of the trunk regon of the embryo so that one can approxmate the regon of nterest for the emergence of Drosophla segmentaton patterns by a lne of K equally spaced nucle. The gene product concentratons g kl (t are assumed to satsfy ths set of ODE s: dg kl (t dt N g = R l Φ( W ll g kl (t + m l g k bcd (t + h l (3 l = +D l [g k l (t 2g kl (t + g k+ l (t] λ l g kl (t. 38

139 System (3 fts nto ( wth θ = ((R l,m l,h l,d l,λ l l Ng, (W ll l,l N g. The terms at the rght-hand sde of (3 account for: Gene regulaton and proten synthess: The nteracton between genes l and l s represented by a sngle real number W ll correspondng to a connecton strength. (W ll l,l N g s the matrx of genetc regulatory coeffcents: f the product of gene l actvates gene l, then W ll s postve; f the product of gene l represses gene l, then W ll s negatve; f genes l and l do not nteract, then W ll = 0. The bas term m l g k bcd (t arses from the bcod proten (bcd, where g k bcd ( are nput functons. Φ( s a known one-to-one sgmodal functon tendng to 0 (resp. at low (resp. hgh values and t accounts for the nonlnearty of the model. The constant h l s the actvaton threshold summarzng the effect of general transcrpton factors on the product of gene l. R l s the maxmum expresson rate of gene l. Dffuson: Between pars of adjacent nucle, dffuson of gene products s assumed to occur proportonally to the concentraton dfferences g k+ l (t g kl (t, g kl (t g k l (t, the proportonalty constant beng the dffuson parameter D l. Degradaton: λ l s the decay rate of the product of gene l. In Jaeger et al. (2004, the onset of cleavage cycle 3 beng taken as the ntal tme-pont, a regulatory network of N g = 6 genes observed n K = 58 nucle s consdered leadng to a set of 6x58=348 dfferental equatons (3. Relyng on the statstcal modellng of the data at hand from ndvdual observatons (secton 3, we may defne the MLE whch mght ental a better summary of the nformaton contaned n the data than the classcally used least squares estmator. Indeed, the MLE proposed here presents the advantage that t takes nto account the mportant feature that the developmental stage to whch an embryo belongs s determned wth uncertanty. 7 Concludng remarks Future work conssts n relaxng the smplfyng assumptons on the measurement errors and n estmatng the score functon from the data, 39

140 MLE more precsely from the resduals x jkl g kl (t ; θ N. Dfferental equatons presuppose that concentratons of substances vary contnuously and determnstcally, both of whch assumptons may be questonable. It may therefore be of nterest to perform the analyss startng from an other modellng than (. Ths alternatve model should nvolve stochastc components, whch seems more realstc snce gene regulaton s ntrnscally nosy (Thatta and van Oudenaarden, 200. Acknowledgments. The author s grateful to Chrs Klaassen for hs gudance on the statstcal problem treated n ths study. The author thanks also Jaap Kaandorp and Joke Blom for suggestons about bologcal modellng ssues. References [] Jaeger, J., Surkova, S., Blagov, M., Janssens, H., Kosman, D., Kozlov, K. N., Manu, Myasnkova, E., Vanaro-Alonso, C. E., Samsonova, M., Sharp, D. H., Rentz, J., Dynamc control of postonal nformaton n the early Drosophla embryo, Nature, 430, , [2] De Jong, H., Modelng and smulaton of genetc regulatory systems: a lterature revew, J. Comput. Bol., 9, 67-03, [3] Krkpatrck, S., Gelatt, C., Vecch, M., Optmzaton by smulated annealng, Scence, 220, , 983. [4] Lalam, N., Klaassen, C. A. J., Pseudo maxmum lkelhood estmaton for dfferental equatons, EURANDOM Preprnt, , [5] Mjolsness, E, Sharp, D. H., Rentz, J., A connectonst model of development, J. of Theoretcal Bol., 52, , 99. [6] Rentz, J., Sharp, D. H., Mechansms of eve strpe formaton, Mechansms of Development, 49, 33-58, 995. [7] Thatta, M., van Oudenaarden, A., Intrnsc nose n gene regulatory networks, PNAS, 98, , 200. [8] Zou, M., Conzen, S. D., A new dynamc Bayesan network (DBN approach for dentfyng gene regulatory networks from tme course mcroarray data, Bonformatcs, 2, 7-79,

141 Représentatons de séquences bologques avec la Chaos Game Representaton Peggy Cénac (Unversté Pars 5, MAP5 Le développement actuel de la génétque et l accélératon des programmes de séquençage d organsmes bologques stmulent une recherche très actve sur l analyse de séquences d ADN. Il en découle des besons mportants de représentaton et de stockage, en partculer pour faclter la reconnassance de motfs et détecter des smlartés locales ou globales. C est dans ce contexte que peut être utlsée la Chaos Game Representaton (CGR. La Chaos Game Representaton. Défnton La Chaos Game Representaton est un système dynamque qu, à une séquence de lettres dans un alphabet fn, fat correspondre une trajectore dans un espace contnu (noté S, vore une mesure emprque sur un ensemble. L algorthme de représentaton assocé à la CGR est défn de la façon suvante. On consdère un alphabet fn A consttué de d lettres et une collecton de fonctons affnes {T u, u A}, lées à un facteur de contracton réel ρ et telles que T u (x = def ρ ( x + l u, u A, x S R q, l u R q. Sot U n = u... u n une sute de lettres de A. La CGR de la séquence U n sur l ensemble S est la sute de ponts {X 0,..., X n }, défne par une poston ntale arbtrare X 0 et par la relaton récursve def X n+ = T un+ (X n = ρ ( X n + l un+. (. Pour des séquences bologques, A peut être l alphabet des 4 nucléotdes ou l alphabet des 20 acdes amnés. Cette méthode tératve est applquée pour la premère fos aux séquences d ADN par Jeffrey [4]. Pour l ADN, les séquences sont composées de 4 lettres A (adénne, C (cytosne, G (guanne et T (thymne. 4

142 La défnton de Jeffrey est le cas partculer de la CGR obtenue en chosssant S = [0, [ 2, ρ = /2. De plus, les 4 lettres sont stuées aux quatre sommets du carré unté, avec l A = (0, 0, l C = (0,, l G = (,, l T = (, 0. La relaton (. s écrt alors X n+ = 2 (X n + l un+ avec X 0 = (,. Géométrquement, les nucléotdes sont placés de telle sorte que 2 2 les côtés horzontaux ndquent la composton en bases complémentares, tands que les dagonales représentent la composton en purne (A,G et pyrmdne (C,T. Avec ce chox d emplacement de lettres, un brn d ADN et son complémentare ont des représentatons CGR symétrques par rapport à l axe de symétre vertcal du carré. On construt la représentaton de la façon suvante. Le premer pont X 0 est placé au centre du carré. Pus, tératvement, le pont X n+ est placé au mleu du segment jognant X n et le sommet correspondant à la lettre u n+. La Fgure. llustre la constructon de la CGR pour le mot AT GCGAGT GT. On peut vsualser sur la Fgure.2 deux exemples de CGR de séquences d ADN de longueur Relaton entre CGR et comptage de mots On assoce au mot w = w... w m l ensemble Sw défn par m Sw = def ρ m k+ l wk + ρ m S. k= Il est équvalent de compter le nombre de ponts dans l ensemble Sw ou de compter le nombre d occurrences du mot w dans la séquence. En effet, Sw content tous les mots qu ont pour suffxe w. L une des proprétés mportantes de la CGR est que chaque pont X n de la représentaton content toute l hstore de la séquence X,..., X n. Comment utlser une telle mesure pour comparer deux séquences bologques de façon pertnente? Quel est le gan d nformaton de la CGR par rapport aux méthodes classques basées sur les comptages de mots?.3 Proprétés stochastques La sute de ponts défnssant la CGR forme une chaîne de Markov d ordre, quel que sot le nveau de dépendance dans la séquence aléatore U d éléments de 42

143 FIG.. Chaos Game Representaton des 0 premers nucléotdes du gène threonne thra de E. Col : ATGCGAGTGT. Les coordonnées de chaque nucléotde sont calculées récursvement à partr du pont ntal stué au centre du carré. La séquence est lue de gauche à drote. Le pont 3 correspond au premer mot de 3 lettres ATG. Il est stué dans le carré correspondant. Le second mot de 3 lettres TGC correspond au pont 4, etc. FIG..2 Chaos Game Representaton des premers nucléotdes du Chromosome 2 d Homo Sapens à gauche, et de Streptomyces Coelcolor sur la drote. 43

Remboursement d un emprunt par annuités constantes

Remboursement d un emprunt par annuités constantes Sére STG Journées de formaton Janver 2006 Remboursement d un emprunt par annutés constantes Le prncpe Utlsaton du tableur Un emprunteur s adresse à un prêteur pour obtenr une somme d argent (la dette)

Plus en détail

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS. ÉLÉMETS DE THÉORIE DE L IFORMATIO POUR LES COMMUICATIOS. L a théore de l nformaton est une dscplne qu s appue non seulement sur les (télé-) communcatons, mas auss sur l nformatque, la statstque, la physque

Plus en détail

Généralités sur les fonctions 1ES

Généralités sur les fonctions 1ES Généraltés sur les fonctons ES GENERALITES SUR LES FNCTINS I. RAPPELS a. Vocabulare Défnton Une foncton est un procédé qu permet d assocer à un nombre x appartenant à un ensemble D un nombre y n note :

Plus en détail

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage Fche n 7 : Vérfcaton du débt et de la vtesse par la méthode de traçage 1. PRINCIPE La méthode de traçage permet de calculer le débt d un écoulement ndépendamment des mesurages de hauteur et de vtesse.

Plus en détail

Les jeunes économistes

Les jeunes économistes Chaptre1 : les ntérêts smples 1. défnton et calcul pratque : Défnton : Dans le cas de l ntérêt smple, le captal reste nvarable pendant toute la durée du prêt. L emprunteur dot verser, à la fn de chaque

Plus en détail

COMPARAISON DE MÉTHODES POUR LA CORRECTION

COMPARAISON DE MÉTHODES POUR LA CORRECTION COMPARAISON DE MÉTHODES POUR LA CORRECTION DE LA NON-RÉPONSE TOTALE : MÉTHODE DES SCORES ET SEGMENTATION Émle Dequdt, Benoît Busson 2 & Ncolas Sgler 3 Insee, Drecton régonale des Pays de la Lore, Servce

Plus en détail

Editions ENI. Project 2010. Collection Référence Bureautique. Extrait

Editions ENI. Project 2010. Collection Référence Bureautique. Extrait Edtons ENI Project 2010 Collecton Référence Bureautque Extrat Défnton des tâches Défnton des tâches Project 2010 Sasr les tâches d'un projet Les tâches représentent le traval à accomplr pour attendre l'objectf

Plus en détail

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique Spécale PSI - Cours "Electromagnétsme" 1 Inducton électromagnétque Chaptre IV : Inductance propre, nductance mutuelle. Energe électromagnétque Objectfs: Coecents d nductance propre L et mutuelle M Blan

Plus en détail

Montage émetteur commun

Montage émetteur commun tour au menu ontage émetteur commun Polarsaton d un transstor. ôle de la polarsaton La polarsaton a pour rôle de placer le pont de fonctonnement du transstor dans une zone où ses caractérstques sont lnéares.

Plus en détail

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University Économétre 5 e édton Annexes : exercces et corrgés Wllam Greene New York Unversty Édton françase drgée par Dder Schlacther, IEP Pars, unversté Pars II Traducton : Stéphane Monjon, unversté Pars I Panthéon-Sorbonne

Plus en détail

Exercices d Électrocinétique

Exercices d Électrocinétique ercces d Électrocnétque Intensté et densté de courant -1.1 Vtesse des porteurs de charges : On dssout une masse m = 20g de chlorure de sodum NaCl dans un bac électrolytque de longueur l = 20cm et de secton

Plus en détail

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks Plan Geston des stocks Abdellah El Fallah Ensa de Tétouan 2011 Les opératons de gestons des stocks Les coûts assocés à la geston des stocks Le rôle des stocks Modèle de la quantté économque Geston calendare

Plus en détail

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire Assurance malade et aléa de moralté ex-ante : L ncdence de l hétérogénété de la perte santare Davd Alary 1 et Franck Ben 2 Cet artcle examne l ncdence de l hétérogénété de la perte santare sur les contrats

Plus en détail

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES MATHEMATIQUES FINANCIERES I. Concepts généraux. Le référentel précse : Cette parte du module M4 «Acquérr des outls mathématques de base nécessares à l'analyse de données économques» est en relaton avec

Plus en détail

Interface OneNote 2013

Interface OneNote 2013 Interface OneNote 2013 Interface OneNote 2013 Offce 2013 - Fonctons avancées Lancer OneNote 2013 À partr de l'nterface Wndows 8, utlsez une des méthodes suvantes : - Clquez sur la vgnette OneNote 2013

Plus en détail

Mesure avec une règle

Mesure avec une règle Mesure avec une règle par Matheu ROUAUD Professeur de Scences Physques en prépa, Dplômé en Physque Théorque. Lycée Alan-Fourner 8000 Bourges ecrre@ncerttudes.fr RÉSUMÉ La mesure d'une grandeur par un système

Plus en détail

Dirigeant de SAS : Laisser le choix du statut social

Dirigeant de SAS : Laisser le choix du statut social Drgeant de SAS : Lasser le chox du statut socal Résumé de notre proposton : Ouvrr le chox du statut socal du drgeant de SAS avec 2 solutons possbles : apprécer la stuaton socale des drgeants de SAS comme

Plus en détail

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES Émle Garca, Maron Le Cam et Therry Rocher MENESR-DEPP, bureau de l évaluaton des élèves Cet artcle porte sur les méthodes de

Plus en détail

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation) GENESS - Generalzed System for mputaton Smulatons (Système généralsé pour smuler l mputaton) GENESS est un système qu permet d exécuter des smulatons en présence d mputaton. L utlsateur fournt un ensemble

Plus en détail

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations Contrats prévoyance des TNS : Clarfer les règles pour sécurser les prestatons Résumé de notre proposton : A - Amélorer l nformaton des souscrpteurs B Prévor plus de souplesse dans l apprécaton des revenus

Plus en détail

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2 Exo7 Nombres complexes Vdéo parte. Les nombres complexes, défntons et opératons Vdéo parte. Racnes carrées, équaton du second degré Vdéo parte 3. Argument et trgonométre Vdéo parte 4. Nombres complexes

Plus en détail

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES BUREAU DAPPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES BAMSI REPRINT 04/2003 Introducton à l analyse des données Samuel AMBAPOUR BAMSSI I BAMSI B.P. 13734 Brazzavlle BAMSI REPRINT 04/2003 Introducton

Plus en détail

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h. A2 Analyser le système Converson statque de l énerge Date : Nom : Cours 2 h 1 Introducton Un ConVertsseur Statque d énerge (CVS) est un montage utlsant des nterrupteurs à semconducteurs permettant par

Plus en détail

Stéganographie Adaptative par Oracle (ASO)

Stéganographie Adaptative par Oracle (ASO) Stéganographe Adaptatve par Oracle ASO Sarra Kouder, Marc Chaumont, Wllam Puech To cte ths verson: Sarra Kouder, Marc Chaumont, Wllam Puech. Stéganographe Adaptatve par Oracle ASO. CORESA 12: COmpresson

Plus en détail

hal-00409942, version 1-14 Aug 2009

hal-00409942, version 1-14 Aug 2009 Manuscrt auteur, publé dans "MOSIM' 008, Pars : France (008)" 7 e Conférence Francophone de MOdélsaton et SIMulaton - MOSIM 08 - du mars au avrl 008 - Pars - France «Modélsaton, Optmsaton et Smulaton des

Plus en détail

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria. 1 CAS nédt d applcaton sur les normes IAS/IFRS Coût amort sur oblgatons à taux varable ou révsable La socété Plumera présente ses comptes annuels dans le référentel IFRS. Elle détent dans son portefeulle

Plus en détail

STATISTIQUE AVEC EXCEL

STATISTIQUE AVEC EXCEL STATISTIQUE AVEC EXCEL Excel offre d nnombrables possbltés de recuellr des données statstques, de les classer, de les analyser et de les représenter graphquement. Ce sont prncpalement les tros éléments

Plus en détail

Corrigé du problème de Mathématiques générales 2010. - Partie I - 0 0 0. 0.

Corrigé du problème de Mathématiques générales 2010. - Partie I - 0 0 0. 0. Corrgé du problème de Mathématques générales 2010 - Parte I - 1(a. Sot X S A. La matrce A est un polynôme en X donc commute avec X. 1(b. On a : 0 = m A (A = m A (X n ; le polynôme m A (x n est annulateur

Plus en détail

La Quantification du Risque Opérationnel des Institutions Bancaires

La Quantification du Risque Opérationnel des Institutions Bancaires HEC Montréal Afflée à l Unversté de Montréal La Quantfcaton du Rsque Opératonnel des Insttutons Bancares par Hela Dahen Département Fnance Thèse présentée à la Faculté des études supéreures en vue d obtenton

Plus en détail

EH SmartView. Identifiez vos risques et vos opportunités. www.eulerhermes.be. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

EH SmartView. Identifiez vos risques et vos opportunités. www.eulerhermes.be. Pilotez votre assurance-crédit. Services en ligne Euler Hermes EH SmartVew Servces en lgne Euler Hermes Identfez vos rsques et vos opportuntés Plotez votre assurance-crédt www.eulerhermes.be Les avantages d EH SmartVew L expertse Euler Hermes présentée de manère clare

Plus en détail

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises Les détermnants de la détenton et de l usage de la carte de débt : une analyse emprque sur données ndvduelles françases Davd Boune a, Marc Bourreau a,b et Abel Franços a,c a Télécom ParsTech, Département

Plus en détail

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS BRUSSELS ECONOMIC REVIEW - CAHIERS ECONOMIQUES DE BRUXELLES VOL. 49 - N 2 SUMMER 2006 UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS DANS LE SECTEUR DE L ASSURANCE AUTOMOBILE* MARÍA DEL CARMEN MELGAR**

Plus en détail

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises Les détermnants de la détenton et de l usage de la carte de débt : une analyse emprque sur données ndvduelles françases Davd Boune Marc Bourreau Abel Franços Jun 2006 Département Scences Economques et

Plus en détail

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE? CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE? Boulanger Frédérc Avanssur, Groupe AXA 163-167, Avenue Georges Clémenceau 92742 Nanterre Cedex France Tel: +33 1 46 14 43

Plus en détail

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF 1 LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régme») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF AVIS AUX RETRAITÉS ET AUX PARTICIPANTS AVEC DROITS ACQUIS DIFFÉRÉS Expédteurs

Plus en détail

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau GEA I Mathématques nancères Poly de révson Lonel Darondeau Intérêts smples et composés Voc la lste des exercces à révser, corrgés en cours : Exercce 2 Exercce 3 Exercce 5 Exercce 6 Exercce 7 Exercce 8

Plus en détail

1.0 Probabilité vs statistique...1. 1.1 Expérience aléatoire et espace échantillonnal...1. 1.2 Événement...2

1.0 Probabilité vs statistique...1. 1.1 Expérience aléatoire et espace échantillonnal...1. 1.2 Événement...2 - robabltés - haptre : Introducton à la théore des probabltés.0 robablté vs statstque.... Expérence aléatore et espace échantllonnal.... Événement.... xomes défnton de probablté..... Quelques théorèmes

Plus en détail

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir L ensegnement vrtuel dans une économe émergente : percepton des étudants et perspectves d avenr Hatem Dellag Laboratore d Econome et de Fnances applquées Faculté des scences économques et de geston de

Plus en détail

IDEI Report # 18. Transport. December 2010. Elasticités de la demande de transport ferroviaire: définitions et mesures

IDEI Report # 18. Transport. December 2010. Elasticités de la demande de transport ferroviaire: définitions et mesures IDEI Report # 18 Transport December 2010 Elastctés de la demande de transport ferrovare: défntons et mesures Elastctés de la demande de transport ferrovare : Défntons et mesures Marc Ivald Toulouse School

Plus en détail

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle» Evaluaton des projets et estmaton des coûts Le budget d un projet est un élément mportant dans l étude d un projet pusque les résultats économques auront un mpact sur la réalsaton ou non et sur la concepton

Plus en détail

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD Conservatore atonal des Arts et Méters Chare de BAQUE Document de recherche n 9 Impôt sur la fortune et nvestssement dans les PME Professeur Dder MAILLARD Avertssement ovembre 2007 La chare de Banque du

Plus en détail

TD 1. Statistiques à une variable.

TD 1. Statistiques à une variable. Danel Abécasss. Année unverstare 2010/2011 Prépa-L1 TD de bostatstques. Exercce 1. On consdère la sére suvante : TD 1. Statstques à une varable. 1. Calculer la moyenne et l écart type. 2. Calculer la médane

Plus en détail

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Réseau RRFR pour la surveillance dynamique : application en e-maintenance. Réseau RRFR pour la survellance dynamue : applcaton en e-mantenance. RYAD ZEMOURI, DANIEL RACOCEANU, NOUREDDINE ZERHOUNI Laboratore Unverstare de Recherche en Producton Automatsée (LURPA) 6, avenue du

Plus en détail

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3. Chaptre 3 : Incerttudes CHAPITRE 3 INCERTITUDES Lgnes drectrces 2006 du GIEC pour les nventares natonaux de gaz à effet de serre 3.1 Volume 1 : Orentatons générales et établssement des rapports Auteurs

Plus en détail

INTERNET. Initiation à

INTERNET. Initiation à Intaton à INTERNET Surfez sur Internet Envoyez des messages Téléchargez Dscutez avec Skype Découvrez Facebook Regardez des vdéos Protégez votre ordnateur Myram GRIS Table des matères Internet Introducton

Plus en détail

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD UFR SCIENCES ET TECHNOLOGIES DEPARTEMENT DE MATHEMATIQUES ET INFORMATIQUE 63 177 AUBIERE CEDEX Année 2008-2009 Master II : SIAD RAPPORT DE STAGE Sujet : Approcher la frontère d'une sous-parte de l'espace

Plus en détail

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009 THÈSE En vue de l'obtenton du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délvré par Insttut Natonal Polytechnque de Toulouse (INPT) Dscplne ou spécalté : Informatque Présentée et soutenue par Elayeb Blel Le

Plus en détail

Pratique de la statistique avec SPSS

Pratique de la statistique avec SPSS Pratque de la statstque avec SPSS SUPPORT Transparents ultéreurement amélorés et ms à jour sur le ste du SMCS LIENS UTILES Ste du SMCS (Support en Méthodologe et Calcul Statstque) : http://www.stat.ucl.ac.be/smcs/

Plus en détail

Paquets. Paquets nationaux 1. Paquets internationaux 11

Paquets. Paquets nationaux 1. Paquets internationaux 11 Paquets Paquets natonaux 1 Paquets nternatonaux 11 Paquets natonaux Servces & optons 1 Créaton 3 1. Dmensons, pods & épasseurs 3 2. Présentaton des paquets 4 2.1. Face avant du paquet 4 2.2. Comment obtenr

Plus en détail

1. Les enjeux de la prévision du risque de défaut de paiement

1. Les enjeux de la prévision du risque de défaut de paiement Scorng sur données d entreprses : nstrument de dagnostc ndvduel et outl d analyse de portefeulle d une clentèle Mrelle Bardos Ancen chef de servce de l Observatore des entreprses de la Banque de France

Plus en détail

Terminal numérique TM 13 raccordé aux installations Integral 33

Terminal numérique TM 13 raccordé aux installations Integral 33 Termnal numérque TM 13 raccordé aux nstallatons Integral 33 Notce d utlsaton Vous garderez une longueur d avance. Famlarsez--vous avec votre téléphone Remarques mportantes Chaptres à lre en prorté -- Vue

Plus en détail

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Intégration financière et croissance économique : évidence empirique dans. la région MENA Décembre 2011 Volume 6, No.2 (pp. 115-131) Zouher Abda Revue Congolase d Econome Intégraton fnancère et crossance économque : évdence emprque dans la régon MENA Zouher ABIDA * Résumé: L objectf de cet

Plus en détail

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P. 08-24. Préférences temporelles et recherche d emploi

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P. 08-24. Préférences temporelles et recherche d emploi GATE Groupe d Analyse et de Théore Économque UMR 5824 du CNRS DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P. 08-24 Préférences temporelles et recherche d emplo «Applcatons économétrques sur le panel Européen

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIQUE PAR ERIC LÉVESQUE JANVIER

Plus en détail

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

CHAPITRE DEUX : FORMALISME GEOMETRIQUE CHPITRE DEUX FORMLISME GEOMETRIQUE. CHPITRE DEUX : FORMLISME GEOMETRIQUE verson.3, -8 I. GEOMETRIE DNS L ESPCE-TEMPS ) Prncpe de relatvté Le prncpe de relatvté peut s exprmer ans : toutes les los physques

Plus en détail

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta hermodynamque statstque Master Chme Unversté d Ax-Marselle Bogdan Kuchta Plan: Rappel: thermodynamque phénoménologque (dscuter l entrope, l évoluton de gaz parfat,) Premer prncpe Deuxème prncpe (transformaton

Plus en détail

Des solutions globales fi ables et innovantes. www.calyon.com

Des solutions globales fi ables et innovantes. www.calyon.com Des solutons globales f ables et nnovantes www.calyon.com OPTIM Internet: un outl smple et performant Suv de vos comptes Tratement de vos opératons bancares Accès à un servce de reportng complet Une nterface

Plus en détail

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS Le cabnet Enetek nous démontre les mpacts négatfs de la multplcaton des stocks qu au leu d amélorer le taux de servce en se rapprochant du clent, le dégradent

Plus en détail

Pour plus d'informations, veuillez nous contacter au 04.75.05.52.62. ou à contact@arclim.fr.

Pour plus d'informations, veuillez nous contacter au 04.75.05.52.62. ou à contact@arclim.fr. Régulaton Sondes & Capteurs Détente frgo électronque Supervson & GTC Humdfcaton & Déshu. Vannes & Servomoteurs Comptage eau, elec., énerge Ancens artcles Cette documentaton provent du ste www.arclm.eu

Plus en détail

Be inspired. Numéro Vert. Via Caracciolo 20 20155 Milano tel. +39 02 365 22 990 fax +39 02 365 22 991

Be inspired. Numéro Vert. Via Caracciolo 20 20155 Milano tel. +39 02 365 22 990 fax +39 02 365 22 991 Ggaset SX353 / französsch / A31008-X353-P100-1-7719 / cover_0_hedelberg.fm / 03.12.2003 s Be nspred www.onedrect.fr www.onedrect.es www.onedrect.t www.onedrect.pt 0 800 72 4000 902 30 32 32 02 365 22 990

Plus en détail

Système solaire combiné Estimation des besoins énergétiques

Système solaire combiné Estimation des besoins énergétiques Revue des Energes Renouvelables ICRESD-07 Tlemcen (007) 109 114 Système solare combné Estmaton des besons énergétques R. Kharch 1, B. Benyoucef et M. Belhamel 1 1 Centre de Développement des Energes Renouvelables

Plus en détail

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov. La théore classque de l nformaton. ère parte : le pont de vue de Kolmogorov. La sute de caractères comme outl de descrpton des systèmes. La scence peut être vue comme l art de compresser les données quelles

Plus en détail

Dynamique du point matériel

Dynamique du point matériel Chaptre III Dynaqe d pont atérel I Généraltés La cnéatqe a por objet l étde des oveents des corps en foncton d teps, sans tenr copte des cases q les provoqent La dynaqe est la scence q étde (o déterne)

Plus en détail

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174) PREMIERS PAS en REGRESSION LINEAIRE avec SAS Josane Confas (UPMC-ISUP) - Monque Le Guen (CNRS-CES-MATISSE- UMR874) e-mal : confas@ccr.jusseu.fr e-mal : monque.leguen@unv-pars.fr Résumé Ce tutorel accessble

Plus en détail

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix. ErP : éco-concepton et étquetage énergétque Les solutons Vallant Pour dépasser la performance La satsfacton de fare le bon chox. ErP : éco-concepton et étquetage énergétque Eco-concepton et Etquetage

Plus en détail

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio Correctons adabatques et nonadabatques dans les systèmes datomques par calculs ab-nto Compte rendu du traval réalsé dans le cadre d un stage de quatre mos au sen du Groupe de Spectroscope Moléculare et

Plus en détail

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE HAITRE 4 : RAISONNEMENT DES SYSTÈMES DE OMMANDE RAISONNEMENT DES SYSTÈMES DE OMMANDE... 2 INTRODUTION... 22 RAELS... 22 alcul de la valeur ntale de la répone à un échelon... 22 alcul du gan tatque... 22

Plus en détail

Page 5 TABLE DES MATIÈRES

Page 5 TABLE DES MATIÈRES Page 5 TABLE DES MATIÈRES CHAPITRE I LES POURCENTAGES 1. LES OBJECTIFS 12 2. LES DÉFINITIONS 14 1. La varaton absolue d'une grandeur 2. La varaton moyenne d'une grandeur (par unté de temps) 3. Le coeffcent

Plus en détail

santé Les arrêts de travail des séniors en emploi

santé Les arrêts de travail des séniors en emploi soldarté et DOSSIERS Les arrêts de traval des sénors en emplo N 2 2007 Les sénors en emplo se dstnguent-ls de leurs cadets en termes de recours aux arrêts de traval? Les sénors ne déclarent pas plus d

Plus en détail

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation Integral T 3 Compact raccordé aux nstallatons Integral 5 Notce d utlsaton Remarques mportantes Remarques mportantes A quelle nstallaton pouvez-vous connecter votre téléphone Ce téléphone est conçu unquement

Plus en détail

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE L og c el s de D agnos t c s I mmob l er s Cont ac t eznous 32BddeS t r as bougcs3010875468 Par scedex10tel. 0253354064Fax0278084116 ma l : s er v c e. c l ent @l c el. f r Pourquo LICIEL? Implanté sur

Plus en détail

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile Survellance temps-réel des systèmes Homme-Machne. Applcaton à l assstance à la condute automoble Mguel Gonzalez-Mendoza To cte ths verson: Mguel Gonzalez-Mendoza. Survellance temps-réel des systèmes Homme-Machne.

Plus en détail

Evaluation de performances d'ethernet commuté pour des applications temps réel

Evaluation de performances d'ethernet commuté pour des applications temps réel Evaluaton de performances d'ethernet commuté pour des applcatons temps réel Ans Koubâa, Ye-Qong Song LORIA-INRIA-INPL, Avenue de la Forêt de Haye - 5456 Vandoeuvre - France Emal : akoubaa@lorafr, song@lorafr

Plus en détail

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé 4th Internatonal Conference on Coputer Integrated Manufacturng CIP 2007 03-04 Noveber 2007 Perforances de la classfcaton par les Séparateurs à Vaste Marge (SVM): applcaton au dagnostc vbratore autoatsé

Plus en détail

Le Prêt Efficience Fioul

Le Prêt Efficience Fioul Le Prêt Effcence Foul EMPRUNTEUR M. Mme CO-EMPRUNTEUR M. Mlle Mme Mlle (CONJOINT, PACSÉ, CONCUBIN ) Départ. de nass. Nature de la pèce d dentté : Natonalté : CNI Passeport Ttre de séjour N : Salaré Stuaton

Plus en détail

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1 TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1 1. PROBLEMATIQUE 1 2. MISSION 1 3. ACTES D ENQUETE 2 4. ANALYSE

Plus en détail

Prise en compte des politiques de transport dans le choix des fournisseurs

Prise en compte des politiques de transport dans le choix des fournisseurs INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE N attrbué par la bblothèque THÈSE Pour obtenr le grade de DOCTEUR DE L I.N.P.G. Spécalté : Géne Industrel Préparée au Laboratore d Automatque de Grenoble Dans

Plus en détail

Séparation de Sources par lissage cepstral des masques binaires

Séparation de Sources par lissage cepstral des masques binaires Séparaton de Sources par lssage cepstral des masques bnares Ibrahm Mssaou 1 Zed Lachr 1, 2 (1) École natonale d ngéneurs de Tuns, ENIT, BP. 37 Le Belvedere, 1002 Tuns, Tunse (2) Insttut natonal des scences

Plus en détail

Prêt de groupe et sanction sociale Group lending and social fine

Prêt de groupe et sanction sociale Group lending and social fine Prêt de roupe et sancton socale Group lendn and socal fne Davd Alary Résumé Dans cet artcle, nous présentons un modèle d antsélecton sur un marché concurrentel du crédt. Nous consdérons l ntroducton de

Plus en détail

Projet de fin d études

Projet de fin d études Unversté Franços Rabelas Tours Ecole Polytechnque Unverstare de Tours Département Informatque Projet de fn d études Ordonnancement Juste à Temps avec geston des stocks Chopn Antone Mrault Arnaud 3ème année

Plus en détail

Les méthodes numériques de la dynamique moléculaire

Les méthodes numériques de la dynamique moléculaire Les méthodes numérques de la dynamque moléculare Chrstophe Chpot Equpe de chme et & bochme théorques, Unté Mxte de Recherche CNRS/UHP 7565, Insttut Nancéen de Chme Moléculare, Unversté Henr Poncaré, B.P.

Plus en détail

P R I S E E N M A I N R A P I D E O L I V E 4 H D

P R I S E E N M A I N R A P I D E O L I V E 4 H D P R I S E E N M A I N R A P I D E O L I V E 4 H D Sommare 1 2 2.1 2.2 2.3 3 3.1 3.2 3.3 4 4.1 4.2 4.3 4.4 4.5 4.6 5 6 7 7.1 7.2 7.3 8 8.1 8.2 8.3 8.4 8.5 8.6 Contenu du carton... 4 Paramétrage... 4 Connexon

Plus en détail

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau Avez-vous vous aperçu cette drôle de trogne? Entre nature et hstore autour de Mondoubleau Thème de la cache : NATURE ET CULTURE Départ : Parkng Campng des Prés Barrés à Mondoubleau Dffculté : MOYENNE Dstance

Plus en détail

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe Méthodologe CDC Clmat Recherche puble chaque mos, en collaboraton avec Clmpact Metnext, Tendances Carbone, le bulletn mensuel d nformaton sur le marché européen du carbone (EU ETS). L obectf de cette publcaton

Plus en détail

Calculs des convertisseurs en l'electronique de Puissance

Calculs des convertisseurs en l'electronique de Puissance Calculs des conertsseurs en l'electronque de Pussance Projet : PROGRAMMAON ate : 14 arl Auteur : herry EQUEU. EQUEU 1, rue Jules Massenet 37 OURS el 47 5 93 64 herry EQUEU Jun [V37] Fcher : ESGN.OC Calculs

Plus en détail

Grandeur physique, chiffres significatifs

Grandeur physique, chiffres significatifs Grandeur physque, chffres sgnfcatfs I) Donner le résultat d une mesure en correspondance avec l nstrument utlsé : S avec un nstrument, ren n est ndqué sur l ncerttude absolue X d une mesure X, on consdère

Plus en détail

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET ESTIMATIO DES TITRES VIRAUX : UE PROGRAMMATIO PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l ITERET Jocelyne Husson van Vlet et Ph. Roussel Insttut de la Santé Publque, Brussels, Belgum,

Plus en détail

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE UNIVERSITE MONTPELLIER 2 Département de Physque TRAVAUX PRATIQUES DE SPECTRO- COLORIMETRIE F. GENIET 2 INTRODUCTION Cet ensegnement de travaux pratques de seconde année se propose de revor rapdement l'aspect

Plus en détail

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION? LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION? Anne PERRAUD (CRÉDOC) Phlppe MOATI (CRÉDOC Unversté Pars) Nadège COUVERT (ENSAE) INTRODUCTION Au cours des dernères années, de nombreux

Plus en détail

Analyse des Performances et Modélisation d un Serveur Web

Analyse des Performances et Modélisation d un Serveur Web SETIT 2009 5 th Internatonal Conference: Scences of Electronc, Technologes of Informaton and Telecommuncatons March 22-26, 2009 TUNISIA Analyse des Performances et Modélsaton d un Serveur Web Fontane RAFAMANTANANTSOA*,

Plus en détail

22 environnement technico-professionnel

22 environnement technico-professionnel 22 envronnement technco-professonnel CYRIL SABATIÉ Drecteur du servce jurdque FNAIM Ouverture du ma IMMOBILIER, OÙ 1 Artcle paru également dans la Revue des Loyers, jullet à septembre 2007, n 879, p. 314

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs Documents de traval «La taxe Tobn : une synthèse des travaux basés sur la théore des jeux et l économétre» Auteurs Francs Bsmans, Olver Damette Document de Traval n 2012-09 Jullet 2012 Faculté des scences

Plus en détail

Comparative performance for isolated points detection operators: application on surface defects extraction

Comparative performance for isolated points detection operators: application on surface defects extraction Comparatve performance for solate ponts etecton operators: applcaton on surface efects extracton R. Seuln, G. Delcrox, F. Merenne Laboratore Le2-12, Rue e la Fonere - 71200 Le Creusot - FRANCE e-mal: ralph.seuln@utlecreusot.u-bourgogne.fr

Plus en détail

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008 THÈSE En vue de l'obtenton du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délvré par l'unversté Toulouse III - Paul Sabater Spécalté : Informatque Présentée et soutenue par Meva DODO Le 06 novembre 2008 Ttre

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central Etude numérque de la consoldaton undmensonnelle en tenant compte des varatons de la perméablté et de la compressblté du sol, du fluage et de la non-saturaton Jean-Perre MAGNAN Chef de la secton des ouvrages

Plus en détail

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE MEMOIRE Présentée à L Unversté de Batna Faculté des Scences Département de Physque

Plus en détail

VIELLE Marc. CEA-IDEI Janvier 1998. 1 La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

VIELLE Marc. CEA-IDEI Janvier 1998. 1 La nomenclature retenue 3. 2 Vue d ensemble du modèle 4 GEMINI-E3 XL France Un outl destné à l étude des mpacts ndustrels de poltques énergétques et envronnementales VIELLE Marc CEA-IDEI Janver 1998 I LA STRUCTURE DU MODELE GEMINI-E3 XL FRANCE 3 1 La nomenclature

Plus en détail