Méthodes pour l analyse des données fonctionnelles Cristian PREDA Polytech Lille Université des Sciences et Technologies de Lille, France Méthodes pour l analyse des données fonctionnelles p.1/44
Google : - chemometrics : 1050000 - functional+ data : 70900000 - functional + data + chemometrics : 17300 Méthodes pour l analyse des données fonctionnelles p.2/44
Données fonctionnelles Exemples : 0.8 70 0.4 60 0.0 50 0.4 40 0.8 30 1.2 20 1.6 10 2.0 0 400 800 1200 1600 2000 2400 2800 3200 3600 Indice d action boursière 0 0 10 20 30 40 50 Marche : angle du genou Données spectrométriques X(t) 200 300 400 500 X(l) 2.6 2.8 3.0 3.2 3.4 0 100 200 300 400 time Pétrissage: résistance de la pâte 850 900 950 1000 1050 long. d onde (l) Données spectrométriques Méthodes pour l analyse des données fonctionnelles p.3/44
Variable fonctionnelle et donnée fonctionnelle Définition [Ferraty et Vieu (2006)] : Une variable aléatoire est dite fonctionnelle si ses valeurs sont dans un espace de dimension infinie. Une observation d une variable fonctionnelle est appelée donnée fonctionnelle X = {X t : t T }, X t : Ω R - T R : courbe - T R 2 : image Méthodes pour l analyse des données fonctionnelles p.4/44
Tableau des données : En pratique, une donnée fonctionnelle est observée dans un nombre fini d instants : 0 = t 0 < t 1 <... < t k = T : {(t 0,X t0 ), (t 1,X t1 ),...,(t k,x tk )}. X t 1 0 T time Méthodes pour l analyse des données fonctionnelles p.5/44
Caractère fonctionnel de la courbe : interpolation : linéaire, spline,... lissage si les données sont observées avec erreurs X(t) 300 400 500 600 700 0 100 200 300 400 temps Lissage utilisant une base de fonctions (B-splines cubiques) Méthodes pour l analyse des données fonctionnelles p.6/44
Exemples : - lissage : X(t) 300 400 500 600 700 X(t) 100 200 300 400 500 600 700 0 100 200 300 400 - interpolation : temps 0 100 200 300 400 temps Données spectrométriques X(l) 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 850 900 950 1000 1050 long. d onde (l) Méthodes pour l analyse des données fonctionnelles p.7/44
Données fonctionnelles qualitatives Deville (1982) X t {"Single", "Married", "Divorced", "Widowed"} 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 Single 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 1111111111111111111111 Married 11110000000 1111111 Married 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 0000000000000000000000 11111111111111111111110000 11110000000 1111111 Divorced 15 22 35 38 45 time Evolution de l état civil des femmes de 15 à 45 ans. - E = {1, 2,... m} = espace d états, - (Ω, A,P), X = {X t : t [0,T]}, X t : Ω E (processus de sauts). Méthodes pour l analyse des données fonctionnelles p.8/44
Mèthodes pour les données fonctionnelles Deville (1974) Saporta (1981) Ramsay et Silverman (1997, 2002, 2005) Ferraty et Vieu (2006) - Analyses factorielles - Modèles de régression - Classification Méthodes pour l analyse des données fonctionnelles p.9/44
Exemples : Vecteur de dimension finie Données fonctionnelles Données X = (X 1, X 2,... X p ) X = {X t } t [0,T] ACP Régression linéaire Matrice de cov. V : M p p (R) f.p. : u = (u 1,..., u p ) R p : V u = λu c.p. : ξ = u 1 X 1 +... + u p X p E(Y X = (x 1,..., x p )) : β 0 + P p i=1 β ix i Opérateur de cov. C de noyau C(t,s) Z T f.p. : u : T R : C(t, s)u(s)ds = u(t) c.p. : ξ = R T u(t)x tdt E(Y X = {x(t), t T }) : Z β 0 + β(t)x(t)dt T Méthodes pour l analyse des données fonctionnelles p.10/44
ACP des données fonctionnelles {X t : t [0, T]} : - E(Xt 2) <, - L 2 -continu, - ω Ω : (X t (ω)) t [0,T] L 2 ([0, T]), - E(X t ) = 0, t [0, T]. C : L 2 ([0, T]) L 2 ([0, T]), f C g, g(t) = C(t, s) = Cov(X t X s ), s, t [0, T]. Z T 0 C(t, s)f(s)ds, t [0, T], C : autoadjoint, positif, compact et de trace finie. Méthodes pour l analyse des données fonctionnelles p.11/44
{λ 1 λ 2...}, {f i } i 1 : Cf i = λ i f i, - λ i 0, lim i λ i = 0, - (f i f j ) = δ i,j. X λ i < i=1 ξ i = Z T {ξ i } i 1 : Var(ξ i ) = λ i, Cov(ξ i, ξ j ) = 0, i j. 0 f i (t)x t dt i 1. W : L 2 (Ω) L 2 (Ω), Wz = Z T 0 X t E(X t z)dt, z L 2 (Ω). Wξ i = λ i ξ i, i 1. Méthodes pour l analyse des données fonctionnelles p.12/44
Reconstitution des données en ACP ou décomposition de Karhunen-Loève : X t = X i 1 f i (t)ξ i, t [0, T]. Approximation d ordre K (K 1) : X (K) t = KX f i (t)ξ i, t [0, T]. i=1 Loève (1945) : X (K) est la meilleure approximation dex en norme L 2. V (Xt ) = Z T 0 E(X 2 t )dt = Tr(C) = X i 1 λ i. KX I K = V (X (K) t ) V (Xt ) = i=1 λ i X 1. λ i i 1 Méthodes pour l analyse des données fonctionnelles p.13/44
Exemple : X = {X t, t [0, T]} : processus à accroissements stationnaires non corrélés (Poisson, le mouvement brownien) C(t, s) = c min(t, s), c > 0. - λ k = 4cT 2 (2k 1) 2, k = 1,...,. π2 - f k (t) = r 2 T sin((k 1 2 )π t T ) - I 1 = 81.1% - I 2 = 90.1% - I 3 = 93.3% - I 4 = 95.0% X t ξ 1 f 1 (t) = ξ 1 r 2 T sin( πt 2T ) Méthodes pour l analyse des données fonctionnelles p.14/44
Estimation et approximation de l ACP - Estimation Deville 74, Dauxois et al. 82 {X 1, X 2,..., X N } Ĉ(t, s) = 1 N NX X i (t)x i (s), (s, t) [0, T] [0, T], i=1 (Ĉf)(t) = Z T 0 Ĉ(t, s)f(s)ds, f L 2 ([0, T]). - lim N E( Ĉ C 2 ) = 0, - lim N E(ˆλ i λ i ) 2 = 0 (o(n 1 2 )), - lim N E( ˆf i f i 2 ) = 0 (o(n 1 2 )). Méthodes pour l analyse des données fonctionnelles p.15/44
- Interpolation {0 = t 1 < t 2 <... < t p = T }, {X t0, X t2,..., X tp }. (Deville 74 et Besse 79) : ACP {X t0, X t2,..., X tp } ACP (X t ) t [0,T]. Interpolation linéaire : IX t = px c i φ i (t), t [0, T], {φ i } i=0,..,p, est une base dans un espace de fonctions et {c i } i=0..p v.a.r. : i=0 IX ti = X ti p.s. ACP (IX t ) t [0,T] l ACP {X t0, X t1,..., X tp } avec pour métrique M = ΦΦ, où Φ = A 1, A = (a i,j ) 0 i,j p, a i,j = φ i, φ j. Le choix des fonctions d interpolation est équivalent à celui d une métrique. Deville 74 : constantes par morceaux, Pardoux 82 : splines linéaires, Aguilera 93 : B-splines, Besse 89 : splines, Méthodes pour l analyse des données fonctionnelles p.16/44
- Lissage {φ 1,...,φ p } dans L 2 ([0,T]), lin. indep. X t p i=1 α i φ(t). ACP de X est equivalente à l ACP de {α 1,...,α p } avec la métrique Φ = { φ i,φ j }. Méthodes pour l analyse des données fonctionnelles p.17/44
Implémentation R Le package fda Quelques fonctions utiles : - création d une base de fonctions : create.bspline.basis - création d un objet donnée fonctionnelle : data2fd - réalisation de l ACP fonctionnelle : pca.fd - régression linéaire avec prédicteur fonctionnel sur les composantes principales : pcr, pls Méthodes pour l analyse des données fonctionnelles p.18/44
Exemple. Les facteurs principaux : farines de Danone. fp[, 1] 0.025 0.040 0.055 fp[, 2] 0.04 0.02 0.06 0 100 200 300 400 0 100 200 300 400 bonne[, 1] bonne[, 1] fp[, 3] 0.05 0.00 0.05 fp[, 4] 0.05 0.05 0.10 0 100 200 300 400 0 100 200 300 400 bonne[, 1] Méthodes pour l analyse des données fonctionnelles p.19/44 bonne[, 1]
Régression sur données fonctionnelles Y = f(x) + ε Y : - scalaire (R) - vectorielle scalaire (R p ) - fonctionnelle (L 2 ([0,T])) - qualitative Modélisation paramétrique et non-paramétrique. Méthodes pour l analyse des données fonctionnelles p.20/44
Le modèle linéaire f - linéaire : théor `me de représentation de Riesz : Moindres carrés : f(x) = X, β L2 ([0,T]) = E(Y X t ) = En général, c est un problème mal posé car Théorème (Picard) Z T 0 Z T 0 X t β(t)dt, β L 2 ([0, T]). E(X t X s )β(s)ds (W H) β unique X i 1 c 2 i λ 2 i <, c i = Z T 0 E(X t Y )f i (t)dt, {λ i } i 1, {f i } i 1 (ACP) β(t) = X i 1 c i λ i f i (t), t [0, T]. Exemple : Le processus X est un processus de Poisson sur [0,T] et Y = X T+h, h > 0. Alors, X c 2 i λ 2 = X 2 i T =, i 1 i 1 Ŷ = X T et β est la distribution de Dirac en T, δ T. Méthodes pour l analyse des données fonctionnelles p.21/44
Régularisation des moindres carrés - réduction de la dimmension :X X S, S = {φ 1,..., φ p } Régression sur les composantes principales (PCR) : S = {f 1,..., f p } - facteurs principaux de l ACP de X (Deville (1978), Aguilera (1998), Cardot et al. (1999)) - pénalisation des moindres carrés : ˆβ = arg min β S 1 n nx (Y i X i, β ) 2 + λ β (m) 2 i=1 (Ramsay et Silverman (1997), Cardot et al. (2003)) - les moindres carrés partiels (PLS). ˆβ P LS = arg min β L 2 ([0, T]) β = 1 1 nx (Y i X i, β ) 2 n i=1 {z } 1 n X i, β 2 {z } Méthodes pour l analyse des données fonctionnelles p.22/44
L approche PLS pour données fonctionnelles X = {X t } t [0,T], Y = (Y 1,...,Y p ), p 1. {t i } i 1 variables aléatoires non-corrélées dans L 2 (X) Théorème [Critère de Tucker] max w, c w L 2 ([0, T]), w = 1 c R p, c = 1 Cov 2 Z T 0! px X t w(t)dt, c i Y i i=1 est réalisé pour w et c, les vecteurs propres associés à la plus grande valeur propre des opérateurs U X, respectivement U Y, où U X = C XY C Y X et U Y = C Y X C XY. Méthodes pour l analyse des données fonctionnelles p.23/44
Les composantes PLS Soit w 1 L 2 ([0, T]) : U X w 1 = λ max w 1, t 1 = Z T 0 X t w 1 (t)dt Proposition. W X W Y t 1 = λ max t 1 Itération PLS : Let X 0,t = X t, t [0, T] and Y 0,i = Y i, i = 1,..., p. Au pas h, h 1 : Wh 1 X WY h 1 t h = λ (h) maxt h, Régression linéaire simple sur t h : X h,t = X h 1,t p h (t)t h, t [0, T], Y h,i = Y h 1,i c h,i t h, i = 1,..., p. {t h } h 1 - variables aléatoires {p h } h 1 - fonctions de L 2 ([0, T]) {c h } h 1 - vecteurs de R p. Méthodes pour l analyse des données fonctionnelles p.24/44
Théorème [Décomposition PLS] Pour tout h 1 : a) {t i } 1 i h système orthogonal dans L 2 (X), b) Y = c 1 t 1 + c 2 t 2 +... c h t h +Y h = {z } Ŷ P LS(h) Z T c) X t = p 1 (t)t 1 + p 2 (t)t 2 +... + p h (t)t h + X h,t, d) E(Y h,j t i ) = 0, i = 1,..., h, j = 1,..., p, e) E(X h,t t i ) = 0, t [0, T], i = 1,..., h. 0 X t β P LS(h) (t)dt + Y h, Théorème [Convergence] ( lim E ŶPLS(h) Ŷ 2) = 0. h Théorème [PLS vs PCR] L ajustement à l aide des premières h composantes PLS est meilleur que celui avec les premières h composantes principales, R 2 (Y,ŶPCR(h)) R 2 (Y,ŶPLS(h)). Méthodes pour l analyse des données fonctionnelles p.25/44
Remarque : - analogie avec l analyse canonique - prise en compte des relations existant entre les variables {Y i } i=1,...,p. - réponse fonctionnelle :Y = {Y t } t [0,T ]. - choix de h en pratique : validation croisée. Méthodes pour l analyse des données fonctionnelles p.26/44
PLS et l analyse discriminante linéaire fonctionnelle X = {X t } t [0,T], X t : Ω R, Y : Ω {1,...,K}, K 1, - P(Y = i) 0, i {1,...,K} Problème : Déterminer des scores discriminantes linéaires, tels que Φ(X) = T 0 max β L 2 [0,T] X t β(t)dt, V(E(Φ(X) Y )) V(Φ(X)) β L 2 [0,T], (James et Hastie (2001), Ratcliffe et al. (2002), Ferraty et Vieu (2003), Biau et al. (2005)) Méthodes pour l analyse des données fonctionnelles p.27/44
Réponse binaire : un problème mal posé Y {0, 1} : p 0 = P(Y = 0), p 1 = 1 p 0 = P(Y = 1), µ 0 (t) = E(X t Y = 0), µ 1 (t) = E(X t Y = 1),t [0, 1]. Soient - C : l opérateur de covariance de X - B : l opérateur de covariance interclasses définit par f B g, g(t) = T 0 B(t, s)f(s)ds, où B(t,s) = p 0 p 1 (µ 0 (t) µ 1 (t))(µ 0 (s) µ 1 (s)) = φ φ, avec φ = p 0 p 1 (µ 0 µ 1 ). Alors, Méthodes pour l analyse des données fonctionnelles p.28/44
La fonction discriminante, β, vérifie : Bβ = λcβ, avec β,cβ L2 [0,T] = 1. Recoder Y par : 0 p1 p 0, 1 p0 p 1 Alors, β est solution de l équation Wiener-Hopf E(Y X t ) = T 0 E(X t X s )β(s)ds (W-H) Méthodes pour l analyse des données fonctionnelles p.29/44
En pratique Y {0, 1} }{{} = Y { p1 p 0, recodage p0 p 1 }. Régression PLS de Y sur X = {X t } t [0,T] : - fonction discriminante : β PLS(h). - score discriminant : Φ(X) = T 0 X tβ PLS(q) (t)dt. Prédiction : si Φ(X) 0 alors Y = 1 sinon Y = 0. Méthodes pour l analyse des données fonctionnelles p.30/44
Réponse multiple : K > 2 Y {1,...,K}. Soit Y = {Y 1,...,Y K 1 } le vecteur aléatoire dont les composantes sont les variables indicatrices des modalités {1,... K 1}. Méthodologie basée sur l analogie entre l analyse canonique et analyse discriminante : - régression PLS de Y sur X = {X t } t [0,T] : - déterminer les composantes PLS {t 1,...,t h }, - réaliser l analyse lináire discriminante classique de Y sur les composantes PLS. Méthodes pour l analyse des données fonctionnelles p.31/44
Modélisation non-paramétrique Y = f(x) + ε. ˆf(x) = P n i=1 Y ik(d(x, X i )/h) P n i=1 K(d(x, X i)/h), (Ferraty et al. (2006)! Convergence :φ x (h) = P(d(x, X) < h). Estimation non-paramétrique de la fonction de répartition conditionnelle et du mode conditionnel. Précision des viteses de convergences. f : minimiser le risque empirique : R emp [f] = 1 n nx C(X i, Y i, f(x i )) i=1 Fonction de perte : C(x, y, f(x)) = 8 >< >: (y f(x)) 2 - quadratique max{0, f(x) y ε} - ε - insensible yf(x) + log(1 + e f(x) ) - logistique (Y {0,1}) Méthodes pour l analyse des données fonctionnelles p.32/44
Risque régularisé R reg [f] = 1 n nx C(x i, y i, f(x i )) + λω[f], i=1 où λ > 0 est un paramètre de régularisation et Ω[f] un terme de stabilisation. (F, ), R reg [f] = 1 n nx i=1 C(x i, y i, f(x i )) + λ f 2 F. {z } pénalité Im(X) H (H = L 2 ([0, T])) F = H K : K : H H R, symétrique et définie positive : H K = ( X n ) a i K(t i, ), t i H, a i R, n 1 i=1 K(x, y) = 8 >< >: x, y d H, d N polynomial (c + x, y H ) d, d N, c > 0 polynomial non-homogène e x y 2 H 2σ 2, σ > 0, gaussien Méthodes pour l analyse des données fonctionnelles p.33/44
Régression dans RKHS Théorème [Représentation] Soit {(x i,y i )} n i=1, x i H, y i R, n > 0, n N, λ > 0 et C : H R R R une fonction de perte convexe. Alors, la solution du problème : trouver ˆf H K qui minimise 1 n n i=1 C ( x i,y i, ˆf(x ) i ) + λ ˆf 2 H K existe, est unique et admet la représentation ˆf(x) = n i=1 α i K(x,x i ), x H, où α i R, i = 1,...,n. Méthodes pour l analyse des données fonctionnelles p.34/44
Exemple. C (x,y,f(x)) = (y f(x)) 2, {(x i,y i )} n i=1, (λni + [K])α = y, où α = (α 1,...,α n ), y = (y 1,...,y n ), [K] M n (R), [K] i,j = K(x i,x j ), 1 i,j n. Perte logistique, ε - insensitive : méthode du gradient. Méthodes pour l analyse des données fonctionnelles p.35/44
Consistance dans RKHS Théorème [Consistance] Soit C la fonction de perte quadratique ou logistique et supposons qu il existe M Y > 0 tel que Y M Y p.s. Supposons aussi qu il existe κ tel que x H, K(x,x) κ. Alors, pour la fonction de perte quadratique on a ( P R emp [ ˆf n ] R[ ˆf ) ] n > β + ε 2exp 2 nε 2 ( ) 2 κ nβ + M Y λ, ( ) 2 8κ 2 MY 2 1 + 1 λ où β =, nλ et pour la perte logistique, ( P R emp [ ˆf n ] R[ ˆf ) n ] > ε + κ2 nλ 2exp ( 2nε2 λ 2 ) 9κ 4. Méthodes pour l analyse des données fonctionnelles p.36/44
On a aussi : Corollaire. Avec les conditions du théorème de représentation on a : R emp [f opt ] R emp [ ˆf n ] P 0, R[ ˆf n ] R[f opt ] P 0. Méthodes pour l analyse des données fonctionnelles p.37/44
Applications. Données fonctionnelles. Parkinsoniens et l angle de flexion du genou. Courbes de marche. 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 50 40 30 20 10 0 0 10 20 30 40 50 Sujets sains (jeune rouge, âgé bleu) Sujets parkinsoniens. Question : Pour les sujets sains, l âge a-t-il un effet sur la marche? Courbes moyennes : 70 60 50 40 30 20 10 0 10 20 30 40 50 Méthodes pour l analyse des données fonctionnelles p.38/44
30 sujets jeunes 30 sujets âgés. Echantillon apprentissage : 40. Echantillon test : 20. Nombre échantillons : 100 Modèle PLS_FLDA PCR_FLog(4)) Gaussien (1) λ = 0.12 IP(1,2) λ = 0.18 IP(1,3) λ = 0.22 Aire ROC 0.780 0.790 0.760 0.780 0.750 Moyenne de l aire de la surface sous la courbe ROC. Taux moyen de mal classés pour le meilleur modèle 30% Méthodes pour l analyse des données fonctionnelles p.39/44
Les farines de Danone X = {X t } t [0,480] : résistence de la pâte durant 480s de pétrissage 700 650 600 Good Bad Adjustable 550 Dough resistance 500 450 400 350 300 250 200 150 100 0 40 80 115 farines ; 120 160 200 240 280 320 360 400 440 480 Time (s) Qualité des biscuits : 50 (bonne), 40 (mauvaise), 25 (ajustable) Méthodes pour l analyse des données fonctionnelles p.40/44
Dough resistance 750 700 650 600 550 500 450 400 350 300 Good Bad Adjustable 250 200 150 100 0 40 80 120 160 200 240 Time (s) 280 320 360 400 440 480 Lissage avec des fonction B-splines cubique avec 16 noeuds Méthodes pour l analyse des données fonctionnelles p.41/44
Résultats : Y {bonne, mauvaise} 100 échantillons ; (apprentissage : 60 ; test : 30) Modèle PLS_FLDA K-NN(13) PC_FLDA Gaussien(6) LDA Taux de mal classés 0.112 0.103 0.142 0.108 0.154 Moyenne du taux des mal classés sur un ensemble de 100 échantillons test. La fonction discriminante Φ(X) = 1.46 + R 480 0 X t ˆβP LS (t)dt. Beta PLS discriminant coefficient function 1e 004 0e+000 1e 004 2e 004 3e 004 4e 004 0 100 200 300 400 500 time Méthodes pour l analyse des données fonctionnelles p.42/44
Y {bonne, ajustable, mauvaise} 100 échantillons ; (apprentissage : 70 ; test : 35) Modèle PLS_FLDA K-NN(13) PC_FLDA Gaussien(6) LDA Taux de mal classés 0.258 0.245 0.262 0.247 0.282 Moyenne du taux des mal classés sur un ensemble de 100 échantillons test. Méthodes pour l analyse des données fonctionnelles p.43/44
Bibliographie Méthodes pour l analyse des données fonctionnelles p.44/44