Du Data Mining à l Apprentissage Statistique

Du Data Mining à l Apprentissage Statistique Philippe Besse Contenu : 1. 2. Risque et erreur de prévision 3. Sélection de modèle dans le cas gaussien 4. PLS et sparse PLS (linéaire) 5. Régression logistique 6. Analyse discriminante décisionnelle 7. Arbres binaires de décision (CART) 8. Réseaux de neurones 9. Agrégation de modèles 10. SVM (support vector machine) 11. Conclusion 12. Sorties graphiques des scénarios Formation L Oréal : 28 / 03 / 2014

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Apprentissage statistique et Data Mining Philippe Besse & Béatrice Laurent INSA de Toulouse Institut de Mathématiques - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Data Mining Objectifs Outils de modélisation statistique et apprentissage Application au Data mining (fouille de données) modélisation, stratégie de choix de modèles et méthodes, exemples d applications, les méthodes. - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Data Mining Data mining Origines : calcul, stockage, interfaces, logiciels spécifiques. Comment trouver un diamant dans un tas de charbon sans se salir les mains? Environnement informatique et informations hétérogènes volume et flux de données considérables données préalables à l analyse sondage ou traitement exhaustif des données. Champs d application identifier des facteurs de risque reconnaissance d image (caractères) prévision de taux de pollution, courbes de consommation GRC (CRM) ou Gestion de la Relation Client détection de défaillance et traçabilité veille technologique (text mining), web mining modèles de substitutions ou méta-modèles - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Objectifs : Modélisation et apprentissage Explorer ou vérifier, représenter, décrire Expliquer ou tester une influence Prévoir et sélectionner, interpréter Prévision brute Apprentissage statistique Focaliser sur la grande dimension (p > n) Interface entre Modélisation statistique vs. Machine learning (apprentissage machine) T. Hastie, R. Tibshirani et J. Friedman (2009). The elements of statistical learning : data mining, inference, and prediction, Springer. - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Apprentissage Supervisé vs. non-supervisé Observation ou non d une variable à expliquer Y = f (X) + ε Modélisation, discrimination (classification) vs classification(clustering) Ensemble d apprentissage : d n 1 = {(x 1, y 1 ),..., (x n, y n )} x i X (= R p ), y i Y pour i = 1... n Modélisation vs. apprentissage modèle explicatif ou prédictif interprétation, ajustement d un vrai modèle parcimonie et précision d une prévision - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Types d apprentissage Régression vs. Discrimination sorties quantitatives Y R p régression Statistique vs. informatique Taille des données Estimer plus de paramètres Modèle linéaire : 2 p modèles possibles! explosion combinatoire méthodes algorithmiques sorties qualitatives Y fini discrimination, classement, reconnaissance de forme - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Complexité des modèles Problématiques Stratégies de choix - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Choix de modèle Choix de méthode bibliographie explosive adaptation de la méthode aux données qualité : erreur de prévision Choix de modèle flexibilité et ajustement robustesse et prévision équilibre biais-variance exemple : nombre de variables explicatives et colinéarité critères de choix de modèle (R 2, C p, AIC, BIC, CV...) - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Complexité des modèles en régression Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Complexité des modèles en classification supervisée - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Stratégies de choix de modèle Choix de modèle : sélection vs. régularisation Contrôle de la complexité nombre de paramètres, norme des paramètres (ridge, schrinkage) dimension de Vapnik (1999) - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Les données Les étapes de l apprentissage Les données p variables explicatives ou prédictives X = (X 1,..., X p ) n objets, individus ou unités statistiques. Attention, données préalables et non planifiées. Variable cible Y à expliquer, modéliser, prévoir, Choix d un ensemble de méthodes et/ou modèles : Y = f (X) - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Les données Les étapes de l apprentissage Stratégie de l apprentissage 1 Extraction avec ou sans sondage 2 Exploration, nettoyage, transformations des données... 3 Partition aléatoire de l échantillon (apprentissage, validation, test) 4 Pour chacune des méthodes considérées : estimation d un modèle fonction de q : complexité (apprentissage) optimisation du paramètre q (validation) 5 Comparaison des méthodes (erreur de prévision sur échantillon test) 6 Itération éventuelle (plusieurs échantillons test) 7 Choix de la méthode (prévision, interprétabilité). 8 ré-estimation du modèle, exploitation - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours en marketing, GRC Appétence Attrition (churn) Risque (de daillite, de non remboursement...)... Exemple : score d appétence pour la carte visa premier Adaptation statistique Environnement : pic d ozone régression quantitative concentration O3 discrimination et dépassement de seuil MOCAGE, NO2, NO3, H2O, Température, vent, jour, station - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Santé Biologie épidémiologie et facteurs de risque aide au diagnostic exemple : caractérisation d un type de cancer du sein analyse transcriptomique (quantité d ARN) miliers de gènes pour quelques dizaines d échantillons Exemple : expression de p = 120 gènes selon 5 régimes et 2 génotypes de souris (n = 40) - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Applications industrielles Chimiométrie et spectrométrie infra-rouge (NIR) Criblage virtuel de molécules (QSAR) Détection de défaillance dans un procédé Airbus : Aide au pilotage - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Spectres NIR de pâte à gâteaux (n = 72, p = 700) - septembre 2012 Aide au pilotage au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours q m 10 0 0 2 4 6 8 10 12 8 6 4 2 0 2 4 6 q 8 10 12 14 10 0 0 2 4 Neural 6PIO detector 8 10 12 1 0.5 0 0 2 4 6 8 10 12 Manche, assiette, gouverne et prévision du pompage piloté - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Choix des contenus Stages, contrats recherche, offre de logiciels SAS (enterprise miner) SPSS (Clementine), Statistica data miner Splus (Insightfull miner) KXEN, SPAD, Statsoft, Matlab... Weka, Tanagra, R - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Les méthodes d apprentissage estimation d erreur de prévision et critères de choix de modèle modèle linéaire général (gaussien, binomial) PLS et sparse PLS modèles non-paramétriques analyse discriminante, k plus proches voisins arbres de décision (CART) réseaux de neurones agrégation de modèles séparateurs à vaste marge (SVM)... réseaux bayésiens - septembre 2012

au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Objectif principal Utilisation pertinente et réfléchie des outils Importance fondamentale de la pratique!! Aller au charbon : les mains dans le cambouis. Où faire porter les principaux efforts : données, méthodes, modèles? - septembre 2012

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Apprentissage Statistique et Data Mining Qualité de prévision et risque INSA de Toulouse Institut de Mathématiques Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Performance Mesurer la performance d un modèle, sa capacité de prévision ou de généralisation Optimiser la sélection au sein d une famille de modèles choix de la méthode en comparant chacun des modèles estimer la confiance accordée à une prévision Sans modèles probabilistes, trois stratégies : 1 partition de l échantillon (apprentissage, validation, test) 2 pénalisation de l erreur d ajustement par la complexité du modèle 3 calcul intensif et estimations par simulations Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Le choix dépend de la taille de l échantillon initial variance de l erreur complexité du modèle envisagé, des algorithmes Résultats de Vapnik en théorie de l apprentissage consistance ou capacité de généralisation. L erreur d apprentissage et l erreur sur un jeu de données test convergent en probabilité vers la même limite vitesse de convergence indique comment évolue la généralisation et informe sur les paramètres sensibles contrôle de la capacité de généralisation en majorant le terme d erreur à n fini Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Notations, définitions d n observation d un n-échantillon D n = {(X 1, Y 1 ),..., (X n, Y n )} de loi conjointe inconnue P sur X Y x observation de la variable X D n est appelé échantillon d apprentissage D n est supposé indépendant de (X, Y) Une règle de prévision (ou prédicteur) est une fonction (mesurable) f : X Y, x f (x) Une fonction l : Y Y R + est une fonction de perte si l(y, y) = 0 et l(y, y ) > 0 pour y y Si f est une règle de prévision, l(y, f (x)) mesure la perte de f en x Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Notations, définitions Régression réelle : pertes L p (p 1) : l(y, y ) = y y p perte absolue si p = 1, perte quadratique si p = 2 Discrimination binaire : l(y, y ) = 1I y y = y y 2 = (y y ) 2 4 Le risque ou erreur de généralisation d une règle de prévision f est défini par R P (f ) = E (X,Y) P [l(y, f (X))] Attention : (X, Y) est supposé indépendant de D n qui permet de construire f f est une règle optimale si R P (f ) = inf f F R P (f ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Régression réelle Y = R Avec l(y, y ) = (y y ) 2, η (x) = E[Y X = x] optimale Avec l(y, y ) = y y, µ (x) = mediane[y X = x] optimale Discrimination binaire Y = { 1, 1} f règle de Bayes si P(Y = f (x) X = x) = max y Y P(Y = y X = x) Une règle de Bayes est optimale f η (x) = 1I η (x) 0 1I η (x)<0 = signe(η (x)) de Bayes Règles théoriques optimales qui dépendent de P inconnue Construire des algorithmes ne dépendant que de d n Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Définitions Un algorithme de prévision (ˆf n ) n 1 associe une règle de décision à un ensemble d apprentissage d n = {(x i, y i ), 1 i n} Le risque moyen de ˆf est E D n P n[r P(ˆf (D n ))] Un algorithme de prévision est universellement consistant si { } P lim E D n + n P n[r P(ˆf n (D n ))] = inf R P(f ) f F Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Algorithme par moyennage local poids : {W n,i, 1 i n} tels que n 1, x, x 1,..., x n X, n i=1 W n,i(x, x 1,..., x n ) = 1 ˆη n et fˆηn tels que pour d n = {(x 1, y 1 ),..., (x n, y n )} ˆη n (d n ) : x X n i=1 W n,i(x, x 1,..., x n )y i fˆηn (d n ) : x X signe(ˆη n (d n )(x)) ˆη n (resp. fˆηn ) est un algorithme de prévision par moyennage local en régression (resp. en dicrimination binaire) Le théorème de Stone (1977) donne des conditions de consistance universelle Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique k plus proches voisins Algorithme de moyennage local avec : 1 k si x i fait partie des k p.p.v. de x W n,i (x, x 1,..., x n ) = dans {x 1,..., x n } 0 sinon X = R d : Consistance universelle si k n + et k n /n 0 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Méthode du noyau Algorithme de moyennage local avec : W n,i (x, x 1,..., x n ) = K ( x i x h ) n j=1 K ( xj x h K est une fonction (un noyau) à valeurs dans R + h un paramètre réel > 0 (largeur du noyau) Noyau gaussien K(x) = e x 2 Consistance universelle sous conditions ) Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Algorithme par partition Algorithme de moyennage local avec : V 1, V 2,... une partition finie ou dénombrable de X V(x) est l élément de la partition contenant x W n,i (x, x 1,..., x n ) = 1I xi V(x) n j=1 1I x j V(x) CART (Breiman et al. 1984), polynomes locaux Consistance universelle sous conditions Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Fléau de la dimension P X loi uniforme sur l hypercube unité de R d Sélectionner une proportion p de données d observation revient à sélectionner un hypercube de côté moyen p 1/d Avec d = 10, p = 10% p 1/d = 0.80 Une méthode n est pas locale avec d grand ou encore Il faut n très grand pour espérer trouver des observations dans un voisinnage local Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Définition Risque d une règle f : R P (f ) = E (X,Y) P [l(y, f (X))] Risque empirique associé à D n : R n (f, D n ) = 1 n n l(y i, f (X i )) i=1 Optimisation du risque empirique sur un sous-ensemble F (un modèle) de F : Problème : choix de F! ˆfF (D n ) argmin f F R n (f, D n ) La règle oracle est tel que : R P (f ) = inf f F R P (f ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Décomposition du risque empirique R P (ˆf F (D n )) R P (f ) = { } { } R P (ˆf F (D n )) inf P(f ) + inf P(f ) R P (f ) f F f F } {{ } } {{ } Erreur d estimation et d approximation (Variance) (Biais) (taille de F) Plus le modèle F est complexe ou flexible plus le biais est réduit plus la partie variance augmente Enjeu : meilleur compromis biais / variance Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Le cas du modèle gaussien Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Erreur apparente de prévision ou qualité d ajustement minimum des moindres carrés dans le cas quantitatif taux de mal classés dans le cas qualitatif Estimation biaisée, par optimisme R n ( f (d n ), d n ) = 1 n n l(y i, f (d n )(x i )) i=1 Estimation sans biais sur un échantillon indépendant Partition : d n = d n 1 Appr dn 2 Valid dn 3 Test R n ( f (d n 1 Appr ), dn 1 Appr ) pour estimer un modèle choisi f (d n 1 Appr ) R n ( f (d n 1 Appr ), dn 2 Valid ) pour optimiser un modèle R n ( f, d n 3 Test ) pour comparer les meilleurs modèles Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation C p de Mallows Décomposition de l erreur de prévision ou risque quadratique : Estimation normalisée : R P ( f (d n )) = R n ( f (d n ), d n ) + Optim C p = R n ( f (d n ), d n ) + 2 d n σ2 d : nombre de paramètres du modèle n : nombre d observations s 2 : estimation de la variance de l erreur par modèle de faible biais Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Critère d Akaïke Basé sur la dissemblance de Kullback compare la loi de Y et celle de Ŷ Suppose que la famille de lois du modèle contient la vraie loi de Y Pour tout modèle estimé par minimisation d une log-vraisemblance L AIC = 2L + 2 d n Cas gaussien et variance connue : AIC et C p équivalents AIC c adapté aux petits échantillons gaussiens AIC c = 2L + n + d n d 2 Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Critère BIC de Schwarz BIC (Bayesian information criterion) modèle de plus grande probabilité a posteriori BIC = 2L + log(n) d n. Cas gaussien et variance connue : BIC proportionnel à AIC n > e 2 7, 4, BIC pénalise plus les modèles complexes Asymptotiquement, la probabilité pour BIC de choisir le bon modèle tend vers 1 différent d AIC qui tend à choisir des modèles trop complexes À Taille fini, BIC risque de se limiter à des modèles trop simples Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Globalement Une procédure d estimation/choix de modèle minimise : Crit = ψ(vraisemblance) + Pénalisation(d) f décroissante en d, la pénalisation croissante en d Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Complexité de modèles de discrimination Pouvoir séparateur d une famille de fonction φ Soit un échantillon (x 1,..., x n ) de R p Il existe 2 n différentes manières de diviser cet échantillon en deux sous-échantillons Un ensemble F de fonctions éclate (shatters) l échantillon si : les 2 n dichotomies peuvent être construites par des éléments de Φ Exemple : dans R 2, les fonctions linéaires (droites) éclatent 3 points mais pas 4 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Dimension de Vapnik-Chernovenkis Un ensemble F de fonctions définies de R p dans R est dit de VC dimension h SSI : tout jeu de h vecteurs de R p peut être éclaté Aucun ensemble de h + 1 vecteurs ne peut être éclaté Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation de dimensions de VC dimension VC de l ensemble des hyperplans dans R p : p + 1 dimension VC de l ensemble des fonctions f (x, w) = sign(sin(w, x)) avec 0 < c < x < 1 où w est un paramètre libre : infinie dimension VC de l ensemble des indicatrices linéaires p f (x, w) = sign (w j x j ) + 1 avec x = 1 j=1 et satisfaisant la condition : w 2 = p j=1 w2 j C Dépend de C et peut prendre toutes valeurs de 0 à p Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Remarque sur la dimension de VC la dimension VC n est pas le nombre de paramètres libres elle est difficile à exprimer pour des modèles complexes Résultats de Vapnik (1999) Un processus d apprentissage est consistant SSI la VC dimension h est finie Contrôle de l erreur de prévision avec une probabilité 1 ρ : R P ( f (d n )) < R n ( f (d n ), d n h(log( 2n h ) + ) + 1) log ρ 4 n Ne dépend pas de p ni de la loi inconnue F mais de n/h Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Principe de Minimisation structurée du risque (SRM) Contrôle de la VC dimension h dans une structure de modèles emboîtés : S 1 S 2 S k de VC dimensions : h 1 < h 2 < < h k Nombre de neurones, degré d un polynôme, contrainte en régression ridge, largeur de fenêtre ou paramètre de lissage, nombre de feuilles... Trouver h rendant le risque minimum avec un meilleur compromis Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Algorithme de validation croisée Moyenner l estimation sur K échantillons de validation 1: Découper aléatoirement l échantillon en K parts (K-fold) de tailles égales selon une loi uniforme 2: Pour k = 1 à K Faire 3: mettre de côté l une des partie 4: estimer le modèle sur les K 1 parties restantes 5: calculer l erreur sur chacune des observations qui n ont pas participé à l estimation 6: Fin Pour 7: la Moyenne des erreurs est l estimation par validation croisée Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Utilisation Soit τ : {1,..., n} {1,..., K} la fonction d indexation f ( k) estimation de f sans la kième partie de l échantillon Estimation par validation croisée de l erreur de prévision : R CV = 1 n n l(y i, f ( τ(i)) (x i )) i=1 Choix de K : n (variance), petit (biais), 10 par défaut Utilisation fréquente en choix de modèle : θ = arg min θ R CV (θ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Validation croisée généralisée Spline, ridge, lasso : ŷ = Hy avec H = (h i,j ) n n VC loo : 1 [ n n i=1 y i φ 2 ( i) (x i )] = 1 [ ] n yi φ ( 2 x i ) n i=1 1 h ii GCV : approcher les h ii par tr(h)/n Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation au Bootstrap Simulation (Monte Carlo) de la distribution d un estimateur Principe : substituer P n, à la distribution inconnue P Tirage avec remise d un échantillon bootstrap de même taille Itération et convergence Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur bootstrap naïf Échantillon bootstrap : z Estimateur plug-in (remplacer F par F de R P (ˆf (d n )) : R n (ˆf z, d n ) = 1 n n i=1 l(y i, ˆf z (x i )) ˆfz désigne l estimation de f à partir de z Estimation bootstrap de l erreur moyenne de prévision E D n P n[r P(ˆf (D n )] : R Boot = E Z F [ R n (ˆf Z, d n [ )] = E 1 n Z F n i=1 l(y i, f Z (x i )) ] Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimation bootstrap par simulation R Boot = 1 B B b=1 1 n Estimation biaisée par optimisme n l(y i, f z b(x i )) i=1 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur bootstrap out-of-bag Distinguer les observations de l échantillon bootstrap et les autres R oob = 1 n 1 l(y i, f n B z b(x i )) i i=1 b K i K i est l ensemble des indices b des échantillons bootstrap ne contenant pas la ième observation à l issue des B simulations B i = K i est le nombre de ces échantillons R oob résout le problème d un biais optimiste de R Boot mais biais pessimiste comme en validation croisée ( R CV ) Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur.632-bootstrap Correctif basé sur la probabilité qu une observation soit tirée dans un échantillon bootstrap : P[x i x b ] = 1 (1 1 n )n 1 1 e 0, 632 Sur-évaluation de l erreur analogue à celle de la validation croisée avec K = 2 Compensation : R.632 = 0, 368 R n (ˆf (d n ), d n ) + 0, 632 R oob Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Matrice de confusion Courbes ROC Matrice de confusion Prévision : Si π i > s, ŷ i = 1 sinon ŷ i = 0 Prévision Observation Total Y = 1 Y = 0 ŷ i = 1 n 11 (s) n 10 (s) n 1+ (s) ŷ i = 0 n 01 (s) n 00 (s) n 0+ (s) Total n + 1 n + 0 n Vrais positifs les n 11 (s) bien classées (ŷ i = 1 et Y = 1) Vrais négatifs les n 00 (s) bien classées (ŷ i = 0 et Y = 0) Faux négatifs les n 01 (s) mal classées (ŷ i = 0 et Y = 1) Faux positifs les n 10 (s) mal classées (ŷ i = 1 et Y = 0) Le taux d erreur : t(s) = n 01(s)+n 10 (s) n Qualité de prévision

Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Courbes ROC et AUC Matrice de confusion Courbes ROC Taux de vrais positifs ou sensibilité = n 11(s) n + 1 Taux de vrais négatifs ou spécificité = n 00(s) n + 0 Taux de faux positifs = 1 Spécificité = n 10(s) n + 0 AUC : aire sous la courbe Banque : Courbes ROC et aire sous la courbe Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Matrice de confusion Courbes ROC Remarques Estimations de l erreur asymptotiquement équivalentes Pas de choix a priori Bootstrap plus compliqué et encore peu utilisé mais Central dans les algorithmes de combinaison de modèles Problèmes du.632-bootstrap en sur-ajustement Rectificatif complémentaire : le.632+bootstrap Utiliser le même estimateur pour comparer deux méthodes Qualité de prévision

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Apprentissage statistique et Data Mining Sélection de modèle dans le cas gaussien INSA de Toulouse Institut de Mathématiques Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Objectifs Expliquer Y quantitative avec X 1,..., X p modèle gaussien et linéaire général Dianostic : multicolinéarité (influence, tests, résidus) Choix de modèle par sélection de variables Choix de modèle par régularisation (ridge, lasso) Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Hypothèses du Modèle linéaire Échantillon taille n : (x 1 i,..., xp i, y i); i = 1,..., n Y i = β 0 + β 1 X 1 i + β 2 X 2 i + + β p X p i + ε i ; i = 1,..., n Hypothèses E(ε i ) = 0, Var(ε) = σ 2 I X j déterministes ou bien ε indépendant des X j β 0,..., β p constants Option ε N (0, σ 2 I) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Expression matricielle E(ε i ) = 0, Var(ε) = σ 2 I X(n (p + 1)) de terme général X j i avec X0 = 1 Y de terme général Y i ε = [ε 1 ε p ] β = [β 0 β 1 β p ] Y = Xβ + ε Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Estimateur des moindres carrés min Y Xβ 2 β Rp+1 Equations normales : X Y X Xβ = 0 et si X X inversible Estimation de β : β = (X X) 1 X Y Prédiction de Y : Ŷ = Xb = X(X X) 1 X Y = HY H = X(X X) 1 X : projection orthog. sur Vect(X) Résidus : e = Y Ŷ = Y Xb = (I H)Y Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Covariances des estimateurs E[( β β)( β β) ] = σ 2 (X X) 1 E[(Ŷ Xβ)(Ŷ Xβ) ] = σ 2 H E[ee ] = σ 2 (I H) Estimation de σ 2 s 2 = Y X β 2 n p 1 = SSE n p 1 Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Le cas du modèle gaussien Modèle Estimation Inférences dans le cas gaussien Exemple Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Sommes des carrés SSE = Y Y 2 = e 2 SST = y Y1 2 = Y Y ny 2 SSR = Ŷ Y1 2 = β X Y ny 2 SST = SSR + SSE R 2 = SSR Coefficient de détermination SST Cosinus carré de l angle entre Y et Ŷ Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur les coefficients La statistique β j β j σ j Student à (n p 1) ddl H 0 : β j = a et intervalle de confiance de niveau 100(1 α)% : β j ± t α/2;(n p 1) σ j Attention les coefficients sont corrélés entre eux Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur le modèle H 0 : β 1 = β 2 =... = β p = 0 SSR/p SSE/(n p 1) = MSR MSE Fisher avec p et (n p 1) ddl Tableau d analyse de la variance Source de variation d.d.l. Somme des carrés Variance F Régression p SSR MSR= SSR p Erreur n p 1 SSE MSE= SSE (n p 1) Total n 1 SST MSR/MSE Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur un modèle réduit H 0 : β 1 = β 2 =... = β q = 0, q < p SSR q, SSE q, R 2 q du modèle réduit à (p q) variables (SSR SSR q )/q SSE/(n p 1) = (R 2 R 2 q)/q (1 R 2 )/(n p 1) Fisher à q et (n p 1) ddl Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur la Prévision Pour x 0 : ŷ 0 = b 0 + b 1 x0 1 + + b p x p 0. Intervalles de confiance des prévisions de Y et E(Y) ŷ 0 ± t α/2;(n p 1) s(1 + v 0(X X) 1 v 0 ) 1/2 ŷ 0 ± t α/2;(n p 1) s(v 0(X X) 1 v 0 ) 1/2 avec v 0 = (1 x 0 ) R p+1 Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Diagnostics des Résidus Homoscédasticité, linéarité, normalité Effet levier : H i i et résidu studentisé grand par Distance de Cook : D i = 1 s 2 (p + 1) (ŷ ŷ (i)) (ŷ ŷ (i) ) Modèle gaussien Résidus Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Résidus studentisés, diagonale de la matrice H et distances de Cook fonction des valeurs prédites Valeurs observées fonction des valeurs prédites et droite de Henri (normal qq-plot) Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Diagnostics de colinéarité conditionnement de X X Facteurs d inflation de la variance (VIF) : V j = 1 1 R 2 j Conditionnement : κ = λ 1 /λ p Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Retour sur capital 40 entreprises du Royaume Uni décrites par RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital flow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net fixed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital flow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Modèle complet Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F (1) Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8) Error 27 0.14951 (3) 0.00554 (6) C Total 39 0.70820 (4) Root MSE 0.07441 (9) R-square 0.7889 (12) Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13) C.V. 52.12940 (11) (1) d.d.l. de la loi de Fisher du test global (8) P(f p;n p 1 > F) ; H 0 rejetée au niveau α si P < α (2) SSR (9) s =racine de MSE (3) SSE ou déviance (10) moyenne empirique de la variable à expliquée (4) SST=SSE+SSR (11) Coefficient de variation 100 (9)/(10) (5) SSR/DF (12) Coefficient de détermination R 2 (6) MSE=SSE/DF est l estimation de σu 2 (13) (7) Statistique F de Fisher du test global Coefficient de détermination ajusté R 2 Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Paramètres du modèle Parameter Estimates Parameter Standard T for H0: Variance Variable DF Estimate Error Parameter=0 Prob> T Tolerance Inflation (1) (2) (3) (4) (5) (6) INTERCEP 1 0.188072 0.13391661 1.404 0.1716. 0.0000000 WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.777998 WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.704415 GEARRAT 1-0.040436 0.07677092-0.527 0.6027 0.45778579 2.184428 LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.407885 LOGASST 1-0.076960 0.04517414-1.704 0.0999 0.21200778 4.716808... (1) estimations des paramètres (β j ) (2) écarts-types de ces estimations (s j ) (3) statistique T du test de Student de H 0 : β j = 0 (4) P(t n p 1 > T) ; H 0 est rejetée au niveau α si P < α (5) 1 R 2 (j) (6) VIF=1/(1 R 2 (j) ) Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple ACoVa élémentaire Y expliquée par T à J niveaux et X quantitative (covariable) Pour chaque niveau j de T, on observe n j valeurs X 1j,..., X nj j de X et n j valeurs Y 1j,..., Y nj j de Y ; n = J j=1 n j taille de l échantillon E[Y T] est fonction affine des variables explcatives Y ij = β 0j + β 1j X ij + ε ij ; j = 1,..., J; i = 1,, n j ε ij supposés i.i.d éventuellement N (0, σ 2 ) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Notations de l ACoVa Y observations [Y ij i = 1, n j ; j = 1, J] x vecteur [X ij i = 1, n j ; j = 1, J] ε = [ε ij i = 1, n j ; j = 1, J] vecteur des erreurs 1 j variables indicatrices des niveaux x.1 j valeurs pour le niveau j, 0 ailleurs X matrice n 2J [1 j x.1 j ] ; j = 1,..., J Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Modèle et paramètres Y = Xβ + ε X est la matrice n 2J : [1 j X.1 j ] ; j = 1,..., J Reparamétrisation : X = [1 X 1 1 1 J 1 x.1 1 x.1 J 1 ] Y ij = β 0J + (β 0j β 0J ) + β 1J X ij + (β 1j β 1J )X ij + ε ij ; j = 1,..., J 1; i = 1,..., n j. Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Tests Comparer le modèle complet : Y = β 0J 1 + (β 01 β 0J )1 1 + + (β 0J 1 β 0J )1 J 1 + β 1J x + + (β 11 β 1J )x.1 1 + + (β 1J 1 β 1J )x.1 J 1 + ε A chacun des modèles réduits : (i) (ii) (iii) (iv) Y = β 0J 1 + (β 01 β 0J )1 1 + + (β 0J 1 β 0J )1 J 1 + β 1J x + ε Y = β 0J 1 + (β 01 β 0J )1 1 + + (β 0J 1 β 0J )1 J 1 + ε Y = β 0J 1 + β 1J x + (β 1j β 1J )x.1 1 + + (β 1J 1 β 1J )x.1 J 1 + ε Y = β 0J 1 + ε Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Hypothèses testées H0 i : pas d interaction entre variables X et T, β 11 = = β 1J, les droites partagent la même pente β 1J. H0 ii : β 11 = = β 1J =0 (pas d effet de x) H0 iii :β 01 = = β 0J, les droites partagent la même constante à l origine β 0J. H iv 0 les variables X et T n ont aucun effet sur Y. Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Données marketing Observations des Consommation de lait après deux mois de 6 familles de taille 1 à 6 dans 4 villes ou campagnes de pub de 5 régions Modéliser la consommation en fonction de la taille de la famille conditionnellement au type de campagne publicitaire Source DF Type III SS Mean Square F Value Pr > F PUB 3 227.1807 75.7269 0.57 0.6377 (1) TAILLE 1 40926.0157 40926.0157 306.57 0.0001 (2) TAILLE*PUB 3 309.8451 103.2817 0.77 0.5111 (3) Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Tests Attention aux interactions Région Source DF Type III SS Mean Square F Value Pr > F PUB 3 72.02974 24.00991 4.62 0.0164 1 TAILLE 1 7178.32142 7178.32142 1380.25 0.0001 TAILLE*PUB 3 217.37048 72.45683 13.93 0.0001 PUB 3 231.73422 77.24474 30.36 0.0001 2 TAILLE 1 8655.25201 8655.25201 3402.34 0.0001 TAILLE*PUB 3 50.15069 16.71690 6.57 0.0042 PUB 3 79.54688 26.51563 6.01 0.0061 3 TAILLE 1 6993.30160 6993.30160 1585.35 0.0001 TAILLE*PUB 3 173.19305 57.73102 13.09 0.0001 PUB 3 415.66664 138.55555 15.23 0.0001 4 TAILLE 1 9743.37830 9743.37830 1071.32 0.0001 TAILLE*PUB 3 361.39556 120.46519 13.25 0.0001 PUB 3 15.35494 5.11831 0.79 0.5168 5 TAILLE 1 8513.28516 8513.28516 1314.71 0.0001 TAILLE*PUB 3 52.75119 17.58373 2.72 0.0793 Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régressions par région Modèle Tests Exemple Consommation par taille et région. Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Objectif de parcimonie en prévision Modèle descriptif explicatif prédictif Le R 2 n est pas un bon critère Biaiser le modèle pour réduire la variance réduire le nombre de variables contraindre les paramètres Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Régression polynomiale (R2 = 0.003, 0.73) Régression linéaire simple Polynôme de degré 2 y 1 0 1 2 y 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Régression polynomiale (R2 = 0.874, 1) Polynôme de degré 5 Polynôme de degré 10 y 0.5 0.0 0.5 1.0 1.5 2.0 2.5 y 0.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Risque quadratique moyen Y = µ + ɛ avec Y = (Y 1,..., Y n ) µ = (f (X 1 ),..., f (X n )) ɛ = (ɛ 1,..., ɛ n ) Estimateur µ = X β de µ a pour risque : R( µ) = E Y,Y[ Y µ 2 ] Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Théorème de Cochran R( µ) = nσ 2 + pσ 2 + µ Π V (µ) 2 µ Π V (µ) 2 est le biais pσ 2 la variance de l estimateur E[ µ E( µ) 2 ] nσ 2 le rique de l oracle µ Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Critères d ajustement Statistique du F de Fisher (SSR SSR q )/s SSE/(n p 1) = (R2 R 2 q) n p 1 1 R 2 ) q si l accroissement (R 2 R 2 q) est suffisamment grand : R 2 R 2 R > q (n p 1) F α;q,(n p 1) l ajout des q variables au modèle est justifié R 2 = 1 SSE/SST, monotone croissant en p R 2 ajusté = 1 n 1 n p 1 (1 R2 ) = 1 SSE/(n p 1) SST/(n 1) Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Critères de prévision Tous les critères sont équivalents avec q fixé Problème : optimisé le choix de q C p de Mallow MSE(ŷ i ) = Var(ŷ i ) + [Biais(ŷ i )] 2 On suppose le modèle complet sans biais C j = (n j 1) MSE j MSE [n 2(j + 1)] C p = R n ( f (d n ), d n ) + 2 d n σ2 AIC = 2L + 2 d n BIC = 2L + log(n) d n PRESS = n i=1 (y i ŷ (i) ) 2 (ou k-cv) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Algorithmes de choix Rechercher dans le graphe des 2 p modèles possibles Sélection (ascendante) Élimination (descendante) Mixte (pas à pas) Globale (Furnival & Wilson, 1974), (leaps de R) Analyse de covariance : AIC mais pas le C p Interactions et effets principaux Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Stepwise et AIC avec R Step: AIC=-60.79 lpsa lcavol + lweight + age + lbph + svi + pgg45 Df Sum of Sq RSS AIC - pgg45 1 0.6590 45.526-61.374 <none> 44.867-60.788 + lcp 1 0.6623 44.204-60.231 - age 1 1.2649 46.132-60.092 - lbph 1 1.6465 46.513-59.293 + gleason 3 1.2918 43.575-57.622 - lweight 1 3.5646 48.431-55.373 - svi 1 4.2503 49.117-54.009 - lcavol 1 25.4190 70.286-19.248 Step: AIC=-61.37 lpsa lcavol + lweight + age + lbph + svi Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Retour sur capital avec SAS N = 40 Regression Models for Dependent Variable: RETCAP R-square Adjusted C(p) BIC Variables in Model In R-square 1 0.1055 0.0819 78.3930-163.3 WCFTCL 2 0.3406 0.3050 50.3232-173.7 WCFTDT QUIKRAT 3 0.6154 0.5833 17.1815-191.1 WCFTCL NFATAST CURRAT 4 0.7207 0.6888 5.7146-199.20 WCFTDT LOGSALE NFATAST CURRAT 5 0.7317 0.6923 6.3047-198.05 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT 6 0.7483 0.7025 6.1878-197.25 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT 7 0.7600 0.7075 6.6916-195.77 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT 8 0.7692 0.7097 7.5072-193.87 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT 9 0.7760 0.7088 8.6415-191.59 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT 10 0.7830 0.7082 9.7448-189.2 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT QUIKRAT CURRAT 11 0.7867 0.7029 11.277-186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT 12 0.7888 0.695 13.000-183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Définition de la régression ridge β 0 β 1 β =.., β = β p β 1 β 2.. β p X 0 = (1, 1,..., 1), et X la matrice X privée de X 0 Y = X β + ɛ β Ridge = argmin β R p+1 n i=1 (Y i p λ paramètre positif à choisir β Ridge = (X X + λi p ) 1 X Y j=0 X(j) i β j ) 2 + λ p j=1 β2 j Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Propriétés de la régression ridge 1 X X + λi p est inversible 2 β 0 n intervient pas : centrer X 3 Dépend des unités : réduire X 4 Forme équivalente : } β Ridge = arg min β { Y Xβ 2 ; β 2 < c 5 Chemin de régularisation 6 Optimisation de λ par k-fold validation croisée Modèle gaussien

y y y Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Pénalisation ridge du modèle polynomial Régression Ridge, l=0 Régression Ridge, l=10^ 7 Régression Ridge, l=10^4 0.5 0.0 0.5 1.0 1.5 2.0 2.5 0.5 0.0 0.5 1.0 1.5 2.0 2.5 0.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Chemin de régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net t(x$coef) 20 10 0 10 20 0e+00 1e 04 2e 04 3e 04 4e 04 5e 04 x$lambda Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net SVD et régression ridge SVD : X = UDV Avec : UU = U U = I n, VV = V V = I p X β Ridge = UD(D D + λi p ) 1 D U Y X β Ridge = p j=1 uj ( ) dj 2 dj 2+λ (u j ) Y X β = p j=1 uj (u j ) Y (λ = 0) Plus λ est grand, plus les coefficients sont seuillés Les plus grands coefficients sont peu seuillés Comparer avec la régression sur composantes principales Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression LASSO ou sparse (1996) Ridge toutjours calculable mais problème d interprétation Objectif : associe pénalisation et sélection β Lasso = { n argmin β R p i=1 (Y i p j=0 X(j) i β Lasso = argmin β, β 1 t ( Y Xβ 2 ) λ est le paramètre de régularisation λ = 0 : estimateur des moindres carrés. λ tend vers l infini, ˆβ j = 0, j = 1,..., p. β j = signe( β j )( β j λ)1 βj λ β j ) 2 + λ } p j=1 β j Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Utilisation de la régression Lasso Utilisable si p > n Procédures de programmation linéaire ou algorithme LARS Nombre de variables influentes q < n Attention à l ultra haute dimension (Verzelen, 2012) k n log(p k ) > 1 2 p = 5000 gènes et n = 40, k = 4, k n log( p k ) = 0.71 p = 600 gènes et n = 40, k = 4, k n log( p k ) = 0.50 Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression elastic net n i=1 (Y i β 0 β 1 X (1) i β 2 X (2) i +λ α p β j + (1 α) j=1 p j=1 β 2 j... β p X (p) i ) 2 Pour α = 1, régression Lasso Pour α = 0, régression ridge Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net SVD et régression ridge Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Concentration d ozone O3-o Concentration d ozone effectivement observée ou variable à prédire, 03-pr prévision mocage qui sert de variable explicative ; Tempe Température prévue pour le lendemain, vmodule Force du vent prévue pour le lendemain, lno Logarithme de la concentration observée en monoxyde d azote, lno2 Logarithme de la concentration observée en dioxyde d azote, rmh20 Racine de la concentration en vapeur d eau, Jour Variable à deux modalités pour distinguer les jours ouvrables (0) des jours fériés-we (1). Station Une variable qualitative indique la station concernée : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques. Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Estimation et résidus de MOCAGE Valeurs observees 0 50 150 250 Résidus 100 50 0 50 100 0 50 100 200 300 Valeurs predites 0 50 100 200 300 Valeurs predites Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Modèle linéaire Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -4.99738 7.87028-0.635 0.52559 O3_pr 0.62039 0.05255 11.805 < 2e-16 *** vmodule -1.73179 0.35411-4.891 1.17e-06 *** lno2-48.17248 6.19632-7.774 1.83e-14 *** lno 50.95171 5.98541 8.513 < 2e-16 *** s_rmh2o 135.88280 50.69567 2.680 0.00747 ** jour1-0.34561 1.85389-0.186 0.85215 stationals 9.06874 3.37517 2.687 0.00733 ** stationcad 14.31603 3.07893 4.650 3.76e-06 *** stationpla 21.54765 3.74155 5.759 1.12e-08 *** stationram 6.86130 3.05338 2.247 0.02484 * TEMPE 4.65120 0.23170 20.074 < 2e-16 *** Residual standard error: 27.29 on 1028 degrees of freedom Multiple R-Squared: 0.5616, Adjusted R-squared: 0.5569 F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16 Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Modèle quadratique Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 1039 1745605 O3_pr 1 611680 1038 station 4 39250 1034 1133925 969.9171 < 2.2e-16 *** 1094674 15.5594 2.339e-12 *** vmodule 1 1151 1033 1093523 1.8252 0.1769957 lno2 1 945 1032 1092578 1.4992 0.2210886 s_rmh2o 1 24248 1031 1068330 38.4485 8.200e-10 *** TEMPE 1 248891 1030 819439 394.6568 < 2.2e-16 *** O3_pr:station 4 16911 1026 802528 6.7038 2.520e-05 *** O3_pr:vmodule 1 8554 1025 793974 13.5642 0.0002428 *** O3_pr:TEMPE 1 41129 1024 752845 65.2160 1.912e-15 *** station:vmodule 4 7693 1020 745152 3.0497 0.0163595 * station:lno2 4 12780 1016 732372 5.0660 0.0004811 *** station:s_rmh2o 4 19865 1012 712508 7.8746 2.997e-06 *** station:tempe 4 27612 1008 684896 10.9458 1.086e-08 *** vmodule:lno2 1 1615 1007 683280 2.5616 0.1098033 vmodule:s_rmh2o 1 2407 1006 680873 3.8163 0.0510351. lno2:tempe 1 4717 1005 676156 s_rmh2o:tempe 1 42982 1004 633175 7.4794 0.0063507 ** 68.1543 4.725e-16 *** Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Résidus des modèles linéaire et quadratique Résidus 100 50 0 50 100 Résidus 100 50 0 50 100 0 50 100 200 300 Valeurs predites 0 50 100 200 300 Valeurs predites Modèle gaussien

Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression ridge de données NIR Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression Lasso de données NIR Modèle gaussien

Régression PLS Régression sparse PLS Apprentissage Statistique et Data Mining Composantes principales et PLS parcimonieuses INSA de Toulouse Institut de Mathématiques PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Données de grande dimension Contexte de grande dimension (p >> n) Régression par sélection ou pénalisée (ridge, lasso) Régression sur composantes principales ou PCR Régression PLS (Wold 1966) développée en Chimiométrie (logiciel SIMCA-P) PLS sparse PLS

Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Régression sur composantes principales (PCR) Z 1,... Z p : composantes principales associées des variables X 1,... X p : Z 1 = p j=1 α jx j de variance maximale avec αj 2 = 1 Z m combinaison linéaire de variance maximale et orthogonale à Z 1,..., Z m 1. La PCR considére un prédicteur de la forme : avec Ŷ PCR = r ˆθ m Z m m=1 ˆθ m = Zm, Y Z m 2 PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Propriétés de la PCR r = p redonne l estimateur des moindres carrés r < p pour réduire la variance lors de variables colinéaires (p > n) Optimisation du choix de r par validation croisée Interprétation des composantes difficile si p est grand La régression ridge seuille les coefficients des composantes principales, la PCR annule ceux d ordre > r Problème : les premières composantes ne sont pas nécessairement corrélées avec Y D où, l intérêt de la régression PLS PLS sparse PLS

Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Régressions PLS PLS1 : Y quantitative expliquée par p variables X j, PLS2 : (canonique) p variables X j et q variables Y k, PLS2 : (régression) q variables Y k par p variables X j, PLS-DA : Y qualitative expliquée par p variables X j. Pas de propriétés statistiques de la PLS PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Principe et objectif de parcimonie Exploration et intégration de données : i.e. données biologiques à haut débit : (n << p) phénotypes, métabolites... fonctions de transcrits Interprétation : Version parcimonieuse de la régression PLS Construite sur un algorithme de Sparse-SVD Donc d ACP parcimonieuse PLS sparse PLS

Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Définition de la PLS1 (partial least square) Chercher les r composantes Ξ h combinaisons linéaires des X j : Ξ = XU fortement corrélées avec Y La matrice U est solution du problème suivant : Pour h = 1,..., r, u h = arg max u = arg max u Avec u hu h = 1 Cov(Y, Ξ h ) 2 u X YY Xu et ξ hξ h = u X YY Xu = 0, pour l = 1..., h 1. Les variables X j sont préalablement centrées et réduites PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Algorithme de PLS1 X matrice des variables explicatives centrées réduites Calcul de la matrice U des coefficients Pour h = 1 à r Faire 1 u h = X Y X Y 2 ξ h = Xu h 3 Déflation de X : X = X ξ h ξ h X Puis régression de Y sur les r variables latentes ξ h PLS sparse PLS

Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Propriétés de la PLS1 Réduction de dimension comme avec la PCR Régression sur des composantes décorrélées (orthogonales) Optimisation de r par validation croisée En général : solution de la PLS plus parcimonieuse que celle de la PCR Problème d interprétabilité d où l intérêt d une version de sparse-pls PLS sparse PLS Régression PLS Régression sparse PLS Erreur par validation croisée Régression PLS1 Régression PLS2 Variantes de la PLS2 lpsa RMSEP 0.8 0.9 1.0 1.1 0 2 4 6 8 10 number of components PLS sparse PLS

Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Loadings et qualité d ajustement lpsa lpsa, 6 comps, validation regression coefficient 0.1 0.0 0.1 0.2 0.3 0.4 0.5 predicted 1 2 3 4 lcav lwei age lbph svi1 lcp gl7 gl8 gl9 pg45 variable 0 1 2 3 4 5 measured 6 composantes PLS PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Définition de la PLS2 variables latentes ξ h et ω h, (h = 1,..., r) solutions de ξ 1 = Xu 1 et ω 1 = Yv 1 max cov(xu, Yv) u = v =1 puis itérations avec déflations de X et Y (u h, v h ) h=1,...,r sont apellés vecteurs loading PLS sparse PLS

Schéma de la PLS2 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 1 2... 1 2.... p 1 2..... q 1 2 X ξ ω... Y U n u 1 u 2 u H n ξξ 1 2 ξh ωω ω 1 2 H v 1 v 2 V v H C c 1 c 2 c H PLS2 : X and Y sont décomposées en loading vectors (u 1,..., u r ), (v 1,..., v r ) et variables latentes (ξ 1,..., ξ r ), (ω 1,..., ω r ) D d 1 d 2 d H PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Algorithme NIPALS de PLS2 X et Y matrices des données centrées Initialiser ω 1 par la première colonne de Y For h = 1 à r 1 Jusqu à convergence 1 u h = X ω h /ω hω h 2 u h = u h /u hu h est le vecteur loading associé à X 3 ξ h = Xu h est la variable latente associée à X 4 v h = Y ξ h /(ξ h ξ h ) 5 v h = v h /v hv h est le vecteur loading associé à Y 6 ω h = Y v h est la variable latente associée à Y 2 c h = X ξ/ξ ξ régression partielle de X sur ξ 3 d h = Y ω/ω ω régression partielle de Y sur ω 4 Résidus X X ξc ou déflation 5 Résidus Y Y ωd ou déflation PLS sparse PLS

Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Propriétés de NIPALS Nombre r d itérations à fixer ou optimiser Algorithme de puissance itérée YY XX u = λu Y XX Yω = λω XX YY v = λv X YY Xξ = λξ Données de grande dimension, colinéaires ou incomplètes Graphes de co-variation des variables Graphes des individus comme en ACP PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 PLS par NIPALS ou SVD Vecteurs et valeurs propres de X YY X ou SVD de X Y : la première étape de la SDV est celle de la PLS Plus rapide mais stocker des matrices p p et imputation des données manquantes rend NIPALS utile PLS sparse PLS

Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 PLS régression v.s. canonique Modes de déflation : Mode canonique : X h = X h 1 ξ h c h et Y h = Y h 1 ω h d h Mode régression : X h = X h 1 ξ h c h et Y h = Y h 1 ξ h v h PLS-DA Y qualitatives à m modalités remplacée par m vecteurs des indicatrices PLS sparse PLS Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Dimension et interprétation n << p donc p très grand PLS et réduction de dimension pour colinéarité Composantes ou variables latentes ininterprétables Objectif : limité le nombre de coefficients non nuls des variables latentes Version parcimonieuse ou sparse PLS sparse PLS

Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Algorithme de Shen et Huang (2008) de sparse SVD Résoudre : min u,v M uv 2 F + P λ(v) Décomposer M = U V M 0 = M For h de 1 à r Faire 1 Fixer v old = δ h v h 2 u old = u h avec v h et v h de norme 1 3 Jusqu à convergence de u new et v new Faire 1 v new = g λ (M h 1u old ) 2 u new = M h 1v new / M h 1 v new 3 u old = u new, v old = v new 4 v new = v new / v new 5 M h = M h 1 δ h u new v new Seuillage doux : g λ (y) = sign(y)( y λ) + PLS sparse PLS Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Définition sparse-pls Pour résoudre : min uh,v h M h u h v h 2 F + P λ 1 (u h ) + P λ2 (v h ) itérer r fois la première étape de sparse-svd Seuillage doux composante par composante : P λ1 (u h ) = P λ2 (v h ) = p sign(u hj )( u hj λ 1 ) + j=1 q sign(v hj )( v hj λ 2 ) + j=1 Déflation entre deux SVD et problème d orthogonalité PLS sparse PLS

Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Optimisation des paramètres Pénalisations Lasso λ h 1, λh 2, (h = 1,..., r) : mode régression : erreur de prevision par validation croisée mode canonique : degré de parcimonie, stabilité (bootstrap) spls-da : erreur de prévision dimension r de la PLS : r 3 pour l interprétation PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Cookies PLS1 : optimisaiton de r et résidus PLS sparse PLS

Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Mode régression : données simulées de Chun et Keles (2010) n = 40, p = 5000 (X var.), q = 50 (Y var.) 20 variables X et 10 variables Y d effet µ 1 20 variables X et 20 variables Y d effet µ 2 PLS dim 1 spls dim 1 0 20 40 60 80 100 dim 2 0 20 40 60 80 100 dim 2 0 20 40 60 80 100 dim 3 0 20 40 60 80 100 dim 3 0 20 40 60 80 100 Vecteurs loading associés à la matrice X 0 20 40 60 80 100 PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection PLS version analyse canonique (Lê Cao et al. 2009) NCI : 60 lignées cellulaires de tumeurs CO RE OV BR PR CNS LEU ME 7 8 6 8 2 9 6 8 epitheliales, mesenchymales, melanomes Deux plateformes : X = cdna chip data, p = 1375 Y = Affymetrix chip, q = 1517 données symétriques recouvrement des gènes exprimés et des compléments PLS sparse PLS

H460 Régression PLS Régression sparse PLS Representation simultanée, NCI Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection (ω 2, ξ 2 ) 7860 (ω 1, ξ 1) BR CNS CO LE ME NS OV PR RE PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Discrimination par s-pls-da : données de tumeur du cerveau n = 90 p = 6144 expressions de gènes ou variables X et 10 variables Y d effet µ 1 variables qualitatives Y à 5 modalités (type de tumeur) Objectif : diagnostiquer le type de tumeur à partir de l expression des gènes Lê cao et al. (2011) présente une comparaison détaillée : plusieurs jeux de données et plusieurs approches de classification supervisée PLS sparse PLS

Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Brain data set et réseaux biologiques Comp 2 1.0 0.5 0.0 0.5 1.0 Cyclin D1 TNFRSF1A STAB1 CD97 PON2 X53777_at BARD1 Midkine CIP4 U30255_at PEA15 D31764_at M83233_at D12676_at X68836_at M31520_at M74089_at U76272_at U56833_at U85267_at X78520_at D89667_at L00205_at X16560_at Y00764_at M28213_s_at U21858_at HG384.HT384_at M20471_at M33653_at Z50022_at D79998_at X63578_rna1_at ALDOC PGHD BTN2A2 SORL1 BAD PEA15 GRM4 SIRPA SCN1B PTMA LRRC16A MLLT3 INSM1 MAB21L1 U30521_at AP3B2 STMN2 Neuronatin NDF1 1.0 0.5 0.0 0.5 1.0 Comp 1 FIGURE: Variables (gènes) FIGURE: Gene Go software PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Bach (2008) Modèle linéaire et Lasso, Echantillons bootstrap Intersection des sélections Meinshausen et Bülhmann (2010) Modèle linéaire, modèles graphiques, Lasso, random lasso Echantillons aléatoires taille n/2 sans remise Graphe : probabilité de sélection fonction de la pénalité Verzelen (2010) Rappel dans le cas gaussien : n = 90 et p = 6144 supposent k < 6 2k log(p/k) n > 1 2 PLS sparse PLS

Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Stabilité de la sélection, Brain data set Brain dim 1 probability 0.0 0.2 0.4 0.6 0.8 1.0 5 10 15 20 25 30 35 40 45 50 100 200 500 1 number of selected variables PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Méthodes avec pénalisation : bibliographie Tibshirani (1996) : Modèle linéaire et Lasso Zou et Hastie (2005) : Modèle linéaire et Elastic Net Jolliffe et al. (2003), Zou et al. (2006), Shen et Huang (2008) : sparse ACP González et al. (2009) : Analyse canonique ridge (Vinod, 1976) Chun et Keles (2007) : PLS mode régression et Elastic Net Waaijenborg et al. (2008), Parkhomenko et al. (2009), Witten et al. (2009) : PLS mode canonique et Elastic Net Lê Cao et al. (2008), Chun et Keles (2010) : sparse PLS mode régression Lê Cao et al. (2009) : sparse PLS mode canonique Ahdesmäki and Strimmer (2009) : sparse LDA Chung et Keles (2010), Lê Cao et al. (2010) : sparse PLS-DA PLS sparse PLS

Références Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Ahdesmäki, M. and Strimmer, K. (2009). Feature selection in omics prediction problems using cat scores and false non-discovery rate control. Ann. Appl. Stat. Antoniadis, A., Lambert-Lacroix, S., and Leblanc, F. (2003). Effective dimension reduction methods for tumor classification using gene expression data. Bioinformatics, 19(5) :563-570. Bach, F. (2008). Bolasso : model consistent Lasso estimation through the bootstrap. Proceedings of the Twenty-fifth International Conference on Machine Learning (ICML). Boulesteix, A. (2004). PLS Dimension Reduction for Classification with Microarray Data. Statistical Applications in Genetics and Molecular Biology, 3(1) :1075. Breiman, L. (2001). Random forests. Machine learning, 45(1) :5-32. Chun, H. and Keles, S. (2010). Sparse partial least squares regression for simultaneous dimension reduction and variable selection. Journal of the Royal Statistical Society : Series B, 72(1) :3-25. Chung, D. and Keles, S. (2010). Sparse Partial Least Squares Classification for High Dimensional Data. Statistical Applications in Genetics and Molecular Biology, 9(1) :17. Dai, J., Lieu, L., and Rocke, D. (2006). Dimension reduction for classification with gene expression microarray data. Statistical Applications in Genetics and Molecular Biology, 5(1) :1147. Ding, B. and Gentleman, R. (2005). Classification using generalized partial least squares. Journal of Computational and Graphical Statistics, 14(2) :280-298. Fort, G. and Lambert-Lacroix, S. (2005). Classification using partial least squares with penalized logistic regression. Bioinformatics, 21(7) :1104. Gadat, S. and Younes, L. (2007). A stochastic algorithm for feature selection in pattern recognition. The Journal of Machine Learning Research, 8 :547. González I., Déjean S., Martin P.G.P., Goncalves O., Besse P. and Baccini A. (2009) Highlighting Relationships Between Heteregeneous Biological Data Through Graphical Displays Based On Regularized Canonical Correlation Analysis, Journal of Biological Systems 17(2), pp 173-199. Guyon, I., Elisseefi, A., and Kaelbling, L. (2003). An to Variable and Feature Selection. Journal of Machine Learning Research, 3(7-8) :1157-1182. Guyon, I., Weston, J., Barnhill, S., and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine learning, 46(1) :389-422. PLS sparse PLS... Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Huang, X., Pan, W., Park, S., Han, X., Miller, L., and Hall, J. (2004). Modeling the relationship between LVAD support time and gene expression changes in the human heart by penalized partial least squares. Bioinformatics, 4991. Jolliffe, I., Trendafilov, N., and Uddin, M. (2003). A Modified Principal Component Technique Based on the LASSO. Journal of Computational & Graphical Statistics, 12(3) :531-547. Lê Cao K.-A., Boitard, S. and Besse, P. (submitted) Multiclass classification with spls-da, graphical interpretation and comparison with wrapper approaches. Lê Cao, K.-A., Bonnet, A., and Gadat, S. (2009a). Multiclass classification and gene selection with a stochastic algorithm. Computational Statistics and Data Analysis, 53 :3601-3615. Lê Cao, K.-A., Goncalves, O., Besse, P., and Gadat, S. (2007). Selection of biologically relevant genes with a wrapper stochastic algorithm. Statistical Applications in Genetics and Molecular Biology, 6(1) :29. Lê Cao K.-A., González, I. and Déjean, S. (2009) integromics/mixomics : an R package to unravel relationships between two omics data sets Bioinformatics, 25(21) :2855-2856. Lê Cao K.-A., Martin P.G.P, Robert-Granié C. and Besse, P. (2009) Sparse Canonical Methods for Biological Data Integration : application to a cross-platform study, BMC Bioinformatics 10 :34. Lê Cao K.-A., Rossouw D., Robert-Granié C. and Besse P. (2008) A Sparse PLS for Variable Selection when Integrating Omics data, Statistical Applications in Genetics and Molecular Biology 7 :Iss. 1, Article 35. Meinshausen, N. and Bühlmann, P. (2008). Stability selection. Journal of the Royal Statistical Society : Series B, 72, 417-473. Nguyen, D. and Rocke, D. (2002a). Multi-class cancer classification via partial least squares with gene expression profiles. Bioinformatics, 18(9) :1216. Nguyen, D. and Rocke, D. (2002b). Tumor classification by partial least squares using microarray gene expression data. Bioinformatics, 18(1) :39. Parkhomenko, E., Tritchler, D., and Beyene, J. (2009). Sparse canonical correlation analysis with application to genomic data integration. Statistical Applications in Genetics and Molecular Biology, 8(1) :1. Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation. Journal of Multivariate Analysis, 99 :1015-1034. PLS sparse PLS

... Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Tan, Y., Shi, L., Tong, W., Gene Hwang, G., and Wang, C. (2004). Multi-class tumor classification by discriminant partial least squares using microarray gene expression data and assessment of classification models. Computational Biology and Chemistry, 28(3) :235-243. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58(1) :267-288. Tibshirani, R., Hastie, T., Narasimhan, B., and Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression. Proceedings of the National Academy of Sciences, 99(10) :6567. Waaijenborg, S., de Witt Hamer, V., Philip, C., and Zwinderman, A. (2008). Quantifying the Association between Gene Expressions and DNA-Markers by Penalized Canonical Correlation Analysis. Statistical Applications in Genetics and Molecu- lar Biology, 7(3). Witten, D., Tibshirani, R., and Hastie, T. (2009). A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis. Biostatistics, 10(3) :515. Wold, H. (1966). Multivariate Analysis. Academic Press, New York Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical, Society Series B, 67(2) :301-320. Zou, H., Hastie, T. and Tibshirani, R. (2006). Sparse principal component analysis. Journal of Computational and Graphical Statistics, 15(2) :265-286. PLS sparse PLS

Odds et odds ratio Régression logistique Apprentissage Statistique et Data Mining Régression logistique INSA de Toulouse Institut de Mathématiques Modèle binomial Odds et odds ratio Régression logistique Objectif Expliquer Z qualitative à 2 modalités {0, 1} ou Y nombre de succès de Z par {X 1,..., X p } qualitatives et quantitatives Prédicteur linéaire Xβ inadapté Cas particulier du MLG : modèle binomial Méthode sans doute la plus utilisée (médical, marketing) Modèle binomial

Odds et odds ratio Régression logistique Définition de l Odds Y une variable qualitative à m modalités L odds de la lème modalité relativement à la kème est le rapport Ω lk = π l π k avec π l = P[T = T l ] estimé par Ω lk = n l n k Si m = 2, Ω 10 = π (1 π) gain exprime une cote ou chance de Si π(succès)=0,8 alors π(échec)=0,2 et Odds(succès)=4 : Chance de succès de 4 contre un Modèle binomial Odds et odds ratio Régression logistique Définition de l Odds ratio Table de contingence 2 2 croisant T 1 et T 2 [ π11 π 12 π 21 π 22 ] avec π ij = P[{T 1 = T i } et {T 2 = T j }] Ω 1 = π 11 π 12 Ω 2 = π 21 π 22 Odds ratio ou rapport de cote : Θ = Ω 1 Ω 2 = π 11π 22 π 12 π 21 Θ = 1 ssi X 1 et X 2 sont indépendantes Θ > 1 si les sujets de la ligne 1 ont plus de chances de prendre la première colonne que les sujets de la ligne 2 et inférieur à 1 sinon Modèle binomial

Odds et odds ratio Régression logistique Exemple d odds ratio Concours avec 7 garçons reçus sur 10 et 4 filles sur 10 Odds des garçons : 0.7/0.3=2.33 Odds des filles : 0.4/0.6=0.67 odds ratio : 2.33/0.67=3.65 Odds ratio dans une table de contingence J K Θ abcd = Ω a Ω b = π acπ bd π ad π bc estimé par l odds ratio empirique : Θ abcd = n acn bd n ad n bc Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Notations Z variable qualitative à 2 modalités : 1 ou 0... Xβ prend ses valeurs dans R Modéliser π = P[Z = 1] ou plutôt g(π i ) = x iβ avec g : [0, 1] R g est appelée fonction lien probit : g fonction inverse de la fonction de répartition d une loi normale (pas explicite). log-log : g(π) = ln[ ln(1 π)] (dissymétrique) logit : g(π) = logit(π) = ln π 1 π ; g 1 (x) = ex 1+e x La régression logistique est une modélisation linéaire du log odds Les coefficients expriment des odds ratio Modèle binomial

Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Modèle X 1,..., X q : explicatives qualitatives ou quantitatives I : nombre des combinaisons x 1 i,..., xq i des facteurs X j n i : nombre d essais avec x 1 i,..., xq i fixé (n = I i=1 n i) y i nombre de (Z = 1) observés lors des n i essais, Si π i = P[Z = 1] constante pour x 1 i,..., xq i fixé Alors Y i sachant n i suit une loi binomiale B(n i, π i ) d espérance E(y i ) = n i π i et de densité : P(Y = y i ) = ( n i ) y i π y i i (1 π i) (n i y i ). Hypothèse : [logit(π i ); i = 1,..., n] vect{x 1,..., X q } logit(π i ) = x iβ ou π i = ex i β 1 + e x i β i = 1,..., I Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Estimation Estimation b de β par maximisation de la log-vraisemblance Méthodes numériques itératives (Newton Raphson, Scores de Fisher) Prévisions des probabilités π i : π i = et des effectifs ŷ i = n i p i ex i b 1+e x i b Modèle binomial

Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Remarques X construite comme pour l analyse de covariance Attention au choix implicite de paramétrication par le logiciel (O, 1) ou ( 1, 1) Cas précédent : données groupées. Si les observations x i sont toutes distinctes : n i = 1; i = 1,..., I. Les comportements asymptotiques et test ne sont plus valides En plus des b j ou log odds ratio, estimation possible des odds-ratio ou rapports de cote : Y a e b fois plus de chance d apparaître quand X = 1 Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Généralisation Cas de Y polytomique Y qualitative ordinale : niveau de gravité, de satisfaction... Problème si plusieurs modèles en concurence pour chaque fonction logit utilisable si p le nombre de variables explicatives est petit Modèle binomial

Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Régression polytomique Une variable explicative X dichotomique de Y à k modalités ordonnées. π j (X) = P(Y = j X) avec k j=1 π j(x) = 1 Il faut estimer k 1 prédicteurs linéaires : g j (X) = α j + β j X pour j = 1,..., k 1 Trois types d échelle des rapports de cote : comparaison des catégories adjacentes deux à deux comparaison des catégories adjacentes supérieures cumulées comparaison des catégories adjacentes cumulées Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Logits cumulatifs log π j+1 + + π k π 1 + + π j pour j = 1,..., k 1 Hypothèse souvent implicite : β j ; j = 1,..., k 1 homogènes Même coefficient b : rapports de cotes proportionnels ou même fonction logit translatée proc logistic de SAS propose un test d homogénéité des β j Interprétation Pour tout seuil choisi de Y, la cote des risques d avoir une gravité supérieure à ce seuil est e b fois plus grande chez les exposés (X = 1) que chez les non exposés (X = 0) Modèle binomial

Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Choix de modèle Algorithme par élimination ou mixte (stepwise) avec soit Test de Wald (ou du rapport de vraisemblance) à la place de Fisher soit le critère AIC d Akaïke Versions LASSO et PLS de la régression logistique Extensions : effets aléatoires, mesures répétées Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Exemple simple Influence du débit et du volume d air inspiré sur la dilatation des vaisseaux sanguins superficiels des membres inférieurs D E B I T 4 3 2 1 0 0 1 2 3 4 V O L U M E D I L A T 0 1 Modèle binomial

Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Sorties SAS The LOGISTIC Procedure Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 56.040 35.216. SC 57.703 40.206. -2 LOG L 54.040 29.216(1) 24.824 with 2 DF (p=0.0001) Score.. 16.635 with 2 DF (p=0.0002) Parameter(2) Standard Wald(3) Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 2.8782 1.3214 4.7443 0.0294.. L_DEBIT 1-4.5649 1.8384 6.1653 0.0130-2.085068 0.010 L_VOLUME 1-5.1796 1.8653 7.7105 0.0055-1.535372 0.006 Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Régression logistique ordinale Variables : 1 Etat du conducteur : Normal ou Alcoolisé 2 Sexe du conducteur 3 Port de la ceinture : Oui Non 4 Gravité des blessures : 0 : rien à 3 : fatales Modèle binomial

Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Sorties SAS Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept Gr0 1 1.8699 0.0236 6264.9373 <.0001 Intercept Gr1 1 2.8080 0.0269 10914.3437 <.0001 Intercept Gr2 1 5.1222 0.0576 7917.0908 <.0001 sexe Sfem 1-0.3118 0.0121 664.3353 <.0001 alcool A_bu 1-0.5017 0.0190 697.0173 <.0001 ceinture Cnon 1-0.1110 0.0174 40.6681 <.0001 Test de score pour l hypothèse des cotes proportionnelles Khi-2 DDL Pr > Khi-2 33.3161 6 <.0001 Modèle plus simple : GrN vs. GrO Estimations des rapports de cotes Effet Valeur estimée IC de Wald à 95 % sexe Sfem vs Shom 1.873 1.786 1.964 alcool A_bu vs Ajeu 2.707 2.512 2.918 ceinture Cnon vs Coui 1.244 1.162 1.332 Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Diagnostic de cancer Wisconsin Breast Cancer Database (mlbench de R) 9 variables ordinales ou nominales à 10 modalités 683 observations Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses benign et malignant Avec toutes les variables : ajustement exact (0%) mais erreur de 5,8% Modèle réduit : ajustement de 3,5% et erreur de 5,1% Modèle binomial

Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Dépassement de seuil Prévision directe des dépassements (150µg/m 3 au lieu 180) Problèmes : ils sont peu nombreux Modèle optimal au sens d Akaïke sans interaction Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 831 744.34 O3_pr 1 132.89 830 611.46 9.576e-31 vmodule 1 2.42 829 609.04 0.12 s_rmh2o 1 33.71 828 575.33 6.386e-09 station 4 16.59 824 558.74 2.324e-03 TEMPE 1 129.39 823 429.35 5.580e-30 vmodule est-elle utile? Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Comparaison de modèles Avec et sans vmodule, avec et sans interaction A partir du quantitatif ou non, MOCAGE Matrices de confusion de l échantillon test pour différents modèles : 0 1 0 1 0 1 0 1 FALSE 163 19 FALSE 162 18 FALSE 163 17 FALSE 160 13 TRUE 5 21 TRUE 6 22 TRUE 5 23 TRUE 8 27 logistique sans vmodule avec vmodule avec interactions quantitatif Erreur : 11,5% 11,5% 10,6% 10,1% MOCAGE : 13,6% Biais systématique Besoin de préciser ces estimations d erreurs Modèle binomial

Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Gestion de la Relation Client Données en provenance d I-BP 1425 clients 32 variables comptables Objectif : score d appétance de la carte visa premier. 1 Nettoyage des données 2 Transformations 3 Comparaison des modélisations Modèle binomial Odds et odds ratio Régression logistique GRC : Liste des variables Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Identif. matric sexec ager famil relat prcsp opgnb moyrv tavep endet gaget gagec gagem kvunb qsmoy Libellé Matricule (identifiant client) Sexe (qualitatif) Age en années Situation familiale (Fmar : marié, Fcel : célib., Fdiv :divorcé, Fuli :union libre, Fsep : séparés, Fveu :veuf) Ancienneté de relation en mois Catégorie socio-professionnelle (code num) Nombre d opérations par guichet dans le mois Moyenne des mouvements nets créditeurs des 3 mois en Kf Total des avoirs épargne monétaire en francs Taux d endettement Total des engagements en francs Total des engagements court terme en francs Total des engagements moyen terme en francs Nombre de comptes à vue Moyenne des soldes moyens sur 3 mois Identif. Libellé qcred Moyenne des mouvements créditeurs en Kf dmvtp Age du dernier mouvement (en jours) boppn Nombre d opérations à M-1 facan Montant facturé dans l année en francs lgagt Engagement long terme vienb Nombre de produits contrats vie viemt Montant des produits contrats vie en francs uemnb Nombre de produits épargne monétaire xlgnb Nombre de produits d épargne logement xlgmt Montant des produits d épargne logement en francs ylvnb Nombre de comptes sur livret ylvmt Montant des comptes sur livret en francs rocnb Nombre de paiements par carte bancaire à M-1 jntca Nombre total de cartes nptag Nombre de cartes point argent itavc Total des avoirs sur tous les comptes havef Total des avoirs épargne financière en francs dnbjd Nombre de jours à débit à M carvp Possession de la carte VISA Premier Modèle binomial

Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire GRC : modélisation Sélection par méthode descendante de la procédure logistic sur échantillon d apprentissage Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq SEXEQ 1 22.7707 <.0001 PCSPQ 4 41.4504 <.0001 kvunbq 1 10.7444 0.0010 uemnbq 2 6.0831 0.0478 nptagq 1 5.0194 0.0251 facanq 1 8.1289 0.0044 relatq 2 18.4219 <.0001 opgnbq 2 15.8660 0.0004 moyrvq 2 65.7911 <.0001 dmvtpq 2 134.7367 <.0001 itavcq 2 9.5263 0.0085 Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire GRC : prévision Matrices de confusion, estimée sur échantillons d apprentissage et test CARVPr predy CARVPr predy Frequency Frequency Percent 0 1 Total Percent 0 1 Total ---------+--------+--------+ ---------+--------+--------+ 0 535 38 573 0 131 8 139 61.57 4.37 65.94 65.50 4.00 69.50 ---------+--------+--------+ ---------+--------+--------+ 1 51 245 296 1 15 46 61 5.87 28.19 34.06 7.50 23.00 30.50 ---------+--------+--------+ ---------+--------+--------+ Total 586 283 869 Total 146 54 200 67.43 32.57 100.00 73.00 27.00 100.00 Modèle binomial

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Apprentissage Statistique et Data Mining Analyse discriminante décisionnelle INSA de Toulouse Institut de Mathématiques Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Notations p variables quantitatives explicatives X j, une variable qualitative T (m modalités) un échantillon Ω de taille n. {g l ; l = 1,..., m} désignent les barycentres des classes x le barycentre global Objectif affecter un nouvel individu x = [x 1,..., x p ] dans une classe T l de T Définir des règles d affectation Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Règle élémentaire avec m classes Affecter l individu x à la modalité de T minimisant : d 2 (x, g S 1 l ), l = 1,..., m. r Métrique de Mahalanobis d 2 (x, g S 1 l ) = x g l 2 r S 1 = (x g r l ) S 1 r (x g l ) Ceci revient à maximiser Règle linéaire en x. g l S 1 r x 1 2 g l S 1 r g l. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Règle élémentaire avec 2 classes Un seul axe discriminant passant par g 1 et g 2. Règle de Fisher : x affecté à T 1 si g 1S 1 r ou si x 1 2 g 1S 1 r (g 1 g 2 ) S 1 r g 1 > g 2S 1 r x 1 2 g 2S 1 r g 2 x > (g 1 g 2 ) S 1 r g 1 + g 2. 2 Règle simple mais inadaptée si les variances sont différentes Ne tient pas compte de l échantillonnage. Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Risque bayésien : notations {T 1,..., T m } muni d une loi de probabilités π 1,..., π m. qui sont les probabilités a priori des classes ω l. x T admet une loi de densité f l (x) = P[x T l ]. Application δ : Ω {T 1,..., T m } dépendant de la connaissance ou non de coûts de mauvais classement, connaissance ou non des lois a priori sur les classes, nature aléatoire ou non de l échantillon. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Risque bayésien : définition Associé à δ ou coût moyen : Avec R δ = m k=1 π k m l=1 c l k {x δ(x)=t l } f k (x)dx c l k : coût du classement dans T l d un individu de T k. {x δ(x)=t l } f k(x)dx : Probabilité d affecter x à T l alors qu il est dans T k. Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Coûts inconnus supposés égaux Règle de Bayes : affecter x à la classe la plus probable Celle qui maximise la probabilité conditionnelle a posteriori : P[T l x]. P[T l x] = P[T l et x] P[x] = P[T l].p[x T l ] P[x] La règle de décision s écrit : δ(x) = arg max π lf l (x). l=1,...,m Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Les probabilités a priori π l sont connues comme proportions de groupes estimées sur un échantillon aléatoire inconnues et considérées égales Si les probabilités a priori sont égales On maximise f l (x) C est la vraisemblance de x au sein de T l Si m = 2, x est affectée à T 1 si : f 1 (x) f 2 (x) > π 2 π 1 (rapport de vraisemblance) Problème : estimer les densités conditionnelles f l (x) Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variance innégales Hypothèse : x T N (µ l, Σ l ) Densité de x au sein de T l : 1 f l (x) = [ 2π(det(Σl )) exp 1 ] 1/2 2 (x µ l) Σ 1 l (x µ l ). Affectation de x par maximisation de π l.f l (x) : [ max ln(π l ) 1 l 2 ln(det(σ l)) 1 ] 2 (x µ l) Σ 1 l (x µ l ). Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variance innégales Les matrices Σ l dépendent de l. Le critère d affectation est quadratique en x. Les π l sont connues ou égales. les µ l et les Σ l sont estimées : µ l = g l et S Rl = 1 n l 1 i Ω l (x i g l )(x i g l ). Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variances égales Le critère devient : ln(π l ) 1 2 µ l Σ 1 µ l + µ l Σ 1 x linéaire en x. Σ est estimée par : S R = 1 m n m l=1 i Ω l (x i g l )(x i g l ) Si les probabilités π l sont égales : x l S 1 R x 1 2 x l S 1 R x l C est le critère élémentaire issu de l AFD. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Cas non paramétrique Pas d hypothèse (normalité) sur la loi Hypothèse de régularité sur la fonction de densité f Estimation fonctionnelle de la densité f (x) par f (x). Échantillon de grande taille surtout si p est grand The curse of dimensionality ou fléau de la dimension Pour l analyse discriminante : estimation des f l (x) Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Méthode du noyau x 1,..., x n n observations d une v.a.r. X de densité f inconnue. K(y) (noyau) : densité de probabilité unidimensionnelle ; h (largeur de fenêtre) un réel positif. f (x) = 1 nh n ( x xi K h i=1 ). K est choisi gaussien, uniforme ou triangulaire. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Application à l analyse discriminante Estimation non paramétrique de chaque f l (x) Noyau K multidimensionnel K densité d une loi multivariée ou ou produit de lois univariées K (x) = p j=1 K(xj ) f l (x) = 1 n l h p i Ω l K ( x xi h ). Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins knn : k plus proches voisins 1 Choix d un entier k : 1 k n 2 Calculer les distances d S 1(x, x i ), i = 1,..., n R 3 x (1),..., x (k), les k observations les plus proches ; 4 Nombres d occurences k 1,..., k m que ces k observations dans chacune des classes, 5 Estimer les densités par f l (x) = k l kv k (x) ; où V k(x) est le volume de l ellipsoïde {z (z x) S 1 R (z x) = d S 1 R (x, x (k) )}. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Remarques Version simplifiée : V k (x) = 1 Si k = 1, x est affecté à la classe du plus proche élément Si k = 1, erreur d estimation nulle! Choix important de la distance entre observations Réglage des paramètre : h(largeur de fenêtre) ou k par validation croisée ou échantillon de validation Estimation de densité déconseillée par Vapnik Analyse discriminante

Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Cancer : taux d erreur Méthode apprentissage validations croisée test linéaire 1,8 3,8 3,6 knn 2,5 2,7 2,9 Concentration d ozone : taux d erreur Méthode apprentissage validations croisée test linéaire 11,9 12,5 12,0 quadratique 12,7 14,8 12,5 Carte visa : taux d erreur Méthode apprentissage validations croisée test linéaire 16,5 18,3 18 quadratique 17,8 22,0 30 knn 23,5 29,8 29 Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Banque : optimisation de k Estimation de la densité Algorithme des k plus proches voisins Analyse discriminante

Construction d un arbre binaire Critères d homogénéité Élagage Apprentissage Statistique et Data Mining Arbres binaires de décision INSA de Toulouse Institut de Mathématiques Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Classification and regression trees (CART) Breiman et col. (1984) X j explicatives quantitatives ou qualitatives Y quantitative : regression tree Y qualitative à m modalités {T l ; l = 1..., m} : classification tree Objectif : construction d un arbre de décision binaire simple à interpréter Méthodes calculatoires : peu d hypothèses mais beaucoup de données Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Définitions 1 Revenu < 10000 Revenu > 10000 Sexe=H Age < 50Age > 50 Sexe=F T j T l T j Déterminer une séquence itérative de nœuds Racine : nœud initial ou ensemble de l échantillon Feuille : nœud terminal Nœud : choix d une variable et d une division sous-ensemble auquel est appliquée une dichotomie Division : valeur seuil ou groupes des modalités Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Règles Choix nécessaires : 1 Critère de la meilleure division parmi celles admissibles 2 Règle de nœud terminal : feuille 3 Règle d affectation à une classe T l ou une valeur de Y Division admissible : descendants X j réelle ou ordinale : (c j 1) divisions possibles X j nominale : 2 (c j 1) 1 divisions Fonction d hétérogénéité D (k) d un nœud 1 Nulle : une seule modalité de Y ou Y constante 2 Maximale : modalités de Y équiréparties ou grande variance Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Division optimale Notation k : numéro d un nœud (k + 1) et (k + 2) les nœuds fils L algorithme retient la division rendant minimales D (k+1) + D (k+2) Chaque étape k de construction de l arbre : max D k (D (k+1) + D (k+2) ) {Divisions de X j ;j=1,p} Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Feuille et affectation Un nœud donné, est terminal ou appelé feuille, lorsqu il est : homogène, plus de partition admissible ou nombre d observations inférieur à un seuil Affectation Y quantitative, la valeur est la moyenne des observations Y qualitative, chaque feuille est affectée à une classe T l de Y en considérant le mode conditionnel : la classe la mieux représentée dans le nœud la classe a posteriori la plus probable si des a priori sont connus la classe la moins coûteuse si des coûts de mauvais classement sont donnés Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : notations Cas plus général d une division en J classes Soit n individus et une partition en J classes de tailles n j ; j = 1,..., J avec n = J j=1 n j On numérote i = 1,..., n j les individus de la jème classe Soit µ ij (resp.y ij ) la valeur théorique (resp. l observation) de Y sur l individu (i, j) : le ième de la jème classe Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : hétérogénéité L hétérogénéité de la classe j est définie par : D j = n j (µ ij µ.j ) 2 avec µ.j = 1 n j n j i=1 i=1 µ ij L hétérogénéité de la partition est définie par : D = J D j = j=1 n J j (µ ij µ.j ) 2 j=1 i=1 Inertie ou variance intraclasse vaut D = 0 ssi µ ij = µ.j Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : différence d hétérogénéité entre ensembles non partagé et partagé : = n J j (µ ij µ.. ) 2 n J j (µ ij µ.j ) 2 où µ.. = 1 n n J j µ ij j=1 i=1 j=1 i=1 j=1 i=1 = J n j (µ.. µ.j ) 2 j=1 Variance inter classe ou désordre des barycentres avec, pour J = 2 : = n 1 n 2 (µ.1 µ.2 ) 2 Objectif à chaque étape : maximiser Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : vraisemblance Les quantités sont estimées : D j = n j (y ij y.j ) 2 et D = J D j = n J j (y ij y.j ) 2 i=1 j=1 j=1 i=1 Cas gaussien : Y ij = µ.j + u ij avec u ij N (0, σ 2 ) Maximiser la log-vraisemblance log L = Cste n 2 log(σ2 ) 1 2σ 2 n J j (y ij µ.j ) 2 j=1 i=1 L µ = sup µ log L = Cste n 2 log(σ2 ) 1 2σ 2 n J j (y ij y.j ) 2 j=1 i=1 Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : déviance Pour le modèle saturé (une classe par individu) : y ij = µ ij + u ij, l optimum devient : L s = sup µ log L = Cste n 2 log(σ2 ) La déviance (par rapport au modèle saturé) est : D µ = 2σ 2 (L s L µ ) = D Raffinement de l arbre associé à la décroissance, la plus rapide, de la déviance Une division rend le test de Fisher le plus significatif possible Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : hétérogénéité Fonction d hétérogénéité : Entropie Critère de concentration de Gini Statistique du test du χ 2 (CHAID) L entropie est le terme de déviance d un modèle multinomial Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : notations Y qualitative à m modalités ou catégories T l L arbre induit une partition ; n +k effectif du kème nœud p lk = P[T l k] avec m l=1 p lk = 1 Désordre du kème nœud, ou Entropie (0 log(0) = 0) : D k = 2 m n +k p lk log(p lk ) l=1 positive ou nulle ; nulle ssi les probabilités p lk sont toutes nulles sauf une égale à 1 ; max en cas d équirépartition Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : entropie Hétérogénéité ou désordre de la partition : D = K K m D k = 2 n +k p lk log(p lk ) k=1 k=1 l=1 n lk effectif observé de la lème classe dans le kème nœud Un nœud k est un sous-ensemble de l échantillon d effectif n +k = m l=1 n lk Les quantités sont estimées : D k = 2 m l=1 n +k n lk n +k log n lk n +k et D = K D k = 2 k=1 K k=1 m l=1 n lk log n lk n +k Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : vraisemblance et déviance Pour chaque nœud k : modèle multinomial à m catégories de paramètre : p k = (p 1k,..., p mk ), avec m p lk = 1 l=1 Log-vraisemblance : log L = Cste + K m k=1 l=1 n lk log(p lk ) Maximale pour L µ = sup plk log L = Cste + K m k=1 l=1 n lk log n lk n +k L optimum du modèle saturé est la constante Déviance : D = 2 K m k=1 l=1 n lk log n lk n +k = D Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : extensions Les probabilités conditionnelles sont définies par la règle de Bayes lorsque les probabilités a priori π l sont connues Sinon, les probabilités de chaque classe sont estimées sur l échantillon et donc les probabilités conditionnelles s estiment par des rapports d effectifs : p lk est estimée par n lk /n +k Des coûts de mauvais classement connus conduisent à la minimisation d un risque bayésien Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Élagage : notations Recherche d un modèle parcimonieux Complexité d un arbre : H(A) = nombre de feuilles de A Qualité de discrimination de A : D(A) = H D h (A) h=1 où D h (A) : nombre de mal classés ou déviance ou coût de mauvais classement de la feuille h Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Séquence d arbres emboîtés Critère de qualité pénalisé par la complexité : C(A) = D(A) + γh Pour γ = 0 : A max = A H minimise C(A) Lorsque γ croît, la division de A H, dont l amélioration de D est inférieure à γ, est annulée ; ainsi deux feuilles sont regroupées (élaguées) le nœud père devient terminal A H devient A H 1 Après itération du procédé : A max = A H A H 1 A 1 Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Algorithme Sélection de l arbre optimal 1: Construction de l arbre maximal A max 2: Construction de la séquence A K... A 1 d arbres emboîtés 3: Estimation sans biais (échantillon de validation ou validation croisée) des déviances D(A K ),..., D(A 1 ) 4: Représentation de D(A k ) en fonction de k ou de γ 5: Choix de k rendant D(A k ) minimum Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Cancer : arbre et prévision benign 358/188 Cell.shape=1,2 Cell.shape=3,4,5,6,7,8,9,10 benign 318/4 malignant 40/184 Bare.nuclei=1,2 Bare.nuclei=3,4,5,6,7,8,9,10 benign 32/20 malignant 8/164 Epith.c.size=1,2,3 Epith.c.size=4,5,6,7,8,9,10 benign 30/1 malignant 2/19 predq.tree benign malignant Erreur de 5,8% sur l échantillon test benign 83 5 malignant 3 46 Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Concentration d ozone : arbre Construction de la séquence d arbres Recherche de l arbre optimal Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Concentration d ozone : prévisions et résidus Valeurs observees 0 50 150 250 Résidus 100 50 0 50 100 0 50 100 200 300 Valeurs predites 0 50 100 200 300 Valeurs predites Arbres binaires

Construction d un arbre binaire Critères d homogénéité Élagage Carte visa : élagage avec SEM Construction de la séquence d arbres Recherche de l arbre optimal Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Carte visa : arbre avec R Construction de la séquence d arbres Recherche de l arbre optimal Endpoint = CARVP Cnon 569/294 Cnon 462/61 RELAT>=5.5 Cnon 475/90 MOYRVL< 3.02 RELAT< 5.5 Coui 13/29 MOYRVL>=3.02 Coui 94/204 DMVTPL>=2.602 DMVTPL< 2.602 Coui Coui 93/121 1/83 FACANL< 11.44 Cnon 457/51 DMVTPL>=2.602 DMVTPL< 2.602 Cnon Cnon 381/28 76/23 FACANL>=11.44 Coui 5/10 AGER< 26DMVTPL< 2.674 AGER>=26 DMVTPL>=2.674 Cnon Cnon Coui Coui 8/0 70/17 5/29 23/104 FACANL< 11.32 FACANL>=11.32 Cnon Coui 67/10 3/7 DMVTPL< 1.199 DMVTPL>=1.199 Cnon Coui 76/3 0/20 Arbres binaires

Historique Réseaux de neurones Perceptron multicouche Apprentissage Statistique et Data Mining Méthodes connexionistes INSA de Toulouse Institut de Mathématiques Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Intelligence Artificielle 1943 que Mc Culloch et Pitts neurone formel 1959 Rosenblatt perceptron 1970 approche symbolique vs connexioniste connaissance localisée vs répartie Systèmes experts base de connaissance, base de faits moteur d inférence Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Neurone formel Réseaux de neurones 1982 rétropropagation de l erreur 1982 modèles markoviens d apprentissage développement considérable (réseaux vs Statistique) Définition Un réseau est un graphe de neurones formels se distinguant par le type des neurones et l architecture Analogie biologique avec les axones, dentrites et noyaux. Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Neurone formel Schéma d un neurone formel x 1 x 2 x j. x p Σ f y Notations s = h(x 1,..., x p ) = f [α 0,..., α p ] : vecteur de poids ( α 0 + p j=1 α jx j ) = f (α 0 + α x) Mémoire ou connaissance répartie du réseau Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Neurone formel Fonction d activation d un neurone linéaire f est la fonction identité seuil f (x) = 1 [0,+ [ (x) sigmoïde f (x) = 1/(1 + e x ) radiale f (x) = 1/2π exp( x 2 /2) stochastiques f (x) = 1 avec probabilité 1/(1 + e x/h ), f (x) = 0 sinon. Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Architecture du perceptron x 1 1 x 2 Σ f x j. Σ f. Σ f y x p. Σ f Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Fonction de transfert du réseau Y = φ(x 1,..., X p ; α) α : α jkl poids (paramètre) de la jème entrée du kème neurone de la lème couche. X 1,..., X p : entrées (variables explicatives) Y : sortie (variable à expliquer) ou cible du modèle apprentissage = estimation Théorème d approximation universelle Y est quantitative, qualitative à une ou plusieurs classes Exemple en régression y = φ(x; α, β) = β 0 + β z avec z k = f (α k0 + α k x); k = 1,..., q Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Estimation par moindres carrés Observations : (x 1 i,..., xp i ; y i) i = 1,..., n Q(α, β) = n i=1 Q i = n i=1 [y i φ(x; α, β)] 2 Avec α j=0,p;k=1,q et β k=0,q Minimisation de Q ou d une autre fonction (entropie, nombre de mal classés) Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Calcul du gradient par rétropropagation Soit z ki = f (α k0 + α k x i) et z i = {z 1i,..., z qi } Q i β k = 2(y i φ(x i ))(β z i )z ki = δ i z ki Q i α kj = 2(y i φ(x i ))(β z i )β k f (α kx i )x ip = s ki x ip. δ i et s ki : termes d erreur en sortie et sur chaque neurone avec s ki = f (α k x i)β k δ i Evaluation en deux passes, avant puis retour Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Algorithmes d optimisation Algorithme itératif : β (r+1) k α (r+1) kp Taux d appentissage : τ = β (r) k τ = α (r) kp τ n i=1 n i=1 Q i β (r) k Q i α (r) kp Méthodes du second ordre : BFGS, Levenberg-Marquardt, gradient conjugué Variantes avec inertie, adaptative... Attention à la convergence : optimum local.. Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Algorithme de rétropropagation du gradient Initialisation Poids b jkl uniforme sur [0, 1] Normaliser dans [0, 1] x 1,..., x p ; y Tant que Q > errmax ou niter<itermax Faire Ordre aléatoire de l échantillon d apprentissage Pour i = 1... n Faire ε(i) = y i φ(xi 1,..., xp i ; (b)(i 1)) b jkl (i) = b jkl (i i) + b jkl (i) pour tout j, k, l Fin Pour Fin Tant que Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Paramètres et complexité du modèle Architecture du réseau : nombre de paramètres Nombre maximum d itérations ou erreur maximum tolérée Coefficient de régularisation (decay) Q(θ) + γ θ 2 Taille échantillon au moins dix fois le nombre de paramètres Taux d apprentissage et stratégie d évolution Arbres binaires de décision

Historique Réseaux de neurones Perceptron multicouche Architecture Apprentissage Contrôle de la complexité Utilisation Champs d application nombreux Critiques principales difficultés d apprentissage temps de calcul, taille de l échantillon boîte noir Procédures de validation et test Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Cancer du sein / carte visa Matrice de confusion pour l échantillon test benign malignant FALSE TRUE FALSE 83 1 FALSE 110 16 TRUE 3 50 TRUE 27 47 Taux d erreur estimée à 3% et 21,5% Arbres binaires de décision

Concentration d ozone Historique Réseaux de neurones Perceptron multicouche Valeurs observees 0 50 150 250 Résidus 100 50 0 50 100 0 50 100 200 300 Valeurs predites 0 50 100 200 300 Valeurs predites FIGURE: Ozone : Valeurs observées et résidus de l échantillon test Taux d erreur de 14,4% (quantitatif) et 15,6% (qualitatif). Arbres binaires de décision Historique Réseaux de neurones Perceptron multicouche Ozone : optimisation des réseaux et courbes ROC Performance of nnet decay 3.0 2.5 2.0 1.5 1.0 680 675 670 665 660 655 True positive rate 0.0 0.2 0.4 0.6 0.8 1.0 _ logit nnetr nnetq 2.0 2.5 3.0 3.5 4.0 0.0 0.2 0.4 0.6 0.8 1.0 size False positive rate Arbres binaires de décision

Famille de modèles aléatoires Famille de modèles adaptatifs Apprentissage Statistique et Data Mining Agrégation de modèles INSA de Toulouse Institut de Mathématiques Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Méthodes Stratégies adaptatives (boosting) ou aléatoires (bagging) Combinaison ou agrégation de modèles sans sur-ajustement Apprentissage machine (machine learning) et Statistique Comparatifs heuristiques et propriétés théoriques Bagging pour bootstrap aggregating (Breiman, 1996) forêts aléatoires (random forests) (Breiman, 2001) boosting (Freund et Shapiro,1996) déterministe et adaptatif Toute méthode de modélisation non linéaire Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Bootstrap aggregating : principe Soit Y une variable à expliquer quantitative ou qualitative X 1,..., X p les variables explicatives φ(x) un modèle fonction de x = {x 1,..., x p } R p z = {(x 1, y 1 ),..., (x n, y n )} échantillon de loi F et de taille n φ(.) = E F ( φ z ) estimateur sans biais de variance nulle B échantillons indépendants {z b } b=1,b Y quantitative : φ B (.) = 1 B φ B b=1 zb (.) (moyenne) Y qualitative : φ { B (.) = arg max j card b φ } zb (.) = j (vote) Principe : Moyenner des prévisions indépendantes pour réduire la variance B échantillons indépendants remplacés par B réplications bootstrap Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Bagging : algorithme Soit x 0 à prévoir et z = {(x 1, y 1 ),..., (x n, y n )} un échantillon Pour b = 1 à B Faire Tirer un échantillon bootstrap z b Estimer φ zb (x 0 ) sur l échantillon bootstrap Fin Pour Calculer l estimation moyenne φ B (x 0 ) = 1 B B b=1 φ zb (x 0 ) ou le résultat du vote Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Bagging : utilisation Estimation bootstrap out-of-bag de l erreur de prévision : contrôle de la qualité et du sur-ajustement CART pour construire une famille d arbres binaires Trois stratégies d élagage sont alors possibles : 1 garder un arbre complet pour chacun des échantillons 2 arbre d au plus q feuilles 3 arbre complet élagué par validation croisée Première stratégie compromis entre calculs et qualité de prévision : faible biais de chaque arbre et variance réduite par agrégation Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Bagging : problèmes temps de calcul et contrôle de l erreur stockage de tous les modèles de la combinaison modèle boîte noire Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Forêts aléatoires : principe Amélioration du bagging d arbres binaires Variance de B variables corrélées : ρσ 2 + 1 ρ B σ2 Ajout d une randomisation pour rendre les arbres plus indépendants Choix aléatoire des variables Intérêt : situations hautement multidimensionnelles Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Forêts aléatoires : algorithme Soit x 0 à prévoir et z = {(x 1, y 1 ),..., (x n, y n )} un échantillon Pour b = 1 à B Faire Tirer un échantillon bootstrap z b Estimer un arbre avec randomisation des variables : Si p grand Alors Pour chaque nœud, tirage aléatoire de q prédicteurs Sinon Construire q 2 comb. lin. aléatoires de q 1 prédicteurs Fin Si Fin Pour Calculer l estimation moyenne φ B (x 0 ) = 1 B B b=1 φ zb (x 0 ) ou le vote Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Bagging Forêts aléatoires Forêts aléatoires : utilisation Élagage : Arbres de taille q, ou complet. La sélection aléatoire des m prédicteurs (m = p en classification, p 3 en régression) accroît la variabilité Chaque modèle de base est moins performant mais l agrégation est performante Évaluation itérative de l erreur out-of-bag Aide à l interprétation Indices d importances Mean Decrease Accuracy Mean Decrease Gini Var used Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting : principe Améliorer les compétences d un faible classifieur (Schapire, 1990 ; Freund et Schapire, 1996) AdaBoost (Adaptative boosting) prévision d une variable binaire Réduire la variance mais aussi le biais de prévision Meilleure méthode off-the-shelf Agrégation d une famille de modèles récurents Chaque modèle est une version adaptative du précédent en donnant plus de poids, lors de l estimation suivante, aux observations mal ajustées Variantes : type de la variable à prédire (binaire, k classes, réelles), fonction perte (robustesse) Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas AdaBoost discret Fonction δ de discrimination { 1, 1} Soit x 0 à prévoir et z = {(x 1, y 1 ),..., (x n, y n )} un échantillon Initialiser les poids w = {w i = 1/n ; i = 1,..., n} Pour m = 1 à M Faire Estimer δ m sur l échantillon pondéré par w n Calculer le taux d erreur apparent : Êp i=1 = w i1{δ m (x i ) y i } n i=1 w i Calculer les logit : c m = log((1 Êp)/Êp) Nouvelles pondérations (normalisation) : w i w i. exp [c m 1{δ m (x i ) y i }] ; i = 1,..., n Fin Pour Résultat du vote : φ [ M ] M (x 0 ) = signe m=1 c mδ m (x 0 ) Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting : utilisation Arbre comme modèle de base Avec q = 2, AdaBoost mieux qu un arbre sophistiqué Recommandation : q entre 4 et 8 Variantes : Adaboost M1, M2, MH ou encore MR (Schapire, 2002) Version aléatoire : Arcing (Breiman, 1998) Nombre d itérations contrôlé par un échantillon de validation Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting pour la régression : algorithme Soit x 0 à prévoir et z = {(x 1, y 1 ),..., (x n, y n )} un échantillon Initialiser p = {p i = 1/n ; i = 1,..., n} Pour m = 1 à M Faire Tirer avec remise dans z un échantillon z m suivant p Estimer φ m sur l échantillon z m Calculer à partir de l échantillon initial z : ( l m (i) = Q y i, φ ) m (x i ) i = 1,..., n; (Q : fonction perte) Ê m = n i=1 p i l m (i); w i = g(l m (i))p i p i w i n i=1 w i Fin Pour Moyenne ou médiane des φ m (x 0 ) pondérées par log( 1 β m ) Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting : utilisation Q peut être exponentielle, quadratique ou la valeur absolue L m = sup i=1,...,n l m (i) maximum de l erreur observée par le modèle φ m sur l échantillon initial g(l m (i)) = β 1 l m(i)/l m m avec β m = Ê m L m Êm Algorithme arrêté ou réinitiallisé à des poids uniformes si l erreur se dégrade trop : si Êm < 0.5L m Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting : interprétation Approximation de φ par un modèle additif pas à pas (Hastie et col., 2001) φ(x) = M c m δ(x; γ m ) m=1 c m est un paramètre δ le classifieur de base fonction de x et dépendant d un paramètre γ m Q une fonction perte Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Modèle additif : optimisation (c m, γ m ) = arg min (c,γ) n i=1 Q(y i, φ m 1 (x i ) + cδ(x i ; γ)) φ m (x) = φ m 1 (x) + c m δ(x; γ m ) améliore l ajustement précédent φ binaire, Q(y, φ(x)) = exp[ yφ(x)] (c m, γ m ) = arg min (c,γ) = arg min (c,γ) w m i n exp i=1 [ ] y i ( φ m 1 (x i ) + cδ(x i ; γ)) n w m i exp [ cy i δ(x i ; γ)]avec w i = exp[ y i φm 1 (x i )] i=1 : poids fonction de la qualité de l ajustement précédent Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Modèle additif : solution Deux étapes : classifieur optimal puis optimisation de c m γ m = arg min γ n 1{y i δ(x i ; γ)} et c m = 1 2 i=1 log 1 Êp E p avec Êp erreur apparente de prévision les w i sont mis à jour avec : w (m) i = w (m 1) i exp[ c m ] Adaboost approche φ pas à pas par un modèle additif en utilisant une fonction perte exponentielle D autres fonctions perte (robustesse) LogitBoost : Q(y, φ(x)) = log 2 (1 + exp[ 2yφ(x)] L 2 Boost : Q(y, φ(x)) = (y φ(x)) 2 /2 Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas GBM : Principe Gradient Boosting Models (Friedman, 2002-2009) dans le cas d une fonction perte différentiable Principe : Construire une séquence de modèles de sorte qu à chaque étape, chaque modèle ajouté à la combinaison, apparaisse comme un pas vers une meilleure solution Ce pas est franchi dans la direction du gradient de la fonction perte approché par un arbre de régression Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas GBM en régression : algorithme Soit x 0 à prévoir Initialiser φ 0 = arg min n γ i=1 Q(y i, γ) Pour m = 1 à M Faire ] Calculer r im = [ δq(yi,φ(x i )) δφ(x i ) φ=φ m 1 Ajuster un arbre de régression aux r m i donnant les feuilles ou régions terminales R jm ; j = 1,..., J m Pour m = 1 à M Faire Calculer γ jm = arg min γ x i R jm Q(y i, φ m 1 + γ) Fin Pour Mise à jour : φ m (x) = φ m (x) + J m j=1 γ jm 1{x R jm } Fin Pour Résultat : φ M (x 0 ) Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Principes du Boosting Algorithme de base Boosting pour la régression Modèle additif pas à pas Boosting : propriétés Empiriquement, l erreur de prévision peut continuer à décroître après que l erreur d ajustement se soit annulée Attention aux données bruitées (erreur de label), source de dérive ou sur-apprentissage. Le boosting réduit la variance comme le bagging mais ausis le biais. Les forêts aléatoires réduisent significativement la variance GBM avec schrinkage pour améliorer les performances φ m (x) = φ m 1 (x) + ν J m j=1 γ jm 1{x R jm } Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Logiciels Cancer Banque Logiciels SAS Enterprise Miner MART : Salford System MATLAB R : random forest, bagging (ipred), boosting (gbm) Boost texter (Shapire)... Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Logiciels Cancer Banque Cancer : prévisions Matrices de confusion : bagging(ipred) adaboost(gbm) random forest benign malignant benign malignant benign malignant benign 83 3 84 1 83 0 malignant 3 48 2 50 3 51 Agrégation de modèles

Famille de modèles aléatoires Famille de modèles adaptatifs Logiciels Cancer Banque Cancer : Adaboost Err.app 0.0 1.0 2.0 3.0 Err.test 2 3 4 5 5 10 15 5 10 15 Evolution des taux d erreur de l apprentissage et du test en fonction du nombre d arbres dans AdaBoost Agrégation de modèles Famille de modèles aléatoires Famille de modèles adaptatifs Logiciels Cancer Banque Banque : random forest Err.oob 0.12 0.16 0.20 0.24 Err.test 0.10 0.15 0.20 0.25 0 100 200 300 400 500 Index 0 100 200 300 400 500 Index Évolution du taux de mal classés estimés out-of-bag et sur l échantillon test en fonction du nombre d arbres de la forêt Agrégation de modèles

Séparateur linéaire Séparateur non linéaire Apprentissage Statistique et Data Mining Support Vector Machines (SVM) INSA de Toulouse Institut de Mathématiques Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Généralités Astuces Problème Espace intermédiaire Principes généraux Séparateur à Vaste Marge (SVM) Machine à Vecteurs Support (MVS) Apprentissage en discrimination -1, 1 Etendu à m > 2 et R Hyperplan de marge optimale pour la généralisation Vapnik (1998) et VC-dimension Contrôle de la complexité L objectif, seulement l objectif Coût calcul fonction de n, pas de p Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Généralités Astuces Problème Espace intermédiaire Spécificités Ramener la discrimination à un problème linéaire Problème d optimisation sous-contrainte et support Utilisation d un espace intermédiaire (feature space) Produit scalaire et noyau reproduisant Remarques Efficacité et flexibililté des noyaux Schölkopf et Smola (2002) www.kernel-machines.org Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Généralités Astuces Problème Espace intermédiaire Sur-ajustement Frontière, complexité, généralisation et VC-dimension Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Généralités Astuces Problème Espace intermédiaire Notations Y à valeurs dans { 1, 1} X = X 1,..., X p les variables prédictives Y = φ(x) un modèle pour Y Un échantillon statistique de loi F z = {(x 1, y 1 ),..., (x n, y n )} Estimation de φ de φ, (R p (ou F) {, }) par minimisation de : P(φ(X) Y) Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Généralités Astuces Problème Espace intermédiaire Définition de la marge φ définie par une fonction réelle f : φ = signe(f ) L erreur devient : P(φ(X) Y) = P(Yf (X) 0) Yf (X) est un indicateur de confiance Yf (X) est la marge de f en (X, Y) Espace hilbertien Φ : R p (ou F) H H : feature space de grande dimension avec produit scalaire Φ ramène à un problème linéaire : hyperplan séparateur Première approche : Φ est la fonction identité Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Recherche du plan de marge maximale Un hyperplan est défini à l aide du produit scalaire de H : w, x + b = 0 où w est un vecteur orthogonal au plan Le signe de la fonction f (x) = w, x + b indique la position de x à prédire Un point est bien classé si et seulement si : yf (x) > 0 (w, b) est défini à un coef. près ; on impose : yf (x) 1 Un plan (w, b) est un séparateur si : i y i f (x i ) 1 Distance de x au plan (w, b) : d(x) = w,x +b w 2 La marge du plan a pour valeur : w 2 = f (x) w Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Plan de marge maximale Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Problème primal d optimisation sous contraintes 1 min w 2 w 2 avec i, y i < w, x i > +b 1 Problème dual avec multiplicateurs de Lagrange La solution est un point-selle (w, b, λ ) du lagrangien : L(w, b, λ) = 1/2 w 2 2 n λ i [y i (< w, x i > +b) 1] i=1 Ce point-selle vérifie : i λ i [y i (< w, x i > +b ) 1] = 0 Vecteurs support : x i avec contrainte active Appartiennent au plan : y i (< w, x i > +b ) = 1 Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Formule duale du lagrangien Plan optimal : w = n i=1 λ i y ix i et n i=1 λ i y i = 0 W(λ) = n i=1 λ i 1 n 2 i,j=1 λ iλ j y i y j < x i, x j > Le point-selle maximise W(λ) avec λ i 0 i Problème d optimisation quadratique de taille n Hyperplan optimal : n i=1 λ i y i < x, x i > +b = 0 avec b = 1 2 [< w, sv class+1 > + < w, sv class 1 >] La prévision de x est fournie par le signe de f (x) = n λ i y i x, x i + b i=1 Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Cas non séparable Assouplissement des contraintes les termes d erreur ξ i contrôlent le dépassement : y i w, x i + b +1 ξ i i {1,..., n} La prédiction de x i est fausse à un vecteur si ξ i > 1 La somme des ξ i est une borne du nombre d erreurs Nouveau problème de minimisation avec pénalisation par le dépassement de la contrainte : { min 1 2 w 2 + δ n i=1 ξ i i, y i w, x i + b +1 ξ i Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Hyperplan séparateur Cas non séparable Remarques δ contrôle le compromis entre ajustement et généralisation Même forme duale mais avec les λ i bornés par δ n grand : algorithmes avec décomposition de l ensemble d apprentissage Capacité de généralisation dépend du nombre de vecteurs supports mais pas de la taille de l espace Si les X sont dans une boule de rayon R, l ensemble des hyperplans de marge fixée δ a une VC-dimension bornée par R2 avec w R δ 2 Bornes d erreur estimables mais trop pessimistes Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Produit scalaire et noyau Φ : R p (ou F) H Hmuni d un produit scalaire et de plus grande dimension Le problème de minimisation et la solution : f (x) = n λ i y i x, x i + b i=1 font intervenir x et x par l intermédiaire de produits scalaires : x, x Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Astuce Il est inutile d expliciter Φ Il suffit de calculer les produits scalaires dans H Fonction noyau k : R p R p R symétrique : k(x, x ) = Φ(x), Φ(x ) H Le noyau matérialise une notion de proximité Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Exemple trivial x = (x 1, x 2 ) dans R 2 Φ(x) = (x 2 1, 2x 1 x 2, x 2 2 ) H de dimension 3 et de produit scalaire : Φ(x), Φ(x ) = x1x 2 1 2 + 2x 1 x 2 x 1x 2 + x2x 2 2 2 = (x 1 x 1 + x 2 x 2) 2 = x, x 2 = k(x, x ) Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression En général le produit scalaire dans H ne nécessite pas d expliciter Φ le plongement dans H peut rendre possible la séparation linéaire Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Feature space Rôle de l espace intermédiaire dans la séparation des données Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Définition Une fonction k(.,.) symétrique est un noyau si, pour tous les x i possibles, la matrice de terme général k(x i, x j ) est une matrice définie positive Elle définit une matrice de produit scalaire Dans ce cas, il existe un espace H (Hilbert à noyau reproduisant) et une fonction Φ tels que : k(x, x ) = Φ(x), Φ(x ) Attention Condition d existence, pas constructive et difficile à vérifier Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Noyaux classiques Linéaire Polynômial k(x, x ) = x, x k(x, x ) = (c + x, x ) d Radial gaussien k(x, x ) = e x x 2 2σ 2 Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Noyaux spécifiques Travail : construction d un noyau adapté : reconnaissance de séquences, de caractères, l analyse de textes, de graphes... Grande flexibilité entraîne une bonne efficacité Choix de noyau, des paramètres par validation croisée Paradoxe : les SVM à noyaux gaussiens dans le cas séparable ou à pénalité variable, dont de VC-dimension infinie Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Astuce du Noyau Condition de Mercer de noyaux SVM pour la régression Cas de la régression Y est quantitative La fonction se décompose : φ(x, w) = i=1 w iv i (x) Fonction coût issue de la robustesse : E(w, γ) = 1 n n y i φ(x i, w) ɛ + γ w 2 i=1. ɛ fonction paire, continue, identiquement nulle sur [0, ɛ] et qui croît linéairement sur [ɛ, + ] γ contrôle l ajustement Même principe de résolution Noyaux de splines ou encore noyau de Dériclet Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Cookies : optimisaiton des SVM avec noyau linéaire Machine à Vecteurs Support

Séparateur linéaire Séparateur non linéaire Exemple de discrimination Cancer du sein Dépassement du seuil d ozone benign malignant FALSE TRUE benign 83 1 FALSE 161 13 malignant 3 50 TRUE 7 27 Taux de 3% Taux de 9,6%(régression) et 12% (discrimination) Machine à Vecteurs Support Séparateur linéaire Séparateur non linéaire Ozone : prévision de la concentration par SVM Valeurs observees 0 50 100 150 200 250 300 Résidus 100 50 0 50 100 0 50 100 150 200 250 300 Valeurs predites 0 50 100 150 200 250 300 Valeurs predites FIGURE: Valeurs observées et résidus en fonction des valeurs prédites pour l échantillon test Machine à Vecteurs Support

Apprentissage Statistique et Data Mining Conclusion INSA de Toulouse Institut de Mathématiques Conclusion Types de données et objectifs Types variables explicatives p variables X R toutes quantitatives X E toutes qualitatives X R E mélange de qual. et quant. Type de la variable à modéliser Y quantitative Z qualitative à 2 modalités T qualitative Objectifs Exploration multidimensionnelle = X r, C r avec r < p Classification = T r Modélisation prévision de Y (resp. Z, T) Conclusion

Types, objectif et méthode Exploration ACP X R et AFCM X E et AFD X R et T Classification CAH X R et NuéeDyn X R et RNKoho X R et Modélisation Modèle linéaire général (ridge, lasso) RLM X R et Y ANOVA X E et Y ACOVA X R E et Y Rlogi X R E et Z Lglin X T et T Analyse discriminante (k-nn ADpar/nopar X R et T Régression PLS et sparse PLS PLS1 X R et Y PLS2 X R et Y 1,..., Y q PLS-DA X R et T CART ArbReg X R E et Y ArbCla X R E et T Réseaux neuronaux Percep X R E et Y ou T Agrégation de modèles Bagging X R E et Y ou T RandFor X R E et Y ou T Boosting X R E et Y ou T Support Vector Machine SVM-R X R et Y SVM-C X R et Z Conclusion Rappel : stratégie de la fouille de données 1 Extraction avec ou sans sondage 2 Exploration, nettoyage, transformations des données... 3 Partition aléatoire de l échantillon (apprentissage, validation, test) 4 Pour chacune des méthodes considérées : estimation d un modèle fonction de q : complexité (apprentissage) optimisation du paramètre q (validation) 5 Comparaison des méthodes (erreur de prévision sur échantillon test) 6 Itération éventuelle (plusieurs échantillons test) 7 Choix de la méthode (prévision, interprétabillité). 8 ré-estimation du modèle, exploitation Conclusion

Quels exemples? Pédagogie et complexité Complexité et n vs. p Se jeter à l eau... Benchmarks et applications originales Conclusion simples Wisconsin BreastCancer Database (683, 9) Concentration d ozone et dépassement du seuil (1000, 8) Carte Visa Premier (900, 32) complexes Sélection de gènes : souris (40, 120) Données NIR (72, 700) Conclusion

Cancer : comparaisons des erreurs 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 err.lm err.tree err.neur err.bag err.rf err.svm 0.0 0.1 0.2 0.3 0.4 0.5 Conclusion Cookies : graphes des ajustements des modèles Conclusion

Cookies : Comparaisons des erreurs Conclusion Ozone : comparaisons des erreurs en régression Conclusion

Ozone : comparaison des erreurs en discrimination Conclusion Ozone : dispersion des courbes ROC de random forest Conclusion

Ozone : courbes ROC moyennes Conclusion Banque : comparaison des erreurs Conclusion

Banque : courbes ROC moyennes Conclusion Conclusion : Adéquation Données / Méthode Attention au data snooping Où faire porter des efforts? 1 Sur les données, leurs transformations (quali ou quanti?) 2 Sur le nombre méthodes comparées (plès de 208!)? 3 Sur l optimisaiton des paramètres? Adéquation entre structure des données et propriétés topologiques des méthodes Conclusion

C est tout pour aujourd hui... Conclusion

Résultats des scénarios «apprentissage» 1. Visa premier 2. Patrimoine 3. Détection de pourriels 4. Pic d ozone 5. NIR cookies 6. NIR Tecator 7. QSAR blood brain barrier 8. QSAR multidrug resistance 9. Omiques régimes 10. Omiques toxicité

1. Score d appétence carte Visa Données : Y : qualitative 2 classes n= 1425 clients p=30 quantitatives ou 24 qualitatives Variables brutes ou transformées?

Visa : distribution des erreurs logit Disc tree resn bag adab boost RF SVM 0.19 0.18 0.11 0.19 0.10 0.11 0.09 0.10 0.19

Visa : courbes ROC

2. Score d appétence assurance vie Données enquête patrimoine INSEE: Asvi : qualitative 2 classes n= 11887 français-e-s p=36 variables qualitatives Problème : qualité de l enquête

Patrimoine : arbre binaire de décision

Patrimoine : erreurs et ROC sur un échantillon logit resn tree RF gbm C5.0 0.258 0.275 0.252 0.268 0.262 0.263

Patrimoine : distribution des erreurs Moyenne sur 10 itérations logaic resn RF gbm 0.222 0.229 0.223 0.222

Patrimoine : courbes ROC

3. Détection de pourriels Données : Y : qualitative 2 classes n= 4601 messages dont 1813 spams p=58 variables (fréquences de mots ou caractères) Validation ou validation croisée?

Spams : distribution des erreurs Logit Tree RN RF Boost Moyenne 0.0820 0.078 0.055 0.049 0.061

Spams : courbes ROC

4. Détection du pic d ozone Données : adaptation statistique de Mocage n = jours p = 10 variables quantitatives ou qualitatives Y : concentration ozone ou Y>150 µg Prévision par régression puis seuil ou par discrimination?

Ozone: distribution des erreurs en régression acova tree.r Res.n.r Bagg.r for.al.r Boost.r SVM.r 774 879 714 747 666 749 649

Ozone: distribution des erreurs en classif. Taux d erreur moyens à partir des prévisions de régression : Acova tree.r Res.neur.r Bagging.r foret.alea.r Boost.gbm.r SVM.r 0.12 0.14 0.13 0.14 0.11 0.13 0.12

Ozone: distribution des erreurs en classif. Taux d erreur moyens des erreurs de classification Reg.log. An.Disc. tree.q Res.n.q Bag.q for.al.q Boost SVM 0.12 0.12 0.14 0.14 0.12 0.11 0.12 0.12

Ozone: courbes ROC pour RF et courbes moyennes

5. NIR «Cookies» Données : n= 72 biscuits (40+32) p=700 valeurs de spectres p >> n Taux de sucre

Cookies : Comparaison des modèles

Cookies : Distribution des erreurs ridge pls lasso lars e.net svm krls Moyenne 0.84 0.86 0.86 0.90 0.85 0.70 1.90

6. NIR : «Tecator» Données n=215 (129+86) échantillons P=100 valeurs de spectre Taux de matière grasse Linéarité? Dérivées?

Tecator : lissage et dérivées des spectres

Tecator : modèles sur données brutes

Tecator : erreurs sur données brutes pls reg-sel svm krls Moyenne 2.80 2.66 4.99 2.64

Tecator : modèles sur dérivées

Tecator : erreurs sur dérivées pls reg-sel svm krls mars Moyenne 3.06 2.96 2.81 0.88 1.41

7. QSAR : Blood-Brain Barrier data Données : Y : rapport de concentration d une molécule entre le cerveau et le sang n= 208 molécules p=134 descripteurs Prétraitement?

QSAR BBB : comparaison des modèles

QSAR BBB : importance des variables (RF)

QSAR bbb : distribution des erreurs gbm pls krlsradial rf svmradial Moyenne 0.92 0.94 0.92 0.87 0.90

8. QSAR : MultiDrug Resistance Reversal agent data Données Y : molécule «Active» ou «Inactive» n= 528 molécules p=342 descripteurs Prétraitement?

QSAR mdrr: courbes ROC échantillon test

QSAR mdrr: importance des variables (RF)

QSAR mdrr : distributions des taux de bien classés gbm svmlinear svmradial knn rf Moyenne 0.81 0.79 0.81 0.80 0.81

QSAR mdrr : courbes ROC moyennes

9. Omiques : régimes gras de souris Données : 5 régimes 2 génotypes n=40 souris P=120 gènes q=21 acides gras

Régimes : sparse PCA

Régimes : classification des gènes et MDS

Régimes : double classification des gènes et souris

Régimes : gènes importants pour random forest

Régimes : sparse PLS gènes fonction des régimes

10. Omiques : toxicité du paracétamol Données : n=64 rats 4 doses (50, 150, 1500, 2000mg) 4 durée (6, 18, 24, 48h) P=3116 gènes q=10 variables cliniques

Toxicité: sparse ACP

Toxicité: sparse PLS

Toxicité: sparse PLS-DA