Du Data Mining à l Apprentissage Statistique

Dimension: px
Commencer à balayer dès la page:

Download "Du Data Mining à l Apprentissage Statistique"

Transcription

1 Du Data Mining à l Apprentissage Statistique Philippe Besse Contenu : Risque et erreur de prévision 3. Sélection de modèle dans le cas gaussien 4. PLS et sparse PLS (linéaire) 5. Régression logistique 6. Analyse discriminante décisionnelle 7. Arbres binaires de décision (CART) 8. Réseaux de neurones 9. Agrégation de modèles 10. SVM (support vector machine) 11. Conclusion 12. Sorties graphiques des scénarios Formation L Oréal : 28 / 03 / 2014

2 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Apprentissage statistique et Data Mining Philippe Besse & Béatrice Laurent INSA de Toulouse Institut de Mathématiques - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Data Mining Objectifs Outils de modélisation statistique et apprentissage Application au Data mining (fouille de données) modélisation, stratégie de choix de modèles et méthodes, exemples d applications, les méthodes. - septembre 2012

3 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Data Mining Data mining Origines : calcul, stockage, interfaces, logiciels spécifiques. Comment trouver un diamant dans un tas de charbon sans se salir les mains? Environnement informatique et informations hétérogènes volume et flux de données considérables données préalables à l analyse sondage ou traitement exhaustif des données. Champs d application identifier des facteurs de risque reconnaissance d image (caractères) prévision de taux de pollution, courbes de consommation GRC (CRM) ou Gestion de la Relation Client détection de défaillance et traçabilité veille technologique (text mining), web mining modèles de substitutions ou méta-modèles - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Objectifs : Modélisation et apprentissage Explorer ou vérifier, représenter, décrire Expliquer ou tester une influence Prévoir et sélectionner, interpréter Prévision brute Apprentissage statistique Focaliser sur la grande dimension (p > n) Interface entre Modélisation statistique vs. Machine learning (apprentissage machine) T. Hastie, R. Tibshirani et J. Friedman (2009). The elements of statistical learning : data mining, inference, and prediction, Springer. - septembre 2012

4 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Apprentissage Supervisé vs. non-supervisé Observation ou non d une variable à expliquer Y = f (X) + ε Modélisation, discrimination (classification) vs classification(clustering) Ensemble d apprentissage : d n 1 = {(x 1, y 1 ),..., (x n, y n )} x i X (= R p ), y i Y pour i = 1... n Modélisation vs. apprentissage modèle explicatif ou prédictif interprétation, ajustement d un vrai modèle parcimonie et précision d une prévision - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Types d apprentissage Régression vs. Discrimination sorties quantitatives Y R p régression Statistique vs. informatique Taille des données Estimer plus de paramètres Modèle linéaire : 2 p modèles possibles! explosion combinatoire méthodes algorithmiques sorties qualitatives Y fini discrimination, classement, reconnaissance de forme - septembre 2012

5 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Complexité des modèles Problématiques Stratégies de choix - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Choix de modèle Choix de méthode bibliographie explosive adaptation de la méthode aux données qualité : erreur de prévision Choix de modèle flexibilité et ajustement robustesse et prévision équilibre biais-variance exemple : nombre de variables explicatives et colinéarité critères de choix de modèle (R 2, C p, AIC, BIC, CV...) - septembre 2012

6 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Complexité des modèles en régression Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Complexité des modèles en classification supervisée - septembre 2012

7 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Problématiques Stratégies de choix Stratégies de choix de modèle Choix de modèle : sélection vs. régularisation Contrôle de la complexité nombre de paramètres, norme des paramètres (ridge, schrinkage) dimension de Vapnik (1999) - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Les données Les étapes de l apprentissage Les données p variables explicatives ou prédictives X = (X 1,..., X p ) n objets, individus ou unités statistiques. Attention, données préalables et non planifiées. Variable cible Y à expliquer, modéliser, prévoir, Choix d un ensemble de méthodes et/ou modèles : Y = f (X) - septembre 2012

8 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours Les données Les étapes de l apprentissage Stratégie de l apprentissage 1 Extraction avec ou sans sondage 2 Exploration, nettoyage, transformations des données... 3 Partition aléatoire de l échantillon (apprentissage, validation, test) 4 Pour chacune des méthodes considérées : estimation d un modèle fonction de q : complexité (apprentissage) optimisation du paramètre q (validation) 5 Comparaison des méthodes (erreur de prévision sur échantillon test) 6 Itération éventuelle (plusieurs échantillons test) 7 Choix de la méthode (prévision, interprétabilité). 8 ré-estimation du modèle, exploitation - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours en marketing, GRC Appétence Attrition (churn) Risque (de daillite, de non remboursement...)... Exemple : score d appétence pour la carte visa premier Adaptation statistique Environnement : pic d ozone régression quantitative concentration O3 discrimination et dépassement de seuil MOCAGE, NO2, NO3, H2O, Température, vent, jour, station - septembre 2012

9 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Santé Biologie épidémiologie et facteurs de risque aide au diagnostic exemple : caractérisation d un type de cancer du sein analyse transcriptomique (quantité d ARN) miliers de gènes pour quelques dizaines d échantillons Exemple : expression de p = 120 gènes selon 5 régimes et 2 génotypes de souris (n = 40) - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Applications industrielles Chimiométrie et spectrométrie infra-rouge (NIR) Criblage virtuel de molécules (QSAR) Détection de défaillance dans un procédé Airbus : Aide au pilotage - septembre 2012

10 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Spectres NIR de pâte à gâteaux (n = 72, p = 700) - septembre 2012 Aide au pilotage au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours q m q Neural 6PIO detector Manche, assiette, gouverne et prévision du pompage piloté - septembre 2012

11 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Choix des contenus Stages, contrats recherche, offre de logiciels SAS (enterprise miner) SPSS (Clementine), Statistica data miner Splus (Insightfull miner) KXEN, SPAD, Statsoft, Matlab... Weka, Tanagra, R - septembre 2012 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Les méthodes d apprentissage estimation d erreur de prévision et critères de choix de modèle modèle linéaire général (gaussien, binomial) PLS et sparse PLS modèles non-paramétriques analyse discriminante, k plus proches voisins arbres de décision (CART) réseaux de neurones agrégation de modèles séparateurs à vaste marge (SVM)... réseaux bayésiens - septembre 2012

12 au data mining Apprentissage statistique Stratégie de l apprentissage et contenu du cours GRC, environnement Santé, Biologie, Industrie Contenu du cours Objectif principal Utilisation pertinente et réfléchie des outils Importance fondamentale de la pratique!! Aller au charbon : les mains dans le cambouis. Où faire porter les principaux efforts : données, méthodes, modèles? - septembre 2012

13 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Apprentissage Statistique et Data Mining Qualité de prévision et risque INSA de Toulouse Institut de Mathématiques Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Performance Mesurer la performance d un modèle, sa capacité de prévision ou de généralisation Optimiser la sélection au sein d une famille de modèles choix de la méthode en comparant chacun des modèles estimer la confiance accordée à une prévision Sans modèles probabilistes, trois stratégies : 1 partition de l échantillon (apprentissage, validation, test) 2 pénalisation de l erreur d ajustement par la complexité du modèle 3 calcul intensif et estimations par simulations Qualité de prévision

14 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Le choix dépend de la taille de l échantillon initial variance de l erreur complexité du modèle envisagé, des algorithmes Résultats de Vapnik en théorie de l apprentissage consistance ou capacité de généralisation. L erreur d apprentissage et l erreur sur un jeu de données test convergent en probabilité vers la même limite vitesse de convergence indique comment évolue la généralisation et informe sur les paramètres sensibles contrôle de la capacité de généralisation en majorant le terme d erreur à n fini Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Notations, définitions d n observation d un n-échantillon D n = {(X 1, Y 1 ),..., (X n, Y n )} de loi conjointe inconnue P sur X Y x observation de la variable X D n est appelé échantillon d apprentissage D n est supposé indépendant de (X, Y) Une règle de prévision (ou prédicteur) est une fonction (mesurable) f : X Y, x f (x) Une fonction l : Y Y R + est une fonction de perte si l(y, y) = 0 et l(y, y ) > 0 pour y y Si f est une règle de prévision, l(y, f (x)) mesure la perte de f en x Qualité de prévision

15 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Notations, définitions Régression réelle : pertes L p (p 1) : l(y, y ) = y y p perte absolue si p = 1, perte quadratique si p = 2 Discrimination binaire : l(y, y ) = 1I y y = y y 2 = (y y ) 2 4 Le risque ou erreur de généralisation d une règle de prévision f est défini par R P (f ) = E (X,Y) P [l(y, f (X))] Attention : (X, Y) est supposé indépendant de D n qui permet de construire f f est une règle optimale si R P (f ) = inf f F R P (f ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Régression réelle Y = R Avec l(y, y ) = (y y ) 2, η (x) = E[Y X = x] optimale Avec l(y, y ) = y y, µ (x) = mediane[y X = x] optimale Discrimination binaire Y = { 1, 1} f règle de Bayes si P(Y = f (x) X = x) = max y Y P(Y = y X = x) Une règle de Bayes est optimale f η (x) = 1I η (x) 0 1I η (x)<0 = signe(η (x)) de Bayes Règles théoriques optimales qui dépendent de P inconnue Construire des algorithmes ne dépendant que de d n Qualité de prévision

16 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Définitions Un algorithme de prévision (ˆf n ) n 1 associe une règle de décision à un ensemble d apprentissage d n = {(x i, y i ), 1 i n} Le risque moyen de ˆf est E D n P n[r P(ˆf (D n ))] Un algorithme de prévision est universellement consistant si { } P lim E D n + n P n[r P(ˆf n (D n ))] = inf R P(f ) f F Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Algorithme par moyennage local poids : {W n,i, 1 i n} tels que n 1, x, x 1,..., x n X, n i=1 W n,i(x, x 1,..., x n ) = 1 ˆη n et fˆηn tels que pour d n = {(x 1, y 1 ),..., (x n, y n )} ˆη n (d n ) : x X n i=1 W n,i(x, x 1,..., x n )y i fˆηn (d n ) : x X signe(ˆη n (d n )(x)) ˆη n (resp. fˆηn ) est un algorithme de prévision par moyennage local en régression (resp. en dicrimination binaire) Le théorème de Stone (1977) donne des conditions de consistance universelle Qualité de prévision

17 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique k plus proches voisins Algorithme de moyennage local avec : 1 k si x i fait partie des k p.p.v. de x W n,i (x, x 1,..., x n ) = dans {x 1,..., x n } 0 sinon X = R d : Consistance universelle si k n + et k n /n 0 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Méthode du noyau Algorithme de moyennage local avec : W n,i (x, x 1,..., x n ) = K ( x i x h ) n j=1 K ( xj x h K est une fonction (un noyau) à valeurs dans R + h un paramètre réel > 0 (largeur du noyau) Noyau gaussien K(x) = e x 2 Consistance universelle sous conditions ) Qualité de prévision

18 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Algorithme par partition Algorithme de moyennage local avec : V 1, V 2,... une partition finie ou dénombrable de X V(x) est l élément de la partition contenant x W n,i (x, x 1,..., x n ) = 1I xi V(x) n j=1 1I x j V(x) CART (Breiman et al. 1984), polynomes locaux Consistance universelle sous conditions Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Fléau de la dimension P X loi uniforme sur l hypercube unité de R d Sélectionner une proportion p de données d observation revient à sélectionner un hypercube de côté moyen p 1/d Avec d = 10, p = 10% p 1/d = 0.80 Une méthode n est pas locale avec d grand ou encore Il faut n très grand pour espérer trouver des observations dans un voisinnage local Qualité de prévision

19 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Définition Risque d une règle f : R P (f ) = E (X,Y) P [l(y, f (X))] Risque empirique associé à D n : R n (f, D n ) = 1 n n l(y i, f (X i )) i=1 Optimisation du risque empirique sur un sous-ensemble F (un modèle) de F : Problème : choix de F! ˆfF (D n ) argmin f F R n (f, D n ) La règle oracle est tel que : R P (f ) = inf f F R P (f ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Décomposition du risque empirique R P (ˆf F (D n )) R P (f ) = { } { } R P (ˆf F (D n )) inf P(f ) + inf P(f ) R P (f ) f F f F } {{ } } {{ } Erreur d estimation et d approximation (Variance) (Biais) (taille de F) Plus le modèle F est complexe ou flexible plus le biais est réduit plus la partie variance augmente Enjeu : meilleur compromis biais / variance Qualité de prévision

20 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Le cas du modèle gaussien Modèle statistique Risque et règles optimales Algorithme de prévision Minimisation du risque empirique Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Erreur apparente de prévision ou qualité d ajustement minimum des moindres carrés dans le cas quantitatif taux de mal classés dans le cas qualitatif Estimation biaisée, par optimisme R n ( f (d n ), d n ) = 1 n n l(y i, f (d n )(x i )) i=1 Estimation sans biais sur un échantillon indépendant Partition : d n = d n 1 Appr dn 2 Valid dn 3 Test R n ( f (d n 1 Appr ), dn 1 Appr ) pour estimer un modèle choisi f (d n 1 Appr ) R n ( f (d n 1 Appr ), dn 2 Valid ) pour optimiser un modèle R n ( f, d n 3 Test ) pour comparer les meilleurs modèles Qualité de prévision

21 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation C p de Mallows Décomposition de l erreur de prévision ou risque quadratique : Estimation normalisée : R P ( f (d n )) = R n ( f (d n ), d n ) + Optim C p = R n ( f (d n ), d n ) + 2 d n σ2 d : nombre de paramètres du modèle n : nombre d observations s 2 : estimation de la variance de l erreur par modèle de faible biais Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Critère d Akaïke Basé sur la dissemblance de Kullback compare la loi de Y et celle de Ŷ Suppose que la famille de lois du modèle contient la vraie loi de Y Pour tout modèle estimé par minimisation d une log-vraisemblance L AIC = 2L + 2 d n Cas gaussien et variance connue : AIC et C p équivalents AIC c adapté aux petits échantillons gaussiens AIC c = 2L + n + d n d 2 Qualité de prévision

22 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Critère BIC de Schwarz BIC (Bayesian information criterion) modèle de plus grande probabilité a posteriori BIC = 2L + log(n) d n. Cas gaussien et variance connue : BIC proportionnel à AIC n > e 2 7, 4, BIC pénalise plus les modèles complexes Asymptotiquement, la probabilité pour BIC de choisir le bon modèle tend vers 1 différent d AIC qui tend à choisir des modèles trop complexes À Taille fini, BIC risque de se limiter à des modèles trop simples Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Globalement Une procédure d estimation/choix de modèle minimise : Crit = ψ(vraisemblance) + Pénalisation(d) f décroissante en d, la pénalisation croissante en d Qualité de prévision

23 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Complexité de modèles de discrimination Pouvoir séparateur d une famille de fonction φ Soit un échantillon (x 1,..., x n ) de R p Il existe 2 n différentes manières de diviser cet échantillon en deux sous-échantillons Un ensemble F de fonctions éclate (shatters) l échantillon si : les 2 n dichotomies peuvent être construites par des éléments de Φ Exemple : dans R 2, les fonctions linéaires (droites) éclatent 3 points mais pas 4 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Dimension de Vapnik-Chernovenkis Un ensemble F de fonctions définies de R p dans R est dit de VC dimension h SSI : tout jeu de h vecteurs de R p peut être éclaté Aucun ensemble de h + 1 vecteurs ne peut être éclaté Qualité de prévision

24 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation de dimensions de VC dimension VC de l ensemble des hyperplans dans R p : p + 1 dimension VC de l ensemble des fonctions f (x, w) = sign(sin(w, x)) avec 0 < c < x < 1 où w est un paramètre libre : infinie dimension VC de l ensemble des indicatrices linéaires p f (x, w) = sign (w j x j ) + 1 avec x = 1 j=1 et satisfaisant la condition : w 2 = p j=1 w2 j C Dépend de C et peut prendre toutes valeurs de 0 à p Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Remarque sur la dimension de VC la dimension VC n est pas le nombre de paramètres libres elle est difficile à exprimer pour des modèles complexes Résultats de Vapnik (1999) Un processus d apprentissage est consistant SSI la VC dimension h est finie Contrôle de l erreur de prévision avec une probabilité 1 ρ : R P ( f (d n )) < R n ( f (d n ), d n h(log( 2n h ) + ) + 1) log ρ 4 n Ne dépend pas de p ni de la loi inconnue F mais de n/h Qualité de prévision

25 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Principe de Minimisation structurée du risque (SRM) Contrôle de la VC dimension h dans une structure de modèles emboîtés : S 1 S 2 S k de VC dimensions : h 1 < h 2 < < h k Nombre de neurones, degré d un polynôme, contrainte en régression ridge, largeur de fenêtre ou paramètre de lissage, nombre de feuilles... Trouver h rendant le risque minimum avec un meilleur compromis Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Algorithme de validation croisée Moyenner l estimation sur K échantillons de validation 1: Découper aléatoirement l échantillon en K parts (K-fold) de tailles égales selon une loi uniforme 2: Pour k = 1 à K Faire 3: mettre de côté l une des partie 4: estimer le modèle sur les K 1 parties restantes 5: calculer l erreur sur chacune des observations qui n ont pas participé à l estimation 6: Fin Pour 7: la Moyenne des erreurs est l estimation par validation croisée Qualité de prévision

26 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Utilisation Soit τ : {1,..., n} {1,..., K} la fonction d indexation f ( k) estimation de f sans la kième partie de l échantillon Estimation par validation croisée de l erreur de prévision : R CV = 1 n n l(y i, f ( τ(i)) (x i )) i=1 Choix de K : n (variance), petit (biais), 10 par défaut Utilisation fréquente en choix de modèle : θ = arg min θ R CV (θ) Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Validation croisée généralisée Spline, ridge, lasso : ŷ = Hy avec H = (h i,j ) n n VC loo : 1 [ n n i=1 y i φ 2 ( i) (x i )] = 1 [ ] n yi φ ( 2 x i ) n i=1 1 h ii GCV : approcher les h ii par tr(h)/n Qualité de prévision

27 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation au Bootstrap Simulation (Monte Carlo) de la distribution d un estimateur Principe : substituer P n, à la distribution inconnue P Tirage avec remise d un échantillon bootstrap de même taille Itération et convergence Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur bootstrap naïf Échantillon bootstrap : z Estimateur plug-in (remplacer F par F de R P (ˆf (d n )) : R n (ˆf z, d n ) = 1 n n i=1 l(y i, ˆf z (x i )) ˆfz désigne l estimation de f à partir de z Estimation bootstrap de l erreur moyenne de prévision E D n P n[r P(ˆf (D n )] : R Boot = E Z F [ R n (ˆf Z, d n [ )] = E 1 n Z F n i=1 l(y i, f Z (x i )) ] Qualité de prévision

28 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimation bootstrap par simulation R Boot = 1 B B b=1 1 n Estimation biaisée par optimisme n l(y i, f z b(x i )) i=1 Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur bootstrap out-of-bag Distinguer les observations de l échantillon bootstrap et les autres R oob = 1 n 1 l(y i, f n B z b(x i )) i i=1 b K i K i est l ensemble des indices b des échantillons bootstrap ne contenant pas la ième observation à l issue des B simulations B i = K i est le nombre de ces échantillons R oob résout le problème d un biais optimiste de R Boot mais biais pessimiste comme en validation croisée ( R CV ) Qualité de prévision

29 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Erreur d ajustement ou risque apparent Estimation avec pénalisation Estimation par simulation Estimateur.632-bootstrap Correctif basé sur la probabilité qu une observation soit tirée dans un échantillon bootstrap : P[x i x b ] = 1 (1 1 n )n 1 1 e 0, 632 Sur-évaluation de l erreur analogue à celle de la validation croisée avec K = 2 Compensation : R.632 = 0, 368 R n (ˆf (d n ), d n ) + 0, 632 R oob Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Matrice de confusion Courbes ROC Matrice de confusion Prévision : Si π i > s, ŷ i = 1 sinon ŷ i = 0 Prévision Observation Total Y = 1 Y = 0 ŷ i = 1 n 11 (s) n 10 (s) n 1+ (s) ŷ i = 0 n 01 (s) n 00 (s) n 0+ (s) Total n + 1 n + 0 n Vrais positifs les n 11 (s) bien classées (ŷ i = 1 et Y = 1) Vrais négatifs les n 00 (s) bien classées (ŷ i = 0 et Y = 0) Faux négatifs les n 01 (s) mal classées (ŷ i = 0 et Y = 1) Faux positifs les n 10 (s) mal classées (ŷ i = 1 et Y = 0) Le taux d erreur : t(s) = n 01(s)+n 10 (s) n Qualité de prévision

30 Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Courbes ROC et AUC Matrice de confusion Courbes ROC Taux de vrais positifs ou sensibilité = n 11(s) n + 1 Taux de vrais négatifs ou spécificité = n 00(s) n + 0 Taux de faux positifs = 1 Spécificité = n 10(s) n + 0 AUC : aire sous la courbe Banque : Courbes ROC et aire sous la courbe Qualité de prévision Risque, risque empirique Estimation du risque Discrimination à deux classes et courbe ROC Matrice de confusion Courbes ROC Remarques Estimations de l erreur asymptotiquement équivalentes Pas de choix a priori Bootstrap plus compliqué et encore peu utilisé mais Central dans les algorithmes de combinaison de modèles Problèmes du.632-bootstrap en sur-ajustement Rectificatif complémentaire : le.632+bootstrap Utiliser le même estimateur pour comparer deux méthodes Qualité de prévision

31 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Apprentissage statistique et Data Mining Sélection de modèle dans le cas gaussien INSA de Toulouse Institut de Mathématiques Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Objectifs Expliquer Y quantitative avec X 1,..., X p modèle gaussien et linéaire général Dianostic : multicolinéarité (influence, tests, résidus) Choix de modèle par sélection de variables Choix de modèle par régularisation (ridge, lasso) Modèle gaussien

32 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Hypothèses du Modèle linéaire Échantillon taille n : (x 1 i,..., xp i, y i); i = 1,..., n Y i = β 0 + β 1 X 1 i + β 2 X 2 i + + β p X p i + ε i ; i = 1,..., n Hypothèses E(ε i ) = 0, Var(ε) = σ 2 I X j déterministes ou bien ε indépendant des X j β 0,..., β p constants Option ε N (0, σ 2 I) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Expression matricielle E(ε i ) = 0, Var(ε) = σ 2 I X(n (p + 1)) de terme général X j i avec X0 = 1 Y de terme général Y i ε = [ε 1 ε p ] β = [β 0 β 1 β p ] Y = Xβ + ε Modèle gaussien

33 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Estimateur des moindres carrés min Y Xβ 2 β Rp+1 Equations normales : X Y X Xβ = 0 et si X X inversible Estimation de β : β = (X X) 1 X Y Prédiction de Y : Ŷ = Xb = X(X X) 1 X Y = HY H = X(X X) 1 X : projection orthog. sur Vect(X) Résidus : e = Y Ŷ = Y Xb = (I H)Y Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Covariances des estimateurs E[( β β)( β β) ] = σ 2 (X X) 1 E[(Ŷ Xβ)(Ŷ Xβ) ] = σ 2 H E[ee ] = σ 2 (I H) Estimation de σ 2 s 2 = Y X β 2 n p 1 = SSE n p 1 Modèle gaussien

34 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Le cas du modèle gaussien Modèle Estimation Inférences dans le cas gaussien Exemple Y ε O θ Ŷ X 1 X 2 Projection Ŷ de Y sur l espace vectoriel Vect{1, X 1,..., X p } X p Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Sommes des carrés SSE = Y Y 2 = e 2 SST = y Y1 2 = Y Y ny 2 SSR = Ŷ Y1 2 = β X Y ny 2 SST = SSR + SSE R 2 = SSR Coefficient de détermination SST Cosinus carré de l angle entre Y et Ŷ Modèle gaussien

35 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur les coefficients La statistique β j β j σ j Student à (n p 1) ddl H 0 : β j = a et intervalle de confiance de niveau 100(1 α)% : β j ± t α/2;(n p 1) σ j Attention les coefficients sont corrélés entre eux Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur le modèle H 0 : β 1 = β 2 =... = β p = 0 SSR/p SSE/(n p 1) = MSR MSE Fisher avec p et (n p 1) ddl Tableau d analyse de la variance Source de variation d.d.l. Somme des carrés Variance F Régression p SSR MSR= SSR p Erreur n p 1 SSE MSE= SSE (n p 1) Total n 1 SST MSR/MSE Modèle gaussien

36 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur un modèle réduit H 0 : β 1 = β 2 =... = β q = 0, q < p SSR q, SSE q, R 2 q du modèle réduit à (p q) variables (SSR SSR q )/q SSE/(n p 1) = (R 2 R 2 q)/q (1 R 2 )/(n p 1) Fisher à q et (n p 1) ddl Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Inférence sur la Prévision Pour x 0 : ŷ 0 = b 0 + b 1 x b p x p 0. Intervalles de confiance des prévisions de Y et E(Y) ŷ 0 ± t α/2;(n p 1) s(1 + v 0(X X) 1 v 0 ) 1/2 ŷ 0 ± t α/2;(n p 1) s(v 0(X X) 1 v 0 ) 1/2 avec v 0 = (1 x 0 ) R p+1 Modèle gaussien

37 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Diagnostics des Résidus Homoscédasticité, linéarité, normalité Effet levier : H i i et résidu studentisé grand par Distance de Cook : D i = 1 s 2 (p + 1) (ŷ ŷ (i)) (ŷ ŷ (i) ) Modèle gaussien Résidus Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Résidus studentisés, diagonale de la matrice H et distances de Cook fonction des valeurs prédites Valeurs observées fonction des valeurs prédites et droite de Henri (normal qq-plot) Modèle gaussien

38 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Diagnostics de colinéarité conditionnement de X X Facteurs d inflation de la variance (VIF) : V j = 1 1 R 2 j Conditionnement : κ = λ 1 /λ p Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Retour sur capital 40 entreprises du Royaume Uni décrites par RETCAP WCFTDT LOGSALE LOGASST CURRAT QUIKRAT NFATAST FATTOT PAYOUT WCFTCL GEARRAT CAPINT INVTAST Return on capital employed Ratio of working capital flow to total debt Log to base 10 of total sales Log to base 10 of total assets Current ratio Quick ratio Ratio of net fixed assets to total assets Gross sixed assets to total assets Payout ratio Ratio of working capital flow to total current liabilities Gearing ratio (debt-equity ratio) Capital intensity (ratio of total sales to total assets) Ratio of total inventories to total assets Modèle gaussien

39 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Modèle complet Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F (1) Model (2) (5) (7) (8) Error (3) (6) C Total (4) Root MSE (9) R-square (12) Dep Mean (10) Adj R-sq (13) C.V (11) (1) d.d.l. de la loi de Fisher du test global (8) P(f p;n p 1 > F) ; H 0 rejetée au niveau α si P < α (2) SSR (9) s =racine de MSE (3) SSE ou déviance (10) moyenne empirique de la variable à expliquée (4) SST=SSE+SSR (11) Coefficient de variation 100 (9)/(10) (5) SSR/DF (12) Coefficient de détermination R 2 (6) MSE=SSE/DF est l estimation de σu 2 (13) (7) Statistique F de Fisher du test global Coefficient de détermination ajusté R 2 Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Estimation Inférences dans le cas gaussien Exemple Paramètres du modèle Parameter Estimates Parameter Standard T for H0: Variance Variable DF Estimate Error Parameter=0 Prob> T Tolerance Inflation (1) (2) (3) (4) (5) (6) INTERCEP WCFTCL WCFTDT GEARRAT LOGSALE LOGASST (1) estimations des paramètres (β j ) (2) écarts-types de ces estimations (s j ) (3) statistique T du test de Student de H 0 : β j = 0 (4) P(t n p 1 > T) ; H 0 est rejetée au niveau α si P < α (5) 1 R 2 (j) (6) VIF=1/(1 R 2 (j) ) Modèle gaussien

40 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple ACoVa élémentaire Y expliquée par T à J niveaux et X quantitative (covariable) Pour chaque niveau j de T, on observe n j valeurs X 1j,..., X nj j de X et n j valeurs Y 1j,..., Y nj j de Y ; n = J j=1 n j taille de l échantillon E[Y T] est fonction affine des variables explcatives Y ij = β 0j + β 1j X ij + ε ij ; j = 1,..., J; i = 1,, n j ε ij supposés i.i.d éventuellement N (0, σ 2 ) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Notations de l ACoVa Y observations [Y ij i = 1, n j ; j = 1, J] x vecteur [X ij i = 1, n j ; j = 1, J] ε = [ε ij i = 1, n j ; j = 1, J] vecteur des erreurs 1 j variables indicatrices des niveaux x.1 j valeurs pour le niveau j, 0 ailleurs X matrice n 2J [1 j x.1 j ] ; j = 1,..., J Modèle gaussien

41 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Modèle et paramètres Y = Xβ + ε X est la matrice n 2J : [1 j X.1 j ] ; j = 1,..., J Reparamétrisation : X = [1 X J 1 x.1 1 x.1 J 1 ] Y ij = β 0J + (β 0j β 0J ) + β 1J X ij + (β 1j β 1J )X ij + ε ij ; j = 1,..., J 1; i = 1,..., n j. Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Tests Comparer le modèle complet : Y = β 0J 1 + (β 01 β 0J ) (β 0J 1 β 0J )1 J 1 + β 1J x + + (β 11 β 1J )x (β 1J 1 β 1J )x.1 J 1 + ε A chacun des modèles réduits : (i) (ii) (iii) (iv) Y = β 0J 1 + (β 01 β 0J ) (β 0J 1 β 0J )1 J 1 + β 1J x + ε Y = β 0J 1 + (β 01 β 0J ) (β 0J 1 β 0J )1 J 1 + ε Y = β 0J 1 + β 1J x + (β 1j β 1J )x (β 1J 1 β 1J )x.1 J 1 + ε Y = β 0J 1 + ε Modèle gaussien

42 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Hypothèses testées H0 i : pas d interaction entre variables X et T, β 11 = = β 1J, les droites partagent la même pente β 1J. H0 ii : β 11 = = β 1J =0 (pas d effet de x) H0 iii :β 01 = = β 0J, les droites partagent la même constante à l origine β 0J. H iv 0 les variables X et T n ont aucun effet sur Y. Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Données marketing Observations des Consommation de lait après deux mois de 6 familles de taille 1 à 6 dans 4 villes ou campagnes de pub de 5 régions Modéliser la consommation en fonction de la taille de la famille conditionnellement au type de campagne publicitaire Source DF Type III SS Mean Square F Value Pr > F PUB (1) TAILLE (2) TAILLE*PUB (3) Modèle gaussien

43 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Modèle Tests Exemple Tests Attention aux interactions Région Source DF Type III SS Mean Square F Value Pr > F PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB PUB TAILLE TAILLE*PUB Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régressions par région Modèle Tests Exemple Consommation par taille et région. Modèle gaussien

44 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Objectif de parcimonie en prévision Modèle descriptif explicatif prédictif Le R 2 n est pas un bon critère Biaiser le modèle pour réduire la variance réduire le nombre de variables contraindre les paramètres Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Régression polynomiale (R2 = 0.003, 0.73) Régression linéaire simple Polynôme de degré 2 y y x x Modèle gaussien

45 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Régression polynomiale (R2 = 0.874, 1) Polynôme de degré 5 Polynôme de degré 10 y y x x Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Risque quadratique moyen Y = µ + ɛ avec Y = (Y 1,..., Y n ) µ = (f (X 1 ),..., f (X n )) ɛ = (ɛ 1,..., ɛ n ) Estimateur µ = X β de µ a pour risque : R( µ) = E Y,Y[ Y µ 2 ] Modèle gaussien

46 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Théorème de Cochran R( µ) = nσ 2 + pσ 2 + µ Π V (µ) 2 µ Π V (µ) 2 est le biais pσ 2 la variance de l estimateur E[ µ E( µ) 2 ] nσ 2 le rique de l oracle µ Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Critères d ajustement Statistique du F de Fisher (SSR SSR q )/s SSE/(n p 1) = (R2 R 2 q) n p 1 1 R 2 ) q si l accroissement (R 2 R 2 q) est suffisamment grand : R 2 R 2 R > q (n p 1) F α;q,(n p 1) l ajout des q variables au modèle est justifié R 2 = 1 SSE/SST, monotone croissant en p R 2 ajusté = 1 n 1 n p 1 (1 R2 ) = 1 SSE/(n p 1) SST/(n 1) Modèle gaussien

47 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Critères de prévision Tous les critères sont équivalents avec q fixé Problème : optimisé le choix de q C p de Mallow MSE(ŷ i ) = Var(ŷ i ) + [Biais(ŷ i )] 2 On suppose le modèle complet sans biais C j = (n j 1) MSE j MSE [n 2(j + 1)] C p = R n ( f (d n ), d n ) + 2 d n σ2 AIC = 2L + 2 d n BIC = 2L + log(n) d n PRESS = n i=1 (y i ŷ (i) ) 2 (ou k-cv) Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Algorithmes de choix Rechercher dans le graphe des 2 p modèles possibles Sélection (ascendante) Élimination (descendante) Mixte (pas à pas) Globale (Furnival & Wilson, 1974), (leaps de R) Analyse de covariance : AIC mais pas le C p Interactions et effets principaux Modèle gaussien

48 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Stepwise et AIC avec R Step: AIC= lpsa lcavol + lweight + age + lbph + svi + pgg45 Df Sum of Sq RSS AIC - pgg <none> lcp age lbph gleason lweight svi lcavol Step: AIC= lpsa lcavol + lweight + age + lbph + svi Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Critères de sélection Algorithmes de choix Retour sur capital avec SAS N = 40 Regression Models for Dependent Variable: RETCAP R-square Adjusted C(p) BIC Variables in Model In R-square WCFTCL WCFTDT QUIKRAT WCFTCL NFATAST CURRAT WCFTDT LOGSALE NFATAST CURRAT WCFTDT LOGSALE NFATAST QUIKRAT CURRAT WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT QUIKRAT CURRAT WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT Modèle gaussien

49 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Définition de la régression ridge β 0 β 1 β =.., β = β p β 1 β 2.. β p X 0 = (1, 1,..., 1), et X la matrice X privée de X 0 Y = X β + ɛ β Ridge = argmin β R p+1 n i=1 (Y i p λ paramètre positif à choisir β Ridge = (X X + λi p ) 1 X Y j=0 X(j) i β j ) 2 + λ p j=1 β2 j Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Propriétés de la régression ridge 1 X X + λi p est inversible 2 β 0 n intervient pas : centrer X 3 Dépend des unités : réduire X 4 Forme équivalente : } β Ridge = arg min β { Y Xβ 2 ; β 2 < c 5 Chemin de régularisation 6 Optimisation de λ par k-fold validation croisée Modèle gaussien

50 y y y Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Pénalisation ridge du modèle polynomial Régression Ridge, l=0 Régression Ridge, l=10^ 7 Régression Ridge, l=10^ x x x Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Chemin de régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net t(x$coef) e+00 1e 04 2e 04 3e 04 4e 04 5e 04 x$lambda Modèle gaussien

51 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net SVD et régression ridge SVD : X = UDV Avec : UU = U U = I n, VV = V V = I p X β Ridge = UD(D D + λi p ) 1 D U Y X β Ridge = p j=1 uj ( ) dj 2 dj 2+λ (u j ) Y X β = p j=1 uj (u j ) Y (λ = 0) Plus λ est grand, plus les coefficients sont seuillés Les plus grands coefficients sont peu seuillés Comparer avec la régression sur composantes principales Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression LASSO ou sparse (1996) Ridge toutjours calculable mais problème d interprétation Objectif : associe pénalisation et sélection β Lasso = { n argmin β R p i=1 (Y i p j=0 X(j) i β Lasso = argmin β, β 1 t ( Y Xβ 2 ) λ est le paramètre de régularisation λ = 0 : estimateur des moindres carrés. λ tend vers l infini, ˆβ j = 0, j = 1,..., p. β j = signe( β j )( β j λ)1 βj λ β j ) 2 + λ } p j=1 β j Modèle gaussien

52 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Utilisation de la régression Lasso Utilisable si p > n Procédures de programmation linéaire ou algorithme LARS Nombre de variables influentes q < n Attention à l ultra haute dimension (Verzelen, 2012) k n log(p k ) > 1 2 p = 5000 gènes et n = 40, k = 4, k n log( p k ) = 0.71 p = 600 gènes et n = 40, k = 4, k n log( p k ) = 0.50 Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression elastic net n i=1 (Y i β 0 β 1 X (1) i β 2 X (2) i +λ α p β j + (1 α) j=1 p j=1 β 2 j... β p X (p) i ) 2 Pour α = 1, régression Lasso Pour α = 0, régression ridge Modèle gaussien

53 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net SVD et régression ridge Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Concentration d ozone O3-o Concentration d ozone effectivement observée ou variable à prédire, 03-pr prévision mocage qui sert de variable explicative ; Tempe Température prévue pour le lendemain, vmodule Force du vent prévue pour le lendemain, lno Logarithme de la concentration observée en monoxyde d azote, lno2 Logarithme de la concentration observée en dioxyde d azote, rmh20 Racine de la concentration en vapeur d eau, Jour Variable à deux modalités pour distinguer les jours ouvrables (0) des jours fériés-we (1). Station Une variable qualitative indique la station concernée : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques. Modèle gaussien

54 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Estimation et résidus de MOCAGE Valeurs observees Résidus Valeurs predites Valeurs predites Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Modèle linéaire Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) O3_pr < 2e-16 *** vmodule e-06 *** lno e-14 *** lno < 2e-16 *** s_rmh2o ** jour stationals ** stationcad e-06 *** stationpla e-08 *** stationram * TEMPE < 2e-16 *** Residual standard error: on 1028 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 11 and 1028 DF, p-value: < 2.2e-16 Modèle gaussien

55 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Modèle quadratique Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL O3_pr station < 2.2e-16 *** e-12 *** vmodule lno s_rmh2o e-10 *** TEMPE < 2.2e-16 *** O3_pr:station e-05 *** O3_pr:vmodule *** O3_pr:TEMPE e-15 *** station:vmodule * station:lno *** station:s_rmh2o e-06 *** station:tempe e-08 *** vmodule:lno vmodule:s_rmh2o lno2:tempe s_rmh2o:tempe ** e-16 *** Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Résidus des modèles linéaire et quadratique Résidus Résidus Valeurs predites Valeurs predites Modèle gaussien

56 Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression ridge de données NIR Modèle gaussien Régression multiple Analyse de covariance Choix de modèle par sélection de variables Choix de modèle par régularisation Régression ridge Interprétation de la ridge Régression LASSO Régression elastic net Régression Lasso de données NIR Modèle gaussien

57 Régression PLS Régression sparse PLS Apprentissage Statistique et Data Mining Composantes principales et PLS parcimonieuses INSA de Toulouse Institut de Mathématiques PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Données de grande dimension Contexte de grande dimension (p >> n) Régression par sélection ou pénalisée (ridge, lasso) Régression sur composantes principales ou PCR Régression PLS (Wold 1966) développée en Chimiométrie (logiciel SIMCA-P) PLS sparse PLS

58 Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Régression sur composantes principales (PCR) Z 1,... Z p : composantes principales associées des variables X 1,... X p : Z 1 = p j=1 α jx j de variance maximale avec αj 2 = 1 Z m combinaison linéaire de variance maximale et orthogonale à Z 1,..., Z m 1. La PCR considére un prédicteur de la forme : avec Ŷ PCR = r ˆθ m Z m m=1 ˆθ m = Zm, Y Z m 2 PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Propriétés de la PCR r = p redonne l estimateur des moindres carrés r < p pour réduire la variance lors de variables colinéaires (p > n) Optimisation du choix de r par validation croisée Interprétation des composantes difficile si p est grand La régression ridge seuille les coefficients des composantes principales, la PCR annule ceux d ordre > r Problème : les premières composantes ne sont pas nécessairement corrélées avec Y D où, l intérêt de la régression PLS PLS sparse PLS

59 Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Régressions PLS PLS1 : Y quantitative expliquée par p variables X j, PLS2 : (canonique) p variables X j et q variables Y k, PLS2 : (régression) q variables Y k par p variables X j, PLS-DA : Y qualitative expliquée par p variables X j. Pas de propriétés statistiques de la PLS PLS sparse PLS Régression PLS Régression sparse PLS Objectifs Régression sur composantes principales Parcimonie et régression PLS Principe et objectif de parcimonie Exploration et intégration de données : i.e. données biologiques à haut débit : (n << p) phénotypes, métabolites... fonctions de transcrits Interprétation : Version parcimonieuse de la régression PLS Construite sur un algorithme de Sparse-SVD Donc d ACP parcimonieuse PLS sparse PLS

60 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Définition de la PLS1 (partial least square) Chercher les r composantes Ξ h combinaisons linéaires des X j : Ξ = XU fortement corrélées avec Y La matrice U est solution du problème suivant : Pour h = 1,..., r, u h = arg max u = arg max u Avec u hu h = 1 Cov(Y, Ξ h ) 2 u X YY Xu et ξ hξ h = u X YY Xu = 0, pour l = 1..., h 1. Les variables X j sont préalablement centrées et réduites PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Algorithme de PLS1 X matrice des variables explicatives centrées réduites Calcul de la matrice U des coefficients Pour h = 1 à r Faire 1 u h = X Y X Y 2 ξ h = Xu h 3 Déflation de X : X = X ξ h ξ h X Puis régression de Y sur les r variables latentes ξ h PLS sparse PLS

61 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Propriétés de la PLS1 Réduction de dimension comme avec la PCR Régression sur des composantes décorrélées (orthogonales) Optimisation de r par validation croisée En général : solution de la PLS plus parcimonieuse que celle de la PCR Problème d interprétabilité d où l intérêt d une version de sparse-pls PLS sparse PLS Régression PLS Régression sparse PLS Erreur par validation croisée Régression PLS1 Régression PLS2 Variantes de la PLS2 lpsa RMSEP number of components PLS sparse PLS

62 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Loadings et qualité d ajustement lpsa lpsa, 6 comps, validation regression coefficient predicted lcav lwei age lbph svi1 lcp gl7 gl8 gl9 pg45 variable measured 6 composantes PLS PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Définition de la PLS2 variables latentes ξ h et ω h, (h = 1,..., r) solutions de ξ 1 = Xu 1 et ω 1 = Yv 1 max cov(xu, Yv) u = v =1 puis itérations avec déflations de X et Y (u h, v h ) h=1,...,r sont apellés vecteurs loading PLS sparse PLS

63 Schéma de la PLS2 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS p q 1 2 X ξ ω... Y U n u 1 u 2 u H n ξξ 1 2 ξh ωω ω 1 2 H v 1 v 2 V v H C c 1 c 2 c H PLS2 : X and Y sont décomposées en loading vectors (u 1,..., u r ), (v 1,..., v r ) et variables latentes (ξ 1,..., ξ r ), (ω 1,..., ω r ) D d 1 d 2 d H PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Algorithme NIPALS de PLS2 X et Y matrices des données centrées Initialiser ω 1 par la première colonne de Y For h = 1 à r 1 Jusqu à convergence 1 u h = X ω h /ω hω h 2 u h = u h /u hu h est le vecteur loading associé à X 3 ξ h = Xu h est la variable latente associée à X 4 v h = Y ξ h /(ξ h ξ h ) 5 v h = v h /v hv h est le vecteur loading associé à Y 6 ω h = Y v h est la variable latente associée à Y 2 c h = X ξ/ξ ξ régression partielle de X sur ξ 3 d h = Y ω/ω ω régression partielle de Y sur ω 4 Résidus X X ξc ou déflation 5 Résidus Y Y ωd ou déflation PLS sparse PLS

64 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 Propriétés de NIPALS Nombre r d itérations à fixer ou optimiser Algorithme de puissance itérée YY XX u = λu Y XX Yω = λω XX YY v = λv X YY Xξ = λξ Données de grande dimension, colinéaires ou incomplètes Graphes de co-variation des variables Graphes des individus comme en ACP PLS sparse PLS Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 PLS par NIPALS ou SVD Vecteurs et valeurs propres de X YY X ou SVD de X Y : la première étape de la SDV est celle de la PLS Plus rapide mais stocker des matrices p p et imputation des données manquantes rend NIPALS utile PLS sparse PLS

65 Régression PLS Régression sparse PLS Régression PLS1 Régression PLS2 Variantes de la PLS2 PLS régression v.s. canonique Modes de déflation : Mode canonique : X h = X h 1 ξ h c h et Y h = Y h 1 ω h d h Mode régression : X h = X h 1 ξ h c h et Y h = Y h 1 ξ h v h PLS-DA Y qualitatives à m modalités remplacée par m vecteurs des indicatrices PLS sparse PLS Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Dimension et interprétation n << p donc p très grand PLS et réduction de dimension pour colinéarité Composantes ou variables latentes ininterprétables Objectif : limité le nombre de coefficients non nuls des variables latentes Version parcimonieuse ou sparse PLS sparse PLS

66 Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Algorithme de Shen et Huang (2008) de sparse SVD Résoudre : min u,v M uv 2 F + P λ(v) Décomposer M = U V M 0 = M For h de 1 à r Faire 1 Fixer v old = δ h v h 2 u old = u h avec v h et v h de norme 1 3 Jusqu à convergence de u new et v new Faire 1 v new = g λ (M h 1u old ) 2 u new = M h 1v new / M h 1 v new 3 u old = u new, v old = v new 4 v new = v new / v new 5 M h = M h 1 δ h u new v new Seuillage doux : g λ (y) = sign(y)( y λ) + PLS sparse PLS Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Définition sparse-pls Pour résoudre : min uh,v h M h u h v h 2 F + P λ 1 (u h ) + P λ2 (v h ) itérer r fois la première étape de sparse-svd Seuillage doux composante par composante : P λ1 (u h ) = P λ2 (v h ) = p sign(u hj )( u hj λ 1 ) + j=1 q sign(v hj )( v hj λ 2 ) + j=1 Déflation entre deux SVD et problème d orthogonalité PLS sparse PLS

67 Régression PLS Régression sparse PLS Objectif Sparse SVD Sparse-PLS Optimisation des paramètres Pénalisations Lasso λ h 1, λh 2, (h = 1,..., r) : mode régression : erreur de prevision par validation croisée mode canonique : degré de parcimonie, stabilité (bootstrap) spls-da : erreur de prévision dimension r de la PLS : r 3 pour l interprétation PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Cookies PLS1 : optimisaiton de r et résidus PLS sparse PLS

68 Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Mode régression : données simulées de Chun et Keles (2010) n = 40, p = 5000 (X var.), q = 50 (Y var.) 20 variables X et 10 variables Y d effet µ 1 20 variables X et 20 variables Y d effet µ 2 PLS dim 1 spls dim dim dim dim dim Vecteurs loading associés à la matrice X PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection PLS version analyse canonique (Lê Cao et al. 2009) NCI : 60 lignées cellulaires de tumeurs CO RE OV BR PR CNS LEU ME epitheliales, mesenchymales, melanomes Deux plateformes : X = cdna chip data, p = 1375 Y = Affymetrix chip, q = 1517 données symétriques recouvrement des gènes exprimés et des compléments PLS sparse PLS

69 H460 Régression PLS Régression sparse PLS Representation simultanée, NCI Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection (ω 2, ξ 2 ) 7860 (ω 1, ξ 1) BR CNS CO LE ME NS OV PR RE PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Discrimination par s-pls-da : données de tumeur du cerveau n = 90 p = 6144 expressions de gènes ou variables X et 10 variables Y d effet µ 1 variables qualitatives Y à 5 modalités (type de tumeur) Objectif : diagnostiquer le type de tumeur à partir de l expression des gènes Lê cao et al. (2011) présente une comparaison détaillée : plusieurs jeux de données et plusieurs approches de classification supervisée PLS sparse PLS

70 Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Brain data set et réseaux biologiques Comp Cyclin D1 TNFRSF1A STAB1 CD97 PON2 X53777_at BARD1 Midkine CIP4 U30255_at PEA15 D31764_at M83233_at D12676_at X68836_at M31520_at M74089_at U76272_at U56833_at U85267_at X78520_at D89667_at L00205_at X16560_at Y00764_at M28213_s_at U21858_at HG384.HT384_at M20471_at M33653_at Z50022_at D79998_at X63578_rna1_at ALDOC PGHD BTN2A2 SORL1 BAD PEA15 GRM4 SIRPA SCN1B PTMA LRRC16A MLLT3 INSM1 MAB21L1 U30521_at AP3B2 STMN2 Neuronatin NDF Comp 1 FIGURE: Variables (gènes) FIGURE: Gene Go software PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Bach (2008) Modèle linéaire et Lasso, Echantillons bootstrap Intersection des sélections Meinshausen et Bülhmann (2010) Modèle linéaire, modèles graphiques, Lasso, random lasso Echantillons aléatoires taille n/2 sans remise Graphe : probabilité de sélection fonction de la pénalité Verzelen (2010) Rappel dans le cas gaussien : n = 90 et p = 6144 supposent k < 6 2k log(p/k) n > 1 2 PLS sparse PLS

71 Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Stabilité de la sélection, Brain data set Brain dim 1 probability number of selected variables PLS sparse PLS Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Méthodes avec pénalisation : bibliographie Tibshirani (1996) : Modèle linéaire et Lasso Zou et Hastie (2005) : Modèle linéaire et Elastic Net Jolliffe et al. (2003), Zou et al. (2006), Shen et Huang (2008) : sparse ACP González et al. (2009) : Analyse canonique ridge (Vinod, 1976) Chun et Keles (2007) : PLS mode régression et Elastic Net Waaijenborg et al. (2008), Parkhomenko et al. (2009), Witten et al. (2009) : PLS mode canonique et Elastic Net Lê Cao et al. (2008), Chun et Keles (2010) : sparse PLS mode régression Lê Cao et al. (2009) : sparse PLS mode canonique Ahdesmäki and Strimmer (2009) : sparse LDA Chung et Keles (2010), Lê Cao et al. (2010) : sparse PLS-DA PLS sparse PLS

72 Références Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Ahdesmäki, M. and Strimmer, K. (2009). Feature selection in omics prediction problems using cat scores and false non-discovery rate control. Ann. Appl. Stat. Antoniadis, A., Lambert-Lacroix, S., and Leblanc, F. (2003). Effective dimension reduction methods for tumor classification using gene expression data. Bioinformatics, 19(5) : Bach, F. (2008). Bolasso : model consistent Lasso estimation through the bootstrap. Proceedings of the Twenty-fifth International Conference on Machine Learning (ICML). Boulesteix, A. (2004). PLS Dimension Reduction for Classification with Microarray Data. Statistical Applications in Genetics and Molecular Biology, 3(1) :1075. Breiman, L. (2001). Random forests. Machine learning, 45(1) :5-32. Chun, H. and Keles, S. (2010). Sparse partial least squares regression for simultaneous dimension reduction and variable selection. Journal of the Royal Statistical Society : Series B, 72(1) :3-25. Chung, D. and Keles, S. (2010). Sparse Partial Least Squares Classification for High Dimensional Data. Statistical Applications in Genetics and Molecular Biology, 9(1) :17. Dai, J., Lieu, L., and Rocke, D. (2006). Dimension reduction for classification with gene expression microarray data. Statistical Applications in Genetics and Molecular Biology, 5(1) :1147. Ding, B. and Gentleman, R. (2005). Classification using generalized partial least squares. Journal of Computational and Graphical Statistics, 14(2) : Fort, G. and Lambert-Lacroix, S. (2005). Classification using partial least squares with penalized logistic regression. Bioinformatics, 21(7) :1104. Gadat, S. and Younes, L. (2007). A stochastic algorithm for feature selection in pattern recognition. The Journal of Machine Learning Research, 8 :547. González I., Déjean S., Martin P.G.P., Goncalves O., Besse P. and Baccini A. (2009) Highlighting Relationships Between Heteregeneous Biological Data Through Graphical Displays Based On Regularized Canonical Correlation Analysis, Journal of Biological Systems 17(2), pp Guyon, I., Elisseefi, A., and Kaelbling, L. (2003). An to Variable and Feature Selection. Journal of Machine Learning Research, 3(7-8) : Guyon, I., Weston, J., Barnhill, S., and Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine learning, 46(1) : PLS sparse PLS... Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Huang, X., Pan, W., Park, S., Han, X., Miller, L., and Hall, J. (2004). Modeling the relationship between LVAD support time and gene expression changes in the human heart by penalized partial least squares. Bioinformatics, Jolliffe, I., Trendafilov, N., and Uddin, M. (2003). A Modified Principal Component Technique Based on the LASSO. Journal of Computational & Graphical Statistics, 12(3) : Lê Cao K.-A., Boitard, S. and Besse, P. (submitted) Multiclass classification with spls-da, graphical interpretation and comparison with wrapper approaches. Lê Cao, K.-A., Bonnet, A., and Gadat, S. (2009a). Multiclass classification and gene selection with a stochastic algorithm. Computational Statistics and Data Analysis, 53 : Lê Cao, K.-A., Goncalves, O., Besse, P., and Gadat, S. (2007). Selection of biologically relevant genes with a wrapper stochastic algorithm. Statistical Applications in Genetics and Molecular Biology, 6(1) :29. Lê Cao K.-A., González, I. and Déjean, S. (2009) integromics/mixomics : an R package to unravel relationships between two omics data sets Bioinformatics, 25(21) : Lê Cao K.-A., Martin P.G.P, Robert-Granié C. and Besse, P. (2009) Sparse Canonical Methods for Biological Data Integration : application to a cross-platform study, BMC Bioinformatics 10 :34. Lê Cao K.-A., Rossouw D., Robert-Granié C. and Besse P. (2008) A Sparse PLS for Variable Selection when Integrating Omics data, Statistical Applications in Genetics and Molecular Biology 7 :Iss. 1, Article 35. Meinshausen, N. and Bühlmann, P. (2008). Stability selection. Journal of the Royal Statistical Society : Series B, 72, Nguyen, D. and Rocke, D. (2002a). Multi-class cancer classification via partial least squares with gene expression profiles. Bioinformatics, 18(9) :1216. Nguyen, D. and Rocke, D. (2002b). Tumor classification by partial least squares using microarray gene expression data. Bioinformatics, 18(1) :39. Parkhomenko, E., Tritchler, D., and Beyene, J. (2009). Sparse canonical correlation analysis with application to genomic data integration. Statistical Applications in Genetics and Molecular Biology, 8(1) :1. Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation. Journal of Multivariate Analysis, 99 : PLS sparse PLS

73 ... Régression PLS Régression sparse PLS Régression s-pls de données simulées Mode canonique de s-pls Analyse discriminante par s-pls-da Stabilité de sélection Tan, Y., Shi, L., Tong, W., Gene Hwang, G., and Wang, C. (2004). Multi-class tumor classification by discriminant partial least squares using microarray gene expression data and assessment of classification models. Computational Biology and Chemistry, 28(3) : Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58(1) : Tibshirani, R., Hastie, T., Narasimhan, B., and Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression. Proceedings of the National Academy of Sciences, 99(10) :6567. Waaijenborg, S., de Witt Hamer, V., Philip, C., and Zwinderman, A. (2008). Quantifying the Association between Gene Expressions and DNA-Markers by Penalized Canonical Correlation Analysis. Statistical Applications in Genetics and Molecu- lar Biology, 7(3). Witten, D., Tibshirani, R., and Hastie, T. (2009). A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis. Biostatistics, 10(3) :515. Wold, H. (1966). Multivariate Analysis. Academic Press, New York Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical, Society Series B, 67(2) : Zou, H., Hastie, T. and Tibshirani, R. (2006). Sparse principal component analysis. Journal of Computational and Graphical Statistics, 15(2) : PLS sparse PLS

74 Odds et odds ratio Régression logistique Apprentissage Statistique et Data Mining Régression logistique INSA de Toulouse Institut de Mathématiques Modèle binomial Odds et odds ratio Régression logistique Objectif Expliquer Z qualitative à 2 modalités {0, 1} ou Y nombre de succès de Z par {X 1,..., X p } qualitatives et quantitatives Prédicteur linéaire Xβ inadapté Cas particulier du MLG : modèle binomial Méthode sans doute la plus utilisée (médical, marketing) Modèle binomial

75 Odds et odds ratio Régression logistique Définition de l Odds Y une variable qualitative à m modalités L odds de la lème modalité relativement à la kème est le rapport Ω lk = π l π k avec π l = P[T = T l ] estimé par Ω lk = n l n k Si m = 2, Ω 10 = π (1 π) gain exprime une cote ou chance de Si π(succès)=0,8 alors π(échec)=0,2 et Odds(succès)=4 : Chance de succès de 4 contre un Modèle binomial Odds et odds ratio Régression logistique Définition de l Odds ratio Table de contingence 2 2 croisant T 1 et T 2 [ π11 π 12 π 21 π 22 ] avec π ij = P[{T 1 = T i } et {T 2 = T j }] Ω 1 = π 11 π 12 Ω 2 = π 21 π 22 Odds ratio ou rapport de cote : Θ = Ω 1 Ω 2 = π 11π 22 π 12 π 21 Θ = 1 ssi X 1 et X 2 sont indépendantes Θ > 1 si les sujets de la ligne 1 ont plus de chances de prendre la première colonne que les sujets de la ligne 2 et inférieur à 1 sinon Modèle binomial

76 Odds et odds ratio Régression logistique Exemple d odds ratio Concours avec 7 garçons reçus sur 10 et 4 filles sur 10 Odds des garçons : 0.7/0.3=2.33 Odds des filles : 0.4/0.6=0.67 odds ratio : 2.33/0.67=3.65 Odds ratio dans une table de contingence J K Θ abcd = Ω a Ω b = π acπ bd π ad π bc estimé par l odds ratio empirique : Θ abcd = n acn bd n ad n bc Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Notations Z variable qualitative à 2 modalités : 1 ou 0... Xβ prend ses valeurs dans R Modéliser π = P[Z = 1] ou plutôt g(π i ) = x iβ avec g : [0, 1] R g est appelée fonction lien probit : g fonction inverse de la fonction de répartition d une loi normale (pas explicite). log-log : g(π) = ln[ ln(1 π)] (dissymétrique) logit : g(π) = logit(π) = ln π 1 π ; g 1 (x) = ex 1+e x La régression logistique est une modélisation linéaire du log odds Les coefficients expriment des odds ratio Modèle binomial

77 Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Modèle X 1,..., X q : explicatives qualitatives ou quantitatives I : nombre des combinaisons x 1 i,..., xq i des facteurs X j n i : nombre d essais avec x 1 i,..., xq i fixé (n = I i=1 n i) y i nombre de (Z = 1) observés lors des n i essais, Si π i = P[Z = 1] constante pour x 1 i,..., xq i fixé Alors Y i sachant n i suit une loi binomiale B(n i, π i ) d espérance E(y i ) = n i π i et de densité : P(Y = y i ) = ( n i ) y i π y i i (1 π i) (n i y i ). Hypothèse : [logit(π i ); i = 1,..., n] vect{x 1,..., X q } logit(π i ) = x iβ ou π i = ex i β 1 + e x i β i = 1,..., I Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Estimation Estimation b de β par maximisation de la log-vraisemblance Méthodes numériques itératives (Newton Raphson, Scores de Fisher) Prévisions des probabilités π i : π i = et des effectifs ŷ i = n i p i ex i b 1+e x i b Modèle binomial

78 Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Remarques X construite comme pour l analyse de covariance Attention au choix implicite de paramétrication par le logiciel (O, 1) ou ( 1, 1) Cas précédent : données groupées. Si les observations x i sont toutes distinctes : n i = 1; i = 1,..., I. Les comportements asymptotiques et test ne sont plus valides En plus des b j ou log odds ratio, estimation possible des odds-ratio ou rapports de cote : Y a e b fois plus de chance d apparaître quand X = 1 Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Généralisation Cas de Y polytomique Y qualitative ordinale : niveau de gravité, de satisfaction... Problème si plusieurs modèles en concurence pour chaque fonction logit utilisable si p le nombre de variables explicatives est petit Modèle binomial

79 Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Régression polytomique Une variable explicative X dichotomique de Y à k modalités ordonnées. π j (X) = P(Y = j X) avec k j=1 π j(x) = 1 Il faut estimer k 1 prédicteurs linéaires : g j (X) = α j + β j X pour j = 1,..., k 1 Trois types d échelle des rapports de cote : comparaison des catégories adjacentes deux à deux comparaison des catégories adjacentes supérieures cumulées comparaison des catégories adjacentes cumulées Modèle binomial Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Logits cumulatifs log π j π k π π j pour j = 1,..., k 1 Hypothèse souvent implicite : β j ; j = 1,..., k 1 homogènes Même coefficient b : rapports de cotes proportionnels ou même fonction logit translatée proc logistic de SAS propose un test d homogénéité des β j Interprétation Pour tout seuil choisi de Y, la cote des risques d avoir une gravité supérieure à ce seuil est e b fois plus grande chez les exposés (X = 1) que chez les non exposés (X = 0) Modèle binomial

80 Odds et odds ratio Régression logistique Type de données Modèle binomial Régressions logistiques polytomique et ordinale Choix de modèle Choix de modèle Algorithme par élimination ou mixte (stepwise) avec soit Test de Wald (ou du rapport de vraisemblance) à la place de Fisher soit le critère AIC d Akaïke Versions LASSO et PLS de la régression logistique Extensions : effets aléatoires, mesures répétées Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Exemple simple Influence du débit et du volume d air inspiré sur la dilatation des vaisseaux sanguins superficiels des membres inférieurs D E B I T V O L U M E D I L A T 0 1 Modèle binomial

81 Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Sorties SAS The LOGISTIC Procedure Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC SC LOG L (1) with 2 DF (p=0.0001) Score with 2 DF (p=0.0002) Parameter(2) Standard Wald(3) Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT L_DEBIT L_VOLUME Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Régression logistique ordinale Variables : 1 Etat du conducteur : Normal ou Alcoolisé 2 Sexe du conducteur 3 Port de la ceinture : Oui Non 4 Gravité des blessures : 0 : rien à 3 : fatales Modèle binomial

82 Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Sorties SAS Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept Gr <.0001 Intercept Gr <.0001 Intercept Gr <.0001 sexe Sfem <.0001 alcool A_bu <.0001 ceinture Cnon <.0001 Test de score pour l hypothèse des cotes proportionnelles Khi-2 DDL Pr > Khi <.0001 Modèle plus simple : GrN vs. GrO Estimations des rapports de cotes Effet Valeur estimée IC de Wald à 95 % sexe Sfem vs Shom alcool A_bu vs Ajeu ceinture Cnon vs Coui Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Diagnostic de cancer Wisconsin Breast Cancer Database (mlbench de R) 9 variables ordinales ou nominales à 10 modalités 683 observations Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses benign et malignant Avec toutes les variables : ajustement exact (0%) mais erreur de 5,8% Modèle réduit : ajustement de 3,5% et erreur de 5,1% Modèle binomial

83 Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Dépassement de seuil Prévision directe des dépassements (150µg/m 3 au lieu 180) Problèmes : ils sont peu nombreux Modèle optimal au sens d Akaïke sans interaction Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL O3_pr e-31 vmodule s_rmh2o e-09 station e-03 TEMPE e-30 vmodule est-elle utile? Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Comparaison de modèles Avec et sans vmodule, avec et sans interaction A partir du quantitatif ou non, MOCAGE Matrices de confusion de l échantillon test pour différents modèles : FALSE FALSE FALSE FALSE TRUE 5 21 TRUE 6 22 TRUE 5 23 TRUE 8 27 logistique sans vmodule avec vmodule avec interactions quantitatif Erreur : 11,5% 11,5% 10,6% 10,1% MOCAGE : 13,6% Biais systématique Besoin de préciser ces estimations d erreurs Modèle binomial

84 Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Gestion de la Relation Client Données en provenance d I-BP 1425 clients 32 variables comptables Objectif : score d appétance de la carte visa premier. 1 Nettoyage des données 2 Transformations 3 Comparaison des modélisations Modèle binomial Odds et odds ratio Régression logistique GRC : Liste des variables Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire Identif. matric sexec ager famil relat prcsp opgnb moyrv tavep endet gaget gagec gagem kvunb qsmoy Libellé Matricule (identifiant client) Sexe (qualitatif) Age en années Situation familiale (Fmar : marié, Fcel : célib., Fdiv :divorcé, Fuli :union libre, Fsep : séparés, Fveu :veuf) Ancienneté de relation en mois Catégorie socio-professionnelle (code num) Nombre d opérations par guichet dans le mois Moyenne des mouvements nets créditeurs des 3 mois en Kf Total des avoirs épargne monétaire en francs Taux d endettement Total des engagements en francs Total des engagements court terme en francs Total des engagements moyen terme en francs Nombre de comptes à vue Moyenne des soldes moyens sur 3 mois Identif. Libellé qcred Moyenne des mouvements créditeurs en Kf dmvtp Age du dernier mouvement (en jours) boppn Nombre d opérations à M-1 facan Montant facturé dans l année en francs lgagt Engagement long terme vienb Nombre de produits contrats vie viemt Montant des produits contrats vie en francs uemnb Nombre de produits épargne monétaire xlgnb Nombre de produits d épargne logement xlgmt Montant des produits d épargne logement en francs ylvnb Nombre de comptes sur livret ylvmt Montant des comptes sur livret en francs rocnb Nombre de paiements par carte bancaire à M-1 jntca Nombre total de cartes nptag Nombre de cartes point argent itavc Total des avoirs sur tous les comptes havef Total des avoirs épargne financière en francs dnbjd Nombre de jours à débit à M carvp Possession de la carte VISA Premier Modèle binomial

85 Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire GRC : modélisation Sélection par méthode descendante de la procédure logistic sur échantillon d apprentissage Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq SEXEQ <.0001 PCSPQ <.0001 kvunbq uemnbq nptagq facanq relatq <.0001 opgnbq moyrvq <.0001 dmvtpq <.0001 itavcq Modèle binomial Odds et odds ratio Régression logistique Régression logistique élémentaire Cancer du sein Concentration d ozone Marketing bancaire GRC : prévision Matrices de confusion, estimée sur échantillons d apprentissage et test CARVPr predy CARVPr predy Frequency Frequency Percent 0 1 Total Percent 0 1 Total Total Total Modèle binomial

86 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Apprentissage Statistique et Data Mining Analyse discriminante décisionnelle INSA de Toulouse Institut de Mathématiques Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Notations p variables quantitatives explicatives X j, une variable qualitative T (m modalités) un échantillon Ω de taille n. {g l ; l = 1,..., m} désignent les barycentres des classes x le barycentre global Objectif affecter un nouvel individu x = [x 1,..., x p ] dans une classe T l de T Définir des règles d affectation Analyse discriminante

87 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Règle élémentaire avec m classes Affecter l individu x à la modalité de T minimisant : d 2 (x, g S 1 l ), l = 1,..., m. r Métrique de Mahalanobis d 2 (x, g S 1 l ) = x g l 2 r S 1 = (x g r l ) S 1 r (x g l ) Ceci revient à maximiser Règle linéaire en x. g l S 1 r x 1 2 g l S 1 r g l. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Notations Règle de décision issue de l AFD Règle élémentaire avec 2 classes Un seul axe discriminant passant par g 1 et g 2. Règle de Fisher : x affecté à T 1 si g 1S 1 r ou si x 1 2 g 1S 1 r (g 1 g 2 ) S 1 r g 1 > g 2S 1 r x 1 2 g 2S 1 r g 2 x > (g 1 g 2 ) S 1 r g 1 + g 2. 2 Règle simple mais inadaptée si les variances sont différentes Ne tient pas compte de l échantillonnage. Analyse discriminante

88 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Risque bayésien : notations {T 1,..., T m } muni d une loi de probabilités π 1,..., π m. qui sont les probabilités a priori des classes ω l. x T admet une loi de densité f l (x) = P[x T l ]. Application δ : Ω {T 1,..., T m } dépendant de la connaissance ou non de coûts de mauvais classement, connaissance ou non des lois a priori sur les classes, nature aléatoire ou non de l échantillon. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Risque bayésien : définition Associé à δ ou coût moyen : Avec R δ = m k=1 π k m l=1 c l k {x δ(x)=t l } f k (x)dx c l k : coût du classement dans T l d un individu de T k. {x δ(x)=t l } f k(x)dx : Probabilité d affecter x à T l alors qu il est dans T k. Analyse discriminante

89 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Coûts inconnus supposés égaux Règle de Bayes : affecter x à la classe la plus probable Celle qui maximise la probabilité conditionnelle a posteriori : P[T l x]. P[T l x] = P[T l et x] P[x] = P[T l].p[x T l ] P[x] La règle de décision s écrit : δ(x) = arg max π lf l (x). l=1,...,m Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Définition Coûts inconnus Détermination des a priori Les probabilités a priori π l sont connues comme proportions de groupes estimées sur un échantillon aléatoire inconnues et considérées égales Si les probabilités a priori sont égales On maximise f l (x) C est la vraisemblance de x au sein de T l Si m = 2, x est affectée à T 1 si : f 1 (x) f 2 (x) > π 2 π 1 (rapport de vraisemblance) Problème : estimer les densités conditionnelles f l (x) Analyse discriminante

90 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variance innégales Hypothèse : x T N (µ l, Σ l ) Densité de x au sein de T l : 1 f l (x) = [ 2π(det(Σl )) exp 1 ] 1/2 2 (x µ l) Σ 1 l (x µ l ). Affectation de x par maximisation de π l.f l (x) : [ max ln(π l ) 1 l 2 ln(det(σ l)) 1 ] 2 (x µ l) Σ 1 l (x µ l ). Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variance innégales Les matrices Σ l dépendent de l. Le critère d affectation est quadratique en x. Les π l sont connues ou égales. les µ l et les Σ l sont estimées : µ l = g l et S Rl = 1 n l 1 i Ω l (x i g l )(x i g l ). Analyse discriminante

91 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Hétéroscédasticité Homoscédasticité Cas gaussien, variances égales Le critère devient : ln(π l ) 1 2 µ l Σ 1 µ l + µ l Σ 1 x linéaire en x. Σ est estimée par : S R = 1 m n m l=1 i Ω l (x i g l )(x i g l ) Si les probabilités π l sont égales : x l S 1 R x 1 2 x l S 1 R x l C est le critère élémentaire issu de l AFD. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Cas non paramétrique Pas d hypothèse (normalité) sur la loi Hypothèse de régularité sur la fonction de densité f Estimation fonctionnelle de la densité f (x) par f (x). Échantillon de grande taille surtout si p est grand The curse of dimensionality ou fléau de la dimension Pour l analyse discriminante : estimation des f l (x) Analyse discriminante

92 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Méthode du noyau x 1,..., x n n observations d une v.a.r. X de densité f inconnue. K(y) (noyau) : densité de probabilité unidimensionnelle ; h (largeur de fenêtre) un réel positif. f (x) = 1 nh n ( x xi K h i=1 ). K est choisi gaussien, uniforme ou triangulaire. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Application à l analyse discriminante Estimation non paramétrique de chaque f l (x) Noyau K multidimensionnel K densité d une loi multivariée ou ou produit de lois univariées K (x) = p j=1 K(xj ) f l (x) = 1 n l h p i Ω l K ( x xi h ). Analyse discriminante

93 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins knn : k plus proches voisins 1 Choix d un entier k : 1 k n 2 Calculer les distances d S 1(x, x i ), i = 1,..., n R 3 x (1),..., x (k), les k observations les plus proches ; 4 Nombres d occurences k 1,..., k m que ces k observations dans chacune des classes, 5 Estimer les densités par f l (x) = k l kv k (x) ; où V k(x) est le volume de l ellipsoïde {z (z x) S 1 R (z x) = d S 1 R (x, x (k) )}. Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Remarques Version simplifiée : V k (x) = 1 Si k = 1, x est affecté à la classe du plus proche élément Si k = 1, erreur d estimation nulle! Choix important de la distance entre observations Réglage des paramètre : h(largeur de fenêtre) ou k par validation croisée ou échantillon de validation Estimation de densité déconseillée par Vapnik Analyse discriminante

94 Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Estimation de la densité Algorithme des k plus proches voisins Cancer : taux d erreur Méthode apprentissage validations croisée test linéaire 1,8 3,8 3,6 knn 2,5 2,7 2,9 Concentration d ozone : taux d erreur Méthode apprentissage validations croisée test linéaire 11,9 12,5 12,0 quadratique 12,7 14,8 12,5 Carte visa : taux d erreur Méthode apprentissage validations croisée test linéaire 16,5 18,3 18 quadratique 17,8 22,0 30 knn 23,5 29,8 29 Analyse discriminante Règle de décision bayésienne Règle bayésienne avec modèle normal Avec estimation non paramétrique Banque : optimisation de k Estimation de la densité Algorithme des k plus proches voisins Analyse discriminante

95 Construction d un arbre binaire Critères d homogénéité Élagage Apprentissage Statistique et Data Mining Arbres binaires de décision INSA de Toulouse Institut de Mathématiques Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Classification and regression trees (CART) Breiman et col. (1984) X j explicatives quantitatives ou qualitatives Y quantitative : regression tree Y qualitative à m modalités {T l ; l = 1..., m} : classification tree Objectif : construction d un arbre de décision binaire simple à interpréter Méthodes calculatoires : peu d hypothèses mais beaucoup de données Arbres binaires

96 Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Définitions 1 Revenu < Revenu > Sexe=H Age < 50Age > 50 Sexe=F T j T l T j Déterminer une séquence itérative de nœuds Racine : nœud initial ou ensemble de l échantillon Feuille : nœud terminal Nœud : choix d une variable et d une division sous-ensemble auquel est appliquée une dichotomie Division : valeur seuil ou groupes des modalités Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Règles Choix nécessaires : 1 Critère de la meilleure division parmi celles admissibles 2 Règle de nœud terminal : feuille 3 Règle d affectation à une classe T l ou une valeur de Y Division admissible : descendants X j réelle ou ordinale : (c j 1) divisions possibles X j nominale : 2 (c j 1) 1 divisions Fonction d hétérogénéité D (k) d un nœud 1 Nulle : une seule modalité de Y ou Y constante 2 Maximale : modalités de Y équiréparties ou grande variance Arbres binaires

97 Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Division optimale Notation k : numéro d un nœud (k + 1) et (k + 2) les nœuds fils L algorithme retient la division rendant minimales D (k+1) + D (k+2) Chaque étape k de construction de l arbre : max D k (D (k+1) + D (k+2) ) {Divisions de X j ;j=1,p} Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Principe Critère de division Règle d arrêt et affectation Feuille et affectation Un nœud donné, est terminal ou appelé feuille, lorsqu il est : homogène, plus de partition admissible ou nombre d observations inférieur à un seuil Affectation Y quantitative, la valeur est la moyenne des observations Y qualitative, chaque feuille est affectée à une classe T l de Y en considérant le mode conditionnel : la classe la mieux représentée dans le nœud la classe a posteriori la plus probable si des a priori sont connus la classe la moins coûteuse si des coûts de mauvais classement sont donnés Arbres binaires

98 Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : notations Cas plus général d une division en J classes Soit n individus et une partition en J classes de tailles n j ; j = 1,..., J avec n = J j=1 n j On numérote i = 1,..., n j les individus de la jème classe Soit µ ij (resp.y ij ) la valeur théorique (resp. l observation) de Y sur l individu (i, j) : le ième de la jème classe Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : hétérogénéité L hétérogénéité de la classe j est définie par : D j = n j (µ ij µ.j ) 2 avec µ.j = 1 n j n j i=1 i=1 µ ij L hétérogénéité de la partition est définie par : D = J D j = j=1 n J j (µ ij µ.j ) 2 j=1 i=1 Inertie ou variance intraclasse vaut D = 0 ssi µ ij = µ.j Arbres binaires

99 Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : différence d hétérogénéité entre ensembles non partagé et partagé : = n J j (µ ij µ.. ) 2 n J j (µ ij µ.j ) 2 où µ.. = 1 n n J j µ ij j=1 i=1 j=1 i=1 j=1 i=1 = J n j (µ.. µ.j ) 2 j=1 Variance inter classe ou désordre des barycentres avec, pour J = 2 : = n 1 n 2 (µ.1 µ.2 ) 2 Objectif à chaque étape : maximiser Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : vraisemblance Les quantités sont estimées : D j = n j (y ij y.j ) 2 et D = J D j = n J j (y ij y.j ) 2 i=1 j=1 j=1 i=1 Cas gaussien : Y ij = µ.j + u ij avec u ij N (0, σ 2 ) Maximiser la log-vraisemblance log L = Cste n 2 log(σ2 ) 1 2σ 2 n J j (y ij µ.j ) 2 j=1 i=1 L µ = sup µ log L = Cste n 2 log(σ2 ) 1 2σ 2 n J j (y ij y.j ) 2 j=1 i=1 Arbres binaires

100 Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Régression : déviance Pour le modèle saturé (une classe par individu) : y ij = µ ij + u ij, l optimum devient : L s = sup µ log L = Cste n 2 log(σ2 ) La déviance (par rapport au modèle saturé) est : D µ = 2σ 2 (L s L µ ) = D Raffinement de l arbre associé à la décroissance, la plus rapide, de la déviance Une division rend le test de Fisher le plus significatif possible Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : hétérogénéité Fonction d hétérogénéité : Entropie Critère de concentration de Gini Statistique du test du χ 2 (CHAID) L entropie est le terme de déviance d un modèle multinomial Arbres binaires

101 Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : notations Y qualitative à m modalités ou catégories T l L arbre induit une partition ; n +k effectif du kème nœud p lk = P[T l k] avec m l=1 p lk = 1 Désordre du kème nœud, ou Entropie (0 log(0) = 0) : D k = 2 m n +k p lk log(p lk ) l=1 positive ou nulle ; nulle ssi les probabilités p lk sont toutes nulles sauf une égale à 1 ; max en cas d équirépartition Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : entropie Hétérogénéité ou désordre de la partition : D = K K m D k = 2 n +k p lk log(p lk ) k=1 k=1 l=1 n lk effectif observé de la lème classe dans le kème nœud Un nœud k est un sous-ensemble de l échantillon d effectif n +k = m l=1 n lk Les quantités sont estimées : D k = 2 m l=1 n +k n lk n +k log n lk n +k et D = K D k = 2 k=1 K k=1 m l=1 n lk log n lk n +k Arbres binaires

102 Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : vraisemblance et déviance Pour chaque nœud k : modèle multinomial à m catégories de paramètre : p k = (p 1k,..., p mk ), avec m p lk = 1 l=1 Log-vraisemblance : log L = Cste + K m k=1 l=1 n lk log(p lk ) Maximale pour L µ = sup plk log L = Cste + K m k=1 l=1 n lk log n lk n +k L optimum du modèle saturé est la constante Déviance : D = 2 K m k=1 l=1 n lk log n lk n +k = D Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Y quantitative Y qualitative Discrimination : extensions Les probabilités conditionnelles sont définies par la règle de Bayes lorsque les probabilités a priori π l sont connues Sinon, les probabilités de chaque classe sont estimées sur l échantillon et donc les probabilités conditionnelles s estiment par des rapports d effectifs : p lk est estimée par n lk /n +k Des coûts de mauvais classement connus conduisent à la minimisation d un risque bayésien Arbres binaires

103 Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Élagage : notations Recherche d un modèle parcimonieux Complexité d un arbre : H(A) = nombre de feuilles de A Qualité de discrimination de A : D(A) = H D h (A) h=1 où D h (A) : nombre de mal classés ou déviance ou coût de mauvais classement de la feuille h Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Séquence d arbres emboîtés Critère de qualité pénalisé par la complexité : C(A) = D(A) + γh Pour γ = 0 : A max = A H minimise C(A) Lorsque γ croît, la division de A H, dont l amélioration de D est inférieure à γ, est annulée ; ainsi deux feuilles sont regroupées (élaguées) le nœud père devient terminal A H devient A H 1 Après itération du procédé : A max = A H A H 1 A 1 Arbres binaires

104 Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Algorithme Sélection de l arbre optimal 1: Construction de l arbre maximal A max 2: Construction de la séquence A K... A 1 d arbres emboîtés 3: Estimation sans biais (échantillon de validation ou validation croisée) des déviances D(A K ),..., D(A 1 ) 4: Représentation de D(A k ) en fonction de k ou de γ 5: Choix de k rendant D(A k ) minimum Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Cancer : arbre et prévision benign 358/188 Cell.shape=1,2 Cell.shape=3,4,5,6,7,8,9,10 benign 318/4 malignant 40/184 Bare.nuclei=1,2 Bare.nuclei=3,4,5,6,7,8,9,10 benign 32/20 malignant 8/164 Epith.c.size=1,2,3 Epith.c.size=4,5,6,7,8,9,10 benign 30/1 malignant 2/19 predq.tree benign malignant Erreur de 5,8% sur l échantillon test benign 83 5 malignant 3 46 Arbres binaires

105 Construction d un arbre binaire Critères d homogénéité Élagage Concentration d ozone : arbre Construction de la séquence d arbres Recherche de l arbre optimal Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Construction de la séquence d arbres Recherche de l arbre optimal Concentration d ozone : prévisions et résidus Valeurs observees Résidus Valeurs predites Valeurs predites Arbres binaires

106 Construction d un arbre binaire Critères d homogénéité Élagage Carte visa : élagage avec SEM Construction de la séquence d arbres Recherche de l arbre optimal Arbres binaires Construction d un arbre binaire Critères d homogénéité Élagage Carte visa : arbre avec R Construction de la séquence d arbres Recherche de l arbre optimal Endpoint = CARVP Cnon 569/294 Cnon 462/61 RELAT>=5.5 Cnon 475/90 MOYRVL< 3.02 RELAT< 5.5 Coui 13/29 MOYRVL>=3.02 Coui 94/204 DMVTPL>=2.602 DMVTPL< Coui Coui 93/121 1/83 FACANL< Cnon 457/51 DMVTPL>=2.602 DMVTPL< Cnon Cnon 381/28 76/23 FACANL>=11.44 Coui 5/10 AGER< 26DMVTPL< AGER>=26 DMVTPL>=2.674 Cnon Cnon Coui Coui 8/0 70/17 5/29 23/104 FACANL< FACANL>=11.32 Cnon Coui 67/10 3/7 DMVTPL< DMVTPL>=1.199 Cnon Coui 76/3 0/20 Arbres binaires

Data mining II. Modélisation Statistique & Apprentissage

Data mining II. Modélisation Statistique & Apprentissage Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Apprentissage Statistique :

Apprentissage Statistique : Apprentissage Statistique Apprentissage Statistique : modélisation, prévision et data mining PHILIPPE BESSE & BÉATRICE LAURENT 5ème année GMM - MMS Équipe de Statistique et Probabilités Institut de Mathématiques

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678 Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Le Modèle Linéaire par l exemple :

Le Modèle Linéaire par l exemple : Publications du Laboratoire de Statistique et Probabilités Le Modèle Linéaire par l exemple : Régression, Analyse de la Variance,... Jean-Marc Azaïs et Jean-Marc Bardet Laboratoire de Statistique et Probabilités

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRISE EN ÉCONOMIE PAR MATHIEU SISTO NOVEMBRE

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

MAP 553 Apprentissage statistique

MAP 553 Apprentissage statistique MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Pourquoi un autre catalogue en Suisse romande Historique En 1990, la CRUS (Conférences des

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Classification supervisée et credit scoring

Classification supervisée et credit scoring Classification supervisée et credit scoring Gilbert Saporta Conservatoire National des Arts et Métiers, Paris saporta@cnam.fr http://cedric.cnam.fr/~saporta Plan 1. Introduction 2. Techniques linéaires

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Le modèle de régression linéaire

Le modèle de régression linéaire Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L économétrie traite de la construction de modèles. Le premier point de l analyse consiste à se poser la question : «Quel est le modèle?». Le

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Température corporelle d un castor (une petite introduction aux séries temporelles)

Température corporelle d un castor (une petite introduction aux séries temporelles) Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

1 Définition de la non stationnarité

1 Définition de la non stationnarité Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail