Analyse discriminante, classification supervisée, scoring

Dimension: px
Commencer à balayer dès la page:

Download "Analyse discriminante, classification supervisée, scoring"

Transcription

1 Analyse discriminante, classification supervisée, scoring Gilbert Saporta Conservatoire National des Arts et Métiers Version du 8/11/2009 1

2 Bibliographie Bardos: «Analyse discriminante», Dunod, 2001 Hastie, Tibshirani, Friedman : «The Elements of Statistical Learning», 2nd edition, Springer-Verlag, Nakache, Confais: «Statistique explicative appliquée», Technip, 2003 Thiria et al. :«Statistique et méthodes neuronales» Dunod, 1997 Thomas, Edelman,Crook: «Credit scoring and its applications», SIAM, 2002 Tufféry: «Data Mining et statistique décisionnelle»,technip, 2007 Tufféry: «Étude de cas en statistique décisionnelle»,technip, 2009 Vapnik : «Statistical Learning Theory», Wiley

3 Plan I L analyse factorielle discriminante II Discrimination sur variables qualitatives : le scoring. III Analyse discriminante probabiliste IV Régression logistique V SVM VI Validation VII Choix de modèles et théorie de l apprentissage statistique VIII Arbres de décision 3

4 Objet d étude Observations multidimensionnelles réparties en k groupes définis a priori. Autre terminologie: classification supervisée Exemples d application : Pronostic des infarctus (J.P. Nakache) 2 groupes : décès, survie (variables médicales) Iris de Fisher : 3 espèces : 4 variables (longueur et largeur des pétales et sépales) Risque des demandeurs de crédit 2 groupes : bons, mauvais (variables qualitatives) Autres : Météo, publipostage, reclassement dans une typologie. 4

5 Quelques dates : P.C. Mahalanobis 1927 H. Hotelling 1931 R. A. Fisher 1936 J.Berkson 1944 C.R.Rao 1950 T.W.Anderson 1951 D.Mc Fadden 1973 V.Vapnik

6 Objectifs Y variable à expliquer qualitative à k catégories X 1, X 2,, X p variables explicatives Objectif 1 : Décrire Étude de la distribution des X i / Y Géométrie : Analyse factorielle discriminante AFD Tests : Analyse de variance multidimensionnelle MANOVA Objectif 2 : Classer Étude de P(Y/ X 1, X 2,, X p ) Modélisation fonctionnelle : Approche bayésienne Modélisation logique : Arbre de décision Méthodes géométriques. 6

7 1 ère partie : L analyse factorielle discriminante 1. Réduction de dimension, axes et variables discriminantes. 2. Cas de 2 groupes. 3. Méthodes géométriques de classement. 7

8 Représentation des données 2 cas : prédicteurs numériques prédicteurs qualitatifs k 1 2 j p 1 2 i X X X X 1 2 j p X X X X 1 2 j p i i i i n X X X X 1 2 j p n n n n indicatrices des groupes variables explicatives n points dans R p appartenant à k groupes. 8

9 I.1 Réduction de dimension. Recherche d axes et de variables discriminantes. Dispersion intergroupe et dispersion intra groupe. W = matrice variance intra W = 1/n Σn i V i V 1 V 2 B = matrice variance inter g 1 g 2 B = 1/n Σn i (g i - g) (g i -g) V k g k V = W + B variance totale 9

10 Axes discriminants : deux objectifs Dispersion intraclasse minimale : min u Wu u Dispersion interclasse maximale : max u Bu g 1 g k g 2 10

11 Axes discriminants : deux objectifs Simultanéité impossible min uwu ' Wu= αu α min i max ubu ' Bu= βu β max i Compromis : V = W + B u V u = u W u + u B u min max u B u u B u max ou u V u u W u = λ = μ -1-1 V Bu u W Bu u 11

12 Axes discriminants : deux objectifs 1 a) V Bu = λu ( λ) Bu = λvu Bu = λ (W + B)u 1- Bu = λwu λ 1-λ -1 b) W Bu = u = u ACP du nuage des g i avec : Métrique V -1 Métrique W -1 Mahalanobis μ 12

13 Les différents cas selon λ 1 1. λ 1 = 0 : aucune séparation linéaire n est possible, groupes concentriques 2. λ 1 =1 : séparation parfaite 3. Mais 0 < λ 1 < 1 : séparation possible avec groupes non recouvrants 13

14 Nombre d axes discriminants ACP des groupes : dimension de l espace contenant les centres des groupes g i Si n>p>k (cas fréquent), k-1 axes discriminants Exemple célèbre : Iris de Fisher K = 3 Setosa, Versicolor, Virginica P=4 longueur pétale, longueur sépale, largeur pétale, largeur sépale n 1 =n 2 =n 3 =50 Donc deux axes 14

15 Iris setosa Iris versicolor Iris virginica 15

16 16

17 17

18 Distance de MAHALANOBIS Distance au sens de la métrique W pour p=1 : ( )' ( ) D = g g W g g 2 1 p g 1 D p g 2 nn 1 2 x1 x2 nn D1 F(1; n1 n2 2) n n ˆ = + + σ n + n 2. p quelconque : ( )' ( ) D = g g W g g 2 1 p /2 1/2 Dp = g1 g 2 W W g1 g2 W 1/2 X ( ) ( ) Standardisation de chaque composante x j Décorrélation... 18

19 Interprétation probabiliste Le ( μ μ )' ( μ μ ) Δ théorique : Δ = p p ( μ ) ( ) p μ 2 populations N, et N, D W estimation (biaisée) de p p nv + nv n = = ( ) ( ) D = g g ' W g g 2 1 p ˆ Δ 19

20 Interprétation probabiliste ( ) p E D n 2 = Δ + pn 2 2 p n p 1 nn 1 2 Si 2 Δ = 0 μ = μ 1 2 nn 1 2 n p 1 D~ 2 p F p ; n p 1 n p n 2 ( ) ( ) 20

21 Distances de Mahalanobis entre 2 groupes parmi k Théoriques : Estimées : ( μ μ ) ( μ μ ) 2 ' 1 p i j i j Δ = 1 2 n p = i j i j ( )' ( ) D g g W g g n k Si 2 Δ = 0 nn i j n-k-p+1 2 Dp = n + n n-k p i j ( ) F p;n-k-p+1 ( ) 21

22 I.2 Cas de deux groupes g 1 et g 2 sont sur une une droite : 1 seul axe discriminant : a = α ( g g ) 1 2 e RAPPEL : en ACP axe a, facteur u = M a Combinaison discriminante proportionnelle à M (g 2 -g 1 ) = W -1 (g 2 -g 1 ) ou V -1 (g 2 -g 1 ) FONCTION DE FISHER : 1 1 X 2 X W ( g2 g1) = W p p X 2 X 1 a d= < e, a> M = ema = eu 22

23 Historique Historiquement : d= 1, 2 p p j u jx =X u j=1 d-d Test (de Student) de comparaison de 2 moyennes : T= s Fisher (1936) Trouver u, u,..., u tel que T maximal. ( ) -1 Solution : u proportionnel à W g1-g2 Nota : W ( ) ( ) 1 2 nn g-g =α V g -g avec : α=1+ D n n p ( ) d 23

24 Une régression «incorrecte» y à 2 valeurs (-1;+1) ou (0;1) ou (a;b) a=n/n 1 b=-n/n 2 ˆ 1 β = V ( g g ) R 1 2 D nn R nn nn R p 2 ( 2) = Dp = ( 2) 2 + D p nn 1 2 D p distance de Mahalanobis entre groupes Incompréhensions et controverses! 2 24

25 Modèle linéaire usuel non valide : y/ X N Xβ σ I 2 ( ; ) en discriminante c est l inverse que l on suppose : X / y = j N p ( μ j ; Σ) Conséquences Pas de test, pas d erreurs standard sur les coefficients MAIS possibilité d utiliser les méthodes de pas à pas en régression. 25

26 FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA... VARIABLES FONCTION REGRESSION TYPES STUDENT NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20)... 3 FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL CONSTANTE R2 = F = PROBA = D2 = T2 = PROBA =

27 I-3 Méthodes géométriques de '. classement.. y x x p Échantillon d apprentissage 1 e? e observation de groupe inconnu G 1 g 1 e g2 G2 e classé dans le groupe i tel que: d(e ; g i ) minimal g 3 G 3 27

28 Utilisation des fonctions discriminantes ( ) ( ) ( ) d e ; g = e g ' W e g = e' W e 2 g' W e+ g' W g i i i i i i min d ( e ; gi) = max 2 g' iw e g' iw g i αi k groupes k fonctions discriminantes k 1 X X 1 2 α α α 1 2 k β β β k1 X p β β β 1p 2p kp On classe dans le groupe pour lequel la fonction est maximale. 28

29 Linear Discriminant Function for Species Setosa Versicolor Virginica Constant SepalLength Sepal Length in mm SepalWidth Sepal Width in mm PetalLength Petal Length in mm PetalWidth Petal Width in mm

30 Number of Observations Classified into Species From Species Setosa Versicolor Virginica Total Setosa Versicolor Virginica Total Priors

31 pour deux groupes On classe dans G 1 si: Fonction de Fisher >c Score de Fisher: 2gW e gw g > 2g W e g W g ' 1 ' 1 ' 1 ' ( g g )' W e> ( gw g g W g ) 1 1 ' 1 ' ( g g )' W e ( g W g g W g ) 1 1 ' 1 '

32 Interprétation géométrique Projection sur la droite des centres avec la métrique W -1 Dualité axe-frontière plane frontière axe discriminant 32

33 Règle de classement des plus proches voisins On compte le nombre d observations de G 1, G 2, parmi les k plus proches voisins et on classe dans le groupe le plus fréquent. Cas limite k = 1 33

34 Méthode des plus proches voisins (Hastie and al) 34

35 35

36 36

37 37

38 38

39 39

40 Deuxième partie: Discrimination sur variables qualitatives et scoring 1. Le probléme 2. Disqual 3. Les objectifs du credit scoring 40

41 II.1 Discrimination sur variables qualitatives Y variable de groupe X, X,..., X Variables explicatives à m, m,..., m modalités 1 2 p 1 2 p Exemples Solvabilité d'emprunteurs auprès de banques bon payeur Y : mauvais payeur X : sexe, X : catégorie professionnelle etc. 1 2 Risque en assurance automobile bon conducteur (pas d'accidents) Y : mauvais conducteur X : sexe, X : tranche d'âge, X : véhicule sportif ou non Reclassement dans une typologie Y numéro de groupe 3 41

42 Un peu de (pré)histoire Fisher (1940) Un seul prédicteur Equations de l AFC Introduction du vocable «Scores» 42

43 43

44 44

45 Cas de 2 groupes : le scoring Deux idées équivalentes : Transformer les variables qualitatives explicatives en variables quantitatives. Donner des valeurs numériques (notes ou scores) aux modalités de façon optimale: maximiser la distance de Mahalanobis dans R p Travailler sur le tableau disjonctif des variables explicatives Une réalisation : Passage par l intermédiaire d une analyse des correspondances multiples. X1 X

46 Variables explicatives qualitatives Quantification : Transformer une variable qualitative en une variable numérique et se ramener au cas précédent. Exemple : État matrimonial de 7 individus Quantification : C a1 C a 1 C = Célibataire M a 2 M = Marié M a2 V = Veuf M a D Divorcé 2 = V a3 D a 4 46

47 47 X Tableau disjonctif des variables indicatrices C M V D F H G G G G G G G G I K J J J J J J J J Quantification x a a a a a a a a a a a Xa = F H G G G G G G G GG I K J J J J J J J JJ F H G G G G I K J J J J = = X

48 La fonction de Fisher est une combinaison linéaire des variables quantifiées s X i = = p I = 1 m α i j= 1 i β X j i 1 j S est une combinaison linéaire des (m 1 + m m p ) indicatrices des variables 48

49 X n est pas de plein rang: rank(x)=σm i -p Solution classique: éliminer une indicatrice par prédicteur (GLM, LOGISTIC de SAS) Disqual (Saporta, 1975): ADL effectuée sur une sélection de facteurs de l ACM de X. Analogue de la régression sur composantes principales Composantes sélectionnées de manière experte selon inertie et pouvoir discriminant 49

50 II.2 DISQUAL 1 ère étape Analyse des correspondances du tableau des prédicteurs. Profession Logement P1 P2 P3 P 4 Prop. Loc X = n variables indicatrices Z=.. k variables numériques : garder les coordonnées factorielles les plus discriminantes n z 1... z k 50

51 2 ème étape : Analyse discriminante linéaire (Fisher). Score s k = d j= 1 j z j Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories Coefficients = grille de notation z j = Xu j u j k k j j j= 1 j= 1 j s = dxu = X du j : coordonnées des catégories sur l'axe n j grille de score.. j j 1 z1 z2 d j ( 1 2) = V g g = j V ( ). z. 51

52 Sélection des axes Selon l ordre de l ACM % d inertie Selon le pouvoir discriminant Student sur 2 groupes,f sur k groupes Régularisation, contrôle de la VC dimension 52

53 Exemple assurance (SPAD) 1106 contrats automobile belges: 2 groupes: «1 bons», «2 mauvais» 9 prédicteurs: 20 catégories Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2) 53

54 ACM 54

55 ADL de Fisher sur les composantes FACTEURS CORRELATIONS COEFFICIENTS... 1 F F F F F F F F F F F CONSTANTE R2 = F = D2 = T2 = Score= 6.90 F F F F F F10 55

56 scores normalisés Echelle de 0 à 1000 Transformation linéaire du score et du seuil 56

57 Grille de score («scorecard») COEFFICIENTS TRANSFORMED CATEGORIES DISCRIMINANT COEFFICIENTS FUNCTION (SCORE) Use type USE1 - Profess USE2 - private Gender MALE - male FEMA - female OTHE - companies Language FREN French FLEM - flemish Birth date BD BD BD BD BD? -???BD Region REG1 - Brussels REG2 Other regions Level of bonus-malus BM01 - B-M 1 (-1) BM02 - Others B-M (-1) Duration of contract C<86 - <86 contracts C>87 - others contracts Horsepower HP HP HP2 - >40 HP year of vehicle construction YVC YVC YVC YVC

58 Cas des prédicteurs numériques Si prédicteurs numériques (taux d endettement, revenu ) Découpage en classes Avantages, détection des liaisons non linéaires 58

59 Prise en compte des interactions Amélioration considérable de l efficacité du score Rappel : ( ) ( ) Score = f x + f x + Exemple : État matrimonial et nombre d enfants Modèle additif sans interaction 2 catégories 3 catégories ( M M ) ( E E E ) ( M E M E M E ) n variable croisée à 6 catégories

60 Un exemple bancaire dossiers de demandes de prêt 1000 passés en contentieux Variables: Taux d endettement Revenu disponible par personne du ménage Situation dans le logement Statut matrimonial Nombre d enfants Profession Ancienneté dans l emploi 60

61 Grille de score Ratio d endettement : Revenu disponible par personne du ménage : Situation dans le logement : 61

62 Grille de score (suite) état matrimonial et enfants à charge : 62

63 Grille de score (suite) profession et stabilité dans l emploi : 63

64 Exemple : Note de score :

65 Répartitions par tranches de score 65

66 Répartition selon le score 66

67 Simulation 67

68 Courbe de lift (efficacité du ciblage) 68

69 II.3 Les objectifs du credit scoring Sélection des risques Prévision des impayés Suivi et contrôle 69

70 credit scoring Credit scoring is the set of decision models and their underlying techniques that aid lenders in the granting of consumer credit. Credit scoring is one the most successful applications of statistical modeling in finance and banking. Yet because credit scoring does not have the same glamour as the pricing of exotic financial derivatives or portfolio analysis, the literature on the subject is very limited. Thomas & al

71 Le comité de Bâle sur la supervision bancaire Créé en 1974 par le G10 Banque des Règlements Internationaux (BIS) Réduire la vulnérabilité par la mise en place d un ratio prudentiel attestant d un niveau minimal de fonds propres. Accords Bâle II 71

72 Bâle 2 Une «révolution quantitative» (A.L.Rémy Crédit Agricole) «banks are expected to provide an estimate of the PD and LGD» PD (probability de défaut) LGD (perte en cas de défaut) EAD (exposition en cas de défaut) Calcul du capital nécessaire au niveau de confiance 99.9% à un an 72

73 Impact énorme sur les études statistiques. Exigence de justification statistique et de backtesting imposé par le régulateur (Commission Bancaire) Recrutements massifs Le «New Basel Capital Accord» régulera les prêts bancaires à partir de

74 LES DIFFERENTES ETAPES DE REALISATION ECHANTILLONNAGE COLLECTE DE L INFORMATION REDRESSEMENT SELECTION DES CRITERES CONSTRUCTION DU MODELE SIMULATION MISE EN OEUVRE 74

75 1. ECHANTILLONNAGE OBJECTIF : CONSTRUIRE UN ECHANTILLON REPRESENTATIF DE LA DEMANDE ET DU COMPORTEMENT DU PAYEUR PRISE EN COMPTE DES DOSSIERS REFUSES LES TROIS STRATES DE LA DEMANDE 75

76 PROBLEME UN SCORE CALCULE UNIQUEMENT SUR LES DOSSIERS ACCEPTES NE S APPLIQUE PAS A L ENSEMBLE DE LA DEMANDE. 76

77 PRISE EN COMPTE DE LA DIMENSION TEMPORELLE DEUX POSSIBILITES : A ) OBSERVER UNE COUPE INSTANTANEE INCONVENIENT: CERTAINS DOSSIERS SONT CONSIDERES COMME «BONS» ALORS QU ILS DEVIENDRONT «MAUVAIS» PAR LA SUITE. B ) OBSERVER UNE POPULATION DE DOSSIERS TERMINES INCONVENIENT: LA STRUCTURE DE LA POPULATION OBSERVEE NE CORRESPOND PAS A LA STRUCTURE ACTUELLE. 77

78 2. LA COLLECTE DE L INFORMATION OBJECTIF: BATIR UN FICHIER CONTENANT TOUTES LES INFORMATIONS CONNUES SUR LES REFUSES AINSI QUE LES BONS ET MAUVAIS PAYEURS. PROBLEMES: PAS DE STOCKAGE INFORMATIQUE DES OBSERVATIONS INDIVIDUELLES PAS DE CONSERVATION DES DOSSIERS REFUSES PAS DE STATISTIQUES PERMETTANT D ELABORER LE PLAN DE SONDAGE HISTORIQUE TROP COURT OU ABSENT 78

79 3. REDRESSEMENT OBJECTIF: REDONNER A L ECHANTILLON LA STRUCTURE DE LA DEMANDE ACTUELLE. DEUX FAMILLES DE METHODES : A) SCORE ACCEPTE/REFUSE HYPOTHESE: LES REFUSES D UN TRANCHE ONT LE MEME COMPORTEMENT QUE LES ACCEPTES. 79

80 3. REDRESSEMENT B) SIMULATION DU COMPORTEMENT PRINCIPE : CHAQUE DOSSIER REFUSE SERAIT DEVENU BON (OU MAUVAIS) AVEC UNE PROBABILITE A ESTIMER. 80

81 4. SELECTION DES CRITERES OBJECTIF: CHOISIR LES VARIABLES ET LES INTERACTIONS A INTRODUIRE DANS LE MODELE. LES PROBLEMES : DECOUPAGE/REGROUPEMENT EN CATEGORIES. CHOIX DES INTERACTIONS. CHOIX DES VARIABLES LES PLUS EXPLICATIVES. CHOIX DES VARIABLES LES MOINS CORRELEES ENTRE ELLES. 81

82 7. LA MISE EN ŒUVRE OBJECTIF: INTRODUIRE LE SCORE COMME OUTIL DE SELECTION, DE PREVISION ET DE SUIVI. LES PROBLEMES : FORMATION DES UTILISATEURS. MISE EN PLACE DES OUTILS INFORMATIQUES. REACTUALISATION. 82

83 3 ème partie : Analyse discriminante probabiliste. 1. Règle bayésienne et loi normale. 2. Méthodes non paramétriques. 83

84 Insuffisances des règles géométriques Mesures de distances? Risques d erreurs? Probabilités d appartenance? x g 1 g 2 84

85 III.1Règle bayésienne p j probabilité a priori d appartenir au groupe j f j (x) loi des x i dans le groupe j pj f j( x) Formule de Bayes : PG ( j / x) = k p f ( x ) Problème : estimer les f j (x) j= 1 j j 3 possibilités : Paramétrique : lois normales avec égalité ou non des Σ j Non paramétrique : noyaux ou plus proches voisins Semi-paramétrique : régression logistique estimation directe de : ' exp θ x + θ P (G / x) j ( ) 0 = 1 + exp ' + ( θ x θ ) 0 85

86 La règle bayésienne naïve dans le cadre normal f j ( x ) densité d'une N ( μ ; ) j j 1 1 f ( x) = exp - x x 2 p ( 2π ) ( ) ( ) 1 μ ( μ ) j /2 1/2 j j j max p f x attribuer x au groupe le plus j j j probable a posteriori 1 ( ) 1 1 max Ln p ( ) j x μ j j x μj Ln 2 2 règle quadratique j 86

87 La règle bayésienne Hypothèse simplificatrice : =... = j 1 2 On attribue x au groupe j tel que : max Ln p x x μ j μj + x μ j 2 2 indépendant du groupe donc : max Ln p j μ j μj + x μ j 2 a j Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation de μ par g et de par W. j j 87

88 Analyse discriminante probabiliste: cas de deux groupes Affecter au groupe 1 si pf( x) > pf( x) f ( ) ( x) = exp x μ ' Σ x μ Σ 2π ( ) 1 ( ) i 1 p i i ' -1 1 ' -1 ' -1 1 ' -1 μσ 1 x μσ 1 μ1+ ln( p1) > μσ 2 x μσμ ln( p2) 2 2 p 1 μ μ ' Σ x > ln + μ μ ' Σ μ + μ ( ) -1 2 ( ) -1 ( ) p1 2 fonction de Fisher 88

89 Fonction de score et probabilité Fonction de score S(x) : p 1 S( x) = ( μ μ )' Σ x + ln( ) ( μ μ )' Σ ( μ + μ ) p2 2 Règle :affecter au groupe 1 si S(x)>0 Probabilité d appartenance au groupe 1 : P( G/ x) = 1 1/ p = 1+ p pe 1 ( x μ 1 1) ( x μ1) ( x μ 1 1 1) ( x μ1) ( x μ 2) ( x μ2) 1 2 / 2 1 pe 1/2 1/2 1/2 pe + pe ( x μ 1 ) ( ) ( ) x μ1 x μ 2 ( x μ2) 1/2 + 1/2 89

90 probabilité Fonction logistique du score Expression en fonction des distances de Mahalanobis aux centres : P ln(1/ PG ( / x) 1) = S( x) 1/ PG ( / x) = 1+ e PG ( / x) ( ) S ( x) = 1 + P / P e exp( S( x)) = = 1+ e 1+ exp( S( x)) 1 S ( x) 1 ( x μ ) ( x μ ) 1/ 2 Δ ; Δ ; ( ) ( ) 2 μ ( μ ) Si P = P alors S x = 1/ 2 Δ x ; Δ x ;

91 S(x) Probabilité d erreur de classement de G2 en G1 : On classe en G1 si S(x)>0 Δ p 1 p 2 PSx ( ( ) > 0) = P U> + ln 2 p p Δ 1 91

92 Règle de Bayes avec coûts d erreur Maximiser la probabilité a posteriori peut conduire à des règles absurdes. Coûts d erreurs : C(1/2) si on classe en G1 un individu de G2 C(1/1) = 0 Coût moyen a posteriori d un classement en G1 : C(1/2) P(G2/x) Coût moyen a posteriori d un classement en G2 : C(2/1) P(G1/x) On classera x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x) c pf pf pf ( ) ( ) ' ( ) ( ) ( 1/2) ( ) / 2 < c 2/1 donc si : > p1f1+ p2f2 p1f1+ p2f2 p2f2 c 2/1 Règle habituelle avec p =p c 2/1 et p =p c 1/2 ' c 92

93 III 2 : Discriminante non paramétrique Bayes fˆ f j j x ( ) x ( ) = ( ) j x P G / Fréquence Volume p j f j = p f j ( ) j x x ( ) x x x x x x x x x x x x x 93

94 Fenêtre mobile: cas unidimensionnel Idée (Parzen-Rosenblatt): un histogramme où chaque classe serait centrée sur l observation courante h x Fenêtre mobile 94

95 Fenêtre mobile fˆ x = n / nh ( ) x Estimateur discontinu. 95

96 densité -1/ /2 ˆ 1 x xi f ( x) = k nh h () () K t K t n i= 1 ] [ = 1 si t 1/ 2 ; 1/ 2 = 0 sinon x x h h K = 1 si x x- ; x+ h 2 2 i i Méthode du noyau k fonction de densité n ˆ 1 x xi f ( x) = k nh h i= 1 96

97 Choix du noyau K continue, paire, unimodale Exemples u Ku u Ku u 2π K pas forcément positif + K( xdx ) = ( ) = exp ( ) = 1 pour < 5 Epanechnikov 105 ( 2) 2 ( 2 Ku ( ) = 1 u 1 3 u) pour u 1 Lejeune 64 97

98 Quelques résultats théoriques Il n existe pas d estimateur sans biais d une densité qui soit continu, symétrique en x i E( fˆ ( x)) = f( x) x est impossible Critère du MISE + E ( f ˆ( x ) f ( x ) ) 2 dx 98

99 Si K( xdx ) = 1 xk( xdx ) = 0 et xk( xdx ) = k 2 En substituant h opt qui dépend de f Calcul des variations: 4 h k 2 ( f x ) dx + ( K x ) dx MISE "( ) ( ) 4 nh ( ( )) ( "( )) hoptimal = k K x dx f x dx n ( ( )) + ( "( )) 5 MISE k K x dx f x dx n 4 K optimal = Epanechnikov Noyau moins influent que la constante de lissage 99

100 Paramètre de lissage h h (ou r) Joue le même rôle que la largeur de classe dans l histogramme. Estimation de h : Méthodes visuelles (si p = 1) Maximum de vraisemblance h petit : h grand :

101 Estimation de densité par la méthode du noyau élémentaire Noyau uniforme On compte le nombre d observations appartenant à la boule de rayon r. Ce nombre est aléatoire. r x Plus proches voisins. k nombre de voisins est fixé. Volume de la boule : aléatoire. f k nv ( x) = k paramètre à fixer 101

102 noyaux noyaux 1 ft = t n ( x) k ( x y) -1 2 t uniforme kt ( z) Vr () t = 1 si z' V 0 sinon zv ' t z normal k t ( z) = exp - 2 C0 () t 2 r Epanechnikov kt( z) = C1( t) 1 Biweight k = 1 t y zv ' r zv ' r 1 t 2 1 t t( z) C2( t) 2 Triweight k = 1 zv ' r 1 t t( z) C3( t) 2 z z z 2 3 z r si z' V z r -1 2 t 102

103 Estimation de densité versus discrimination linéaire Discrimination linéaire : simplicité, robustesse, interprétation inefficace si non linéarités fortes Estimation de densité : précision, adaptation aux données calculs complexes, absence d interprétation 103

104 4 ème partie: La régression logistique IV.1 Le modèle logistique simple IV.2 Odds ratios IV.3 Interprétation économètrique IV.4 Estimation IV.5 Tests IV.6 Régression logistique multiple IV.7 Comparaison avec l analyse discriminante 104

105 Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie)

106 IV.1 Le modèle logistique simple Réponse dichotomique : Y = 0 / 1 Variable explicative : X Objectif : Modéliser π(x) = Prob(Y = 1/X = x) Le modèle linéaire π(x) = β 0 + β 1 x convient mal lorsque X est continue. Le modèle logistique est plus naturel 106

107 Exemple : Age and Coronary Heart Disease Status (CHD) (Hosmer &Lemeshow; M.Tenenhaus) Les données ID AGRP AGE CHD

108 CHD AGE 108

109 Description des données regroupées par classe d age Tableau des effectifs de CHD par classe d age Graphique des proportions de CHD par classe d age Age Group n CHD absent CHD present Mean (Proportion) Total Proportion (CHD) AGEGRP 109

110 Le modèle logistique simple β 0 +β 1 x e π ( x) = 1+ e β0+ β ou 1 x Probabilité d'une maladie cardiaque en fonction de l'age π(x) Log( ) = β0 + β1x 1 π(x) Prob(Y=1 / X) AGE Fonction de lien : Logit 110

111 Il s agit bien d un probléme de régression: Modélisation de l espérance conditionnelle E(Y/X=x)=f(x) Choix de la forme logistique en épidémiologie: S ajuste bien Interprétation de β 1 en termes d odds-ratio 111

112 IV.2 Odds-Ratio Si X binaire (sujet exposé X=1, non exposé X=0) P( ) β0+ β1 β0 e e = = + 1+ e 1+ e Y = 1/ X = 1 P( Y = 1/ X = 0) β β β OR PY ( = 1/ X= 1)/ PY ( = 0/ X= 1) = = PY ( = 1/ X= 0)/ PY ( = 0/ X= 0) e β 1 112

113 Odds-Ratio Mesure l évolution du rapport des chances d apparition de l événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1. Formule générale: OR π ( x+ 1)/(1 π ( x+ 1)) = = π( x)/(1 π( x)) e β 1 113

114 IV.3Interprétation économètrique Y possession d un bien durable par un ménage: manifestation visible d une variable latente Z inobservable continue. Z est l «intensité du désir» de posséder le bien Si Z<seuil Y=0, sinon Y=1 Le seuil peut être choisi égal à 0 114

115 Modèle d utilité pour le ménage i de caractéristiques x i (âge, sexe, revenu, CSP...), la possession du bien procure un niveau d utilité U(1,x ), i la non possession U(0,x i ). Y i = 1 U(1,x i ) > U(0,x i ) Y i = 0 U(0,x i ) > U(1,x i ) Variable latente Z i = U(1,x i ) U(0,x i ). 115

116 Modèle d utilité (suite) Z i = x i β + ε i π i = P(Y i =1 x i )= P(Z i > 0)=P(x i β> -ε i ) = F(x i β) F fonction de répartition de -ε i Choix de F: Logistique :modèle logit, régression logistique Normal: modèle probit 116

117 Comparaison logit-probit Logit:F(x) = 1/(1+e -x ) E(X)=O V(X)=π 2 /3 Peu différent en pratique Logit plus simple numériquement 117

118 IV.4 Estimation des paramètres Les données Le modèle X x 1 x i x n Y y 1 y i y n π(x i ) = = P(Y = 1/ X e 1+ β 0 e +β β 0 1 x +β i 1 x i = x i ) y i = 1 si caractère présent, 0 sinon 118

119 Vraisemblance (conditionnelle!) Probabilité d observer les données [(x 1,y 1 ),, (x i,y i ),, (x n,y n )] = n i= 1 Prob (Y = yi / X = x i ) = n i= 1 π(x i ) y i (1 π(x )) i 1 y i = n i= 1 β 0 e ( 1+ e +β β 0 1 x +β i 1 x i ) y i β 0 e (1 1+ e +β β 0 1 x +β i 1 x i ) 1 y i = L( β 0, β1) 119

120 maximum de vraisemblance ˆ et βˆ maximisent β Maximisation de la log-vraisemblance i= 1 Estimateurs obtenus par des procédures numériques: pas d expression analytique n L( β, β ) = L( β) [ π π ] ( β) = log L( β) = yilog i( x) + (1 yi)log(1 i( x)) n ( β) = ( yi π i( x)) = 0 β0 i= 1 n ( β) = xi( yi π i( x)) = 0 β1 i= 1 120

121 Précision (asymptotique) des estimateurs La matrice V ( βˆ ) V( ˆ β ) Cov( ˆ β, ˆ β ) = ˆ ˆ ˆ Cov( β0, β1) V ( β1) est estimée par la matrice 2 Log L( β) 2 β 1 β = ˆ β 121

122 V ( βˆ ) 2 1 ( β) = 2 β β= ˆ β n n ˆ π (1 ˆ ) ˆ (1 ˆ i π i xiπi πi) i= 1 i= 1 = n n 2 x ˆ (1 ˆ ) ˆ (1 ˆ iπi π i xiπi πi) i= 1 i= 1 1 x ˆ ˆ 1 π1(1 π1) 0 1 x 1 = 1 x 0 ˆ (1 ˆ n πn πn) 1 x n 1 = ( XVX )

123 Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT AGE π ( x) e = 1 + e 5, ,1109x 5, ,1109x 123

124 124

125 IV.5 Tests sur les paramètres Trois méthodes sont disponibles pour tester l apport de la variable X au modèle : H 0 : β j = 0 H 1 : β j 0 1. Le test de Wald 2. La méthode du rapport de vraisemblance 3. Le test du score 125

126 Test de Wald analogue à un test de Student en régression usuelle, si l on considère la statistique w définie par : w β1 sˆ( ˆ β1) représente l estimation de l écart-type de l estimateur de β 1. Sous l hypothèse H 0, w 2 suit approximativement une loi du khi-deux à un degré de liberté. Rejet de H 0 si w 2 = ˆ β1 s ˆ ˆ( ) χ 2 1 α (1) 126

127 Test du rapport des vraisemblances L apport de la variable X est mesuré à l aide de la statistique : Vraisemblance sans la variable Vraisemblance avec la variable G = -2 log [ ] sous l hypothèse H 0 G suit asymptotiquement une loi du khi-deux à un degré de liberté. Vraisemblance sans la variable: n 1 n1 n0 n n n 0 127

128 Test du score 1 score = U ( β) ˆ ˆ J ( βh ) U ( β) β ˆ β H 0 0 H0 U vecteur des dérivées partielles de la logvraisemblance estimées Le score suit également asymptotiquement sous H 0 une loi du khi-deux à un degré de liberté En régression logistique simple, le score est égal à nr 2, où r est le coefficient de corrélation linéaire (abusif!) entre Y et X 128

129 Comparaison des 3 tests 129

130 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC SC LOG L with 1 DF (p=0.0001) Score with 1 DF (p=0.0001) 130

131 Intervalle de confiance de l odds-ratio 2 1) s 1 Var ( βˆ = D où l intervalle de confiance de OR(1) au niveau 0.95: β ˆ ˆ s β 1.96s [ e 1, e 1 1 ] 131

132 Intervalle de confiance de π(x) au niveau 95% De ( ˆ ˆ Var β0 + β1x) = s 0 + s 1x + 2s01x β +β x 0 1 e π ( x) = β e β on déduit l intervalle de confiance de : 1 x e [ 1 + βˆ 0 e +βˆ βˆ 0 1 x βˆ 1 x 1.96 Var ( βˆ 0 Var ( βˆ +βˆ 0 1 x ) +βˆ 1 x ) ; 1 e + βˆ 0 e +βˆ βˆ 0 1 x βˆ 1 x Var ( βˆ 0 Var ( βˆ +βˆ 0 1 x ) +βˆ 1 x ) ] 132

133 Comparaison entre les proportions observées et théoriques 1.0 Proportion observée :.8.6 y i / n Classe i Classe.4 Proportion théorique : Proportion Classe d'age Prop. observée Prop. théorique i Classe πˆ i / n Classe puisque E(y i ) = π i estimé par ˆπ i 133

134 IV.6 Régression logistique multiple Généralisation à p variables explicatives X 1,, X p. e π ( x) = P( Y = 1/ X = x) = 1 + β + β x β x β + β x β x Estimation par le maximum de vraisemblance Ne converge pas toujours: cas de la séparation complète e p p p p 134

135 Probabilités a posteriori et stratification Estimer P demande de connaître les vraies probabilités a priori Les modifier change seulement β 0 en ADL et en logistique:on ajoute Proc DISCRIM PRIORS statement Proc LOGISTIC PEVENT option MODEL statement (SAS 8) PRIOR (ou PRIOREVENT) option SCORE statement (SAS 9) 1 ln p p 2 Important pour les probabilités, pas pour un score 135

136 Tests Tests d absence d effet de toutes les variables: H 0 : β 1 = = β p = 0 Rapport de vraisemblance G Score test U Test de Wald Sous H 0, suivent tous trois asymptotiquement une loi du χ 2 à p ddl 136

137 IV.7 Comparaison avec l analyse discriminante Avantages proclamés: Unicité et interprétabilité des coefficients (oddsratios) Erreurs standard calculables Modélisation des probabilités Hypothèses plus générales qu en AD gaussienne Maximum de vraisemblance au lieu de moindres carrés (régression linéaire de Y sur les X j ) Prise en charge facile des X qualitatifs (logiciels) 137

138 Mais: Erreurs standard asymptotiques, bootstrap en AD Non convergence en cas de séparation parfaite. Fisher existe toujours Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard L AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual) 138

139 Querelle largement idéologique (modélisation versus analyse des données) L AD est aussi un modèle, mais sur les lois des X/Y, la logistique sur les lois de Y/X En pratique différences peu nettes: fonctions de score souvent très proches «It is generally felt that logistic regression is a safer, more robust bet than the LDA model, relying on fewer assumptions. It is our experience that the models give very similar results, even when LDA is used in inappropriately, such as with qualitative variables.» Hastie and al.(2001) 139

140 Infarctus: comparaison Fisher et logistique 1.00 Courbe ROC Sensitivité Source de la courbe SCORLOG SCORFISH Spécificité 140

141 Assurance 141

142 Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring Si l objectif est de classer: On ne fait plus de la science mais de l aide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en généralisation 142

143 5ème partie: les SVM (séparateurs à vaste marge ou support vector machines) 143

144 V.1 Du perceptron aux SVM Algorithme de Rosenblatt (1958), la première «machine à apprendre» 144

145 Du perceptron aux SVM Equation de l hyperplan séparateur f ( x) = w'x+ b= 0 145

146 Un peu de géometrie Equation d un hyperplan: f ( x) = w'x+ b = x'w + b = 0 Coefficients définis à un facteur près: b=1 ou w = 1 Distance à l hyperplan: d = w'x w + b 146

147 Minimiser la somme des distances au plan des observations mal classées Y i =1 mal classé si w x i +b<0 Y i =-1 mal classé si w x i +b>0 min ( y ( w'x + b)) mal classés gradient w i i = yx = mal classés i i i b mal classés y 147

148 Gradient stochastique (obs. par obs.) w yixi w + ρ b y i b n 1 ρ coefficient d apprentissage Solutions multiples dans le cas séparable selon l initialisation Non convergence dans le cas non séparable n 148

149 V.2 L hyperplan optimal (Vapnik) Frontière avec «no man s land» maximal, Hyperplan «épais» 149

150 Hyperplan optimal Maximise la «marge» ou rayon du corridor: distance du point le plus proche à l hyperplan 150

151 Cas séparable Marge C: tous les points sont à une distance > C ' max C sous yi( xw i + b) C et w = 1 ' contrainte équivalente: yi( xw i + b) 1 ou w = car w et b définis à l'échelle près C y b ' min w sous i( xiw+ ) 1 C w 151

152 Programme quadratique Lagrangien: D où: w 2 ' α i yi i 2 ( x w+ b) 1 n w = α yx et α y = 0 i i i i i i= 1 i= 1 n Dual de Wolfe max α 1 2 ' i i k i k i k avec α 0 et α y = 0 i i i i= 1 n αα yy xx 152

153 Conditions de Kühn et Tucker: ' α i yi( xw b) 1 i + = 0 ' Si α > 0 alors y ( xw+ b) = 1 i ' Si y ( xw+ b) > 1 alors α = 0 i i w, donc l hyperplan, ne dépend que des points supports où les α i sont non nuls. i i i 153

154 Solution w = α > 0 i n α y x i i i n n ' α i i i αi i i α > 0 α > 0 f ( x) = w x + b= y x x + b= yxx+ b i i f(x) ne dépend que des points supports est une combinaison linéaire des variables (score) règle de décision selon le signe de f(x) 154

155 L hyperplan optimal ne dépend que des points proches (différe de Fisher) VC dimension: 2 h R où x 2 C Plus la marge est grande, meilleure est la robustesse en principe. Mais pas toujours : R 155

156 V.3 Le cas non séparable Deux solutions: modifier le critère changer d espace pour rendre le problème linéairement séparable 156

157 Variables d écart ' min w sous y ( x w+ b) 1 ξ i et i ξ < γ i On borne la proportion de points tombant du mauvais côté. La solution ne dépend que des points ' supports où : y ( xw+ b) > 1 ξ i i i i 157

158 Formulation équivalente: 2 min + C ξ i ' w ave c y i ( xw i + b) 1 ξ i C contrôle le trade-off entre la marge et l erreur. 0<α i <γ 158

159 SVM non-linéaires Passage dans un espace de données transformées («feature space») de grande dimension Un séparateur linéaire dans Φ(E) donne un séparateur non-linéaire dans E. 159

160 160

161 161

162 Solution 1 max αi αα i kyy i Φ(x k i) Φ(x k) 2 0 < αi < C et αiyi = 0 n Solution f( x) = αiyi Φ(x i ) Φ(x) + b i= 1 Ne dépend que des produits scalaires 162

163 Espaces de Hilbert à noyaux reproduisants Noyaux K(x,x )=Φ(x) Φ(x ) Le «kernel trick»:choisir astucieusement K pour faire les calculs uniquement dans l espace de départ. 2 2 Exemple: x = ( x1; x2) Φ (x) = ( x1; 2 x1x2; x2) Dans l espace d arrivée: Φ(x) Φ (x') = x x + 2xxxx + x x 2 '2 ' ' 2 ' = ( xx + xx ) = (xx ') ' '

164 On peut donc calculer le produit scalaire dans Φ(E) sans utiliser Φ Solution f( x) = αiyk i ( xi; x) + b i supports Conditions de Mercer pour avoir un noyau: k(x i ;x j ) terme général d une matrice sdp 164

165 Exemples de noyaux Linéaire K(x;x )=<x;x > Polynomial K(x;x )=(<x;x >) d ou (<x;x > +1) d Gaussien (radial basis) K(x;x )=exp-( x-x 2 )/σ 2 ) 165

166 Joachims 166

167 167

168 Hastie, Tibshirani, Friedman : «The Elements of Statistical Learning», Springer-Verlag,

169 Le problème de la généralisation. les SVM évitent : Le risque de surapprentissage («curse of dimensionality») L infinité de solutions dans le cas séparable (probléme mal posé) 169

170 Le problème de la généralisation. les SVM : Contrôlent la capacité de généralisation en augmentant la marge car: h 2 R où x 2 C Ne dépend pas de la dimension de l espace (éventuellement ) R 170

171 Approches voisines LS-SVM, GDA (Baudat, Anouar) : fonction de Fisher dans le feature space 171

172 Quelques références Th.Joachims «tutorial SVM» C.Burges «a tutorial on SVM for pattern recognition» O.Bousquet «introduction aux SVM», J.Suykens et al. «Least squares support vector machines», World Scientific, 2002 Logiciels:

173 6 éme partie: validation VI-1 Qualité d un score VI-2 Qualité d une règle de classement 173

174 VI-1 Qualité d un score Qu il soit obtenu par Fisher, logistique ou autre (une probabilité est un score ) Comparaison des distributions du score sur les deux groupes densités fonctions de répartition 174

175 Fonctions de répartition 175

176 Courbe ROC 176

177 Courbe ROC: interprétation Groupe à détecter G 1 : scores élevés Sensibilité 1-β= P(S>s/G 1 ):% de vrais positifs Spécificité 1-α=P(S<s/G 2 ) :% de vrais négatifs 177

178 Courbe ROC: interprétation (2) Evolution de 1-β puissance du test en fonction de α, risque de première espèce lorsque le seuil varie Proportion de vrais positifs en fonction de la proportion de faux positifs 178

179 Un site: 179

180 Surface sous la courbe ROC Surface théorique sous la courbe ROC: P(X 1 >X 2 ) si on tire au hasard et indépendemment une observation de G 1 et une observation de G 2 s= AUC = (1 β( s)) dα( s) s=+ Estimation non-paramétrique de la surface: n Proportion de paires concordantes c = c nn

181 mesures de concordance Coefficients d association entre les probabilités calculées et les réponses observées. Paires formées d une obs où Y=1 et d une où Y=0. Nombre de paires t=n 1 n 2 n=n 1 +n 2 Si l observation telle que «Y = 1» a une probabilité estimée que Y = 1, plus grande que celle de l observation où «Y = 0» la paire est concordante. nc = nombre de paires concordantes; nd = nombre de paires discordantes; t - nc - nd = nombre d exaequo 181

182 Courbe ROC: propriétés Courbe ROC et surface sont des mesures intrinsèques de séparabilité, invariantes pour toute transformation monotone croissante du score La surface est liée aux statistiques U de Mann- Whitney et W de Wilcoxon n c = U U+W= n 1 n n 1 (n 1 +1) AUC=U/n 1 n 2 182

183 Infarctus: comparaison Fisher et logistique 1.00 Courbe ROC Sensitivité Source de la courbe SCORLOG SCORFISH Spécificité 183

184 Autres mesures D de Somers = (nc - nd) / t Gamma = (nc - nd) / (nc + nd) Tau-a = 2 (nc - nd) / n(n-1) Indice de Gini Double de la surface entre la courbe ROC et la diagonale G=2AUC-1 En l absence d ex-aequo: G identique au D de Somers La capacité prédictive du modèle est d autant meilleure que ces indices sont proches de

185 Courbe de lift % de la cible 185

186 Surface sous la courbe lift Pourcentage d individus ayant un score>s Surface p (1 β ) + (1 p ) α 1 1 { } L= (1 β) d p (1 β) + (1 p ) α = 1 1 p (1 β ) d(1 β) + (1 p ) (1 β) dα 1 1 p 2 1 = + (1 p ) AUC 1 186

187 Coefficient Ki (Kxen) Ki=(surface entre lift estimé et aléatoire) / (surface entre lift idéal et aléatoire) Ki=2(surface ROC)-1 1 L p + 2(1 p ) AUC 1 Ki = = = AUC 1 p1 1 p

188 VI-2 Qualité d une règle de classement Tableau de classement : On classe des observations dont le groupe est connu : groupe prédit 1 2 groupe 1 n n réel 2 n n Pourcentage de bien classés : Taux d erreur de classement : n n + n n + n n 188

189 Sur quel échantillon faire ce tableau? Échantillon test d individus supplémentaires. Si on reclasse l échantillon ayant servi à construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS surestimation du pourcentage de bien classés. Solutions pour des échantillons de petite taille : Validation croisée n discriminations avec un échantillon test d une unité : % de bien classés sans biais (mais variance souvent forte) bien classé 1 2 n - 1 n mal classé 189

190 Bootstrap B analyses discriminantes d où distributions empiriques des coefficients et du % de bien classés. Échantillon B Réplications par tirage avec remise de n parmi n 190

191 Septième partie: du choix de modèles à la théorie de l apprentissage statistique VII.1 Sélection de variables VII.2 Choix de modèles par vraisemblance pénalisée VII.3 L apprentissage selon Vapnik 191

192 VII.1 Sélection de variables Réduire le nombre de prédicteurs Pourquoi? Économie Pertinence Stabilité Comment? Recherche exhaustive 2 p -1 sous-ensembles Méthodes pas à pas ascendantes, descendantes 192

193 Critères Le % de bien classés n est pas utilisé dans les logiciels classiques (SAS, SPSS ): trop de calculs. Algorithmes usuels en analyse discriminante: Critère Λ de Wilks : Λ= W V On recherche à minimiser Λ : équivaut à maximiser D² pour k=2 Suppose implicitement la normalité Méthodes pas à pas : non optimales. Pour k=2 recherche exhaustive par l algorithme de Furnival et Wilson. 193

194 Tests de variables en AD Test d apport d une variable : Sous l hypothèse de non apport : n k p Λ p 1 ~Fk-1 ; n-k-p k 1 Λp+ 1 Test de non discrimination : (analyse de variance multidimensionnelle) 1- p k = Λ 3 F 2p ; n-p-2 Λ = n p 2 pour k>3 approximations ( ) 194

195 Sélection de variables en régression logistique Méthode ascendante : Selon le score dans la proc logistic de SAS Méthode descendante: Selon la statistique de Wald dans la proc logistic de SAS 195

196 VII.2 Choix de modèles par vraisemblance pénalisée Comparer des modèles ayant des nombres de paramètres différents: K nombre de paramètres à estimer. Critère d Akaïke : Critère de Schwartz : AIC = -2 ln(l) + 2K BIC = -2 ln(l) + K ln(n) On préférera le modèle pour lequel ces critères ont la valeur la plus faible. 196

197 AIC et BIC ne sont semblables qu en apparence Théories différentes AIC : approximation de la divergence de Kullback- Leibler entre la vraie distribution f et le meilleur choix dans une famille paramétrée f() t I( f; g) = f( t)ln dt = Ef (ln( f( t)) Ef(ln( g( t)) gt () Asymptotiquement: E E g t ˆ L ˆ k ˆ f (ln( ( ; θ)) ln( ( θ)) θ 197

198 BIC : choix bayesien de modèles m modèles M i paramétrés par θ i de probabilités a priori P(M i ) égales. Distribution a priori de θ i pour chaque modèle P(θ i / M i ). Distribution a posteriori du modèle sachant les données ou vraisemblance intégrée P(x/M i ) Choix du modèle le plus probable a posteriori revient à maximiser ln( ( / ) ln( ( / ˆ k P x Mi P x θi, Mi) ln( n) 2 PM ( / x) i = m e j= 1 0.5BIC e i 0.5BIC j 198

199 Comparaison AIC BIC Si n tend vers l infini la probabilité que le BIC choisisse le vrai modèle tend vers 1, ce qui est faux pour l AIC. AIC va choisir le modèle qui maximisera la vraisemblance de futures données et réalisera le meilleur compromis biaisvariance L AIC est un critère prédictif tandis que le BIC est un critère explicatif. Pour n fini: résultats contradictoires. BIC ne choisit pas toujours le vrai modèle: il a tendance à choisir des modèles trop simples en raison de sa plus forte pénalisation 199

200 AIC BIC réalistes? Vraisemblance pas toujours calculable. Nombre de paramétres non plus: ridge, PLS etc. «Vrai» modèle? «tous les modèles sont faux ; certains sont utiles» G.Box Vapnik: choisir selon la VC dimension 200

201 VII.3 : La théorie de l apprentissage statistique Une introduction aux théories de V.Vapnik (rédigée en collaboration avec Michel Bera, Kxen) Un mathématicien russe arrivé aux USA en 92, qui travaille depuis chez NEC après les Bell (aujourd hui AT&T) Labs. Premiers papiers en russe dès Premier livre chez Springer Verlag en 1982 US Medal en sciences en Un troisième livre ( 800 pages ) chez J. Wiley,en

202 Norbert Wiener 1948 Image courtesy of the Research Laboratory of Electronics at MIT. Frank Rosenblatt 1962 Vladimir Vapnik

203 Le problème de la boîte noire et l apprentissage supervisé Etant donnée une entrée x, un système non déterministe renvoie une variable y = f(x)+e. On dispose de n paires (x i,y i ) et on cherche une fonction qui approxime la fonction inconnue f. Deux conceptions: Une bonne approximation est une fonction proche de f Une bonne approximation est une fonction qui donne un taux d erreur voisin de celui de la boîte noire 203

204 Risque d apprentissage Apprentissage supervisé Y réponse à prédire, X prédicteurs Y numérique régression ; binaire (-1;+1) discrimination Un modèle calcule un prédicteur y ˆ = f ( X, w) f classe de fonction w est un paramètre qui définit le modèle, estimé sur l ensemble d apprentissage où: 204

205 Fonction de perte L(y;f(x,w)) Régression L(y;f(x,w))=(y-f(x)) 2 Discrimination : taux (ou coût) d erreur de classement y et ŷ à valeurs dans {-1 ;+1} 1 1 ( ) 2 Lyy ( ; ˆ) = y yˆ = y yˆ 2 4 Risque (erreur de généralisation sur de nouvelles données z = (X, y) ) R = E( L) = L( z, w) dp( z) 205

206 Objectif impossible: minimiser sur w le Risque P(z) probabilité inconnue On dispose seulement de n cas d apprentissage (z 1,.., z n ) tirés suivant la loi P(z), au lieu de minimiser R, on minimise le Risque Empirique : n 1 R = L( y ; f( x ; w)) emp i i n i = 1 206

207 Problème central en théorie de l apprentissage: Quelle est la relation entre le Risque R et le risque empirique R emp? Quelle est la capacité de généralisation de ce genre de modèle? 207

208 Le dilemme biais-variance Modèle y=f(x )+ε, f estimé sur données d apprentissage Erreur de prédiction Doublement aléatoire y yˆ = f( x ) + ε fˆ ( x ) Erreur quadratique moyenne de prédiction (risque R) ( ) 2 ( ) 2 σ 2 σ 2 ( ) ( ) 2 ( ) E y yˆ = + E f( x ) fˆ( x ) = + E fˆ( x ) f( x ) + V fˆ( x ) biais variance 208

209 ( ) 2 ( ) 2 σ 2 σ 2 ( ) premier terme: aléa irréductible deuxième terme: carré du biais du modèle troisième terme: variance de la prédiction ( ) 2 ( ) E y yˆ = + E f( x ) fˆ( x ) = + E fˆ( x ) f( x ) + V fˆ( x ) Plus un modèle sera complexe plus le biais sera faible, mais au détriment de la variance. Mais comment mesurer la complexité? 209

210 Robustesse Modèle robuste: erreurs en apprentissage et en généralisation du même ordre de grandeur 210

211 Modele robuste bon ajustement Y Y x x Y Compromis x 211

212 Consistence Un processus d apprentissage est consistent si l erreur sur l ensemble d apprentissage converge, lorsque la taille de cet ensemble augmente, vers l erreur en généralisation. 212

213 Apprentissage consistent %erreur Erreur en généralisation Erreur d apprentissage Taille ens. d apprentissage 213

214 Apprentissage non consistent %erreur Erreur en généralisa tion Erreur d apprentissage Taille ens. d apprentissage 214

215 Les quatre piliers de la théorie de l apprentissage 1 Consistence (garantit la généralisation) Sous quelles conditions un modèle peut-il généraliser? 2 Vitesse de convergence en fonction du nombre d exemples (mesure de la généralisation) Comment s améliore la généralisation lorsque le nombre d exemples augmente? 215

216 Quatre piliers de la théorie de l apprentissage 3 Contrôle de la capacité de généralisation Comment contrôler efficacement la généralisation à partir de l information contenue dans un ensemble d apprentissage de taille finie? 4 Construire des algorithmes d apprentissage Existe-t-il une stratégie pour construire des algorithmes qui garantissent, mesurent et contrôlent la capacité de généralisation de modèles d apprentissage? 216

217 La VC dimension Dimension de Vapnik-Cervonenkis: une mesure du pouvoir séparateur (complexité) d une famille de fonctions p f( X, w): VC dimension : un nombre entier attaché à une famille F de fonctions Chaque f de F c est-à-dire, pour un w donné peut-être utilisé pour de la classification : f (X,w) >= 0 : X classé en 1 f (X,w) < 0 : X classé en

218 VC dimension suite Pour un échantillon de n points (x 1,.., x n ) de R p Il existe 2 n manières différentes de séparer cet échantillon en deux souséchantillons Un ensemble F de fonctions f(x,w) hache (shatters) l échantillon si les 2 n séparations peuvent être faites par des f(x,w) différentes de la famille F 218

219 Exemple En 2-D, les fonctions linéaires (droites) peuvent hacher 3 points, mais pas 4 Aucune ligne droite ne peut séparer les points noirs des points roses 219

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Classification supervisée et credit scoring

Classification supervisée et credit scoring Classification supervisée et credit scoring Gilbert Saporta Conservatoire National des Arts et Métiers, Paris saporta@cnam.fr http://cedric.cnam.fr/~saporta Plan 1. Introduction 2. Techniques linéaires

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Introduction au Data Mining et à l apprentissage statistique

Introduction au Data Mining et à l apprentissage statistique Introduction au Data Mining et à l apprentissage statistique Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Économetrie non paramétrique I. Estimation d une densité

Économetrie non paramétrique I. Estimation d une densité Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer

Plus en détail

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) Étude de cas Assurance (d après une étude de Philippe Périé, CISIA) I.1.Les données L échantillon est constitué de 1106 assurés Belges observés en 1992 et répartis en 2 groupes. - les assurés qui n ont

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678 Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT

La prévision de la faillite fondée sur l analyse financière de l entreprise : un état des lieux par Catherine REFAIT Cet article est disponible en ligne à l adresse : http://www.cairn.info/article.php?id_revue=ecop&id_numpublie=ecop_162&id_article=ecop_162_0129 La prévision de la faillite fondée sur l analyse financière

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chapitre 3. Mesures stationnaires. et théorèmes de convergence Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée

Plus en détail

Mesure et gestion des risques d assurance

Mesure et gestion des risques d assurance Mesure et gestion des risques d assurance Analyse critique des futurs référentiels prudentiel et d information financière Congrès annuel de l Institut des Actuaires 26 juin 2008 Pierre THEROND ptherond@winter-associes.fr

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

M2 IAD UE MODE Notes de cours (3)

M2 IAD UE MODE Notes de cours (3) M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

4 Distributions particulières de probabilités

4 Distributions particulières de probabilités 4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème. I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Echantillonnage Non uniforme

Echantillonnage Non uniforme Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Apprentissage non paramétrique en régression

Apprentissage non paramétrique en régression 1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 2/ La fonction de consommation et la fonction d épargne hapitre 2/ La fonction de consommation et la fonction d épargne I : La fonction de consommation keynésienne II : Validations et limites de la fonction de consommation keynésienne III : Le choix de consommation

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring» Ce cas a pour objectif d étudier le risque de crédit d une entreprise à l aide de la méthode du scoring. Cette méthode statistique

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail