Une introduction à l analyse discriminante avec SPSS pour Windows

Dimension: px
Commencer à balayer dès la page:

Download "Une introduction à l analyse discriminante avec SPSS pour Windows"

Transcription

1 Une introduction à anayse discriminante avec SPSS pour Windows Dominique DESBOIS INRA-ESR Nancy et SCEES 5 rue de Vaugirard, 7573 Paris Cedex 5. Fax : Mé RÉSUMÉ : cette note initie 'utiisateur débutant à a mise en œuvre de anayse discriminante par intermédiaire de a procédure DISCRIM du ogicie SPSS pour Windows. Cette mise en œuvre concerne e cassement d individus caractérisés par des variabes quantitatives, es affectant à des groupes a priori au moyen de fonctions discriminantes. Les sorties du ogicie sont commentées par a présentation du formuaire de anayse discriminante associé à chacun des résutats obtenus. MOTS-CLÉS : anayse discriminante inéaire, anayse factoriee discriminante, fonctions inéaires discriminantes, ogicie SPSS.0., mise en œuvre. I) Probématiques de discrimination Dans beaucoup de domaines, es professionnes sont amenés à prévoir es comportements sur a base de certains critères : c est e cas par exempe d un médecin étabissant un diagnostic pour prescrire un traitement, ou d un banquier accordant un crédit à un particuier ou une entreprise. Une stratégie très empirique mais suffisamment éprouvée consiste à comparer ces caractéristiques aux reevés effectués sur un ensembe d observations où e comportement des individus qu is soient maades ou emprunteurs, entreprises ou particuiers, est connu. Diagnostic ou prévision s effectuent aors sur a base des corréations observées entre es critères retenus et a situation des individus. Cette stratégie est d aieurs appiquée de façon pus ou moins impicite par a pupart des décideurs sur a base de eurs expériences antérieures dans des circonstances simiaires. Dans certains cas, es enjeux financiers ou humains sont suffisamment importants pour qu on envisage de formaiser ce processus décisionne en proposant une aide au diagnostic ou au jugement de expert. Par exempe dans e secteur bancaire, es techniques de credit-scoring cherchent à distinguer es bons des mauvais payeurs sur a base d un ensembe de variabes appeés descripteurs comme âge, e revenu annue et e profi des transactions bancaires. Disposant de comptabiités d entreprises, on peut égaement chercher à minimiser e risque de défaiance ou à prévenir es défaiances des emprunteurs, en cassant seon une échee de risque fixée a priori es agents économiques sur a base des descripteurs que sont es ratios financiers (cf. [Bardos, 00]). L affectation à une casse de risque décide aors de eur accès aux ressources financières ou de eur éigibiité à des mesures d aide pubique. Consistant à prévoir appartenance du sujet aux groupes d une partition a priori, a pupart de ces appications fondent eurs prédictions sur une technique statistique mutidimensionnee, anayse discriminante inéaire, introduite par Ronad Fisher. La Revue MODULAD, Numéro 30

2 Figure : Portrait de Sir Ronad Aymer Fisher par Leontine Tinter (Biometrika 50, 963). Sir Ronad Aymer FISHER Droits réservés La soution proposée dès 936 par Fisher consiste à chercher des combinaisons inéaires de descripteurs quantitatifs, indicateurs synthétiques qui permettent de casser es individus correctement dans chacun des groupes. Cette méthode, essentieement anaytique, est basée sur des concepts géométriques, cependant pour que ces combinaisons inéaires puissent être optimaes (au sens où e risque d erreur de cassement serait aors minima), nous verrons que es données doivent vérifier certaines hypothèses de nature probabiiste. II) Données : es Iris de Fisher Les données utiisées dans cet exempe furent pubiées initiaement par Fisher dans son artice origine présentant e concept de fonction inéaire discriminante [Fisher, 936]. L échantion étudié par Fisher comporte cent cinquante iris provenant de trois espèces distinctes (Iris Setosa, Iris Versicoor et Iris Virginica) à raison de cinquante iris par espèce qui constituent ainsi notre échantion d apprentissage : Figure : Feurs des Iris Setosa, Versicoor et Virginica Iris Setosa Iris Versicoor Iris Virginica Droits réservés, avec aimabe autorisation de Marc-Miche Corsini (http://www.sm.u-bordeaux.fr/~corsini/pedagogie/) Chaque individu est identifié par un numéro de séquence (numero) au sein de échantion d apprentissage et son appartenance à une des trois popuations est renseignée par un code d espèce ( pour Setosa, pour Versicoor et 3 pour Virginica). Ces données constituent un des échantions es pus utiisés pour es méthodes de discrimination : on es retrouve dans de nombreux ouvrages et répertoires, notamment [Bake & Mertz, 998]. Parmi es mesures effectuées, quatre d entre ees caractérisent a feur : ongueur du sépae (onsepa), argeur du sépae (arsepa), ongueur du pétae (onpeta), argeur du pétae (arpeta) exprimées en miimètres. Le probème de discrimination se pose ainsi : à partir de ces quatre mesures quantitatives donnant une indication sur a morphoogie gobae de a feur, peut-on décider de espèce à aquee appartient individu? La Revue MODULAD, Numéro 30

3 La variabe y à prédire est donc une variabe quaitative (espece) à k = 3 modaités. Cette prédiction s effectue à partir d un tabeau X de p = 4 variabes quantitatives observées sur un échantion d apprentissage de n = 50 individus. Figure 3 : extrait du fichier des données. Les options de a procédure DISCRIM de SPSS, version.0., permettant d effectuer ce type d anayse sont décrites de façon exhaustive dans a quatrième partie de cette note. On y retrouvera es spécifications permettant d obtenir es résutats interprétés dans a troisième partie. Par exempe, dans e ogicie SPSS, es observations de échantion d apprentissage retenues pour anayse discriminante ne doivent pas comporter de vaeurs manquantes (option retenue par défaut), à moins de spécifier eur rempacement par a moyenne (cf. infra IV.v, dernier ). Figure 4 : es observations dans espace des descripteurs des sépaes ongueur des sépaes type d'iris Virginica Versicoor Setosa 50 argeur des sépaes La Revue MODULAD, Numéro 30

4 III) Interprétation des résutats de anayse discriminante L anayse des iaisons entre e tabeau quantitatif X des descripteurs et a variabe quaitative y à k modaités, codant a partition a priori en k groupes de ensembe des individus, peut être menée seon deux points de vue : e premier à orientation descriptive est centré sur a décomposition de a variance en s appuyant sur des notions géométriques ; e second à orientation décisionnee se focaise sur e risque d erreur en faisant intervenir une modéisation probabiiste. III.) Statistiques descriptives i) Résumé statistique univarié Bien que des mesures mutipes impiquent une certaine redondance dans information apportée par échantion et se traduisent par des corréations entre variabes quantitatives, i est toujours intéressant dans un but descriptif de disposer de statistiques univariées pour chacun des groupes étudiés sur es variabes de anayse, ne serait ce que pour en contrôer es paramètres. Tabeau : statistiques univariées pour chacun des groupes. Statistiques de groupe type d'iris Setosa Versicoor Virginica Tota ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes N vaide (iste) Non Moyenne Ecart-type pondérées Pondérées 49,94 3, ,000 34,8 3, ,000 4,6, ,000,46, ,000 59,36 5, ,000 7,70 3, ,000 4,60 4, ,000 3,0, ,000 65,88 6, ,000 9,74 3, 50 50,000 55,5 5, ,000 0,6, ,000 58,39 8, ,000 30,57 4, ,000 37,58 7, ,000,97 7, ,000 Afin de suivre es cacus effectués par a procédure d anayse discriminante, fixons es notations adoptées : soit x ij, observation seon e descripteur j pour individu i du groupe G. À chaque individu i du groupe G, est associée une pondération m i. La somme des masses m i pour ensembe des n individus du groupe G donne a masse du groupe n = m m i échantion des n individus s obtient par sommation des masses des différents groupes : i=. La masse totae de m = k m = Dans notre échantion, a pondération étant uniforme et égae à pour chaque individu ( m i = i, ), a masse ocae pour chaque groupe est égae au nombre d individus ( m = n = 50 ). La moyenne ocae x. j de a variabe j pour e groupe G est définie par : n x. j = mi xij m i= Cette vaeur définit a j e coordonnée du barycentre g du groupe. Soit x. = 59, 36 moyenne ocae de a variabe ongueur des sépaes pour e groupe Versicoor.. La Revue MODULAD, Numéro 30

5 L écart-type oca variance ocae : s. j s. j de a variabe j pour e groupe G est défini par a racine carrée de a n = m x m x ( ) i ij. j m i= Soit s 5, 6 écart-type oca de a variabe ongueur des sépaes.. = k La moyenne gobae x. j. de a variabe j est définie par : x. j. = m x. j masse m = totae de échantion. Soit x.. = 58, 39 moyenne gobae de a variabe ongueur des sépaes. L écart-type goba s. j. de a variabe j est défini par a racine carrée de a variance gobae : s. j. k n = ( ) m i xij mx. j. m = i= Soit s.. = 8, 34 écart-type oca de a variabe ongueur des sépaes. On observe pour chacune des mesures effectuées des différences notabes entre es moyennes des trois groupes mais égaement des vaeurs sensibement distinctes des écarts-types. Ces remarques peuvent être confirmées ou invaidées par des tests statistiques. L usage des statistiques univariées est fortement recommandé dans étape de constitution de échantion et de a séection des descripteurs pour étudier a nature des distributions des vaeurs observées au sein des différents groupes. ii) Composantes de a variabiité L anayse discriminante généraise à pusieurs descripteurs quantitatifs (soit p variabes expicatives) a question à aquee anayse de a variance permet de répondre : comment à partir des vaeurs d une variabe quantitative prédire e cassement des observations parmi k groupes distincts. Dans e contexte d un seu descripteur quantitatif x, d un facteur à k modaités et d une pondération uniforme, anayse de a variance conduit à décomposer a somme des carrés des écarts à a moyenne gobae de échantion entre a somme des carrés des écarts à a moyenne ocae pour es observations de chacun des groupes (intracasses, ou W comme Within) et a somme des carrés des écarts des moyennes ocaes à a moyenne gobae pour chacun des groupes (intercasses, ou B comme Between). n k [] SCET = ( xi x. j. ) = ( xi x ) + n ( x x) = SCEW + SCEB i= = i= = n En divisant chacun des termes de cette équation par es degrés de ibertés correspondant au nombre de vaeurs indépendantes dans es sommations effectuées, on aboutit à a notion de carré moyen intracasses CM W et carré moyen intercasses CM B permettant une comparaison de a variance intracasses et de a variance intercasses : CM W = SCE ( n k) CM = SCE ( k ) W En situation d inférence par rapport à une popuation dont n observations constitueraient un échantion aéatoire, pour une variabe normaement distribuée, a statistique F du rapport de variance définie par : CM B F = CM W suit une distribution théorique F[ ( k )( ; n k) ] de Fisher-Snedecor à ( k ) et ( n k) degrés de iberté sous hypothèse nue H 0 d égaité des moyennes entre es k groupes. Au seui de risque choisi α, hypothèse nue H 0 sera rejetée si F est supérieure au (-α) e quantie F( α )[( k )( ; n k) ] d une distribution de Fisher-Snedecor. B k B La Revue MODULAD, Numéro 30

6 , Dans e cas de pusieurs descripteurs { X X,..., }, a variabiité totae du tabeau X des variabes expicatives du cassement est exprimée par a matrice des sommes de carrés et de coproduits totaux T, de terme généra : jj k nk t = m x x mx = i= i ij ij. j. x. j. Soit, par exempe pour e premier éément diagona t, somme totae des carrés des écarts pour a ongueur des sépaes : t = 0365, 793 = SCET À instar de anayse de a variance univariée, a matrice des sommes de carrés et de coproduits totaux T se décompose en deux matrices : W, matrice des sommes de carrés et de coproduits intragroupes, et B, matrice des sommes de carrés et de coproduits intergroupes. L équation matriciee d anayse de a variance s écrit aors : [] T = W + B. La variabiité intracasses du tabeau X est exprimée par a matrice des sommes de carrés et de coproduits intracasses W, de terme généra : w k nk k jj = mi xij xij = i= = m x. j Soit, par exempe pour e premier éément diagona w, somme intracasses des carrés des écarts pour a ongueur des sépaes : w = 3943, 60 = SCEW La matrice B des sommes de carrés et de produits intercasses, définie par B = T W, s obtient par différence terme à terme : [3] b jj = t jj w jj Soit, par exempe pour e premier éément diagona b, somme des carrés des écarts intercasses pour a ongueur des sépaes : b = 64, 73 = SCEB Le cacu du F univarié pour chaque descripteur j s effectue aors directement à partir des termes diagonaux des matrices T et W : ( t jj w jj )( m k) b jj ( m k) F j = = w jj ( k ) w jj ( k ) Tabeau : tests statistiques d égaité des moyennes x. j X p Tests d'égaité des moyennes des groupes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes Lambda de Wiks F dd dd Signification,380 9,695 47,000,599 49,60 47,000,059 80,6 47,000,07 96,645 47,000 Ainsi pour une vaeur F 9, 7 et un risque α < 0, 0005, nous sommes conduits à rejeter hypothèse nue d égaité des moyennes des espèces d iris pour a variabe ongueur des sépaes. Dans e tabeau, figure une autre statistique, e ambda de Wiks univarié. Pour chacune des variabes, e ambda de Wiks univarié est constitué par e rapport de a somme des carrés des écarts w jj intracasses à a somme totae des carrés des écarts : Λ j = t jj La Revue MODULAD, Numéro 30

7 Tabeau 3 : anayse de a variance à un facteur pour a ongueur des sépaes. ongueur des sépaes Inter-groupes Intra-groupes Tota ANOVA Somme Moyenne des carrés dd des carrés F Signification 64,73 3,087 9,695, , , , On peut vérifier cette égaité d après es vaeurs inscrites dans e tabeau 3 pour a ongueur des sépaes : w SCEW 3943,6 Λ = = 0,380 t SCET 0365,8 La vaeur du ambda de Wiks univarié varie entre 0 et. La vaeur signifie égaité des moyennes pour ensembe des groupes. Une vaeur quasi-nue est associée à de très faibes variabiités intracasses donc à de très fortes variabiités intercasses et des moyennes de groupes manifestement différentes. Cependant, étude graphique de a distribution des variabes au sein de chacun des groupes et eur comparaison montrent qu un certain nombre de recouvrements peuvent s opérer entre es trois popuations pour es mesures effectuées, ainsi qu en témoignent es quatre séries de boîtes à moustaches juxtaposées en figure 5. Figure 5 : boîte à moustaches mutipe pour chacun des groupes ongueur des sépaes argeur des sépaes ongueur des pétaes -0 argeur des pétaes N = Setosa Versicoor Virginica type d'iris I convient donc d étudier gobaement pour ensembe des descripteurs a décomposition de cette variabiité afin d obtenir une vision synthétique des différences intergroupes et des différences interindividuees (ou intracasses), ce qui nécessite de passer de étude partiee de chacun des descripteurs à cee gobae des matrices. La Revue MODULAD, Numéro 30

8 iii) Anayse bivariée de a variabiité Dans a pupart des anayses mutivariées, on observe des iaisons parmi es descripteurs retenus. Cependant, de fortes corréations entre es variabes expicatives peuvent conduire à une forte variabiité dans es estimations des coefficients de a fonction discriminante. I est donc indispensabe d examiner soit es matrices de variance-covariance si es variabes ont des dispersions équivaentes, sinon es matrices de corréation entre variabes afin de détecter de sembabes situations. En outre, que e point de vue théorique adopté soit géométrique ou probabiiste, e fait que es groupes présentent ou non une dispersion des mesures individuees à peu près simiaire peut avoir, seon a rège de cassement aors adoptée, une certaine infuence sur es résutats. Tabeau 4 : estimations des matrices communes de variance-covariance et corréation intracasses Covariance Corréation ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes Matrices intra-groupes combinés a a. La matrice de covariance a 47 degré(s) de iberté ongueur argeur des ongueur argeur des des sépaes sépaes des pétaes pétaes 6,87 9,406 6,736 3,805 9,406,539 5,54 3,83 6,736 5,54 8,59 4,8 3,805 3,83 4,8 4,77,000,535,75,359,535,000,378,459,75,378,000,480,359,459,480,000 La matrice C de variance-covariance intracasses combinée (cf. tabeau 4) est a moyenne pondérée des matrices C de variance-covariance ocae à chacun des k groupes (cf. tabeau 5) : C = W k W = = = ( ) ( ) ( ) ( m ) m k m k m k soit, pour a variance intracasses de a ongueur des sépaes : 3943,6 c = = ( 49 3, , ,434) = 6, La matrice de corréation commune R est cacuée à partir de a matrice W des sommes de w jj c jj carrés et de produits intracasses combinée : R jj = = w w c c Soit, pour a corréation entre a ongueur des sépaes et a argeur des sépaes : 38,68 9,406 r = = 0, ,60 696,00 6,87,539 La matrice de variance-covariance totae T (cf. tabeau 5) est cacuée à partir de a matrice T T des sommes de carrés et de produits gobae à échantion : T = ( m ) Ainsi, a variance gobae de a ongueur des sépaes est égae à : t 0365,793 t = = 69,569 m 49 ( ) k = jj C j j jj j j La Revue MODULAD, Numéro 30

9 Tabeau 5 : matrices ocaes et totae de variance-covariance type d'iris Setosa Versicoor Virginica Tota ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes Matrices de covariances a ongueur des argeur des a. La matrice de covariance totae a 49 degré(s) de iberté. ongueur des argeur des sépaes sépaes pétaes pétaes 3,404 0,33,589, 0,33 4,369,70,930,589,70 3,06,607,,930,607, 6,643 8,58 8,90 5,94 8,58 9,847 8,65 3,857 8,90 8,65,08 7,63 5,94 3,857 7,63 3,878 40,434 9,376 30,39 4,909 9,376 0,400 7,38 4,763 30,39 7,38 30,459 4,88 4,909 4,763 4,88 7,543 69,569-4,6 8,34 5,957-4,6 8,998-3,966 -,93 8,34-3,966 3,68 9,4 5,957 -,93 9,4 58,040 iv) Homogénéité des variances Les variances ocaes sont dites homogènes si on observe une dispersion équivaente des vaeurs observées au sein de chaque groupe autour de a moyenne ocae. L hypothèse d homogénéité des variances joue un rôe important dans e modèe probabiiste de anayse discriminante car ee correspond à une situation théorique intéressante où e nombre de paramètres à estimer est pus faibe : k moyennes et une seue matrice de variance-covariance commune à ensembe des casses contre k moyennes et k matrices de variance-covariance ocaes distinctes si on a hétérogénéité des variances. En anayse mutivariée, homogénéité des variances se traduit géométriquement par des nuages de points aux formes simiaires, c est à dire avec une dispersion et des orientations sembabes : Figure 6 : dispersion et orientation des casses dans une situation idéae pour a discrimination. X g g U g 3 X En angage agébrique, homogénéité des variances se traduit dans espace mutidimensionne des descripteurs par égaité des matrices de variance-covariance de chacun des groupes. La Revue MODULAD, Numéro 30

10 Si e nombre des descripteurs n est pas trop éevé, une matrice de nuages de points peut aider à visuaiser a forme des distributions de vaeur au sein de chaque groupe. Figure 7 : matrice de graphiques de dispersion. ongueur sépaes argeur sépaes ongueur pétaes type d'iris Virginica argeur pétaes Versicoor Setosa On constate que es différences de dispersion et d orientation es pus notabes sont cees existant entre e nuage des Setosa et ceux des Virginica et des Versicoor. Chacune des mesures permet de séectionner faciement es Setosa parmi es autres Iris, par contre aucune des mesures ne permet de distinguer es Virginica des Versicoor sans risque de confusion. v) Définition des fonctions inéaires discriminantes Le principe de anayse discriminante inéaire est de former des combinaisons inéaires des variabes expicatives permettant d affecter es individus à eur groupe d origine avec un minimum d erreur de cassement. La fonction inéaire discriminante u qui minimise e taux de ma-cassés s écrit comme une moyenne pondérée des variabes expicatives, résumant ainsi en un seu indicateur information apportée par es q variabes expicatives séectionnées parmi es descripteurs : u = β 0 + βx + β X + L+ β q X q Dans cette équation simiaire à cee de a régression mutipe, u est a variabe à prédire dont es vaeurs doivent permettent de distinguer es trois espèces d Iris, es X j sont es variabes expicatives et es β j figurent es coefficients à estimer d après es vaeurs observées sur échantion d apprentissage. Les estimations des coefficients b j = βˆ j de cette équation sont choisies de manière à minimiser es différences interindividuees au sein de chaque groupe (groupes homogènes) pour es vaeurs de u h tout en maximisant es différences entre es groupes (groupes bien séparés). Ces estimations maximisent donc e rapport des deux sommes de carrés (intergroupes sur intragroupes) : [3] [ ˆ SCE B SCEB β j ] = [ β j ] te que soit maximum = Arg max J J SCEW SCEW La Revue MODULAD, Numéro 30

11 III.) Approche géométrique i) Anayse factoriee discriminante Les méthodes factoriees d anayse mutivariée reposent sur es concepts de a géométrie eucidienne faisant intervenir a notion d inertie, produit de a masse (somme des pondérations des observations) par a distance au carré (variance des descripteurs), correspondant à une somme pondérée des écarts au carré. Cherchant des combinaisons inéaires u = q j= β des descripteurs susceptibes de séparer du mieux possibe es k groupes, on séectionne cees présentant e meieur compromis entre deux objectifs distincts : représenter es groupes à a fois comme homogènes (minimiser inertie intracasses) et comme bien séparés (maximiser eur inertie intercasses). D après équation matriciee [], inertie du nuage de points se décompose en inertie intracasses et en inertie intercasses : [4] u Tu = u Wu + u Bu. La recherche de variabes discriminantes revient à trouver une combinaison inéaire u qui u Bu maximise e rapport de ces deux inerties : u Wu u Bu ou, ce qui revient au même compte tenu de équation [4] : f ( u) =. u Tu On montre que ce probème est équivaent à a recherche du maximum de a forme quadratique u Bu sous a contrainte u Tu = (cf. [Lebart, Morineau & Piron, 995]). En utiisant a technique des mutipicateurs de Lagrange pour résoudre ce probème de recherche d un extremum sous contrainte, on obtient comme soution e vecteur u défini par : Bu = λtu. En supposant que a matrice T de variance-covariance totae est inversibe, e vecteur u, soution de cette équation : [5] T Bu = λu est e vecteur propre associé à a pus grande vaeur propre λ de opérateur T B. Cette vaeur propre λ = u Bu réaise e maximum recherché de a variance intercasses u Bu de a variabe u et constitue e pouvoir discriminant de a variabe u, appeée aors fonction inéaire discriminante ou facteur discriminant. L axe factorie discriminant a, associé au facteur discriminant u te que u = T a, est e vecteur propre associé à λ pour opérateur BT : BT a = λa. Le nombre d axes factories distincts que on peut extraire est au pus éga au minimum du nombre q de variabes expicatives et du nombre de groupes minoré de : min{ q, k }. Le pouvoir discriminant d un axe factorie varie entre 0 et : e cas λ = correspond à une dispersion intracasses nue (es k sous-nuages de points correspondant aux groupes se situent dans un hyperpan orthogona à axe factorie discriminant a) et à une discrimination parfaite si es k centres de gravités g se projettent sur a en des points distincts ; e cas λ = 0, es projections des centres de gravités g sur axe factorie discriminant a sont confondues. Ainsi définie par a recherche d axes factories discriminants orthonormés pour a métrique T, anayse factoriee discriminante (AFD) n est rien d autre qu une anayse en composantes principaes du nuage des k centres de gravité g L, doté de a métrique T. Au ieu de a métrique T, utiisation par a procédure DISCRIM de a métrique W, connue sous e nom de «métrique de Mahanaobis», conduit à des résutats équivaents. La Mahanaobis en proposant a même année que Fisher une notion de distance généraisée entre groupes, peut égaement être considéré comme un des pères de anayse discriminante. j X j La Revue MODULAD, Numéro 30

12 u Bu recherche des combinaisons inéaires maximisant seon un raisonnement simiaire conduit à a u Wu soution donnée par équation : [6] W Bu = µ u On montre aisément que es vecteurs propres de W B soutions de équation [6] sont es mêmes que ceux de T B soutions de équation [5]. ii) Pouvoir discriminant des facteurs Les vaeurs propres µ à vaeurs sur intervae [ ;+ [ à vaeurs sur intervae [ 0 ;] et réciproquement : 0 sont définies par es vaeurs propres λ λ µ µ = et λ = λ + µ Tabeau 6 : vaeurs propres associées aux fonctions inéaires discriminantes Fonction Les vaeurs propres associées aux fonctions inéaires discriminantes permettent de juger du pouvoir discriminant respectif de ces fonctions, en effet chaque vaeur propre µ h de rang h est égae à a variance intercasses de a fonction inéaire discriminante de même rang. Ainsi, a première vaeur propre est égae à : µ = 3, 857 et a seconde vaeur propre µ = 0, 97. Le pourcentage de variance expiquée rapporte a vaeur propre à a somme totae des vaeurs propres : e pourcentage de a variance intergroupe expiquée par a première fonction discriminante est de µ 3,857 τ = 00 = *00 = 99,076 99, tandis que a seconde fonction 3,54 µ h h= Vaeurs propres % de a Corréation Vaeur propre variance % cumué canonique 3,857 a 99, 99,,985,97 a,9 00,0,478 a. Les premières fonctions discriminantes canoniques ont été utiisées pour 'anayse. discriminante, orthogonae à a première, n expique que τ = 0,9 % de a variabiité intercasse. Tabeau 7 : anayse de variance des coordonnées factoriees sur e premier axe discriminant. ANOVA Scores discriminants de a fonction pour 'anayse Somme des carrés dd Moyenne des carrés F Signification Inter-groupes 4683,03 34,56 34,56,000 Intra-groupes 47,000 47,000 Tota 4830,03 49 Pour chaque fonction inéaire discriminante, a vaeur propre est égae au rapport de a sommes des carrés des écarts intercasses sur a somme de carrés des écarts intracasses : SCEB 4683,03 µ = = 3,857 SCE 47 W La Revue MODULAD, Numéro 30

13 Le coefficient de corréation canonique est une mesure de a iaison entre es coordonnées factoriees discriminantes et a variabe quaitative codant appartenance aux groupes. Pus précisément, e coefficient de corréation canonique entre a fonction inéaire discriminante et e sousespace engendré par es variabes ogiques y, indicatrices de codage des groupes G est donné par : ρ h = µ h ( + µ h ) = λh. Soit ρ = 3,857 3,857 = 0,9847 0, 985 et ρ = 0,97,97 = 0,4785 0, 478. Le carré de a corréation canonique est éga au rapport de corréation η u y de a variabe dépendante u que constitue a fonction inéaire discriminante avec e facteur y codant appartenance au groupe, soit pour a première fonction discriminante u. η u = = 4683, ,03 0,9847 = ρ y SCE B SCET Rappeons que e carré du coefficient η représente a part de variance expiquée par es différences entre groupes, soit e rapport entre a somme des carrés des écarts intergroupes et a somme totae des carrés des écarts, ce qui e rend compémentaire du ambda de Wiks univarié (cf. tabeau ) : Λ + η = L anaogie pourrait être poursuivie en montrant que anayse factoriee discriminante correspond à anayse canonique entre e tabeau (non centré) Y des variabes ogiques indicatrices des groupes de a typoogie a priori et e tabeau X des descripteurs quantitatifs (voir [Saporta, 990]). Dans e cas particuier de deux groupes, on peut montrer que anayse discriminante est équivaente à a régression mutipe, à une transformation inéaire près. La variabe quaitative à expiquer y ne possédant que deux modaités, i suffit de prendre des vaeurs c pour e groupe G et c pour e groupe G te que n c + n c 0 ; par exempe, un vecteur y à n composantes y i, recodé = c = n n = si i G comme suit: y i = c = n n = si i G Le vecteur y, e vecteur b des coefficients de a fonction inéaire discriminante u est aors proportionne au vecteur b ~ des coefficients de a régression mutipe, estimation des paramètres de ~ a régression, défini par : b = ( X X ) X y. Cette propriété peut être vérifiée, à exception des constantes, sur es coefficients non standardisés par une anayse discriminante entre e groupe des Setosa et ceui des Versicoor : Tabeau 8 : équivaence entre régression inéaire et anayse discriminante pour deux groupes. Anayse discriminante inéaire (Setosa / Versicoor) Régression inéaire Coefficients des fonctions discriminantes canoniques Modèe Variabe dépendante : type d'iris Rapport Coefficients non standardisés F Coefficients non standardisés B F / B ongueur des sépaes -0,05756 ongueur des sépaes -0, ,495 argeur des sépaes -0,75685 argeur des sépaes -0,0674 0,495 ongueur des pétaes 0,7398 ongueur des pétaes 0,0075 0,495 argeur des pétaes 0,8967 argeur des pétaes 0, ,495 (Constante) -,63540 (constante),34465 Dans e cas de deux groupes (e.g. Setosa contre Versicoor), e coefficient de corréation canonique de anayse discriminante (tabeau 9) : Tabeau 9 : corréation canonique de anayse discriminante pour deux groupes. Fonction Vaeurs propres % de a Corréation Vaeur propre variance % cumué canonique 6,057 a 00,0 00,0,98 a. Les premières fonctions discriminantes canoniques ont été utiisées pour 'anayse. La Revue MODULAD, Numéro 30

14 est éga au coefficient de corréation mutipe (tabeau 0) de a régression entre y et X. Tabeau 0 : coefficient de corréation et R du modèe de régression (deux groupes). Modèe Récapituatif du modèe Erreur standard de R R-deux R-deux ajusté 'estimation,98 a,963,96,099 a. Vaeurs prédites : (constantes), argeur des pétaes, argeur des sépaes, ongueur des sépaes, ongueur des pétaes Les autres indicateurs statistiques basés sur e modèe probabiiste de a régression ne sont guère utiisabes puisque dans e contexte de anayse discriminante, y n est pas aéatoire tandis que es vecteurs X j e sont. iii) Coefficients et interprétation des fonctions discriminantes Les coefficients non standardisés b jh de chaque fonction discriminante de rang h sont es estimations b jh = βˆ jh des coefficients de équation : uh = β 0 h + β h X + β h X + L+ β qh X q La constante b 0h associée à a h e fonction discriminante est égae à : b 0 h = q j= b jh X. j. Tabeau : estimation des coefficients non standardisés des deux fonctions inéaires discriminantes Coefficients des fonctions discriminantes canoniques ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes (Constante) Coefficients non standardisés Fonction -,079 -,00 -,5,6,8 -,095,79,9 -,74-6,447 Les vaeurs des coefficients non standardisés de a fonction inéaire discriminante permettent d utiiser directement es vaeurs des variabes expicatives pour cacuer a coordonnée factoriee u h () i, vaeur de a fonction inéaire discriminante u h d ordre h pour individu i : u () i,74 0,079 ( onsepa) 0,5 ( arsepa) + 0,8 ( onpeta) + 0, 79 ( arpeta) Ainsi a vaeur de a première fonction inéaire discriminante u pour e second individu (iris n ) de notre échantion d apprentissage est égae à : u ( ),74 0,079 (64) 0,5 ( 8) + 0,8 ( 56) + 0,79 ( ) 6, 760 De même, a seconde fonction inéaire discriminante u s écrit : u () i 6,447 0,00 ( onsepa) + 0,6 ( arsepa) 0,095 ( onpeta) + 0, 9 ( arpeta) soit pour iris n, a coordonnée factoriee u 6,447 0,00 (64) + 0,6 8 0, ,9 0, ( ) ( ) ( ) ( ) 577 Dans a terminoogie adoptée par SPSS, ces coordonnées factoriees sont appeées «scores discriminants». La Revue MODULAD, Numéro 30

15 Les coordonnées factoriees discriminantes sont centrées (de moyenne nue) reativement à ensembe de échantion d apprentissage. Comme en régression, es vaeurs et es signes des coefficients non standardisés ne sont pas toujours directement interprétabes. Pour interpréter une fonction inéaire discriminante, anayse des coefficients standardisés est pus pertinente. Tabeau : estimation des coefficients standardisés des deux fonctions inéaires discriminantes. Coefficients des fonctions discriminantes canoniques standardisées ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes Fonction -,409 -,008 -,57,735,939 -,409,57,597 Pour a première fonction inéaire discriminante, es mesures sur es pétaes s opposent aux mesures effectuées sur es sépaes, tandis que ongueur et argeur contribuent dans e même sens que ce soit pour es pétaes ou es sépaes. Pour a seconde fonction inéaire discriminante, argeur des pétaes et argeurs des sépaes s opposent à a ongueur des pétaes, aors que a contribution de a ongueur des sépaes est quasi-nue. Notons que es signes sont arbitraires : seues es oppositions de signes ont un sens. Une autre façon d interpréter es contributions des variabes prédictives aux fonctions inéaires discriminantes est d étudier a matrice de structure donnant es corréations intragroupes combinées entre es variabes expicatives et es fonctions discriminantes. Bien que es vaeurs des corréations totaes soient pus importantes, es deux types de corréation sont du même ordre de grandeur. Tabeau 3 : corréations entre variabes prédictives et fonctions inéaires discriminantes. ongueur des pétaes argeur des sépaes argeur des pétaes ongueur des sépaes Matrice de structure Fonction,70*,49 -,9,850*,637,735*,4,9* Les corréations intra-groupes combinés entre variabes discriminantes et es variabes des fonctions discriminantes canoniques standardisées sont ordonnées par taies absoues des corréations à 'intérieur de a fonction. *. Pus grande corréation absoue entre chaque variabe et une fonction discriminante queconque. On note que a variabe a pus corréée avec a première fonction est a ongueur des pétaes suivie par a argeur des pétaes, tandis que es variabes es pus corréées avec a seconde fonction sont es argeurs, des pétaes comme des sépaes. iv) Critères d affectation géométriques Les coordonnées factoriees des barycentres de groupe sur es axes discriminants sont évauées comme vaeurs moyennes des groupes : g kh = b 0 h + q j= b jh X. j La Revue MODULAD, Numéro 30

16 Tabeau 4 : estimation des vaeurs moyennes des groupes D après es vaeurs de a première fonction discriminante estimée aux barycentres de chacun des groupes (tabeau 4), a projection de iris n sur a première fonction inéaire discriminante e casse parmi es Virginica, groupe auque i appartient effectivement. Cependant, e cassement n est pas toujours aussi aisé et information compémentaire apportée par a seconde fonction inéaire discriminante peut aors être utie. Les axes factories discriminants fournissent un système de représentation maximisant a variance intercasses et minimisant a variance intracasses de a partition des n individus en k groupes. Pour casser une observation x 0 parmi es k groupes, affectation géométrique consiste à projeter cette observation dans espace défini par es axes factories discriminants puis à cacuer a distance de cette observation à chacun des k centres de gravité des groupes. La rège d affectation est aors définie par a métrique utiisée, soit dans notre cas W - a métrique de Mahanaobis. Pour q variabes expicatives, a distance de Mahanaobis entre deux groupes G et G, de barycentres respectifs µ et µ, de même matrice de variance-covariance Σ est définie par : q Fonctions aux barycentres des groupes ( g g ) = ( µ µ ) Σ ( µ µ ). Le carré de a distance entre es deux groupes est appeé e D, q q ( g, g ) = ( m k) w jj ( X j X j )( X j X j ) où jj D ~ q.... j= j = w de Mahanaobis ~ est éément (j,j ) de a matrice W -. Pour trouver a casse G qui minimise a distance de Mahanaobis au carré d q ( x0; g ) = ( x0 g ) W ( x0 g ) entre observation à casser x 0 et son barycentre g, i faut chercher e minimum de a fonction g W g x0 W g ou encore e maximum de a fonction [7] 0 x W g g W g, ce qui nous donne une fonction de cassement inéaire par rapport aux coordonnées de x 0. On cacue donc a vaeur en x 0 de ces k fonctions de cassement et observation x 0 est affectée au groupe dont a fonction de cassement est maximae en x 0. Cette rège géométrique d affectation est appeée a rège de Mahanaobis-Fisher (cf. [Saporta, 990]). L équation de hyperpan médiateur entre es groupes G et G est e ieu des points qui µ + µ annuent a fonction score f / ' ( x) : f / ' ( x) = ( µ µ ) W x = 0. Dans SPSS, es fonctions de cassement pour chaque groupe =,, L, k sont définies par e jeu de coefficients appicabes aux vaeurs observées, soit : q m k w~ X pour j =, L, q ( ) j b j = jj. j = et avec pour constante b Fonction type d'iris Setosa -7,563, Versicoor,799 -,743 Virginica 5,764,5 Fonctions discriminantes canoniques non standardisées évauées aux moyennes des groupes 0 m = n m q j = b j X. j La Revue MODULAD, Numéro 30

17 À une constante près, qui n a pas d infuence si es groupes ont des masses égaes, on retrouve bien a rège de Mahanaobis-Fisher. Tabeau 5 : coefficients des fonctions de cassement Coefficients des fonctions de cassement ongueur des sépaes argeur des sépaes ongueur des pétaes argeur des pétaes (Constante) Fonctions discriminantes inéaires de Fisher Si es dispersions des groupes sont très différentes à a fois en taie et en orientation, a rège géométrique de cassement peut conduire à des taux de ma-cassés importants. Pour paier ces insuffisances inhérentes au point de vue géométrique, i est parfois nécessaire d adopter une démarche probabiiste susceptibe de fournir des règes de cassement optimaes. III.3) Approche probabiiste type d'iris Setosa Versicoor Virginica,53,55,00,344,70,380 -,566,568,3 -,669,666,43-84,044-7,388-04,408 i) Rège bayésienne de cassement L approche décisionnee en anayse discriminante est construite sur un raisonnement probabiiste quaifié de bayésien car i s appuie sur e théorème de Bayes utiisant es probabiités conditionnees et es probabiités a priori pour cacuer es probabiités a posteriori. La probabiité a priori, p = P( G ) est a probabiité qu un individu appartienne au groupe G en absence de tout autre information. Les proportions observées dans échantion d apprentissage peuvent fournir une estimation de ces probabiités a priori. Ces probabiités a priori peuvent égaement être estimées d après d autres sources statistiques comme par exempe e recensement de a popuation pour des casses d âge ou bien e recensement de agricuture pour es catégories d expoitation agricoe. En absence de toute information, on choisira es groupes équiprobabes. Tabeau 6 : probabiités a priori des groupes Probabiités à priori des groupes type d'iris Setosa Versicoor Virginica Tota Observations utiisées dans 'anayse Non A priori pondérées Pondérées, ,000, ,000, ,000, ,000 La probabiité conditionnee, ( x ) P / probabiité d un vecteur x { x, L,,, } G = x j x p, descriptif des observations, connaissant e groupe G d un individu i, permet de s appuyer sur information auxiiaire que constitue appartenance au groupe pour déveopper une rège de cassement basée sur une estimation de cette probabiité conditionnee. En effet, si on suppose que a distribution des vaeurs observées au sein de chacun des groupes est normae et si on peut estimer es L La Revue MODULAD, Numéro 30

18 paramètres (moyenne et écart-type) de chacune de ces distributions, a connaissance pour chaque individu du groupe d appartenance permet de cacuer a probabiité d observer e descriptif x sachant que individu appartient au groupe G. Cependant, dans a démarche de cassement ou de discrimination e groupe d appartenance est inconnu. Connaissant par observation es vaeurs des variabes expicatives, on souhaite avoir une estimation de a probabiité d appartenance au groupe, soit P( G / x) a probabiité a posteriori. Cette probabiité a posteriori peut être cacuée, en utiisant e théorème de Bayes, à partir de a probabiité conditionnee P ( x / G ) et de a probabiité a priori P ( G ). Une fois ce cacu effectué pour chacun des groupes, individu i pourra aors être affecté au groupe G 0 pour eque a probabiité a posteriori P ( G0 / x) sera maximum. Soit k groupes distincts G de probabiité a priori p = P( G ). D après e théorèmes de Bayes, a probabiité d appartenance d un individu i au groupe connaissant son vecteur des observations x est donnée par a probabiité a posteriori : P( x / G ) P( G ) P( G / x) = k P x / G P G = ( ) ( ) Si a distribution de probabiité du vecteur des observations est connue par intermédiaire d une densité de probabiité ou d une distribution discrète f ( x), on peut construire une rège bayésienne d affectation pour es individus en maximisant a probabiité a posteriori : p f ( x) Max{ P( G / x) } = Max = Max{ p f ( x) } k. p f ( x) = Chaque groupe G d observations est supposé extrait d une popuation mutinormae N( µ, Σ ) d espérance µ, et de matrices de variance-covariance Σ, de densité : f ( ) ( ) Σ ( ) x = exp x µ q x µ ( π ) det( Σ ) Dans e cas généra où es matrices de variance-covariance ocaes sont différentes, a rège bayésienne d affectation revient à minimiser a fonction quadratique en x : [8] QS ( x) = ( x µ ) Σ ( x µ ) + n{ det( Σ )} n{ p } Lorsque es matrices de variance-covariance des groupes sont toutes égaes ( Σ L = Σ ), a rège bayésienne d affectation aboutit à maximiser a fonction inéaire : [9] LS ( x) x = Σ µ µ Σ µ + n( p ) m Si a matrice Σ est estimée par W ( m k ) et si es probabiités a priori p sont égaes, a rège bayésienne correspond à a rège géométrique de cassement de Mahanaobis-Fisher qui est aors optimae dans ce cas particuier. L équation de hyperpan médiateur entre es groupes G et G est e x f / ' : ieu des points qui annue a fonction score ( ) µ + µ p f / ' ( ) = ( ) n = 0 x µ µ W x. p Dans e cas de deux groupes, a rège d affectation passe par e score ou statistique p S = Σ + Σ + / x x µ µ µ µ µ µ n p d Anderson : ( ) ( ) ( ) ( ) La Revue MODULAD, Numéro 30

19 ( µ + ) µ Le «point pivot» P = représente e miieu du segment joignant es barycentres des deux groupes. Si a statistique d Anderson est positive, individu est affecté au groupe ; si e score est négatif, individu est affecté au groupe, une vaeur nue entraîne indétermination. Ainsi, a rège bayésienne d affectation conduit à une technique paramétrique basée sur e modèe norma mutidimensionne : distributions normaes mutivariées pour es q variabes expicatives sur k popuations distinctes. On vérifiera donc hypothèse de mutinormaité des distributions pour chaque groupe et cee d homogénéité en comparant es matrices de variance-covariance ocaes à chaque groupe. ii) Test d homogénéité des variances Dans un contexte de mutinormaité, e test de Box fournit une procédure permettant de vaider cette hypothèse d égaité des matrices de variance-covariance. I est basé sur a statistique M mutivariée de Box qui constitue une adaptation au cas mutivarié de a statistique M de Bartett : M = ( m k) n C ( ) k = m n C Le déterminant des matrices de variance-covariance représente e voume des eipsoïdes d inertie des groupes. La monotonie strictement croissante de a fonction ogarithmique permet de comparer a matrice commune de variance-covariance intracasses, moyenne arithmétique pondérée de ces déterminants, et eur moyenne géométrique. Si es matrices de variance-covariance ocaes sont égaes, aors a moyenne géométrique est égae à a moyenne arithmétique et a vaeur de M est nue. Sinon, a vaeur de M mesure écart à hypothèse d indépendance. Sous hypothèse nue d égaité des matrices de variance-covariance ocaes Σ = Σ = L = Σ k, e rapport : M b si F = t M t b M si avec e e k = > e ( ) e < e p = m m k 6( k )( p + ) k ( p )( p + ) ( ) ( ) = m m k 6( k ) ( k ) p( ) / ( t + ) e e t ( e t t ) si e > e t ( e + t ) = t = p + t = / e + 3p b = si e < e suit une distribution de Fisher-Snedecor à t et t degrés de ibertés. Si e e est proche de 0, aors SPSS utiise a statistique de Bartett ( e )M qui est approximativement distribuée comme un χ à t degrés de ibertés (cf. [Saporta, 990]). Tabeau 7 : Test de Box pour égaité des matrices de variance-covariance ocaes type d'iris Setosa Versicoor Virginica Intra-groupes combinés Déterminants Log Déterminant Rang Log 4 5,46 4 7, , ,503 Les rangs et ogarithmes natures des déterminants imprimés sont ceux des matrices de covariance du groupe. M de Box F Résutats du test Approximativement dd dd Signification Teste 'hypothèse nue de matrices de covariance à égaes popuations. 44,50 6, ,75,000 La Revue MODULAD, Numéro 30

20 Les vaeurs du ogarithme des déterminants des matrices de variance-covariance s interprètent comme e voume de eipsoïde d inertie reatif à chacun des groupes dans espace des variabes expicatives de dimension 4. Iris Virginica apparaît donc comme espèce présentant e pus de variabiité reativement à ces quatre mesures, tandis que Setosa apparaît comme a pus homogène. D après es résutats du tabeau 7, nous sommes conduits à rejeter hypothèse nue d égaité des matrices de variance-covariance entre es trois espèces d Iris. Cependant, e test de Box étant réputé sensibe au défaut de mutinormaité, nous devons rester prudents par rapport à a concusion du test. D autre part, vu a taie de nos échantions reativement au nombre de paramètres à estimer, es fonctions inéaires peuvent s avérer pus robustes que des fonctions quadratiques. iii) Affectation des individus seon a rège bayésienne Le cacu des probabiités sur eque est basée a rège d affectation bayésienne s effectue dans SPSS seon a procédure suivante. Soit, pour un individu à casser i 0, e vecteur ~ x des q mesures séectionnées comme variabes expicatives du cassement. Le vecteur ~ z des coordonnées factoriees discriminantes ~ de individu i 0 est obtenu par projection sur es h fonctions inéaires discriminantes : z = ~ xb. Soit g ~ est e vecteur des h coordonnées factoriees du groupe G. Dans e sous-espace des h premières fonctions inéaires discriminantes, sous hypothèse de mutinormaité, e carré de a distance généraisée ( ~ x g~ δ = ) D ( ~ x g~ ) entre individu i 0 et e barycentre du groupe G, suit une distribution du χ à h degrés de ibertés. La probabiité conditionnee P ( ~ x G ) d observer e vecteur ~ x sachant que individu appartient au groupe G est e seui de risque associé au quantie χ = δ. P G ~ x au groupe G est cacuée seon a formue : La probabiité a posteriori d appartenance ( ) ( ~ x ) P G où discriminantes et = h p j= p D j D j e δ e δ j D est a matrice de variance-covariance ocae au groupe G pour es h premières fonctions D son déterminant. Suivant option d estimation choisie, matrice de variance-covariance intracasse commune ou matrices de variance-covariance ocaes à chacun des groupes, e cacu du carré de a distance de Mahanaobis s effectue soit avec a métrique W, soit avec es métriques ocaes W à chacun des groupes. La rège d affectation bayésienne conduit donc respectivement soit à une rège de cassement quadratique (cf. a fonction QS en [8]) avec des matrices de variance-covariance D distinctes pour chaque groupe, soit à une rège de cassement inéaire (cf. a fonction LS en [9]) avec une matrice unique D = I, égae à a matrice-identité puisque e cacu s effectue dans espace des fonctions discriminantes. L appication de a rège bayésienne d affectation à chaque individu de échantion d apprentissage seon cette procédure conduit aux résutats istés dans e tabeau 8. Dans e cas présent, i s agit de a rège inéaire correspondant à une métrique unique W. Ce tabeau, intitué «Diagnostic des observations» donne es résutats du cassement pour chaque individu de échantion : La première coonne donne e numéro de séquence i 0 de individu permettant son identification ; La seconde coonne affiche e «groupe effectif» d affectation de individu i 0, c est à dire espèce à aquee i appartient réeement ; La troisième coonne propose e «groupe prévu» par a procédure de cassement seon a rège bayésienne. L individu i 0 est affecté au groupe max possédant a pus forte probabiité La Revue MODULAD, Numéro 30

21 a posteriori P ( G = / D = d ) max connaissant a vaeur d de a distance de Mahanaobis entre individu i 0 et e barycentre g max du groupe d affectation. Les individus ma cassés (e.g. individus n 5 et 9) sont signaés par une doube astérisque ; Tabeau 8 : affectation des individus aux groupes, probabiités et scores (extrait). La quatrième coonne donne P ( D d G = ) > / max a probabiité conditionnee d observer une vaeur au moins aussi extrême de a distance de Mahanaobis supposant appartenance au groupe e pus probabe ; P G = / D = d La cinquième coonne affiche a probabiité a posteriori maximae, ( ) La sixième coonne indique a vaeur ( x ; g ) 0 max max. d q du «Carré de a distance de Mahanaobis» au barycentre du groupe e pus probabe ; La septième coonne donne e numéro du second groupe e pus probabe ; La huitième coonne affiche a seconde pus forte probabiité a posteriori ; La neuvième coonne indique a vaeur du carré de a distance de Mahanaobis au barycentre du second groupe e pus probabe ; La dixième et onzième coonne indiquent es vaeurs («Scores discriminants») des coordonnées factoriees pour es deux axes discriminants. iv) Vaidation Les taux de bien-cassés constituent une mesure immédiate des performances de RC a rège de cassement éaborée. On attend bien sûr des résutats meieurs que ceux produit par une rège aéatoire, soit pour 3 groupes supérieurs à 33 %. L objectif d un cassement quasi-parfait, taux proche de 00 %, est difficie à atteindre dans a pupart des contextes d appication réee des méthodes de discrimination. Certains contextes supposent égaement a recherche de taux de bien-cassés qui soient équiibrés entre es groupes : une rège optimae pour un groupe et désastreuse pour es autres groupes peut se révéer d un intérêt imité dans a pratique. D autre part, a pertinence du cassement obtenu doit être contrôée par des procédures de vaidation car des taux de bien-cassés satisfaisants sur échantion d apprentissage ne garantissent pas a performance réee de a rège de cassement appiquée à de nouveaux échantions. Les taux de bien-cassés et de ma-cassés cacués sur échantion d apprentissage sont appeés des taux de resubstitution ou taux apparents. Le taux rée de bien-cassés TBC est a probabiité que a rège RC casse correctement es individus d un nouve échantion extrait de a même popuation et e taux rée de ma-cassés TMC est a probabiité de cassement incorrect. Les taux de resubstitution surestiment es taux rées de bien-cassés et sous-estiment es taux rées de macassés car es performances de a rège de cassement peuvent être infuencées par es particuarités de échantion d apprentissage. La Revue MODULAD, Numéro 30

22 Dans e cas de distributions mutinormaes et homoscédastiques (homogénéité des matrices de variance-covariance des groupes), es taux théoriques de ma-cassés peuvent être estimés (pour e cas de deux groupes, cf. [Bardos, 00]). Cependant, dans a pupart des appications pratiques, on ne connaît pas es ois de probabiité conditionnees de a distribution des vaeurs observées au sein des groupes. On est aors contraint d utiiser des procédures empiriques de vaidation. Une première procédure de vaidation envisageabe est cee de échantion-test, si on dispose d un échantion indépendant de échantion d apprentissage. Cette procédure, appeée échantion-test, a avantage de fournir des estimations non biaisées un pourcentage de bien-cassés et de ma-cassés. Sinon, on utiise a vaidation croisée qui consiste à partitionner échantion de base E en v sous-ensembes E, L, E, L, Ev qui serviront tour à tour d échantions-tests. À chaque pas de a procédure de vaidation, e compémentaire E E sert d échantion d apprentissage. L estimation du taux de ma-cassés est donnée par a moyenne des taux de ma-cassés obtenus à chaque étape. La vaidation croisée systématique («eave one out») est un cas particuier où chacun des sousensembes tests E est réduit à un seu individu. On effectue aors n discriminations portant sur n- observations et excuant tour à tour chacun des individus de échantion de base E. Cependant, pour n grand, es taux moyens de bien-cassés convergent vers es taux de resubstitution. Tabeau 9 : pourcentage de bien-cassés et vaidation croisée Origina Vaidé-croisé a Effectif % Effectif % Résutats du cassement b,c type d'iris Setosa Versicoor Virginica Setosa Versicoor Virginica Setosa Versicoor Virginica Setosa Versicoor Virginica Casse(s) d'affectation prévue(s) Setosa Versicoor Virginica Tota ,0,0,0 00,0,0 96,0 4,0 00,0,0,0 98,0 00, ,0,0,0 00,0,0 96,0 4,0 00,0,0,0 98,0 00,0 a. La vaidation croisées n'est effectuée que pour es observations de 'anayse. Dans a vaidation croisée, chaque observation est cassée par es fonctions dérivées de toutes es autres observations. b. 98,0% des observations originaes cassées correctement. c. 98,0% des observations vaidées-croisées cassées correctement. Les résutats du cassement effectué par a procédure DISCRIM de SPSS seon a rège bayésienne d affectation montrent un taux apparent goba de bien-cassés éevé (98%), moyenne pondérée du taux apparent de bien-cassés pour chacun des groupes qui varie de 00% pour e groupe Setosa à 96% pour e groupe Versicoor, comportant e pus d erreur d affectation.. Le cacu des probabiités a posteriori utiisées dans a rège bayésienne d affectation n étant fonction que de a vaeur des distances généraisées des individus aux barycentres des groupes, a procédure DISCRIM propose une vaidation croisée systématique qui ne nécessite pas d effectuer n anayses discriminantes distinctes mais de réajuster e cacu des distances de Mahanaobis. Dans notre cas particuier, a vaidation croisée systématique aboutit aux mêmes estimations que a resubstitution mais ce n est pas toujours e cas, a fortiori pour es petits échantions. La Revue MODULAD, Numéro 30

23 v) Utiisation des graphiques factories discriminants Le graphique de a figure 8 produit par a procédure, intitué «cartes des régions d affectation», est une projection dans e premier pan factorie croisant es deux premiers axes factories discriminants correspondant aux deux premières fonctions inéaires discriminantes. Les projections des barycentres des groupes sont indiquées par une étoie et es régions d affectation résutant de appication de a rège bayésienne de décision sont déimitées par e tracé des hyperpans f ( ~ x ) = 0 au moyen des numéros des casses et. Figure 8 : carte territoriae des régions d affectation, discrimination inéaire. Carte des régions d'affectation Discriminant canonique Fonction -,0-8,0-4,0 f /,0 (x)=0 4,0 8,0, , I 3 I I 3 I I 3 I I 3 I I 3 I 8, I 3 I I 3 I I 3 I I 3 I I 3 I 4, I 3 I I 3 I I 3 I g I 3 3 I I g i= i=3 3 * I,0 + +* I i= * 3 I I 3 I g I 3 I I 3 I I 3 I -4, I 3 I I 3 I I 3 I I 3 I I 3 I -8, I 3 I I 3 I I 3 I I 3 I I 3 I -, ,0-8,0-4,0,0 4,0 8,0,0 Discriminant canonique Fonction Symboes utiisés dans a carte des régions d'affectation Symb. Grpe Etiq Setosa Versicoor 3 3 Virginica * Indique un groupe barycentrique f /3 (x)=0 La Revue MODULAD, Numéro 30

24 Par contre, pour a figure 9, es imites territoriaes ne sont pus fournies par des hyperpans médiateurs (par exempe, une droite dans un pan) issus d une discrimination inéaire mais par des variétés (par exempe, une courbe dans e pan) issues de a discrimination quadratique. L utiisation des matrices ocaes de variance-covariance n améiore pas es résutats puisque nous obtenons des pourcentages de bien-cassés identiques au niveau de échantion d apprentissage. Figure 9 : carte territoriae des régions d affectation, discrimination quadratique. Carte des régions d'affectation Discriminant canonique Fonction -,0-8,0-4,0,0 4,0 8,0,0, , , *,0 * 3 * 3 g 3 g 3 i=3 3 3 i= 3-4,0 3 g , ,0 33 f / (x)=0 i= -,0-8,0-4,0,0 4,0 8,0,0 Discriminant canonique Fonction Symboes utiisés dans a carte des régions d'affectation Symb. Grpe Etiq Setosa f /3 Versicoor (x)=0 3 3 Virginica * Indique un groupe barycentrique La Revue MODULAD, Numéro 30

25 La carte territoriae des régions d affectation de a figure 8 iustre e fait qu individu ayant une coordonnée factoriee sur e premier axe discriminant inférieure à 4 sera cassé comme Iris Setosa (groupe G ) par a procédure d affectation. Par contre, si individu possède sur e premier axe discriminant une coordonnée factoriee supérieure à 8, i sera cassé comme Iris Virginica (groupe G 3 ). Si cette coordonnée est comprise entre 4 et 8, aors son cassement dépend de a vaeur de a coordonnée factoriee sur e deuxième axe discriminant. Des projections graphiques des individus et du barycentre peuvent égaement être obtenues groupe par groupe sur e pan des deux premiers axes discriminants correspondant aux deux premières fonctions inéaires discriminantes, comme pour e groupe des Iris Setosa en figure 0 : Figure 0 : projection ocae dans e premier pan factorie discriminant des individus et du barycentre du groupe des Iris Setosa. 3 Fonctions discriminantes canoniques type d'iris = Setosa 0 Fonction Barycentres Barycentres Setosa -5 Fonction On peut égaement demander un graphique «toutes casses combinées» projetant ensembe des individus et des barycentres de groupes dans e pan des deux premiers axes discriminants (cf. figure ) : Figure : projection gobae dans e premier pan factorie discriminant des individus et des barycentres des groupes de échantion d apprentissage. 3 Fonctions discriminantes canoniques Setosa Virginica 0 Versicoor type d'iris - Barycentres Fonction - -3 Virginica Versicoor Setosa Fonction La Revue MODULAD, Numéro 30

26 IV) Spécification des paramètres de anayse discriminante i) Spécifications gobaes Pour effectuer une anayse discriminante, i convient de séectionner a procédure Anayse discriminante de option Cassification du menu Statistiques afin d obtenir a boîte de diaogue permettant de spécifier es principaux paramètres de anayse discriminante : Figure : spécification des variabes de anayse discriminante. Les spécifications requises concernent es descripteurs (Variabes expicatives : arpeta, arsepa, onpeta, onsepa) et e critère quaitatif à prédire indiquant e groupe d appartenance des individus (Critère de regroupement : espece). En ciquant sur e bouton Définir intervae..., on spécifiera es modaités (??) qui doivent être codées seon une séquence ordonnée de vaeurs numériques (ici, de à 3, soit es vaeurs, et 3). Les observations présentant des vaeurs du critère de regroupement situées en dehors de cet intervae seront excues de anayse. I faut au moins deux groupes distincts non vides d observations et au moins un descripteur pour que a procédure s exécute. L anayse discriminante définie par défaut fournit es coefficients des fonctions discriminantes canoniques standardisées, a matrice de structure des fonctions discriminantes et de tous es descripteurs (qu is soient incues ou non dans équation) ainsi que es vaeurs moyennes des fonctions discriminantes pour chacun des groupes. Les observations présentant des vaeurs manquantes pour es variabes expicatives sont excues des étapes d estimation de anayse (cacu des coefficients et des indicateurs statistiques de base). On peut choisir entre es deux méthodes suivantes de séection des descripteurs comme variabes expicatives : Entrer es variabes simutanément. Séection a priori des descripteurs. C est option par défaut. Toutes es variabes satisfaisant e critère de toérance sont incues comme variabes expicatives dans équation ; Utiiser a méthode pas à pas. Séection pas à pas des descripteurs. Le critère de séection du pas à pas minimise e ambda de Wiks goba. La Revue MODULAD, Numéro 30

27 ii) Statistiques Pour obtenir des indicateurs statistiques compémentaires, tes que des statistiques descriptives, es coefficients de certaines fonctions ou a structure des matrices utiisées, i suffit de ciquer sur e bouton Statistiques... pour vaider vos choix dans a boîte de diaogue correspondante de anayse discriminante : Figure 3 : spécification des statistiques compémentaires. Caractéristiques. Choix mutipe concernant es indicateurs de statistique descriptive demandés en compément : Moyennes. Moyennes et écarts-types gobaux (ensembe des données) et ocaes (par groupe) pour chacune des variabes expicatives (cf. tabeau ) ; ANOVA à facteur. Tests d anayse de a variance à un facteur sur égaité des moyennes pour chacune des variabes expicatives (cf. tabeau ) ; Test de Box. Test M de Box sur égaité des matrices de variancecovariance ocaes à chacun des groupes (cf. tabeau 7). Coefficients de a fonction. Choix mutipe concernant es coefficients standardisés ou non des fonctions inéaires discriminantes : Fisher. Coefficients standardisés (cf. tabeau ) des fonctions inéaires discriminantes permettant d affecter es observations à chacun des groupes dans espace des variabes centrées réduites au moyen d une équation sans constante ; Non standardisés. Coefficients non standardisés (cf. tabeau ) des fonctions inéaires discriminantes pour e cassement des observations dans espace des variabes d origine au moyen d une équation avec constante. Matrices. Choix mutipe concernant es matrices des différents opérateurs d inertie : Corréation intracasse. Matrice gobae de corréations intracasses (cf. tabeau 4) ; Inertie intracasse. Matrice gobae d inertie intracasses ou de variancecovariance intracasses, dans e cas particuier de a pondération uniforme (cf. tabeau 4) ; Inertie de chaque casse. Matrices ocae d inertie (ou de variance-covariance, dans e cas particuier de a pondération uniforme) pour chacun des groupes (cf. tabeau 5) ; Inertie totae. Matrice gobae d inertie (ou de variance-covariance totae, dans e cas particuier de a pondération uniforme) cacuée sur ensembe de échantion (cf. tabeau 5). La Revue MODULAD, Numéro 30

28 iii) Séection des variabes Si on souhaite définir es options de a procédure de pas à pas et contrôer incusion des variabes exogènes dans équation de prédiction, i suffit de séectionner option Utiiser a méthode pas à pas, puis ciquer sur e bouton Méthodes... dans a boîte de diaogue principae : Figure 4 : contrôe des options du pas à pas. Méthode. On peut séectionner une des méthodes suivantes : Lambda de Wiks. Séection à chaque étape de a variabe qui minimise e ambda de Wiks ; Variance résiduee. Séection à chaque étape de a variabe qui minimise a variance résiduee (inexpiquée par es différences entre groupes) ; Distance de Mahanaobis. Séection à chaque étape de a variabe qui minimise a distance de Mahanaobis entre es deux groupes es pus proches ; Pus petit rapport F. Séection à chaque étape de a variabe qui minimise e rapport F sur ensembe des groupes pris deux à deux ; V de Rao. Séection à chaque étape de a variabe qui minimise e V de Rao. V à introduire. Par défaut, a borne minimum du V pour introduire une variabe est fixée à 0. I suffit d entrer une nouvee vaeur pour changer ce paramétrage. Critères. On peut séectionner un des critères suivants : Choisir a vaeur de F. Utiise comme critère a vaeur du rapport F, avec une vaeur par défaut pour a borne d introduction (3,84) et pour a borne d éimination (,7). Ce paramétrage peut être changé en spécifiant de nouvees vaeurs strictement positives, a borne d introduction devant être supérieure à a borne d éimination ; Choisir a probabiité de F. Utiise comme critère a probabiité du rapport F, avec une probabiité par défaut pour a borne d introduction (0,05) et pour a borne d éimination (0,0). Ce paramétrage peut être changé en spécifiant de nouvees vaeurs comprises entre 0 et, a borne d introduction devant être supérieure à a borne d éimination. La Revue MODULAD, Numéro 30

29 iv) Affichage des résutats Afficher. On peut choisir un des options suivantes : Récapituation des étapes. Pour a méthode du pas à pas, des résutats récapituatifs sont produits à chaque étape. Les statistiques récapituatives sont e ambda de Wiks, e pseudo-f, es degrés de iberté et e niveau de signification du F. La toérance, e F d éimination et a vaeur de a statistique utiisée pour séectionner a variabe sont produites pour chaque variabe incuse dans équation. La toérance, a toérance minimum, e F d introduction et a vaeur de a statistique utiisée pour séectionner a variabe sont produites pour chaque variabe excue de équation. Pour supprimer ce récapituatif, i suffit de déséectionner option ; Test F des distances entre coupes. Produit une matrice des rapports F pour es groupes pris deux à deux. Ces rapports F permettent de tester a vaeur de a distance de Mahanaobis entre deux groupes. v) Options de cassement Pour définir es options de cassement (ou d affectation) et contrôer incusion des variabes exogènes dans équation de prédiction, i suffit de ciquer sur e bouton Cassement dans a boîte de diaogue principae : Figure 5 : contrôe des options de cassement. Probabiités a priori. On peut choisir une des options suivantes : Egaes pour toutes es casses. Les probabiités a priori d appartenance au groupe sont supposées égaes, option par défaut ; A cacuer seon es effectifs. Les probabiités a priori d appartenance au groupe sont estimées d après es proportions d individus dans chaque groupe, observées sur échantion. Afficher. On peut séectionner un des choix d affichage suivants : Résutats par observation. Affiche pour chaque observation es codes des groupes observés et estimés, es probabiités a posteriori et es scores discriminants (cf. tabeau 8) ; Récapituatif. Affiche une tabe de cassement récapituant es appartenances observées et estimées pour chacun des groupes (cf. tabeau 9). Si un échantion d apprentissage est séectionné deux tabes seront affichées, une pour es individus échantionnés, autre pour e reste des individus ; Cassification par éimination. Affiche es résutats du cassement effectué seon a méthode de vaidation croisée systématique (eave one out) : pour chaque individu extrait de échantion, une fonction score est construite sur un échantion d apprentissage comportant es (n-) individus restants ; chacun de ces n scores est testé sur individu éiminé. La Revue MODULAD, Numéro 30

30 Utiiser a matrice d inertie. On peut choisir une des options suivantes : Intracasse. On utiise a matrice gobae de variance-covariance intracasses pour casser es individus, option par défaut (cf. rège de cassement inéaire [9]) ; De chaque casse. On utiise a matrice de variance-covariance ocae à chaque groupe pour casser es individus (cf. rège de cassement quadratique [8]). Le cassement est basé sur es fonctions discriminantes et non sur es variabes expicatives. Diagrammes. Choix mutipe parmi es diagrammes suivants : Toutes casses combinées. Projection graphique de ensembe des individus et des groupes dans e pan des deux premiers axes discriminants (cf. figure ). S i n existe qu une seue fonction discriminante, un histogramme rempace e diagramme ; Casse par casse. Production d un diagramme distinct pour chaque groupe dans e pan des deux premiers axes discriminants (cf. figure 0). S i n existe qu une seue fonction discriminante, des histogrammes rempacent es diagrammes ; Carte des régions d affectation. Une carte territoriae (cf. figure 8,9) déimite es frontières utiisées pour e cassement et indique e barycentre de chaque groupe. S i n existe qu une seue fonction discriminante, cette carte n est pas produite. Rempacer es vaeurs manquantes par a moyenne. Lors du processus de cassement, es moyennes sont substituées aux vaeurs manquantes pour es descripteurs afin de pouvoir casser es individus avec des vaeurs manquantes. vi) Options d enregistrement Pour définir es options de sauvegarde, i suffit de ciquer sur e bouton Enregistrer... dans a boîte de diaogue principae : Figure 6 : contrôe des options d enregistrement. Choix mutipes concernant es options d enregistrement : Casse(s) d affectation. Affectation au groupe possédant a pus grande probabiité a posteriori ; Vaeur du facteur discriminant. Sauvegarde des scores pour chacune des fonctions discriminantes estimées ; Probabiités d affectation. Création d une variabe par groupe. La k e variabe contient a probabiité a posteriori d appartenance au k e groupe. La Revue MODULAD, Numéro 30

31 V) Références bibiographiques Bardos M. (00). Anayse discriminante : appication au risque et scoring financier, Dunod, Paris, 4 p. Bake, C.L. & Merz, C.J. (998). UCI Repository of machine earning databases. University of Caifornia, Department of Information and Computer Science Irvine, CA, USA. Ceeux G., Diday E., Govaert G., Lechevaier Y., Raambondrainy H. (989). Cassification automatique des données. Environnement statistique et informatique, Bordas, Paris, 85 p. Dagneie P. (975) Anayse statistique à pusieurs variabes, Les Presses agronomiques de Gemboux, Gemboux, 36 p. Fisher, R. A.. (936). «The Use of Mutipe Measurements in Taxonomic Probems», Ann. of Eugenics 7, Part II, pp Kecka W.R. (980). Discriminant Anaysis, Sage Pubications, Bevery His, 88p. Lebart L., Morineau A., Piron M. (995) Statistique exporatoire mutidimensionnee, Dunod, Paris, 439 p. Mahanaobis P.C. (936) «On the Generaised Distance in Statistics», Proc. Nat. Inst. Sci. India,, pp Romeder J.-M. (973) Méthodes et programmes d anayse discriminante, Dunod, Paris, 74 p. SPSS Inc. (994). SPSS 6. Professiona Statistics, SPSS Inc., Chicago, 385 p. SPSS Inc. (999). SPSS 0.0 Appications Guide, SPSS Inc., Chicago, 46 p. Saporta G. (990). Probabiité, anayse des données et statistique, Technip, Paris, 493 p. Tomassone R. 988, «Comment interpréter es résutats d une anayse factoriee discriminante?», ITCF, Paris, 56 p. Tomassone R., Danzart M., Daudin J.J., Masson J.P. (988) Discrimination et cassement, Masson, Paris, 74 p. Figure 7 : portrait présumé du révérend Thomas Bayes. Rev. Thomas BAYES [extrait de History of Life Insurance in its Formative Years, par T O'Donne, American Conservation Company Chicago, 936] La Revue MODULAD, Numéro 30

Bouclier sanitaire : choisir entre égalité et équité?

Bouclier sanitaire : choisir entre égalité et équité? Document de travai Working paper Boucier sanitaire : choisir entre égaité et équité? Une anayse à partir du modèe ARAMMIS Thierry Debrand (Irdes) Christine Sorasith (Irdes) DT n 32 Juin 2010 Reproduction

Plus en détail

Les écarts des coûts hospitaliers sont-ils justifiables? Réflexions sur une convergence tarifaire entre les secteurs public et privé en France

Les écarts des coûts hospitaliers sont-ils justifiables? Réflexions sur une convergence tarifaire entre les secteurs public et privé en France Document de travai Working paper Les écarts des coûts hospitaiers sont-is justifiabes? Réfexions sur une convergence tarifaire entre es secteurs pubic et privé en France Zeynep Or (Irdes) Thomas Renaud

Plus en détail

Payer peut nuire à votre santé : une étude de l impact du renoncement financier aux soins sur l état de santé

Payer peut nuire à votre santé : une étude de l impact du renoncement financier aux soins sur l état de santé Document de travai Working paper Payer peut nuire à votre santé : une étude de impact du renoncement financier aux soins sur état de santé Pau Dourgnon (Irdes, Université Paris-Dauphine-LEDa-LEGOS) Forence

Plus en détail

Dossier d actualité PISA : CE QUE L ON EN SAIT ET CE QUE VEILLE ET ANALYSES. Sommaire. n 66 Oct. 2011. Une évaluation qui polarise l attention 1/18

Dossier d actualité PISA : CE QUE L ON EN SAIT ET CE QUE VEILLE ET ANALYSES. Sommaire. n 66 Oct. 2011. Une évaluation qui polarise l attention 1/18 n 66 Oct. 2011 Sommaire page 1 : Une évauation qui poarise attention page 3 : Ce que PISA peut nous apprendre sur enseignement page 9 : PISA et e piotage des systèmes éducatifs page 14 : Bibiographie Dossier

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Mesure, impact des politiques et estimation. Programme de formation MIMAP. Remerciements

Mesure, impact des politiques et estimation. Programme de formation MIMAP. Remerciements Pauvreté, bienêtre social et équité : Mesure, impact des politiques et estimation par JeanYves Duclos Département d économique et CRÉFACIRPÉE, Université Laval, Canada Programme de formation MIMAP Remerciements

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

L analyse des données par les graphes de similitude

L analyse des données par les graphes de similitude 1 L analyse des données par les graphes de similitude Par Pierre Vergès, directeur de recherche au CNRS et Boumedienne Bouriche, maître de conférence à l IUT de Gap Juin 2001 2 A Claude FLAMENT l inventeur

Plus en détail

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés?

Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés? LOGEMENT Pourquoi les ménages à bas revenus paient-ils des loyers de plus en plus élevés? L incidence des aides au logement en France (1973-2002) Gabrielle Fack* Depuis la fin des années 1970, les aides

Plus en détail

Portée et limites des VaR publiées par les grandes institutions financières

Portée et limites des VaR publiées par les grandes institutions financières Portée et limites des VaR publiées par les grandes institutions financières GUY LÉVY-RUEFF Direction pour la Coordination de la stabilité financière Service des Études sur les marchés et la stabilité financière

Plus en détail

Une décomposition du non-emploi en France

Une décomposition du non-emploi en France MARCHÉ DU TRAVAIL Une décomposition du non-emploi en France Guy Laroque et Bernard Salanié* «Grande est notre faute, si la misère de nos pauvres découle non pas de lois naturelles, mais de nos institutions».

Plus en détail

IV. La ressemblance entre apparentés

IV. La ressemblance entre apparentés IV. La ressemblance entre apparentés La ressemblance entre apparentés est un phénomène de constatation courante chez l homme. Cependant, les proverbes «tel père, tel fils» et «à père avare, fils prodigue»

Plus en détail

Les inégalités sociales d accès aux grandes écoles

Les inégalités sociales d accès aux grandes écoles ÉDUCATION Les inégalités sociales d accès aux grandes écoles Valérie Albouy et Thomas Wanecq* Les grandes écoles, institutions spécifiquement françaises, sont souvent présentées comme le creuset de la

Plus en détail

THESE. présentée à L ECOLE SUPERIEURE D INGENIEURS D ANNECY (ESIA) UNIVERSITE DE SAVOIE. par. Emmanuel DUCLOS. pour obtenir le

THESE. présentée à L ECOLE SUPERIEURE D INGENIEURS D ANNECY (ESIA) UNIVERSITE DE SAVOIE. par. Emmanuel DUCLOS. pour obtenir le THESE présentée à L ECOLE SUPERIEURE D INGENIEURS D ANNECY (ESIA) UNIVERSITE DE SAVOIE par Emmanuel DUCLOS pour obtenir le DIPLÔME DE DOCTEUR DE L UNIVERSITE DE SAVOIE spécialité : Electronique - Electrotechnique

Plus en détail

Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin?

Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin? ENSEIGNEMENT - ÉDUCATION Être sans diplôme aujourd hui en France : quelles caractéristiques, quel parcours et quel destin? Rachid Bouhia*, Manon Garrouste*, Alexandre Lebrère*, Layla Ricroch* et Thibaut

Plus en détail

n 84 [décembre 2013] Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité

n 84 [décembre 2013] Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité n 84 [décembre 2013] & Éducation formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité n 84 [décembre 2013] formations Le décrochage scolaire : un défi à relever plutôt qu'une fatalité

Plus en détail

Revue des algorithmes PCA, LDA et EBGM utilisés en reconnaissance 2D du visage pour la biométrie

Revue des algorithmes PCA, LDA et EBGM utilisés en reconnaissance 2D du visage pour la biométrie Revue des algorithmes PCA, LDA et EBGM utilisés en reconnaissance 2D du visage pour la biométrie Nicolas MORIZET, Thomas EA, Florence ROSSANT, Frédéric AMIEL, Amara AMARA Institut Supérieur d Électronique

Plus en détail

Guide pratique à l'intention des étudiants des sciences humaines et sociales

Guide pratique à l'intention des étudiants des sciences humaines et sociales Collection Devenir chercheure Guide pratique à l'intention des étudiants des sciences humaines et sociales Comment Comment faire faire? Une méta-analyse, méthode agrégative de synthèse des connaissances

Plus en détail

par Directeur du Centre d économie du développement Université Montesquieu-Bordeaux IV - France

par Directeur du Centre d économie du développement Université Montesquieu-Bordeaux IV - France Bien-être des ménages et pauvreté au Burkina Faso. Dépenses versus actifs : choix pragmatique ou conceptuel? par Résumé : Jean-Pierre Lachaud, Professeur Directeur du Centre d économie du développement

Plus en détail

Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires

Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires EMPLOI Souhaiter prendre sa retraite le plus tôt possible : santé, satisfaction au travail et facteurs monétaires Didier Blanchet * et Thierry Debrand ** Les souhaits des individus en matière d âge de

Plus en détail

Les taux de chômage varient considérablement à l intérieur de l ensemble

Les taux de chômage varient considérablement à l intérieur de l ensemble 46 Revuedel'IRESn_32-2000/2 Pourquoi les taux de chômage diffèrent en Europe Michel HUSSON * Première partie Les explications standard Les fausses évidences de la modération salariale Dans la vulgate de

Plus en détail

CHAPITRE VII. Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif

CHAPITRE VII. Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif 410 Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif Aperçu La définition de d indicateurs chiffrés

Plus en détail

Comment bien régresser: La statistique peut-elle se passer d artefacts?

Comment bien régresser: La statistique peut-elle se passer d artefacts? Comment bien régresser: La statistique peut-elle se passer d artefacts? Jean-Bernard Chatelain To cite this version: Jean-Bernard Chatelain. Comment bien régresser: La statistique peut-elle se passer d

Plus en détail

Durées d utilisation des facteurs et fonction de production : une estimation par la méthode des moments généralisés en système

Durées d utilisation des facteurs et fonction de production : une estimation par la méthode des moments généralisés en système Banque du Canada Bank of Canada Document de travail 2004-12 / Working Paper 2004-12 Durées d utilisation des facteurs et fonction de production : une estimation par la méthode des moments généralisés en

Plus en détail

Surqualification et sentiment de déclassement : public-privé, des profils et des opinions proches

Surqualification et sentiment de déclassement : public-privé, des profils et des opinions proches MINISTÈRE DE LA DÉCENTRALISATION ET DE LA FONCTION PUBLIQUE études, recherche et débats Janvier 2015 Surqualification et sentiment de déclassement : public-privé, des profils et des opinions proches Magali

Plus en détail

Première partie. Introduction à la méthodes des différences finies

Première partie. Introduction à la méthodes des différences finies Première partie Introduction à la méthodes des différences finies 5 7 Introduction Nous allons présenter dans cettte partie les idées de base de la méthode des différences finies qui est sans doute la

Plus en détail

B : passé, présent, futur.

B : passé, présent, futur. B : passé, présent, futur. J.-R. Abrial. Décembre 2002. Version 4 B : passé, présent, futur 1 Introduction Ce texte s adresse à des lecteurs qui auraient entendu parler de B et qui auraient le désir d

Plus en détail

CADRE EUROPEEN COMMUN DE REFERENCE POUR LES LANGUES : APPRENDRE, ENSEIGNER, EVALUER

CADRE EUROPEEN COMMUN DE REFERENCE POUR LES LANGUES : APPRENDRE, ENSEIGNER, EVALUER CADRE EUROPEEN COMMUN DE REFERENCE POUR LES LANGUES : APPRENDRE, ENSEIGNER, EVALUER Unité des Politiques linguistiques, Strasbourg www.coe.int/lang-cecr SOMMAIRE Note préliminaire... 3 Avertissement...

Plus en détail

Ressources pour la classe de seconde

Ressources pour la classe de seconde Mathématiques Lycée Ressources pour la classe de seconde - Fonctions - Ce document peut être utilisé librement dans le cadre des enseignements et de la formation des enseignants. Toute reproduction, même

Plus en détail