Analyses mutivariées Panorama des analyses multivariées Méthodes descriptives décrire/représenter les données (variables) Méthodes explicatives ou prédictives expliquer (prédire) une variable par d autres Méthodes de classification automatique regrouper les individus en groupes homogènes (pour les variables choisies)
Analyses multivariées descriptives Analyse en composantes principales variables quantitatives permet de réduire le nombre de variables, de dégager des dimensions Analyse des correspondances (multiples) variables qualitatives (ou quantitatives discrétisées) permet de visualiser les relations/ressemblances entre les différentes modalités des différentes variables Analyse en composantes principales Diagramme de composantes dans l'espace après rotation Satisfaction de la médiathèque intercommunale 1,0 Fond Conseil Site Horaires Moyenne Ecart-type n analyse 4,07 2,116 30 0,5 Site Internet 5,90 1,900 30 Nombre de personnels Richesse du fond Tarif Conseil 4,10 1,971 30 3,97 1,326 30 3,67 1,863 30 4,10 1,398 30 0,0 Tarif Personnels Horaires -0,5-1,0-1,0-0,5 0,0 0,5 1,0
Analyse en composantes principales 3,00000 2,00000 1,00000,00000-1,00000-2,00000-1,50000-1,00000 -,50000,00000,50000 1,00000 1,50000 Analyse en composantes principales Crimes & délits en 2009 dans les régions pour 100 000 hbts 1,0 Mœurs Coups Region Homicides coups mœurs Alsace Cambriola ges 2 270 56 443 0,5 Roulotte Cambriolages Automobiles Aquitaine Auvergne 2 245 62 440 1 195 39 327 0,0 Escroqueries Bourgogne Bretagne Centre 2 242 52 432 2 229 44 332 2 244 53 476-0,5 Homicides Champagne 2 331 63 470-1,0 Corse 17 190 29 359-1,0-0,5 0,0 0,5 1,0 Franche- Compte 2 240 48 381
Analyse en composantes principales 2,00000 Nord-Pas-de-Calais 1,00000,00000-1,00000 Picardie Ile-de-france Champagne-Ardenne Basse-Normandie Haute-Normandie Alsace Centre AquitaineRhones-Alpes Languedoc-Roussillon Pays-de-Loire Lorraine PACA Limousin Bourgogne Poitou-Charentes Bretagne Franche-Compte Midi-Pyrenees Auvergne -2,00000-3,00000 Corse -4,00000-2,00000-1,00000,00000 1,00000 2,00000 3,00000 Analyse des correspondances Projet Cat Artisan Alimentation Artisan Bâtiment Artisant Production Artisan de service Commerce de gros Commerce de détail Profession libérale Marge active Investir Cesser Maintenir Marge active 2 0 3 2 7 12 4 2 3 21 1 0 0 1 2 5 2 7 6 20 2 0 0 0 2 21 4 8 13 46 1 0 0 0 1 2 2 2 1 7 46 12 22 26 106 % compris dans Cat ORAC PAYS Projet Cat Total Artisan Alimentation Artisan Bâtiment Artisant Production Artisan de service Commerce de gros Commerce de détail Profession libérale Investir Cesser Maintenir Total 28,6% 42,9% 28,6% 100,0% 57,1% 19,0% 9,5% 14,3% 100,0% 50,0% 50,0% 100,0% 25,0% 10,0% 35,0% 30,0% 100,0% 100,0% 100,0% 45,7% 8,7% 17,4% 28,3% 100,0% 100,0% 100,0% 28,6% 28,6% 28,6% 14,3% 100,0% 43,4% 11,3% 20,8% 24,5% 100,0%
Analyse des correspondances 2 Symétrique Normalisation Cat Projet 1 Profession libérale Cesser Artisan Bâtiment 0-1 Maintenir Artisan de service Investir Commerce de détail Développer/Diversifi Artisan Alimentation Commerce de gros Commerce de réparati Artisant Production -2-2 -1 0 1 2 Analyse des correspondances multiples Utilisation de statistiques multivariées dans l évaluation d une politique agricole La politique agricole du contrat territorial d exploitation (CTE), supprimé en 2003 au profit du contrat d agriculture durable, consistait à signer un contrat entre l agriculteur et l État et (ou) les collectivités locales pour favoriser la protection de l environnement dans le cadre d exploitations efficaces d un point de vue économique et environnemental. L une des voies privilégiées pour y parvenir était de soutenir le développement de signes de qualité exigeants du point de vue des techniques de production et rémunérateurs pour les exploitants. Pour mettre en évidence ce rôle possible de la politique publique, une série d enquêtes a concerné des signataires et des non-signataires de CTE dans quatre départements (d après Meunier et Vollet, 2003). Les résultats des enquêtes ont été traités à l aide d une analyse statistique multivariée, l analyse factorielle des correspondances présentant l avantage de pouvoir traiter à la fois des données qualitatives et quantitatives. La figure 7 (concernant l Auvergne) montre la proximité entre variables et entre groupes d individus suggérant ainsi
Analyse des correspondances multiples Figure 7. Utilisation de statistiques et représentation de résultats : rec par l analyse factorielle des correspondances pour l ensemble des ex en mettant en évidence les variables liées aux signes de qualité et à l Figure 7. Utilisation de statistiques et représentation de résultats : recherche de causalité par l analyse factorielle des correspondances pour l ensemble des exploitations enquêtées, en mettant en évidence les variables liées aux signes de qualité et à l insertion territoriale. À défaut d estimations économétriques (pas toujours possibles en raison du manque de données, de temps, de moyens humains ou matériels), des statistiques descriptives simples peuvent être utilisées pour comparer quelques zones ou types d agents économiques concernés ou non par la politique (en utilisant des tests de comparaison de moyenne, d écart type, etc.). Il est également possible d utiliser des statistiques multivariées, lorsque le nombre d unités à comparer augmente, éventuellement en faisant appel à des variables qualitatives. Ainsi, une analyse factorielle permet de repérer des corrélations au sein d une multitude de données concernant de nombreux individus. Par exemple, le résultat d une enquête peut être représenté sous forme simplifiée d un espace à deux ou trois dimensions faisant ainsi apparaître des regroupements et des relations de cause à effet (exemple 18). La phase de jugement Analyses multivariées explicatives Elle permet de juger selon les différents critères et de formuler un jugement de synthèse, en se fondant sur les résultats obtenus dans les étapes précédentes. Elle utilise deux types d outils : l analyse coût-avantage et le benchmarking. L analyse coût-avantage, appelée aussi coût-bénéfice Il s agit de juger de l intérêt de l action, ou du programme, du point de vue de tous les groupes concernés en effectuant une valorisation monétaire de l ensemble des conséquences positives et négatives de l intervention (environnement, développement économique...). Ce type d analyse est surtout développé pour les projets importants d infrastructures de transport (routes, canaux). Elle soulève Y = f ( X1, X2,..., plusieurs difficultés méthodologiques, Xn ) notamment sur le choix des méthodes à retenir pour estimer la valeur des biens non marchands, par exemple la qualité d un paysage, la préservation d une espèce rare. L objectif de ces méthodes est de construire un modèle du type dans le but d expliquer mais aussi prévoir. Y quantitative : méthodes de prédiction 44 Manuel de l évaluation des politiques publiques Xi quantitatives : Régression linéaire (multiple) Xi qualitatives : Analyse de la variance (ANOVA) Y qualitative : méthodes de classement Xi quantitatives : Analyse (factorielle) discriminante Xi quanti ou qualitatives : Régression logistique et Arbre de décision
Régression linéaire simple 1000000 Prix 900000 800000 y = 219,99x + 57203 R² = 0,9372 700000 600000 500000 400000 300000 200000 100000 0 0 500 1000 1500 2000 2500 3000 3500 4000 Analyse discriminante Cas d une variable Y dichotomique (0/1) définissant 2 groupes Variables Xi quantitatives L analyse (factorielle) discriminante définit une variable discriminante du type Z = a X1 + b X2 + + c Xn On classe les individus suivant les valeurs prises par Z : Z 0 : Groupe 1 Z 0 : Groupe 2
Arbres de décision Nœud 0 (Population) oui Critère 1 non Nœud 1 Nœud 2 Critère 2! 2 > 2 Nœud 3 Nœud 4 Critère 3 a, b, c d ou e Feuille 5 Nœud 5 Groupe 2 Feuille 1 Feuille 2 Feuille 3 Feuille 4 Feuille 6 Feuille 7 Groupe 1 Groupe 2 Groupe 1 Groupe 2 Groupe 2 Groupe 1 Méthodes de classification automatique L objectif de ces méthodes est de définir des groupes homogènes d individus en se basant sur leurs caractéristiques (principalement quantitatives mais aussi qualitatives-dichotomiques). Deux approches sont possibles : hiérarchique nuées dynamiques
Classification hiérarchique 0 5 10 15 20 25 Basse-Normandie 16 Haute-Normandie 17 Lorraine 13 Picardie 19 Centre 6 Poitou-Charentes 20 Rhône-Alpes 22 Corse 8 Franche-Comté 9 Bourgogne 4 Champagne-Ardenne 7 Nord-Pas-de-Calais 15 Alsace 1 Bretagne 5 Pays de la Loire 18 Ile-de-France 10 Provence-Alpes-Côte d'azur 21 Aquitaine 2 Midi-Pyrénées 14 Auvergne 3 Limousin 12 Languedoc-Roussillon 11