TP statistiques : Analyses en Composantes Principales (ACP)



Documents pareils
SOMMAIRE. I - Synthèse de l'activité II - Secteur "Logement" métropole... 4

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Liste des laboratoires agréés pour la réalisation des analyses officielles dans le domaine de la microbiologie alimentaire

LA RÉPARTITION DES PROFESSIONNELS DU RACHAT DE CRÉDIT EN FRANCE

LA RÉPARTITION DES SERRURIERS EN FRANCE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Assurances de biens et de responsabilité. Etude Mars 2014

Assurances de biens et de responsabilité. Etude Avril 2013

L Agence MD vous présente

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Droits d enregistrement et taxe de publicité foncière sur les mutations à titre onéreux d immeubles et de droits immobiliers.

Bilan de l année 2011

REGLEMENT CHALLENGE LEGRAND VDI Février 2014

Chapitre 2 : Caractéristiques du mouvement d un solide

Construction de la bissectrice d un angle

RAPPORT D ACTIVITÉ FONDS DE FINANCEMENT DE LA PROTECTION COMPLÉMENTAIRE DE LA COUVERTURE UNIVERSELLE DU RISQUE MALADIE

L'analyse des données à l usage des non mathématiciens

AUDIT FRANCE LES FRANCAS FEDERATION NATIONALE LAIQUE DE STRUCTURES ET D ACTIVITES EDUCATIVES, SOCIALES ET CULTURELLES

Un nouveau regard de l assurance au féminin : la «Hub Decider Woman» Paris, le 8 juin 2011

Indicateur : population présente tout au long de l année dans les départements littoraux métropolitains

Enquête globale transport

Dépendance et rayonnement. des établissements franciliens

Le parcours professionnel des chômeurs de longue durée en Suisse

L'ELASTICITE-PRIX I- QUAND LES PRIX VARIENT...

Les enjeux du quotidien

ACP Voitures 1- Méthode

SPOT4 (Take 5) : Sentinel-2 avec deux ans d avance

La notion de besoin peut décrire : La notion de besoin peut décrire :

Démographie des masseurs-kinésithérapeutes

La filière de l expertise comptable

Protocole concernant l organisation des élections des délégués territoriaux au sein d Harmonie Mutuelle prévues au cours du 1er trimestre 2013

LA PUISSANCE DES MOTEURS. Avez-vous déjà feuilleté le catalogue d un grand constructeur automobile?

Qu est-ce que le Fastt?

Prêts bonifiés à l agriculture

Dépassements d honoraires, déremboursements, franchises CREATION DE L OBSERVATOIRE CITOYEN DES RESTES A CHARGE EN SANTE DOSSIER DE PRESSE

Mise de jeu 2 La certification des formations

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction de la couverture maladie universelle (CMU) en France

Extraction d informations stratégiques par Analyse en Composantes Principales

GUIDE DE LA GÉOLOCALISATION DES SALARIÉS. Droits et obligations en matière de géolocalisation des employés par un dispositif de suivi GSM/GPS

Les objets très lointains

Baromètre Ventes et cessions de commerces et d industries en France du 1er janvier 2008 au 31 décembre 2010

Décrets, arrêtés, circulaires

RAPPORT FINAL ETUDE SUR LA DENSITE REGIONALE DES TPE. Direction du Commerce, de l Artisanat, des Services et des Professions Libérales

Dr Delphine LAMOTTE Médecin MPR Hôpital Reine Hortense AIX LES BAINS

Réseaux TP4 Voix sur IP et Qualité de service. Partie 1. Mise en place du réseau et vérification de la connectivité

démographie des masseurs-kinésithérapeutes

REGLEMENT DU JEU «Bien-être et prévention»

La classification automatique de données quantitatives

REGION HAUTE-NORMANDIE

LES RESEAUX SOCIAUX SONT-ILS UNE MODE OU UNE REELLE INVENTION MODERNE?

MENTION ADMINISTRATION DES TERRITOIRES ET DES ENTREPRISES

Individus et informations supplémentaires

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

- Éléments de référence 2013 pour

ETUDES MARKETING ET OPINION CROSS-

Fonds de Dotation L observatoire Deloitte. N décembre 2011

MODULES 3D TAG CLOUD. Par GENIUS AOM

jçíçêáë~íáçå=éí=ãçäáäáí =W=ÇÉë= ÅçãéçêíÉãÉåíë=éäìë=ê~íáçååÉäë=\==

SERIE 1 Statistique descriptive - Graphiques

BILAN ROUTIER UNE RESPONSABILITÉ PARTAGÉE! 7 principales causes de collisions à Montréal. Portrait de la sécurité routière et de la circulation

journées techniques Pour le développement de bonnes pratiques environnementales dans l artisanat

ARRETE Arrêté du 21 décembre 2012 relatif au tarif annuel et aux modalités de publication des annonces judiciaires et légales

Swiss Auto. Roulez en toute sérénité

Cas n IV/M.991 Promodes / Casino. RÈGLEMENT (CEE) n 4064/89 SUR LES CONCENTRATIONS. Article 9 (3) date: 30/10/1997

Introduction. Préambule. Le contexte

VOS PREMIERS PAS AVEC TRACENPOCHE

Université Paris-Dauphine DUMI2E 1ère année, Applications

La récupération et utilisation de l eau de pluie en France : Panorama et retours d expérience

Gestion de projet - principales caractéristiques d'un projet

Durée moyenne de recherche du 1er emploi (en mois)

Scholè Marketing publie les résultats du Baromètre du Cloud Computing

Relation entre deux variables : estimation de la corrélation linéaire

Performances Hôtelières en France

I-Checkit est l outil dont les services chargés de l application de la loi ont besoin au 21 ème siècle pour mettre au jour et neutraliser les réseaux

Et si on utilisait le vélo?

Restauration des sauvegardes Windows Server sur 2008 R Sommaire

Partie 5 : La consommation et l investissement

Qu est-ce que la virtualisation?

Avec la D.A.S. gardez toujours la tête hors de l eau

Pour renforcer la politique foncière d aménagement rural et d installations agricoles : le partenariat Région Safer

Fiche technique RDS 2012

BTS SIO option SISR Lycée Godefroy de Bouillon Clermont-Ferrand

Impact de l Apparition de l Hyper-Connectivite sur la Banque de De tail

Simulation Matlab/Simulink d une machine à induction triphasée. Constitution d un référentiel

Sujets. Éléments de la Loi Position de hors-jeu Jeu actif. Infractions Recommandations

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Le réseau et les tables virtuelles Synapse

L analyse boursière avec Scilab

Mutualité Fonction Publique 62 Rue Jeanne d Arc PARIS Cedex 13

Introduction au maillage pour le calcul scientifique

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

MICHEL ET AUGUSTIN DOSSIER 1 : Conquérir un nouveau secteur géographique

N 13 S É N A T. 30 octobre 2014 PROJET DE LOI

Fibonacci et les paquerettes

La traduction des sites internet touristiques en langues étrangères comme outil de valorisation et de promotion des territoires aquitains

Transcription:

TP statistiques : Analyses en Composantes Principales (ACP) Introduction Nous allons, à partir données du ministère de l intérieur et l INSEE, étudier les divers facteurs liés aux accidents de la route. Nous allons traiter un tableau de 95 individus représentant les départements de la France métropolitaine (remarque : nous avons regroupé la Corse sous un seul département «20») et de 5 variables que nous allons décrire ci après : 1) Accidents : Nombre d accidents recensés en 2000 2) Infractions : Nombre d automobilistes en infractions contrôlés en état d ivresse ou en excès de vitesses en 2000 3) Densité : Nombre d habitant au km2 en 2000 4) Jeunes : Taux de jeunes ayant entre 20 à 29 ans en 2000 5) Chômage : Taux de chômage en 2000 Etape 1 : Analyse des données générales Nous allons regarder le plan principal 1 et 2 formé par les axes principaux 1 et 2 afin de voir comment se répartissent les individus dans le nuage de point dans le but d éliminer certains individus qui fausserait l analyse ou d identifier des groupes d individus formant des nuages bien distinct. Graphique 1: Les individus sur le plan principal 1&2 L individu 75 correspondant au département de Paris est isolé du nuage de point. Ce dernier fausse l analyse en composante principale par conséquents il sera écarté de l analyse et fera l objet d une analyse supplémentaire. Licence IUP SIAL 1

Voici le nouveau nuage de points constitués de 94 individus : Graphique 2: Les sur plan principal 1&2 après suppression du point 75 Les individus se répartissent de manière homogène malgré l apparition de deux groupes distincts de part et d autre de l axe des ordonnées. Nous verrons plus tard que ce constat est caractéristique de la répartition sociodémographique des départements. Etape 2 : Etude des valeurs propres Voici le diagramme en bâton représentant l inertie totale. Nous choisissons d étudier les axes 1, 2 et 3. Cependant il est intéressant de constater que les plans formés par les axes 1et 2 et formés par les axes 1 et 3 ont une inertie équivalente de 65% environ. Remarque : L axe 4 a une inertie relativement faible par rapport au trois précédentes mais s avère intéressante car il est lié à une variables particulièrement importante pour l étude : le taux de jeune. Graphique 3 : diagramme d'inertie totale Licence IUP SIAL 2

Etape 3 : Etudes des variables Nous allons interpréter la synthèse numérique des variables à l aide de représentation graphiques des variables sur les axes principaux. Pour cela nous allons étudier tout particulièrement les qtl (cosinus carrée) qui nous informe sur la qualité de représentation d une variable sur un axe. Etude axe 1 et 2 L axe 1 semble représenter les variables «accidents» avec des qlt voisines de 70% et l axe 2 semble représenter la variable «chômage» avec une qlt supérieur à 50%. Tableau 1: sélection des variables sur le plan 1&2 Représentons maintenant ces variables portés par le plan 1 : 2 sur un cercle de corrélations : Il est intéressant de constater les variables portés par l axe 1 et les variables portés par l axe 2 forme un angle droit signifiant l absence de corrélation linéaire. Les quatre variables étudiés sont proches du cercle de corrélation ainsi par l intermédiaire de ce plan nous pourrons étudier l influence du chômage sur le nombre d accident. De plus nous pouvons constater que les variables «infractions», «accidents» et «jeunes» sont fortement liées entre elles. Graphique 4: variables sur le cercle des corrélations du plan 1&2 Licence IUP SIAL 3

Etude des axes 1 et 3 Sur le plan 1 et 3 une qlt de 70% permet de représenter les variables «accidents» «infractions» et «densité». L axe 1 est fortement induit par «accidents» tandis que l axe 3 est induit par la variable «densité». Tableau 2: séléction des variables sur le plan 1&3 Avec une inertie de 63,9% ce plan sera tout aussi intéressant à étudier que le plan 1 : 2. Représentons ces variables du plan 1 : 3 sur un cercle de corrélation : Avec une qualité de représentation de 80% la variable «accidents» disparaît sur ce plan l axe est induit par la variable «infractions» tandis que l axe 3 est induit par la variable «densité». Sur ce plan nous pouvons constater que la variable «accidents» est liée avec la variable «infractions». Graphique 5: variables sur le cercle des corrélations du plan 1&3 Licence IUP SIAL 4

Etude des axes 2 et 3 Le plan 2 : 3 d inertie 38,8% nous permettra avec une bonne qualité de représentation de 50% d étudier la variable chômage en fonction de la variable densité. Tableau 3: sélection des variables sur le plan 2&3 Représentons ces deux variables sur un cercle de corrélation : Avec un qtl de 70% ce plan d étude nous permettra d expliquer la différence entre les deux groupes de département observé sur le graphique 2. Formant un angle droit ces deux variable sont indépendantes l une de l autre sur ce plan. Graphique 6: variables sur le cercle des corrélations du plan 2&3 Licence IUP SIAL 5

Etude des axes 1 et 4 Nous allons pousser notre étude jusqu à ce plan car il parait fort intéressant. En effet comme nous pouvons le voir sur le tableau ci-dessous, l axe 4 malgré une faible qtl est induit par la variable «jeune». Tableau 4: sélection des variables sur le plan 1&4 Ainsi ce plan 1 : 4 d inertie 60,4% nous permettra d étudier les départements «jeune» par rapport au problème des accidents et aux infractions sur la route. Etapes 4 : étude des individus Maintenant que nous avons définis nos plans d étude nous allons procéder à l étude des individus autrement dits des départements en fonction de leur contribution relative «cr» sur les différents axes. A l aide du tableau de sélection de individus en fonction de leur contribution relative nous allons pouvoir mettre en valeur certain département et former des groupements caractéristiques sur les plans étudiés. Plan 1 : 2 Ce plan va nous permettre de mesurer l influence du chômage sur les accidents et les infractions de la route. Avec un cr de 0,025 nous avons pu sélectionner les départements contribuant le plus à la formation de l axe 1 induite par les variable «accidents». Les Bouche du Rhône (13), Le Rhône (69), Le Nord (59), Le Pas de Calais (62) ainsi que la petite couronne parisienne (92, 93, 94) sont les départements qui influencent l axe 1. Avec un cr de 0,025 les département contribuant à la formation de l axe 2 induit par la variable «chômage» sont les Ardennes (8), l Aude (11), le Gard (30), l Hérault (34), l Ile et Vilaine (35), les Pyrénées Atlantiques (64). Nous avons représenté ces deux regroupements sur le graphique suivant : Licence IUP SIAL 6

2 3 1 Graphique 7: le plan 1&2 avec sélection des individus bien représentés Sur le graphique nous pouvons constater trois groupes de départements : 1) Départements où le chômage est faible mais peu touché par les accidents. 2) Départements où le chômage est important avec peu d accident de la route. 3) Départements où le chômage est important avec beaucoup d accident de la route Plan 1 :3 Ce plan va nous permettre de mesurer l influence de la densité de la population sur les accidents et les infractions de la route. Avec un cr de 0,025 l axe est toujours représenté par les départements cités précédemment (13, 69, 59, 62, 92, 93, 94). Avec un cr de 0,020 l axe 3 induit par la variable «densité» est fortement contribué par les départements suivants : Le Pas de Calais (62), La Seine et Marne (77) et la Gironde (33) ainsi que la petite couronne parisienne (92, 93, 94). Licence IUP SIAL 7

3 1 2 Graphique 8: le plan 1&3 avec sélection des indivus bien représentés Sur le graphique nous pouvons constater trois groupes de départements : 1) Départements où la densité est moyenne mais peu touché par les accidents. 2) Départements où la densité est moyenne avec beaucoup d accident de la route. 3) Départements où la densité est importante avec beaucoup d accident de la route Plan 2 : 3 Ce plan va nous permettre d étudier les caractéristiques sociodémographiques des département français en comme paramètre le chômage et la densité de population. Ceci expliquera notamment la formation du nuage de point de la figure 2. 1 3 2 Graphique 9: le plan 2&3 avec sélection des individus bien représentés Avec une contribution relative de 0,20 l axe 2 et l axe 3 sont représentés par les même départements cités précédemment. Cependant grâce à la sélection des individus de l ACP on peut distinguer trois groupes de département : Licence IUP SIAL 8

1) la petite couronne parisienne avec une forte densité de population mais peu de chômage 2) les départements ayant une faible densité avec un important chômage (Var, Aude, Pyrénées Atlantiques) 3) Les départements de faible densité avec peu de chômage (Mayenne) Replaçons Paris dans ce plan afin de mesurer l écart sociodémographique avec tous les autres départements de la métropole : Graphique 10: le plan 2&3 avec un individu supplémentaire 75 Paris Il est important de constater l écart de l individu 75 qui aurait rendu difficile une bonne interprétation sur l ensemble des autres départements. Ceci est du au fait que la France est très centralisé sur sa capitale. Plan 1 : 4 Ce plan va permettre de situer la variable «jeune» dans le contexte des accidents de la route. 1 2 3 Graphique 11: le plan 1&4 avec sélection des individus bien représentés Licence IUP SIAL 9

L axe 1 induit par la variable «accidents» est représenté par les départements cités précédemment. En revanche ces mêmes départements (13, 92, 93, 94,59) participent à la formation de la variable jeunes induisant l axe 4 avec d autre département comme la Haute Savoie (74) la haute Garonne (31) mais aussi le Gers (32) et l Aveyron (12). Nous avons alors trois groupe de départements : 1) Les départements jeunes mais où le nombre d accident de la route est peu important. 2) Les départements où la part des jeunes est faible et où il y a peu d accidents. 3) Les départements où la part de jeunes est très forte avec beaucoup d accident de la route. Conclusion Grâce à l ACP nous avons pu mené une étude objective et assez approfondis sur la problématique des accidents de la route en France. Nous avons vu d une part que les départements les plus touché par les accidents de la route faisait objet de control fréquent entraînant l augmentation d infraction recensé. En suite il fallait confronter les problème des accident de route selon trois facteurs sociodémographiques : l age, le chômage et la densité de population. A l image d une France coupé en deux, on retient essentiellement que les département les plus touché par les accidents de la route ont une part de jeune importante avec une forte densité de population (92, 93, 94, 69,13). A l inverse les départements de faible densité où la part des jeunes est faible sont peu touchés par les problèmes de sécurité routière (53, 32). Si on nuance ce jugement, certains départements se situent entre les deux situations avec notamment le problème du chômage qui rentre en compte par exemple (2, 30, 34, 83). La France s organise alors comme une structure pyramidale avec un sommet, où convergent les variables, se nommant Paris (75). Source 1) INSEE. La France en fait et en chiffres. [En ligne] disponible sur : <http://www.insee.fr/fr/ffc/liste_theme.asp?theme_id=2> 2) Ministère de l intérieur. Les accidents de la route. [En ligne] disponible sur : <http://www.interieur.gouv.fr/rubriques/a/a3_statistiques/a34_accident_de_la_route/index _html?theme=2000> Ce rapport est disponible sur Internet avec en annexes toutes les données utilisées sur : <http://julientap.free.fr/stats/statistiques.zip> (data.xls) Licence IUP SIAL 10