TP statistiques : Analyses en Composantes Principales (ACP) Introduction Nous allons, à partir données du ministère de l intérieur et l INSEE, étudier les divers facteurs liés aux accidents de la route. Nous allons traiter un tableau de 95 individus représentant les départements de la France métropolitaine (remarque : nous avons regroupé la Corse sous un seul département «20») et de 5 variables que nous allons décrire ci après : 1) Accidents : Nombre d accidents recensés en 2000 2) Infractions : Nombre d automobilistes en infractions contrôlés en état d ivresse ou en excès de vitesses en 2000 3) Densité : Nombre d habitant au km2 en 2000 4) Jeunes : Taux de jeunes ayant entre 20 à 29 ans en 2000 5) Chômage : Taux de chômage en 2000 Etape 1 : Analyse des données générales Nous allons regarder le plan principal 1 et 2 formé par les axes principaux 1 et 2 afin de voir comment se répartissent les individus dans le nuage de point dans le but d éliminer certains individus qui fausserait l analyse ou d identifier des groupes d individus formant des nuages bien distinct. Graphique 1: Les individus sur le plan principal 1&2 L individu 75 correspondant au département de Paris est isolé du nuage de point. Ce dernier fausse l analyse en composante principale par conséquents il sera écarté de l analyse et fera l objet d une analyse supplémentaire. Licence IUP SIAL 1
Voici le nouveau nuage de points constitués de 94 individus : Graphique 2: Les sur plan principal 1&2 après suppression du point 75 Les individus se répartissent de manière homogène malgré l apparition de deux groupes distincts de part et d autre de l axe des ordonnées. Nous verrons plus tard que ce constat est caractéristique de la répartition sociodémographique des départements. Etape 2 : Etude des valeurs propres Voici le diagramme en bâton représentant l inertie totale. Nous choisissons d étudier les axes 1, 2 et 3. Cependant il est intéressant de constater que les plans formés par les axes 1et 2 et formés par les axes 1 et 3 ont une inertie équivalente de 65% environ. Remarque : L axe 4 a une inertie relativement faible par rapport au trois précédentes mais s avère intéressante car il est lié à une variables particulièrement importante pour l étude : le taux de jeune. Graphique 3 : diagramme d'inertie totale Licence IUP SIAL 2
Etape 3 : Etudes des variables Nous allons interpréter la synthèse numérique des variables à l aide de représentation graphiques des variables sur les axes principaux. Pour cela nous allons étudier tout particulièrement les qtl (cosinus carrée) qui nous informe sur la qualité de représentation d une variable sur un axe. Etude axe 1 et 2 L axe 1 semble représenter les variables «accidents» avec des qlt voisines de 70% et l axe 2 semble représenter la variable «chômage» avec une qlt supérieur à 50%. Tableau 1: sélection des variables sur le plan 1&2 Représentons maintenant ces variables portés par le plan 1 : 2 sur un cercle de corrélations : Il est intéressant de constater les variables portés par l axe 1 et les variables portés par l axe 2 forme un angle droit signifiant l absence de corrélation linéaire. Les quatre variables étudiés sont proches du cercle de corrélation ainsi par l intermédiaire de ce plan nous pourrons étudier l influence du chômage sur le nombre d accident. De plus nous pouvons constater que les variables «infractions», «accidents» et «jeunes» sont fortement liées entre elles. Graphique 4: variables sur le cercle des corrélations du plan 1&2 Licence IUP SIAL 3
Etude des axes 1 et 3 Sur le plan 1 et 3 une qlt de 70% permet de représenter les variables «accidents» «infractions» et «densité». L axe 1 est fortement induit par «accidents» tandis que l axe 3 est induit par la variable «densité». Tableau 2: séléction des variables sur le plan 1&3 Avec une inertie de 63,9% ce plan sera tout aussi intéressant à étudier que le plan 1 : 2. Représentons ces variables du plan 1 : 3 sur un cercle de corrélation : Avec une qualité de représentation de 80% la variable «accidents» disparaît sur ce plan l axe est induit par la variable «infractions» tandis que l axe 3 est induit par la variable «densité». Sur ce plan nous pouvons constater que la variable «accidents» est liée avec la variable «infractions». Graphique 5: variables sur le cercle des corrélations du plan 1&3 Licence IUP SIAL 4
Etude des axes 2 et 3 Le plan 2 : 3 d inertie 38,8% nous permettra avec une bonne qualité de représentation de 50% d étudier la variable chômage en fonction de la variable densité. Tableau 3: sélection des variables sur le plan 2&3 Représentons ces deux variables sur un cercle de corrélation : Avec un qtl de 70% ce plan d étude nous permettra d expliquer la différence entre les deux groupes de département observé sur le graphique 2. Formant un angle droit ces deux variable sont indépendantes l une de l autre sur ce plan. Graphique 6: variables sur le cercle des corrélations du plan 2&3 Licence IUP SIAL 5
Etude des axes 1 et 4 Nous allons pousser notre étude jusqu à ce plan car il parait fort intéressant. En effet comme nous pouvons le voir sur le tableau ci-dessous, l axe 4 malgré une faible qtl est induit par la variable «jeune». Tableau 4: sélection des variables sur le plan 1&4 Ainsi ce plan 1 : 4 d inertie 60,4% nous permettra d étudier les départements «jeune» par rapport au problème des accidents et aux infractions sur la route. Etapes 4 : étude des individus Maintenant que nous avons définis nos plans d étude nous allons procéder à l étude des individus autrement dits des départements en fonction de leur contribution relative «cr» sur les différents axes. A l aide du tableau de sélection de individus en fonction de leur contribution relative nous allons pouvoir mettre en valeur certain département et former des groupements caractéristiques sur les plans étudiés. Plan 1 : 2 Ce plan va nous permettre de mesurer l influence du chômage sur les accidents et les infractions de la route. Avec un cr de 0,025 nous avons pu sélectionner les départements contribuant le plus à la formation de l axe 1 induite par les variable «accidents». Les Bouche du Rhône (13), Le Rhône (69), Le Nord (59), Le Pas de Calais (62) ainsi que la petite couronne parisienne (92, 93, 94) sont les départements qui influencent l axe 1. Avec un cr de 0,025 les département contribuant à la formation de l axe 2 induit par la variable «chômage» sont les Ardennes (8), l Aude (11), le Gard (30), l Hérault (34), l Ile et Vilaine (35), les Pyrénées Atlantiques (64). Nous avons représenté ces deux regroupements sur le graphique suivant : Licence IUP SIAL 6
2 3 1 Graphique 7: le plan 1&2 avec sélection des individus bien représentés Sur le graphique nous pouvons constater trois groupes de départements : 1) Départements où le chômage est faible mais peu touché par les accidents. 2) Départements où le chômage est important avec peu d accident de la route. 3) Départements où le chômage est important avec beaucoup d accident de la route Plan 1 :3 Ce plan va nous permettre de mesurer l influence de la densité de la population sur les accidents et les infractions de la route. Avec un cr de 0,025 l axe est toujours représenté par les départements cités précédemment (13, 69, 59, 62, 92, 93, 94). Avec un cr de 0,020 l axe 3 induit par la variable «densité» est fortement contribué par les départements suivants : Le Pas de Calais (62), La Seine et Marne (77) et la Gironde (33) ainsi que la petite couronne parisienne (92, 93, 94). Licence IUP SIAL 7
3 1 2 Graphique 8: le plan 1&3 avec sélection des indivus bien représentés Sur le graphique nous pouvons constater trois groupes de départements : 1) Départements où la densité est moyenne mais peu touché par les accidents. 2) Départements où la densité est moyenne avec beaucoup d accident de la route. 3) Départements où la densité est importante avec beaucoup d accident de la route Plan 2 : 3 Ce plan va nous permettre d étudier les caractéristiques sociodémographiques des département français en comme paramètre le chômage et la densité de population. Ceci expliquera notamment la formation du nuage de point de la figure 2. 1 3 2 Graphique 9: le plan 2&3 avec sélection des individus bien représentés Avec une contribution relative de 0,20 l axe 2 et l axe 3 sont représentés par les même départements cités précédemment. Cependant grâce à la sélection des individus de l ACP on peut distinguer trois groupes de département : Licence IUP SIAL 8
1) la petite couronne parisienne avec une forte densité de population mais peu de chômage 2) les départements ayant une faible densité avec un important chômage (Var, Aude, Pyrénées Atlantiques) 3) Les départements de faible densité avec peu de chômage (Mayenne) Replaçons Paris dans ce plan afin de mesurer l écart sociodémographique avec tous les autres départements de la métropole : Graphique 10: le plan 2&3 avec un individu supplémentaire 75 Paris Il est important de constater l écart de l individu 75 qui aurait rendu difficile une bonne interprétation sur l ensemble des autres départements. Ceci est du au fait que la France est très centralisé sur sa capitale. Plan 1 : 4 Ce plan va permettre de situer la variable «jeune» dans le contexte des accidents de la route. 1 2 3 Graphique 11: le plan 1&4 avec sélection des individus bien représentés Licence IUP SIAL 9
L axe 1 induit par la variable «accidents» est représenté par les départements cités précédemment. En revanche ces mêmes départements (13, 92, 93, 94,59) participent à la formation de la variable jeunes induisant l axe 4 avec d autre département comme la Haute Savoie (74) la haute Garonne (31) mais aussi le Gers (32) et l Aveyron (12). Nous avons alors trois groupe de départements : 1) Les départements jeunes mais où le nombre d accident de la route est peu important. 2) Les départements où la part des jeunes est faible et où il y a peu d accidents. 3) Les départements où la part de jeunes est très forte avec beaucoup d accident de la route. Conclusion Grâce à l ACP nous avons pu mené une étude objective et assez approfondis sur la problématique des accidents de la route en France. Nous avons vu d une part que les départements les plus touché par les accidents de la route faisait objet de control fréquent entraînant l augmentation d infraction recensé. En suite il fallait confronter les problème des accident de route selon trois facteurs sociodémographiques : l age, le chômage et la densité de population. A l image d une France coupé en deux, on retient essentiellement que les département les plus touché par les accidents de la route ont une part de jeune importante avec une forte densité de population (92, 93, 94, 69,13). A l inverse les départements de faible densité où la part des jeunes est faible sont peu touchés par les problèmes de sécurité routière (53, 32). Si on nuance ce jugement, certains départements se situent entre les deux situations avec notamment le problème du chômage qui rentre en compte par exemple (2, 30, 34, 83). La France s organise alors comme une structure pyramidale avec un sommet, où convergent les variables, se nommant Paris (75). Source 1) INSEE. La France en fait et en chiffres. [En ligne] disponible sur : <http://www.insee.fr/fr/ffc/liste_theme.asp?theme_id=2> 2) Ministère de l intérieur. Les accidents de la route. [En ligne] disponible sur : <http://www.interieur.gouv.fr/rubriques/a/a3_statistiques/a34_accident_de_la_route/index _html?theme=2000> Ce rapport est disponible sur Internet avec en annexes toutes les données utilisées sur : <http://julientap.free.fr/stats/statistiques.zip> (data.xls) Licence IUP SIAL 10