Analyse des données - Logiciel R



Documents pareils
Ingénieur Jurisprudences Constantes

Le classement des villes les plus gay-friendly de France

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

La Banque Postale Présentation de l activité Secteur Public Local. Bruges, le 3 juillet 2013

Dossier de presse Contact presse Barbara Brelle-Lenoir

Vos interlocuteurs en région

Décrets, arrêtés, circulaires

L immobilier de bureaux : L attractivité des métropoles françaises. Regard croisé salariés et dirigeants d entreprise SIMI DÉCEMBRE 2014

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

ESIEA PARIS

Extraction d informations stratégiques par Analyse en Composantes Principales

Bilan des formations présentées lors de la semaine étudiant SEGEUN 2013

VAGUE E. 5 ans (renouvelé par arrêté du 15 Nantes Audencia Nantes (Ecole de management) AUDENCIA septembre 2008) VAGUE F

Les marchés de l immobilier à l international. Évolutions, structures et performances

Avec HMI-THIRODE, goûtez la tranquillité!

DANSE, CHANT ET SPECTACLE LE SEJOUR INFOS PRATIQUES. Adresse du séjour

La protection sociale obligatoire du chef d entreprise indépendant

Ci-après, la liste des masters proposés par les universités françaises pour se former, en 2 ans après la licence, à l un des métiers de la culture.

metal USB PEOPLE tel USB people Electronique 03 Objets et Cadeaux Publicitaires

SOLUTIONS CRÉDIT VOS CLIENTS VONT ADORER!

Les masters en langues

LES MASTERS 2 DANS LE DOMAINE DES STAPS EN FRANCE 2012/2013 NORD-PAS-DE-CALAIS. Université Lille 2

SÉJOURS LINGUISTIQUES

Palmarès 2009 des formations RH

Entrées d'air hygroréglables

Décrets, arrêtés, circulaires

Décrets, arrêtés, circulaires

Spécialité Etablissement Formation

ACP Voitures 1- Méthode

Votre quotidien à Blanche

Décrets, arrêtés, circulaires

Le jour de la formation, deux possibilités s offriront à vous afin de suivre les conférences en direct, à distance, et en ligne :

Diplôme d expertise comptable (DEC)

Sondage exclusif Les Français et l esprit d entreprise

ECOLES DE COMMERCE. En ce qui concerne le concours, elles se répartissent en trois catégories

Nos Services. Un Accueil de Qualité. La Relation Terrain. Un Parc Diversifié. Notre Priorité : Votre Sécurité. Un Transport Maîtrisé

FORUM STAGES JOBS EMPLOIS

CONSEIL AUX PERSONNES CONSEIL AUX ORGANISATIONS

Décrets, arrêtés, circulaires

Décrets, arrêtés, circulaires

MER DU NORD. Seine. Toulouse. Grande culture (céréales, oléagineux) Cultures maraîchères (fruits, fleurs, légumes)

Décrets, arrêtés, circulaires

PRÉSENTATION Stanley Security France

COURS CAPITOLE CONCOURS TREMPLIN 2 :

ADRESSES PHYSIQUES DES BUREAUX MARINE CENTRES D INFORMATION ET DE RECRUTEMENT DES FORCES ARMEES (CIRFA)

L'analyse des données à l usage des non mathématiciens

ACN Energie en partenariat avec Direct Energie Présentation marché et produits

RECOMMANDATION MEDIA. La Boîte à Pizza

Consultant indépendant en portage salarial

MTO-EUROGEM, une référence gagnante dans l univers

BILAN D ACTIVITE DU PÔLE DE SOUTIEN PSYCHOLOGIQUE Année 2010

Guide de l année-recherche

3 - Admissions 3.1 Banques et concours communs

L auto-archivage en maths, quoi de neuf?

DES PROJETS UNF3S INVESTISSEMENT D AVENIR IDEFI TIL 15 JUIN 2015 > 15 SEPTEMBRE DATE DE L APPEL A PROJETS :

Lancement de la mise à jour de la feuille de route nationale «Infrastructures de Recherche»

Les cartes de Bruit. Recueil des données du trafic aérien. La a Mise en œuvre de la Directive Service Technique de l Aviation Civile

1 Complément sur la projection du nuage des individus

vos contacts CREDIT FONCIER IMMOBILIER

Nous sommes à vos côtés pour valoriser et gérer vos actifs privés et professionnels

ENQUÊTE SUR LE COÛT DE LA VIE ETUDIANTE

Faire une école de commerce? Bonne idée! Les écoles de commerce

PROGRAMME D ÉTUDES (SPÉCIALITÉ) 1 Ingénieur diplômé de l'école centrale de Marseille UNIF

LISTE DES ECOLES PERMETTANT UN RECLASSEMENT DANS LE 3 ème GRADE D INGENIEUR DE LA FILIERE TECHNIQUE

Les Formations en Journalisme

Mémo d utilisation de ADE-4

ENQUETE SUR LA SITUATION DES GRANDES VILLES ET AGGLOMERATIONS EN MATIERE D ASSURANCES DOMMAGES

Masters Banque. des Professionnels. Master : Economie et Finance Internationales. Master : Activités bancaires. entreprises

17E90 8E20 23E40 11E90 22E90 3E20

BNP Paribas accompagne vos projets innovants PÔLE INNOVATION

Le marché immobilier en France

LES DIFFERENTS LICENCES PROPOSEES EN FRANCE ET DISPONIBLE POUR LA DAP BLANCHE

Découvrez l offre Nexity Studéa

2011/12/27. Click to edit Master subtitle style

Masters en lien avec le management sportif

Tomate. TOMATE ronde Belgique extra 57-67mm colis 6kg TOMATE ronde Belgique extra 67-82mm colis 6kg 1.60

Master 2 Juriste d'affaires. Master 2 Juriste d'affaires Internationales Master 2 Droit de l'entreprise spécialité Droit des Affaires et Fiscalité

Bulletin officiel n 33 du 12 septembre 2013

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

1.2 AD Missions a pour vocation de prendre en charge la gestion du contrat de travail et des contrats commerciaux qu aura prospectés l Adhérent.

Classement SMBG 2012 des Meilleurs Masters, MS et MBA

La métrologie au laboratoire. vigitemp 10. centrale de surveillance et de traçabilité vigitemp kit de cartographie vigicart

Poursuites d études après un DUT TC dans l Académie de Lille

«Boire est un besoin, mais c est aussi un plaisir, un acte social lors d évènements ou de bons moments»

CODIFICATION ADMINISTRATIVE DE L ARRANGEMENT EN VUE DE LA RECONNAISSANCE MUTUELLE DES QUALIFICATIONS PROFESSIONNELLES ENTRE POUR LE QUÉBEC :

Liste des établissements adhérant à Worldcat

CONCOURS COMMUN A BIO... 2

FICHE TECHNIQUE LES WORKSHOPS GROUPES DE TRAVAIL

Liste des diplômes des métiers de la formation 2000/2001 par région et organisme

Nous avons tous un don qui peut sauver une vie. D e v e n i r. donneur de moelle. osseuse

zone 1 zone 2 zone 3 zoe 4 zone 5 zon 6 Abo mensuel 15,40 15,40 15,40 15,40 15,40 15,40 15,40 0,0498 0,0504 0,0511 0,0518 0,0524 0,0532

Réseau CAI Bpifrance L EQUIPE DES CHARGES D AFFAIRES INTERNATIONAUX UBIFRANCE

>>> Colonie sportive : Activ'Fun 9-14 ans en Auvergne Pâques 2015

N 1 en publicité nationale en performance en formation en gestion. institut exclusivement féminin

COUT DE LA VIE ETUDIANTE SELON LES VILLES UNIVERSITAIRES

CONTENT AND READERS FIRST

VENTILATION POUR LE CONFORT D ETE

OBJET : ELABORATION DU CLASSEMENT SMBG 2014 DES MEILLEURS MASTERS, MS ET MBA

Transcription:

Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 3. L Analyse en Composantes Principales (ACP) Corrigé 1. L ACP des données température 1. Importer le jeu de données temperature. 2. Choisir la colonne Ville comme identificateur des individus : Données Jeu de données actif nom des cas. 3. Réaliser l ACP (FactoMineR Principal Components Analysis) du tableau des températures en faisant les choix suivants : variables actives = les 12 mois ; ACP normée : scaled ; Outputs : sélectionner l ensemble des items. Individuals factor map (PCA) Variables factor map (PCA) 4 2 0 2 4 6 Brest Rennes Nantes Lille Nice Paris Toulouse Bordeaux Clermont Vichy Montpellier Marseille Grenoble Strasbourg Lyon janvier décembre février novembre mars octobre avril septembre juillet juin mai aout 4 2 0 2 4 6 4. Quelle est l inertie associée au premier axe factoriel? au second axe? au premier plan factoriel? > res$eig eigenvalue percentage of variance cumulative percentage of variance comp 1 9.5817795809 7.984816e+01 79.84816 comp 2 2.2764183987 1.897015e+01 98.81832 L inertie de l axe 1 est donné par la première valeur propre, soit λ 1 = 9, 58. L inertie de l axe 2 est donné par la seconde valeur propre, soit λ 2 = 2, 27. En pourcentage, cela représente respectivement 79,85% et 18,97%. Le premier plan factoriel (la plan engendré par les deux premiers axes) restitue par onséquent 79, 85% + 18, 97% = 98, 82% 5. Quelle est la variable la plus corrélée à l axe 1? à l axe 2?

$coord janvier 0.7612384 0.6443379-0.02141723 0.050985523 0.031469657 février 0.8804578 0.4690786-0.03355925-0.011652192-0.005336597 mars 0.9687704 0.1560084-0.15435120-0.109217288 0.012442608 avril 0.9693357-0.2036737-0.12174425 0.054072597-0.014960576 mai 0.8727646-0.4747092-0.03855734 0.092588621-0.048219227 juin 0.8635747-0.4993460-0.01242061 0.048863646 0.035383866 juillet 0.8415346-0.5314197 0.08212005-0.011781462 0.026093895 aout 0.8986059-0.4299386 0.06153954-0.040173888 0.038976725 septembre 0.9740289-0.2081014 0.04124477-0.064058662-0.007978425 octobre 0.9801599 0.1704565 0.07418299-0.040077540-0.047967190 novembre 0.9037531 0.4139260 0.08508702 0.002998317-0.048256436 décembre 0.7743349 0.6242957 0.05628254 0.060459976 0.046663216 $cor janvier 0.7612384 0.6443379-0.02141723 0.050985523 0.031469657 février 0.8804578 0.4690786-0.03355925-0.011652192-0.005336597 mars 0.9687704 0.1560084-0.15435120-0.109217288 0.012442608 avril 0.9693357-0.2036737-0.12174425 0.054072597-0.014960576 mai 0.8727646-0.4747092-0.03855734 0.092588621-0.048219227 juin 0.8635747-0.4993460-0.01242061 0.048863646 0.035383866 juillet 0.8415346-0.5314197 0.08212005-0.011781462 0.026093895 aout 0.8986059-0.4299386 0.06153954-0.040173888 0.038976725 septembre 0.9740289-0.2081014 0.04124477-0.064058662-0.007978425 octobre 0.9801599 0.1704565 0.07418299-0.040077540-0.047967190 novembre 0.9037531 0.4139260 0.08508702 0.002998317-0.048256436 décembre 0.7743349 0.6242957 0.05628254 0.060459976 0.046663216 On peut consulter indifféremment les coordonnées des variables sur les axes ou les valeurs des corrélations (identiques car l ACP est normée). Il s avère que la variable la plus liée à l axe 1 est donc Octobre (0,98) et que celle la plus liée à l axe 2 est le mois de Janvier (0,64). 6. Quel est l individu dont la qualité de représentation sur le plan (1,2) est la plus élevée? la moins élevée? $cos2 Bordeaux 0.94668773 0.001161224 5.050943e-02 2.093297e-05 5.974291e-06 Brest 0.23436246 0.763393814 6.013116e-04 7.509928e-05 4.350288e-04 Clermont 0.87988441 0.103705112 1.078243e-04 8.223376e-03 6.431728e-03 Grenoble 0.42894041 0.522580994 3.467164e-03 2.930774e-02 1.469480e-02 Lille 0.97152116 0.019355705 6.919770e-03 1.330036e-06 8.231975e-05 Lyon 0.17813711 0.817127272 1.348841e-04 1.309988e-04 7.876526e-04 Marseille 0.96419529 0.028358560 5.249337e-03 9.368053e-04 7.854061e-05 Montpellier 0.98575843 0.010862202 1.924686e-03 3.259626e-05 1.028595e-04 Nantes 0.05645333 0.886324192 3.715059e-02 1.011754e-02 1.449190e-03 Nice 0.98005143 0.016920844 1.139311e-03 1.216170e-04 9.359768e-04 Paris 0.88935998 0.014094539 2.745069e-02 6.522425e-02 3.895767e-06 Rennes 0.41985296 0.566502170 4.706401e-03 1.329581e-04 2.156904e-03 Strasbourg 0.77565410 0.217137845 5.499506e-05 6.376477e-03 3.710068e-04 Toulouse 0.95255524 0.005855863 5.945086e-04 2.828124e-02 7.598943e-03

Vichy 0.92150642 0.062910418 8.048468e-03 4.056869e-03 2.215126e-03 La qualité de représentation sur le premier plan est déterminée par la somme des cos2 des deux premiers axes. On peut obtenir ce calcul en soumettant la commande : > round(res$ind$cos2[,1]+res$ind$cos2[,2],3) Bordeaux Brest Clermont Grenoble Lille 0.948 0.998 0.984 0.952 0.991 Lyon Marseille Montpellier Nantes Nice 0.995 0.993 0.997 0.943 0.997 Paris Rennes Strasbourg Toulouse Vichy 0.903 0.986 0.993 0.958 0.984 La ville possédant la qualité de représentation maximale est donc Brest. 7. Quel est l individu ayant le plus contribué à la formation de l axe 1? le moins contribué? $contrib Bordeaux 6.7759249 0.03498418 49.47583268 0.036184685 0.029171831 Brest 3.5789091 49.06878939 1.25666928 0.276968607 4.532064329 Clermont 2.0725832 1.02820712 0.03475855 4.678090930 10.335451943 Grenoble 1.6271372 8.34401167 1.79994987 26.849842631 38.028253610 Lille 12.3718247 1.03749158 12.05957373 0.004090506 0.715156376 Lyon 0.4850349 9.36488350 0.05026181 0.086142601 1.463082216 Marseille 16.2497301 2.01168233 12.10721845 3.812963664 0.903006480 Montpellier 11.9672370 0.55505413 3.19773171 0.095570399 0.851889573 Nantes 0.0550515 3.63802974 4.95797180 2.382794962 0.964095962 Nice 25.1063100 1.82452633 3.99424990 0.752420305 16.357410223 Paris 1.0731542 0.07158624 4.53311303 19.007536204 0.003206956 Rennes 1.4400400 8.17848800 2.20914917 0.110134751 5.046888358 Strasbourg 11.7277788 13.81902127 0.11379683 23.284164993 3.826881803 Toulouse 2.0972252 0.05426751 0.17913143 15.037840293 11.413624264 Vichy 3.3720591 0.96897702 4.03059175 3.585254470 5.529816075 La ville ayant le plus contribué à l inertie de l axe 1 est Nice, à hauteur de 25,11%. La ville ayant le moins contribué à l inertie de l axe 1 est Nantes (0,06%). On peut trier les contributions (et les arrondir à deux décimales) à l aide de la commande : > sort(round(res$ind$contrib[,1],2)) Nantes Lyon Paris Rennes Grenoble 0.06 0.49 1.07 1.44 1.63 Clermont Toulouse Vichy Brest Bordeaux 2.07 2.10 3.37 3.58 6.78 Strasbourg Montpellier Lille Marseille Nice 11.73 11.97 12.37 16.25 25.11 8. Quel est l individu ayant le plus contribué à la formation de l axe 2? le moins contribué? > sort(round(res$ind$contrib[,2],2)) Bordeaux Toulouse Paris Montpellier Vichy 0.03 0.05 0.07 0.56 0.97 Clermont Lille Nice Marseille Nantes 1.03 1.04 1.82 2.01 3.64 Rennes Grenoble Lyon Strasbourg Brest 8.18 8.34 9.36 13.82 49.07

La ville ayant le plus contribué à l inertie de l axe 2 est Brest, à hauteur de 49,07%. La ville ayant le moins contribué à l inertie de l axe 2 est Bordeaux (0,03%). On peut trier les contributions à l aide de la commande : 9. Découper la variable Latitude en 3 classes de même effectif avec les libellés nord, centre, sud comme nom de niveaux. Idem pour la variable Longitude (avec les libellés ouest, centre, est ). Appeler les nouvelles variables laticlasse, longiclasse. 10. Réaliser à nouveau l ACP du tableau des températures en faisant maintenant en plus les choix suivants : variables illustratives quantitatives (supplementary variables) = latitude, longitude, amplitude, moyenne ; variables illustratives qualitatives (supplementary factors) = laticlasse, longiclasse. On pourra également utiliser les options graphiques consistant à représenter d une même couleur les individus possédant la même modalité (coloring for individuals = LatiClasse, par exemple). Individuals factor map (PCA) 2 0 2 4 6 sud centre nord Lille Strasbourg Brest Rennes Nantes nord Paris Vichy Clermont centre Grenoble Lyon Nice Bordeaux Toulouse sud Montpellier Marseille 4 2 0 2 4 6 Variables factor map (PCA) Latitude Longitude Amplitude janvier décembre février novembre mars octobre Moyenne avril septembre aout juin mai juillet 11. Produire le premier plan factoriel des individus ainsi que celui des variables à l aide du package dyngraph. Interpréter les deux premiers axes factoriels. L axe 1 de l ACP oppose clairement les villes du sud (Nice, Marseille, Montpellier) à celles du nord (Lille, Strasbourg).

On vérifie aisément que ces villes situées aux extrémités de l axe sont celles qui ont naturellement le plus contribué à sa construction (la contribution de Nice est par exemple égale à 25,11%). Le cercle des corrélations présente clairement un effet taille le long de ce premier axe : l ensemble des variables sont liées à ce facteur et les variables sont de plus très liées les unes aux autres. Cette première dimension représente par conséquent un gradient de température moyenne puisqu il ordonne les villes globalement les plus froides vers les plus chaudes tout au long de l année. Décrivons la situation de deux villes : Nice, situé à l extrémité positive de l axe 1 est donc une ville qui prend des valeurs plus élevées que la moyenne pour toutes les variables allant dans sa direction, c est-à-dire pour l ensemble des mois de l année. A l opposé, une ville comme Lille est globalement plus froide que la moyenne tout au long de l année, car sa position s oppose à la direction de l ensemble des variables. Cette interprétation de l axe 1 est appuyée par les corrélation très élevées des variables supplémentaires Latitude et Moyenne à l axe 1 (respectivement -0,8389 et 0,9997.) L axe 2 quant à lui oppose la ville de Brest (contribution supérieure à 49%) à des villes comme Strasbourg, Grenoble ou Lyon. Cet axe représente donc a priori une opposition est - ouest. Mais si cette opposition est bien marquée pour les ville de la moitié nord, elle l est très peu en ce qui concerne les villes du sud. Cela se répercute sur la valeur de la corrélation de la variable supplémentaire Longitude à l axe 2 (égale à -0.7922), donc moins intense que celle de la latitude à l axe 1. Par contre, la variable amplitude thermique s avère bien plus représentative de cette dimension au vu de sa corrélation avec l axe (-0,9857). Cette dimension décrit donc bien l opposition entre climats caractéristiques du littoral atlantique, à faible amplitude (le cas le plus emblématique étant celui de Brest) et ceux de type continental, à forte amplitude thermique (Grenoble ou Strasbourg). Plus en détail, on remarque que la position de Brest (haut de l axe 2) est en accord avec des corrélations assez élevées positivement entre l axe 2 et les variables décembre, janvier ou février (il y fait particulièrement doux en hiver) et des corrélations assez élevées négativement entre l axe 2 et les mois d été (Brest fait partie des villes les plus fraîches de France en été). 2. Analyse en composantes principales : exemple des jus d orange 6 jus d orange ont été décrits par un panel de dégustateurs du point de vue de 7 descripteurs sensoriels : intensité de l odeur, typicité de l odeur, caractère pulpeux, intensité du goût caractère acide, caractère amer, caractère sucré. On dispose également pour ces 6 jus d orange : de 9 mesures physico-chimiques (ou instrumentales) : Glucose, Fructose, Saccharose, SucreTotal, ph brut, ph après centrifugation, Titre, Acide citrique, Vitamine C. de notes de satisfaction données par 96 consommateurs. 1. Importer le jeu de données Orange.txt. 2. Déclarer la colonne Jus comme le nom des individus. 3. Ajouter au jeu de données la variable qualitative FraisAmb, selon que le jus d orange est vendu au rayon frais ou ambiant. 4. Réaliser l ACP normée du jeu de données en choisissant : les 7 descripteurs sensoriels comme variables actives ; les 9 variables instrumentales comme variables supplémentaires ; la variable FraisAmb comme facteur supplémentaire. 5. Produire le graphique des individus où l on fera apparaître les deux types de jus : frais et ambiant. 6. Produire le cercle des corrélations avec les variables actives et supplémentaires.

7. Refaire une ACP avec les mêmes variables actives mais en choisissant cette fois-ci les 96 notes de satisfaction comme variables supplémentaires.