Analyse de données avec R - M1 - Livret pédagogique

Transcription

1 Analyse de données avec R - M1 - Livret pédagogique Laurent Beauguitte, CNRS, UMR IDEES [email protected] 11 septembre 2015 Ceci est une version provisoire qui sera complétée au fur et à mesure des séances. Merci de ne pas la diuser pour le moment... Table des matières 1 Fonctionnement de R et RStudio 2 2 Manipulation des données et représentations graphiques 3 3 Statistiques uni et bivariées Centralité et dispersion Corrélation et régression linéaire Test du χ Analyse de la variance Statistiques multivariées Analyses factorielles (ACP) Classication régression multiples Analyse de réseaux Caractériser le réseau Caractériser les sommets et les liens Rechercher les classes Visualisation Analyse textuelle Du corpus au tableau lexical entier Fréquences et co-occurrences Analyse factorielle et classication

2 7 Cartographie 9 8 Jeux de données utilisées 10 Introduction Ce livret pédagogique est à compléter avec les scripts commentés et les jeux de données téléchargeables à l'adresse : Dans les chapitres consacrés aux diérentes méthodes d'analyse et de représentation de données, seuls les grands principes sont rappelés. Compléter ce livret par un manuel de statistiques appliqué aux sciences sociales et par un manuel de cartographie est fortement recommandé. Les notations suivantes sont utilisées tout au long du livret : x i : valeur prise par un individu i pour une variable x ; x : moyenne de la variable x ; σ(x) : écart-type de la variable x ; Dernière précision : aucune des méthodes évoquées ici n'est propre à la géographie. Ceci est vrai pour la cartographie (de nombreuses disciplines produisent et analysent des cartes) et plus encore pour les statistiques dans la mesure où les distances et les voisinages ne sont pas ici prises en compte, des méthodes spéciques existent (auto-corrélation spatiale notamment) mais elles ne sont pas abordées en M1. 1 Fonctionnement de R et RStudio R est un logiciel libre d'analyse de données développé depuis RStudio est une IDE (interface de développement) libre développée depuis 2011 et qui a grandement facilité l'utilisation de R (auto-complétion, gestion de l'aide, écriture de packages etc.). R est un logiciel modulaire : un tronc commun existe (r-base) puis, selon ses besoins, on installe des modules (packages) plus spéciques (ex. cartographie, analyse textuelle etc.). Il est nécessaire dans un premier temps d'installer ces modules (fonction install.packages) puis de les charger dans la session (fonction library). Un module est un ensemble de fonctions, une fonction permet d'eectuer une tâche donnée (ex. importer un tableau, calculer une moyenne etc.) et prend des arguments donnés entre parenthèses. Certains de ces arguments sont obligatoires, d'autres sont facultatifs et ces derniers prennent des arguments par défaut qu'il est possible de modier. L'utilisation de l'aide devient vite un réexe... L'utilisation de R suppose l'écriture de scripts (extension.r) qui peuvent être réutilisés et qui doivent être commentés : les lignes commençant par 2

3 des croisillons (#) ne sont pas interprétées par le logiciel et permettent de commenter son script. Un exemple minimal de script #installation du package igraph et des dépendances install.packages("igraph", dependencies = TRUE) #chargement du package library(igraph) Dernier point : RStudio ne peut pas fonctionner si R n'est pas installé ; par contre, lorsque les deux logiciels sont installés, il sut de démarrer RStudio pour commencer à travailler. Contenu de la séance : principe, interface, installer un package, consulter l'aide, écrire un script, type d'objets. 2 Manipulation des données et représentations graphiques Packages utilisés : reshape2 et dplyr Contenu de la séance : sélection de données, recodage, données manquantes, typage d'objets, jointure, courbes, histogramme, boîte à moustaches. 3 Statistiques uni et bivariées Les statistiques univariées permettent de décrire une variable : on distingue les mesures de centralité résumant la distribution de la variable et les mesures de dispersion mesurant l'étendue de la distribution. Les statistiques bivariées étudient la relation entre deux variables. Selon leurs propriétés (variables qualitatives ou quantitatives), on utilise : la corrélation pour mesurer la relation entre deux variables quantitatives ; le test du chi2 (χ 2 ) pour mesurer la relation entre deux variables qualitatives ; l'analyse de la variance pour mesurer la relation entre une variable quantitative et une variable qualitative. 3.1 Centralité et dispersion Les mesures de centralité les plus communes sont la moyenne et la médiane. Les mesures de dispersion les plus fréquentes sont le minimum, le maximum, l'étendue (maximum - minimum), l'espace interquartile (Q3-3

4 Q1), la variance (moyenne des carrés des écarts à la moyenne), l'écart-type (racine carrée de la variance) noté σ et le coecient de variation (σ(x)/ x). Pour mémoire, la moyenne et l'écart-type sont sensibles aux valeurs extrêmes : la médiane ne l'est pas. L'écart-type permet de comparer deux variables d'unités diérentes (sauf si la moyenne de l'une est proche de zéro, l'écart-type s'approchant alors de l'inni). Fonctions summary, mean, min, max, sd (standard deviation, écart-type). 3.2 Corrélation et régression linéaire La corrélation entre deux variables quantitatives vise à déterminer si leurs variations sont liées. On peut imaginer trois cas types : les variables varient dans le même sens (quand l'une augmente, l'autre augmente également) et le coecient de corrélation s'approche de 1 ; les variables évoluent de façon opposée (quand l'une augmente, l'autre baisse) et le coecient de corrélation s'approche de - 1 ; les variables n'ont aucune relation et le coecient est proche de zéro. La visualisation de la relation entre les variables est impérative : un même coecient de corrélation peut masquer des situations très diérentes... La régression linéaire suppose un sens dans la relation (et donc une hypothèse!) : la variation de x est sensée expliquer (au sens statistique) la variation de y et peut donc s'écrire sous la forme d'une équation y = ax + b (d'où le terme de régression linéaire). La qualité de la régression se mesure à l'aide du coecient de détermination ou r 2. r 2 = cov(x,y) σ(x)σ(y) Examiner le r 2 ne sut pas, il faut également contrôler l'hétéroscédasticité des résidus : en clair, la variance des résidus doit rester stable pour toutes les valeurs de x. Fonctions plot, abline, cor.test, lm 3.3 Test du χ 2 Le test du χ 2 se fait sur un tableau de contingence, c'est-à-dire un tableau croisant les eectifs (et non les taux) de deux variables qualitatives. Dans un tableau de contingence, les sommes en ligne et en colonnes ont un sens. Le déroulement du test est supposé connu. Rappelons tout de même les précautions suivantes : l'eectif total du tableau de contingence doit être supérieur ou égal à 20 ; l'eectif marginal du tableau de contingence doit être supérieur ou égal à 5 ; l'eectif théorique des cases du tableau de contingence doit être supérieur ou égal à 5 dans 80% des cas. 4

5 Si l'une de ces règles n'est pas respectée, R produit un warning mais calcule tout de même les valeurs du test. Fonction chisq.test La fonction renvoie une liste de neuf éléments permettant une analyse complète. Attention cependant à ne sélectionner que les variables à analyser. 3.4 Analyse de la variance L'analyse de la variance (analysis of variance ou aov en anglais) croise une variable quantitative (ex. une suite de notes) et une variable qualitative (ex. des noms d'enseignant-e-s). Le principe est de comparer la variabilité à l'intérieur de groupes dénis qualitativement (variabilité intraclasse ou intragroupe) et la variabilité entre ces groupes (variabilité interclasse ou intergroupe). On calcule pour chaque groupe la somme des carrés des écarts à la moyenne notée SC. La somme des carrés intergroupes s'écrit SC inter = m N j ( M j M) 2 (1) j=1 où m désigne le nombre de modalités de la variable qualitative, N j l'effectif de chaque groupe j, Mj la moyenne pour chaque groupe j et M la moyenne générale. La variabilité intragroupe (SC inter ) est la somme des variabilités internes à chaque groupe. Pour tenir compte des eectifs (plus le nombre de modalités est élevé, plus la variabilité augmente de manière structurelle), on divise ensuite SC inter par m 1 et SC intra par N m an d'obtenir les carrés moyens. Le ratio F = SC inter SC intra permet l'interprétation : plus F est élevé, plus cela indique un lien entre les deux variables. On compare ensuite le F observé avec un F théorique pour connaître la signicativité du résultat. Fonction aov 4 Statistiques multivariées Les statistiques multivariées servent soit à résumer l'information d'un tableau de données pour en faciliter l'interprétation (analyse factorielle, classication), soit à expliquer une variable par plusieurs autres (régression multiple). 4.1 Analyses factorielles (ACP) L'objectif de ces méthodes est de simplier l'information, elles ne supposent aucune hypothèse a priori et se rangent donc dans la catégorie des 5

6 statistiques dites descriptives. Elles s'appliquent à des données quantitatives (Analyse en composantes principales), à un tableau de contingence (Analyse factorielle des correspondances), à des données qualitatives via un tableau disjonctif complet 1 (Analyse des correspondances multiples). Seule l'acp est décrite ici mais le fonctionnement général est similaire pour les deux autres méthodes. Le principe général est de partir d'un nuage de points de n dimensions où n est égal au nombre de variables (et donc chaque variable compte par 1/n de l'information totale) à un nuage à x composantes, les composantes principales prenant en charge plus de 1/x de la variance globale du nuage de points. Les étapes à suivre pour mener à bien une Analyse en composantes principales (ACP, PCA en anglais) sont les suivantes : centrer (x i x) et réduire (x i /σ) les variables (les variables auront toutes une moyenne de 1 et un écart-type de 1). Cette étape est facultative si toutes les variables sont exprimées dans la même unité ; analyse des valeurs propres (eigenvalues) qui donnent pour chacune des composantes la part de l'inertie totale (variance) prise en charge ; interprétation du rôle des variables dans la structuration des axes ; position des individus sur les plans factoriels ; contribution des variables et des individus. Des sorties graphiques permettent à chaque étape de faciliter l'interprétation. Fonction dudi.pca du package ade4 4.2 Classication Le principe d'une classication est simple : grouper ensemble des individus qui se ressemblent. En langage statistique, on parlera de minimiser la variance interclasses et de maximiser la variance intraclasses. Il existe des classications ascendantes - on part des individus et, par agrégations successives, on obtient une seule et unique classe - et des classications descendantes - on part de l'ensemble des individus et on réalise des partitions successives. En géographie, l'une des chaînes de traitement classique - mais non obligatoire - consiste à réaliser une ACP sur des variables quantitatives puis de réaliser une classication ascendante hiérarchique (CAH - ACH en anglais) sur les coordonnées des individus sur les x premiers axes. La liste des étapes à respecter est la suivante : choix d'une distance (on choisit souvent une distance euclidienne pour des taux, une distance du χ 2 2 pour des stocks) ; 1. Dans un tableau disjonctif complet, toutes les modalités des variables sont codées en présence (1) absence (O). 2. A dénir... 6

7 choix d'un critère d'agrégation (minimum,si le graphe est devenue une méthode de représentation des données très popu maximum, Ward etc.) ; choix de la partition (ie nombre de classes retenues) ; étude du prol des classes. Fonctions : agnes, pltree et cuttree du package cluster 4.3 régression multiples Le principe de la régression multiple est d'expliquer la variation d'une variable dite à expliquer (ou dépendante) pour des variables dites explicatives (ou indépendantes). L'objectif est d'obtenir un modèle performant (R 2 ) élevé, où les variables explicatives sont signicatives et aussi peu nombreuses que possible (principe de parcimonie). Fonction glm 5 Analyse de réseaux L'analyse de réseaux suppose l'étude d'un phénomène relationnel entre des entités, symbolisées par de points (sommets, n uds), les relations étant symbolisés par des liens, orientés ou non. Les liens et les sommets peuvent porter des attributs. Lorsqu'il est possible de relier deux points par une suite de liens, on dit qu'il existe un chemin entre ces points. Cette très courte introduction peut être complétée par le glossaire du groupe fmr 3. L'ensemble des manipulations sera eectué avec le package igraph. 5.1 Caractériser le réseau Un réseau peut être caractérisé par les éléments suivants (liste non exhaustive) : le nombre de sommets et le nombre de liens ; le nombre et la taille des composantes connexes (ensemble de points entre lesquels existe au moins un chemin) ; le diamètre (plus long des plus courts chemins) ; la densité (nombre de liens présents divisés par le nombre de liens possibles) ; le degré de centralisation (réseau égalitaire ou non). 5.2 Caractériser les sommets et les liens L'un des objectifs de l'analyse de réseau est d'identier les sommets (plus rarement les liens) les plus importants. Un sommet peut être important : il a de nombreux contacts (centralité de degré) ;

8 il est un intermédiaire obligé (centralité d'intermédiarité - betweenness) ; il est proche (en nombre de liens) des autres sommets (centralité de proximité - closeness) ; il a des liens avec des personnes elles-mêmes centrales (centralité de vecteurs propres - eigenvalues) Certaines positions peuvent également être importantes comme dans le cas des points d'articulation (leur suppression augmente le nombre de composantes connexes). Pour les liens, on peut chercher les ponts (bridge) dont la suppression augmente le nombre de composantes connexes et les liens ayant une forte intermédiarité. Les distributions d'attributs locaux (concernant sommets ou liens) peut servir à caractériser des réseaux dans leur ensemble (réseau scale-free par exemple). 5.3 Rechercher les classes On recherche souvent quels groupes de sommets sont fortement liés les uns aux autres. De nombreuses méthodes existent pour identier ces sousgroupes (clique, kcores, blockmodel, algorithme de Louvain etc.) et le choix d'une méthode est en partie liée aux caractéristiques du réseau (densité élevée ou non, nombre de sommets et de liens). Plusieurs méthodes sont présentées dans le script correspondant à cette séance. 5.4 Visualisation Maîtriser un minimum la sémiologie graphique peut aider à produire des graphes lisibles... Par ailleurs, tout graphe doit nécessairement être accompagné d'une légende (que signient les liens? les sommets? les couleurs et/ou les épaisseurs utilisées?) 6 Analyse textuelle Il existe diérentes méthodes d'analyse lexicale, celle présentée ici est directement issue des travaux liés à l'analyse factorielle de Benzécri. Elle mobilise les principes de l'analyse factorielle. 6.1 Du corpus au tableau lexical entier L'analyse de texte avec R suppose tout d'abord de découper un texte en morceaux de taille comparable appelés unités de contexte (UC). Celles-ci sont soit pré-existantes (ex analyse de tweets, d'items de ux RSS), soit dénies par l'utilisateur. Ces UC sont par la suite considérées comme des individus statistiques. L'ensemble des termes utilisés (à l'exclusion des mots outils type 8

9 le, la, et etc.) forme l'ensemble des variables. Le tableau lexical entier croise les UC (ou individus) en ligne et les termes en colonnes (variables), un 1 indiquant la présence du terme x dans l'uc X, un 0 son absence. Ce tableau comprend un très grand nombre de zéros, on parle de tableau (ou de matrice) hyper-creux. 6.2 Fréquences et co-occurrences Une première analyse très basique consiste à étudier la fréquence des termes lexicaux : comment de termes diérents? quelle est la distribution (elle suit généralement une loi de Zipf)? combien d'hapax (termes utilisés une seulefois dans un corpus donné)? Il est possible de réaliser facilement des nuages de mots où la taille varie selon le nombre d'occurrences (package wordcloud). Il est possible ensuite de regarder quels sont les termes souvent associés ensemble dans les unités de contexte : on choisit un seuil entre 0 et 1 (coprésence systématique), les termes à rechercher et R donne les associations statistiquement signicatives. 6.3 Analyse factorielle et classication Le tableau lexical entier peut être considéré comme un tableau de contingence (en ligne, on obtient le nombre de termes dans une unité de contexte ; en colonne, la somme donne le nombre d'unités de contexte où se trouve un terme donné) ; il est donc possible de réaliser des analyses factorielles des correspondances puis des procédures de classication. La diérence majeure concerne la part de variance expliquée par les axes : le tableau étant hyper-creux, la variance expliquée par les premiers axes factoriels est souvent faible (quelques %). Hormis ce détail, la logique est la même Packages utilisés : tm (text mining), ade4 et wordcloud 7 Cartographie Les principes de base de la sémiologie graphique (utilisation adéquate des variables visuelles) sont supposées connues. Cartographier avec R suppose deux éléments : un fond de carte au format.shp et un tableau de données : la jointure entre les deux suppose évidemment un code commun des unités spatiales. Contenu de la séance : carte en cercles proportionnels, carte choroplèthe, carte de ux (package cartography) 9

10 8 Jeux de données utilisées Séances 1 à 4 : extrait des données Cartelec (Céline Colange, Laurent Beauguitte et Sylviano Freire-Diaz, 2013, Base de données socio-électorales Cartelec ( )), Séance 5 et 7 : extrait de la base de données PUR Séance 6 : Flux RSS internationaux émis par Le Monde en décembre