Gephi dans le paysage de la data visualization Clément Levallois Gephi Support Team et professeur à l EMLyon Business School (2014 -) V 1.0 Nov. 2013 1
Note biographique Formation initiale en économie et sciences de gestion, puis doctorat en histoire des sciences. Je me suis tourné depuis 2008 vers les méthodologies digitales data visualization, analyse de réseaux, natural language processing, applications web, etc. Membre de la Gephi Community Support team Formateur Gephi certifié, créateur de plugins. https://marketplace.gephi.org/service/data-analysis/ En poste à la Rotterdam School of Management (2008-2013), professeur à l EMLyon à partir de 2014. Contact et remarques: sur twitter @seinecle ou www.clementlevallois.net 2
PRESENTATION DE LA DATAVIZ 3
Qu est-ce que la data visualization? C est à la fois proche et différent de Infographics Info visualization Business intelligence Dashboards Graphic design Illustrations scientifiques 4
Data visualization en 4 points Au départ, un jeu de données difficilement lisible Un traitement (minimal ou complexe) des données Une mise en visualisation qui «engage» le public Qui respecte l intégrité des données 5
Exemples http://blog.blprnt.com/blog/blprnt/all-thenames/picture-2-3 2010 http://www.oecdbetterlifeindex.org/ 2011 http://hint.fm/wind/ 2012 http://drones.pitchinteractive.com/ 2013 6
Qu est-ce qui fait une bonne dataviz typique? Une pré-condition: que les données soient respectées Une «marque de fabrique»: les données restent très peu agrégées. Un résultat: le public apprend un fait nouveau, sur le mode de la découverte Un prolongement: l expérience est «addictive», on y retourne, on s en souvient 7
Qui sont les data-vizers? Une communauté de professionnels très présente sur Twitter: Moritz Stefaner (Well Formed Data) Santiago Ortiz (RedDrummer) Jer Thorp (The O.R.C.) Jan Willem Tulp (Tulp Interactive) - Jérôme Cuckier (Facebook) - Kim Rees (Periscopic) - Noah Iliinsky (Complex Diagrams) - Scott Murray (AlignedLeft) - Robert Kosara (Univ. North Carolina) - Andy Kirk (Visualising data) - Fernanda Viégas (Google + Hint.fm) - Martin Wattenberg (Google + Hint.fm) - Gregor Aisch (own consultancy) - Wes Grubbs (Pitch Interactive) Deux plateformes rassemblant des professionnels: http://visualizing.org, http://visual.ly Deux «noms» Edward Tufte («The Visual Display of Quantitative Information») Hans Rosling («Gap Minder») Une figure fondatrice John Tukey (statisticien américain, 1915-2000). «the picture-examining eye is the best finder we have of the wholly unanticipated» Rôle moteur de certains journaux New York Times, Guardian, Washington Post Des écoles et professeurs Alberto Cairo (University of Miami), Manuel Lima (Parsons School of Design), Katy Börner (Indiana University). Des conférences et festivals Eyeo Festival, Resonate (http://resonate.io), Malofiej, SEE (http://www.see-conference.org/) Et en France? Dataveyes, une agence de data visualisation. 8
Les étapes de création d une data visualization Adapté de Ben Fry (2005) http://benfry.com/phd/ Collecte des données Lecture des données («parsing») Data mining Visualisation Publication Crucial Là où on s arrache les cheveux Programmation, Excel, et les autres PDF, pages web, poster géant 9
Exemples de dataviz avec Gephi 10
11
Des références 12
DATAVIZ: POURQUOI LES RESEAUX? 13
Emphase sur la structure Le réseau dans son ensemble pour se faire une idée de la structure générale, puis zoomer sur des zones spécifiques pour faire sens Cependant toujours garder en tête: est-ce que j apprendrais plus de mes données en les visualisant directement sous la forme d un histogramme? (résister à la network hype!) 14
Découplage attributs / structure / flux Un réseau a une structure (topologie) Et des attributs L information peut circuler sur ce réseau A 15h à tel jour, 50 unités on transité vers la droite 15
Community detection 16
Overlay analysis 17
Analyse historique http://www.youtube.com/watch?v=sqpygt-n2lm 18
VIZ DE RESEAUX: QUELLES SOLUTIONS? 19
Question de taille Appli desktop ou navigateur web? navigateur web Appli desktop Plus de ~ 300 nodes? Plus de ~ 1,000 nodes? oui non oui non vivagraph.js (graph animé) Seadragon (image statique) sigma.js, d3.js, gexf.js, jit.js, arbor.js, cytoscape.js Gephi GraphInsight Vosviewer Cytoscape NodeXL Netdraw Pajek Visone SigmaJS (en 2014!) 20
Réseaux de grande taille: sont-ils intéressants? Carte des locuteurs suédois sur Twitter, créée avec Gephi. 100,000 personnes 2 personnes sont connectées si l une suit l autre sur Twitter. La couleur représente les communautées détectées par Gephi. Voir la liste de références pour url 21
Followers du compte Twitter hampusbrynolf projetés sur la carte du slide précédent. 22
Question de temps Appli desktop ou navigateur web? navigateur web Appli desktop Pas de solution? Gephi Très expérimental: NodeXL Cytoscape 23
Ces réseaux dynamiques sont-ils intéressants? http://www.youtube.com/watch?v=sqpygt-n2lm 24
3 Question d espace Appli desktop ou navigateur web? navigateur web Appli desktop (pas de solution standard?) Voir cependant: http://www.leydesdorff. net/maps/is2009.html Gephi NodeXL (expérimental?) 25
Ces réseaux projetés sur carte sont-ils intéressants? Launch video Europe 1948-2008 (ou contactez moi pour une preview!) 26
(Gephi plugin) https://marketplace.gephi.org/plugin/maps-of-countries/ 27
VIZ DE RESEAUX EN SCIENCE (il s agit de bibliométrie ici, mais les logiciels et usages discutés peuvent avoir une application en social media analysis etc.) 28
Des origines disciplinaires Cytoscape et Circos biologie moléculaire Network Workbench / Sci 2 / GUESS bibliométrie UCINET / Netdraw réseaux sociaux VosViewer - bibliométrie Pajek: agnostique 29
Une évolution interdisciplinaire Cytoscape évolue vers les réseaux complexes en général Gephi n a pas d affiliation disciplinaire particulière NodeXL est également «agnostique» (mais peu prisé des sciences naturelles je pense). 30
Acteurs de la visualisation en bibliométrie Boyack et Klavans (réseaux de journaux scientifiques) Loet Leydesdorff (overlay sur cartes de catégories ISI) Katy Borner (Atlas des sciences, Sci 2 avec GUESS) Ludo Waltman et Nees van Eck (CWTS et VosViewer) A noter également: la collaboration du groupe eigenfactor.org avec Moritz Stefaner 31
Visualisations de réseaux en bibliométrie Cartes des sciences (Klavans et Boyak) Cartes des sciences avec Overlay (Leydesdorff) Réseaux de co-auteurs (nombreuses équipes) Réseaux thématiques de brevets (ex: Jean Philippe Cointet) Carte de co-occurrences basées sur notices d articles (VosViewer) Cartes géographiques (nombreuses équipes) Diagrammes alluviaux 32
Les questions en suspens Faciliter la création de ces cartes Diminuer les coûts financiers, techniques, le temps de réalisation, et augmenter la flexibilité de l interface avec les sources de données. Enseigner leur lecture et leurs limites Il y a une mode certaine aujourd hui autour de la visualisation, et des réseaux. Cela conduit typiquement à un retour de bâton. Anticipons en faisant un usage raisonné des visualisations de réseaux. 33
Ce que Gephi peut apporter Outil le plus flexible pour non programmeurs Beaucoup de paramètres disponibles pour explorer les réseaux Réseaux de grande taille, géospatialisés, évoluant dans le temps? C est possible Nombreux outils pour intégrer Gephi dans le workflow d une dataviz (cf. le slide montrant les étapes d une dataviz) Accessible à la programmation quand besoin supplémentaire non présent dans Gephi Avec le «Gephi Toolkit» et la possibilité d écrire facilement des plugins License flexible: Gephi peut être utilisé à des fins académiques et commerciales. Une progression constante: Gephi est en développement continu et va encore s améliorer. 34