Analyse exploratoire de données Françoise Fessant TECH/SUSI 28/09/2006
Sommaire Analyse exploratoire de données Cartes de kohonen Analyse des usages ADSL p2
Analyse exploratoire de données Construction de segments Produire de la connaissance sur les données Visualiser «intelligemment» cette connaissance Beaucoup d'individus (N) x beaucoup de variables (p) Effectuer des regroupements qui respectent la structure des données Rendre visibles les similarités entre données variables 1 p 1 Outil pour la segmentation : les cartes de Kohonen Permettent de réaliser une segmentation et de la visualiser Méthodologie d analyse Construction de segments interprétables, Qui soient riches et fidèles N observation p3
Cartes de Kohonen Permettent de réaliser une segmentation et de visualiser le comportement de la segmentation sur une carte «Projection» non linéaire sur un plan Qui respecte en dimension 2 les relations de similarité existant dans l espace de départ (en dimension p) Des données voisines dans l espace de départ sont voisines sur la carte Des régions proches ont des caractéristiques communes La carte fournit une visualisation intuitive des données, lisible par un non expert Carte des populations p4
Analyse des usages ADSL à partir de mesures de trafic Projet ATRACTION : Analyse du TRAfic Client pour l évolution des réseaux (RO&SI) Typologie des clients ADSL sur la base de leurs usages Données issues du réseau des sondes Otarie (CORE/M2I) Trafics regroupés sur 13 catégories de ports Unknown, web, P2P, FTP, News, Mail, DB, others, control, games, streaming, chat, VoIP Campagne de mesure sur le long terme 9 sites géographiques (~15 000 clients) Début des mesures : janvier 2003 Format des données Chaque jour, pour chaque client, les volumes échangés dans les sens de trafic montant et descendant sur les 13 catégories par plage de 6 p5
Analyse des usages mensuels (1) Analyse d'un site géographique (~2000 clients ADSL) Un client est défini par ses volumes mensuels par catégorie, recodés en statistique d'ordre En fonction du volume échangé, chaque client est représenté par son rang pour chaque catégorie Toutes les catégories sont mises sur le même plan ce qui permet de se focaliser sur les usages et non sur les volumes p6
Analyse des usages mensuels (2) Déroulement d'une analyse N observations T variables T Carte des populations Carte des clusters Profils moyens des clusters N Après apprentissage un individu est associé à l'hexagone de la carte le plus proche La taille de l'hexagone est proportionnelle au nombre de ses individus Clustering hiérarchique sur la carte pour faciliter son interprétation Chaque groupe est représenté par son profil moyen p7 Au final Regroupement des clients qui ont une activité similaire Segments de clients typiques décrits sur la base des volume journaliers
Analyse des segments 7 segments de clients typiques très actif sur l'ensemble des applications, 25% très actif sur toutes les applications sauf le Mail, 9% activité plus forte que la moyenne sur les applications Web, Streaming et Mail et usage plus faible des autres applications, 7% activité plus forte que la moyenne sur les applications Web, FTP, News, Streaming, control et Mail une activité moyenne sur les autres applications, 7% usage moyen des applications, 20% peu actif sur l'ensemble des applications, 22% très peu actif sur l'ensemble des applications, 10% C 1 C 2 C 3 C 4 C 5 C 6 C 7 Description globale des segments 1 % < 1 % 7 6 % 3 % 1 % 8 % répartition du volume dans les segments 1 1 % pourcentage de clients dans les segments Mail, Web, FTP Les 7 segments sur la carte de Kohonen : ACTIVITE Projection des contrats Netissimo 0, 1, 2, 3 Projection d'informations extérieures sur la carte p8
Analyse des variables Projections des clusters de variables Carte des clients p9 Profil des clusters de clients
Projections des clusters de variables Carte des clients p10 Profil des clusters de clients