Segmentation des usages des clients ADSL à partir de mesures de trafic Françoise Fessant, Amine Boussarsar, Fabrice CLEROT FTRD Lannion, TECH/SUSI/TSI Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Séminaire EGSSH - Mesures de flux Internet - D1 23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils journaliers de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D2-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils journaliers de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D3-23/09/2004
Objectifs de l étude!analyse des usages des clients ADSL "Segmentation des clients en fonction de leurs usages "Analyse à partir des données de trafic observées "Complémentaire par rapport aux études de panel Moins détaillé dans l analyse des usages Plus fiable statistiquement!meilleure compréhension des usages!meilleure anticipation des besoins Séminaire EGSSH mesures de flux internet - D4-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D5-23/09/2004
Rappel sur les données observées!données issues d un réseau de sondes : Otarie BAS IP backbone sonde Office DSLAM Observation point: ATM on STM1 Telephone LAN ATU-R Filter DSLAM ATM Telephone Filter ATU-R Home Séminaire EGSSH mesures de flux internet - D6-23/09/2004
Rappel sur les données observées!données issues d un réseau de sondes : Otarie!Trafics regroupés sur 13 catégories de ports " Unknown, web, P2P, FTP, News, Mail, DB, others, control, games, streaming, chat,voip!campagne de mesure sur le long terme : " 5 sites géographiques " début des mesures : janvier 2003!Format des données : " chaque jour, pour chaque client, les volumes échangés dans les sens de trafic montant et descendant sur les 13 catégories par plage de 6 Séminaire EGSSH mesures de flux internet - D7-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D8-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D9-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!données de départ : pour chaque client, pour chaque jour, sur un mois, le profil horaire du volume échangé sur chaque application!organisation des données en 3 niveaux de hiérarchie "Chaque client est décrit par ses journées "Chaque journée est décrite par ses applications "Chaque application est décrite par son volume horaire de trafic Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... fichier log Séminaire EGSSH mesures de flux internet - D10-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D11-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour pour chaque application «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D12-23/09/2004
Découverte des jours «typiques» par application fichier log Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... Espace des volumes horaires, email Jour-appli typique 1 Jour-appli typique 2 Jour-appli typique 3 Jour-appli typique 4 Clustering des jours-applications dans l espace des profils horaires de trafic Espace des volumes horaires, P2P Jour-appli typique 1 Segments de jours typiques, pour chaque application, décrits sur la base des profils horaires de trafic (pour l application) Jour-appli typique 2 Jour-appli typique 3 Clustering des jours-applications dans l espace des profils horaires de trafic Séminaire EGSSH mesures de flux internet - D13-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D14-23/09/2004
Projection des jours sur les jours-applications typiques fichier log Profil de la journée pour l application email 1 0 0 0 Jour-appli typique 1 Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... Profils de journées 0 0 1 Profil de la journée pour l application P2P Jour-appli typique 2 Jour-appli typique 3 Jour-appli typique 1 Jour-appli typique 4 Jour-appli typique 2 Client1 jour1 1 0 0 0 0 0 1 0 0 0 0 0... Client1 jour2... Jour-appli typique 3 Chaque journée est affectée à un cluster pour chaque application Une journée est caractérisée par la concaténation des profils jours-applications typiques (corrélation des applications au niveau de la journée) Séminaire EGSSH mesures de flux internet - D15-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D16-23/09/2004
Découverte des jours d activité «typiques» fichier log Client1 jour1 Profiljour11 Client1 jour2 Profiljour12 Client2 jour1 ProfilJour21 Client2 jour3 ProfilJour23 Client2 jour5 ProfilJour25 Client3 jour2 ProfilJour32 Client4 jour4 ProfilJour44 Client4 jour5 ProfilJour45 Client5 jour6 ProfilJour56... Jour d activité typique 2 Espace des profils jours/applications Jour d activité typique 3 Jour d activité typique 1 Jour d activité typique 4 Segments de jours d activité typiques décrits sur la base des segments jours-applications Séminaire EGSSH mesures de flux internet - D17-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D18-23/09/2004
Projection des clients sur les jours d activité typiques fichier log Client1 jour1 Profiljour11 Client1 jour2 Profiljour12 Client2 jour1 ProfilJour21 Client2 jour3 ProfilJour23 Client2 jour5 ProfilJour25 Client3 jour2 ProfilJour32 Client4 jour4 ProfilJour44 Client4 jour5 ProfilJour45 Client5 jour6 ProfilJour56...... Client2 (1, 1, 0, 1)... Projection des clients sur les jours d activité typiques Profils de clients Jour d activité typique 2 Jour d activité typique 1 Espace des profils jours/applications Jour d activité typique 3 Jour d activité typique 4 Chaque journée est affectée à un cluster Un client est caractérisé par un profil de journées d activités typiques Séminaire EGSSH mesures de flux internet - D19-23/09/2004
Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D20-23/09/2004
Découverte des clients «typiques» Client1 Client2 Client3 ProfilClient1 ProfilClient2 ProfilClient3 Espace des jours d activités typiques Clustering des clientsdans l espace des joursd activités typiques Segments de clients typiques décrits sur la base des jours d activité typiques Séminaire EGSSH mesures de flux internet - D21-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D22-23/09/2004
Application aux données OTARIE!Site de Fontenay, Février 2004 " 1991 clients «actifs» au moins une fois sur le mois " 3 applications qui génèrent les plus forts volumes : Unknown, Web, P2P!Analyse exploratoire par cartes de Kohonen " Segmentation et visualisation de données multidimensionnelles «Projection» dans un espace bidimensionnel effectue une segmentation tout en préservant les relations de voisinage entre objets!détail technique : " Etant donné les très grands écarts entre profils jour-application au niveau des volumes échangés, on classifie les logarithmes des profils jours-applications Séminaire EGSSH mesures de flux internet - D23-23/09/2004
Segmentation des applications : exemple!application : Web down! 13 profils journaliers typiques pour l application " Journées inactives (14% des journées) " Journées avec une activité piquée sur une plage horaire précise (39% des journées) " Journées avec de longues plages d activité (47% des journées) 4% 4% 14% 6% population 6 x 106 Volumes réels moyens des données par cluster 6% 8% 6% 12% 14% 8% 6% 5% 8% 5 4 3 CL1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 CL 13 2 1 0 0 5 10 15 20 25 volume Séminaire EGSSH mesures de flux internet - D24-23/09/2004
Segmentation des journées!14 profils journaliers typiques " Utilisation différente des 3 applications en terme d intensité du trafic dans un cluster, mais trafic sur les mêmes plages horaires " Symétrie des usages up et down 2% 12% 1% 6% CL 3 3% CL 1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 CL 13 CL 14 11% CL 10 CL 12 56% 7% volume Pourcentage en Volume Total de Trafic par Cluster de Journée 6% 4% 4% 20% 3% 8% 8% 5% 6% 9% 4% 6% 6% 9% population Séminaire EGSSH mesures de flux internet - D25-23/09/2004
Segmentation des clients!12 clients typiques " caractérisés en fonction des usages des applications et des plages horaires de trafic 1% 4% 5% 5% 3% CL 1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 20% 25% 25% volume 12% Pourcentage en Volumes des clusters pour les 3 applications. 16% 13% 6% 4% < 1% 3% 14% 4% 6% 5% 14% 14% population Séminaire EGSSH mesures de flux internet - D26-23/09/2004
Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires "Méthodologie de l analyse, principe "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D27-23/09/2004
Utilisation pratique de la segmentation 80 % de journées très actives (5% des clients) activité en continu sur la journée pour toutes les applications 25 1 UU UD PU PD WU WD % 2 9 4 6 ;. r u ste C l 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 % 3 9.2 2 ; 1 r u s te C l 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 60 70 80 Journée type 12, un type dominant par application Web down, journée type 6 à 85% 6 0.5 5 0.4 o b a l G l 4 3 2 1 o b a l G l 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 0 10 20 30 40 50 60 70 80 Volume Réel (Octets) : Cluster 6 4 x 106 3 2 1 0 0 5 10 15 20 25 Cluster 6; 12.23% 12 10 8 6 4 2 0 0 5 10 15 20 25 2.5 x 106 8 2 6 Global Réel 1.5 1 Global 4 0.5 2 0 0 5 10 15 20 25 0 0 5 10 15 20 25 profil moyen du cluster, volume réel fort trafic en continu sur la journée (profil moyen du cluster, moyenne des logs) Séminaire EGSSH mesures de flux internet - D28-23/09/2004
Conclusion!Segmentation fine des clients ADSL " Segmentation simultanée des profils journaliers de toutes les catégories de ports " Objectif : avoir une vue simultanée des usages et des profils horaires «qui fait quoi et quand?»!méthodologie d analyse exploratoire qui exploite la structure hiérarchique des données " Basée sur les cartes de Kohonen " Segments de clients basés sur une description agrégée de leur activité journalière " Segments simples à analyser et à interpréter " Laisse la liberté de «détailler» les segments à tout moment selon les besoins Séminaire EGSSH mesures de flux internet - D29-23/09/2004
Projection d informations externes!lien entre les usages et le type de contrat netissimo Faible activité 0 3 2 1 Trafic web Forte activité Séminaire EGSSH mesures de flux internet - D30-23/09/2004