Segmentation des usages des clients ADSL à partir de mesures de trafic



Documents pareils
IPv6: from experimentation to services

Première partie. Sous Projet 2. Classification et Dimensionnement

0,3YDQGLWVVHFXULW\ FKDOOHQJHV 0$,1²0RELOLW\IRU$OO,31HWZRUNV²0RELOH,3 (XUHVFRP:RUNVKRS %HUOLQ$SULO

JSSI - Sécurité d'une offre de nomadisme

Contexte de la mission Présentation du Groupe France Telecom Enjeux de la réalisation de la mission Planning de la mission et temps forts

La gamme express UCOPIA.

Cours n 12. Technologies WAN 2nd partie

L3 informatique Réseaux : Configuration d une interface réseau

Analyse de la bande passante

UCOPIA EXPRESS SOLUTION

STI 28 Edition 1 / Mai 2002

Arguments clés. (1) : disponible sur certaines offres

Dr Rim Belhassine-Cherif Directeur de Développement de Produits et Services.

Impact de la rentrée scolaire et du mois de Ramadan sur le comportement des internautes tunisiens

Métrologie réseaux GABI LYDIA GORGO GAEL

Transmission ADSL. Dominique PRESENT Dépt S.R.C. - I.U.T. de Marne la Vallée

Fonctions Réseau et Télécom. Haute Disponibilité

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

La classification automatique de données quantitatives

ManageEngine Netflow Analyser

CAS IT-Interceptor. Formation «Certificate of Advanced Studies»

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La mesure de la qualité des services de communications électroniques en France

Présentation de l ADSL

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

FACILITER LES COMMUNICATIONS. Le gestionnaire de réseau VPN global de Saima Sistemas

INGENIERIE ET DEPLOIEMENT DE RESEAUX COMPLEXES WiMAX - INTERNET - VoIP

LE VDSL 2 EN FRANCE. Source :

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Introduction à la B.I. Avec SQL Server 2008

STI 20 Édition 3 /Novembre 2002

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

UCOPIA SOLUTION EXPRESS

Sylvain Dejean, Raphaël Suire, Eric Darmon, Thierry Pénard Juillet 2012

Nerim VoIP Centrex en Marque Blanche

Paiement sécurisé sur Internet. Tableau de bord Commerçant

GUIDE UTILISATEUR ENVOYEZ ET RECEVEZ VOS SMS PAR

Théorie sur les technologies LAN / WAN Procédure de test sur les réseaux LAN / WAN Prise en main des solutions de test

Téléinformatique. Chapitre V : La couche liaison de données dans Internet. ESEN Université De La Manouba

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

L accès ADSL ou SDSL professionnel

DIR-635 : Serveur virtuel

Contrôle d accès Centralisé Multi-sites

Enjeux mathématiques et Statistiques du Big Data

Oléane VPN : Les nouvelles fonctions de gestion de réseaux. Orange Business Services

Cf Audio vous propose : LA SURVEILLANCE ACOUSTIQUE DES CHANTIERS

Digital Subscriber Line

Vidéosurveillance. Caméras de surveillance de maisons

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

ProCurve Access Control Server 745wl

Dominos Fixes et Mobiles

LETTRE DE CONSULTATION M002-15

xdsl Digital Suscriber Line «Utiliser la totalité de la bande passante du cuivre»

Un équipement (clé USB, disque dur, imprimante, etc.) est connecté au port USB.

Virtual PBX Quick User Guide

Virtual PBX Quick User Guide

TRAVAUX DE RECHERCHE DANS LE

Épreuve d expression orale (tâche 2)

KIT INTRANET L interface d accès aux ressources de votre entreprise

Pour vos questions ou une autorisation d utilisation relative à cette étude vous pouvez contacter l équipe via contact@4gmark.com

MECANISME DE CAPACITE Guide pratique

Architectures et Protocoles des Réseaux

Les Fiches thématiques Hot-spot point wifi. Donner accès à l Internet dans les espaces public

Méthodologie des projets de communication

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

CAHIER DES CLAUSES TECHNIQUES

ELVITEC Sas Tél : Impasse Thomas Edison BP 69 Fax : Pertuis CEDEX Web : support@elvitec.

Foire aux questions (FAQ)

Introduction au Data-Mining

Travail collaboratif. Glossaire

Plateforme PAYZEN. Intégration du module de paiement pour la plateforme Magento version 1.3.x.x. Paiement en plusieurs fois. Version 1.

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

SOLUTION POUR CENTRE D'APPEL

Présentation du modèle OSI(Open Systems Interconnection)

Sécurité et Firewall

CONFIGURATION FIREWALL

1 Les techniques DSL :

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Vademecum. Solutions numériques

Le spam introduction. Sommaire

QU EST-CE QUE LA VISIOCONFERENCE?

Méthodologie de conceptualisation BI

2 Serveurs OLAP et introduction au Data Mining

La solution ucopia advance La solution ucopia express

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Développement d outils web

PLAteforme d Observation de l InterNet (PLATON)

Routeur Gigabit WiFi AC 1200 Dual Band

DESCRIPTION DES PRODUITS ET MÉTRIQUES

OFFRE WEBINAR BIG DATA PARIS - GLOWBL

Service Turbo DSL. 23 juillet 2004 SPECIFICATIONS TECHNIQUES D ACCES AU SERVICE. Spécifications Techniques d Accès au Service

Agenda de la présentation

Tableau de Bord. Clas 1.1 Conduite d'un projet de communication

DI GALLO Frédéric ADSL. L essentiel qu il faut savoir. PPPOE PPPT Netissi

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Une brève introduction à l architecture des réseaux ADSL

TP2 Liaison ADSL S3-Cycle 2 / Module M3103

Chef de file dans le développement de solutions de gestion de contenu

Les SCPI. François Longin 1

But de cette présentation. Proxy filtrant avec Squid et SquidGuard. Serveur proxy. Serveur proxy. Hainaut P

Transcription:

Segmentation des usages des clients ADSL à partir de mesures de trafic Françoise Fessant, Amine Boussarsar, Fabrice CLEROT FTRD Lannion, TECH/SUSI/TSI Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Séminaire EGSSH - Mesures de flux Internet - D1 23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils journaliers de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D2-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils journaliers de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D3-23/09/2004

Objectifs de l étude!analyse des usages des clients ADSL "Segmentation des clients en fonction de leurs usages "Analyse à partir des données de trafic observées "Complémentaire par rapport aux études de panel Moins détaillé dans l analyse des usages Plus fiable statistiquement!meilleure compréhension des usages!meilleure anticipation des besoins Séminaire EGSSH mesures de flux internet - D4-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D5-23/09/2004

Rappel sur les données observées!données issues d un réseau de sondes : Otarie BAS IP backbone sonde Office DSLAM Observation point: ATM on STM1 Telephone LAN ATU-R Filter DSLAM ATM Telephone Filter ATU-R Home Séminaire EGSSH mesures de flux internet - D6-23/09/2004

Rappel sur les données observées!données issues d un réseau de sondes : Otarie!Trafics regroupés sur 13 catégories de ports " Unknown, web, P2P, FTP, News, Mail, DB, others, control, games, streaming, chat,voip!campagne de mesure sur le long terme : " 5 sites géographiques " début des mesures : janvier 2003!Format des données : " chaque jour, pour chaque client, les volumes échangés dans les sens de trafic montant et descendant sur les 13 catégories par plage de 6 Séminaire EGSSH mesures de flux internet - D7-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D8-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires de trafic "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D9-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!données de départ : pour chaque client, pour chaque jour, sur un mois, le profil horaire du volume échangé sur chaque application!organisation des données en 3 niveaux de hiérarchie "Chaque client est décrit par ses journées "Chaque journée est décrite par ses applications "Chaque application est décrite par son volume horaire de trafic Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... fichier log Séminaire EGSSH mesures de flux internet - D10-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D11-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour pour chaque application «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D12-23/09/2004

Découverte des jours «typiques» par application fichier log Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... Espace des volumes horaires, email Jour-appli typique 1 Jour-appli typique 2 Jour-appli typique 3 Jour-appli typique 4 Clustering des jours-applications dans l espace des profils horaires de trafic Espace des volumes horaires, P2P Jour-appli typique 1 Segments de jours typiques, pour chaque application, décrits sur la base des profils horaires de trafic (pour l application) Jour-appli typique 2 Jour-appli typique 3 Clustering des jours-applications dans l espace des profils horaires de trafic Séminaire EGSSH mesures de flux internet - D13-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D14-23/09/2004

Projection des jours sur les jours-applications typiques fichier log Profil de la journée pour l application email 1 0 0 0 Jour-appli typique 1 Client1 jour1 email volumejouremail11 Client1 jour1 P2P volumejourp2p11 Client1 jour2 email volumejouremail12 Client1 jour2 web volumejourweb12 Client2 jour1 email volumejouremail21 Client2 jour3 email volumejouremail23 Client2 jour3 chat volumejourchat23 Client2 jour3 games volumejourgames23 Client2 jour5 P2P volumejourp2p25 Client3 jour2 P2P volumejourp2p32 Client3 jour2 web volumejourweb32... Profils de journées 0 0 1 Profil de la journée pour l application P2P Jour-appli typique 2 Jour-appli typique 3 Jour-appli typique 1 Jour-appli typique 4 Jour-appli typique 2 Client1 jour1 1 0 0 0 0 0 1 0 0 0 0 0... Client1 jour2... Jour-appli typique 3 Chaque journée est affectée à un cluster pour chaque application Une journée est caractérisée par la concaténation des profils jours-applications typiques (corrélation des applications au niveau de la journée) Séminaire EGSSH mesures de flux internet - D15-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D16-23/09/2004

Découverte des jours d activité «typiques» fichier log Client1 jour1 Profiljour11 Client1 jour2 Profiljour12 Client2 jour1 ProfilJour21 Client2 jour3 ProfilJour23 Client2 jour5 ProfilJour25 Client3 jour2 ProfilJour32 Client4 jour4 ProfilJour44 Client4 jour5 ProfilJour45 Client5 jour6 ProfilJour56... Jour d activité typique 2 Espace des profils jours/applications Jour d activité typique 3 Jour d activité typique 1 Jour d activité typique 4 Segments de jours d activité typiques décrits sur la base des segments jours-applications Séminaire EGSSH mesures de flux internet - D17-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D18-23/09/2004

Projection des clients sur les jours d activité typiques fichier log Client1 jour1 Profiljour11 Client1 jour2 Profiljour12 Client2 jour1 ProfilJour21 Client2 jour3 ProfilJour23 Client2 jour5 ProfilJour25 Client3 jour2 ProfilJour32 Client4 jour4 ProfilJour44 Client4 jour5 ProfilJour45 Client5 jour6 ProfilJour56...... Client2 (1, 1, 0, 1)... Projection des clients sur les jours d activité typiques Profils de clients Jour d activité typique 2 Jour d activité typique 1 Espace des profils jours/applications Jour d activité typique 3 Jour d activité typique 4 Chaque journée est affectée à un cluster Un client est caractérisé par un profil de journées d activités typiques Séminaire EGSSH mesures de flux internet - D19-23/09/2004

Analyse simultanée des usages et des profils horaires de trafic!analyse exploratoire en plusieurs étapes : "Segmentation de tous les profils journaliers d activité tous clients confondus Segmentation de tous les profils journaliers par application Découverte de jours/applications «typiques» Rendre à chaque jour, pour chaque application, «ses» profils d activité jour/application et représenter chaque jour sur la base des segments jour/application typiques Segmentation des jours sur la base de cette représentation Découverte des jours d activité «typiques» "Rendre à chaque client «ses» profils journaliers d activité et représenter chaque client par sa fréquence sur chaque segment de profils journaliers "Segmentation des clients sur la base de cette représentation Découverte des clients «typiques» Séminaire EGSSH mesures de flux internet - D20-23/09/2004

Découverte des clients «typiques» Client1 Client2 Client3 ProfilClient1 ProfilClient2 ProfilClient3 Espace des jours d activités typiques Clustering des clientsdans l espace des joursd activités typiques Segments de clients typiques décrits sur la base des jours d activité typiques Séminaire EGSSH mesures de flux internet - D21-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires "Méthodologie de l analyse, synopsis "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D22-23/09/2004

Application aux données OTARIE!Site de Fontenay, Février 2004 " 1991 clients «actifs» au moins une fois sur le mois " 3 applications qui génèrent les plus forts volumes : Unknown, Web, P2P!Analyse exploratoire par cartes de Kohonen " Segmentation et visualisation de données multidimensionnelles «Projection» dans un espace bidimensionnel effectue une segmentation tout en préservant les relations de voisinage entre objets!détail technique : " Etant donné les très grands écarts entre profils jour-application au niveau des volumes échangés, on classifie les logarithmes des profils jours-applications Séminaire EGSSH mesures de flux internet - D23-23/09/2004

Segmentation des applications : exemple!application : Web down! 13 profils journaliers typiques pour l application " Journées inactives (14% des journées) " Journées avec une activité piquée sur une plage horaire précise (39% des journées) " Journées avec de longues plages d activité (47% des journées) 4% 4% 14% 6% population 6 x 106 Volumes réels moyens des données par cluster 6% 8% 6% 12% 14% 8% 6% 5% 8% 5 4 3 CL1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 CL 13 2 1 0 0 5 10 15 20 25 volume Séminaire EGSSH mesures de flux internet - D24-23/09/2004

Segmentation des journées!14 profils journaliers typiques " Utilisation différente des 3 applications en terme d intensité du trafic dans un cluster, mais trafic sur les mêmes plages horaires " Symétrie des usages up et down 2% 12% 1% 6% CL 3 3% CL 1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 CL 13 CL 14 11% CL 10 CL 12 56% 7% volume Pourcentage en Volume Total de Trafic par Cluster de Journée 6% 4% 4% 20% 3% 8% 8% 5% 6% 9% 4% 6% 6% 9% population Séminaire EGSSH mesures de flux internet - D25-23/09/2004

Segmentation des clients!12 clients typiques " caractérisés en fonction des usages des applications et des plages horaires de trafic 1% 4% 5% 5% 3% CL 1 CL 2 CL 3 CL 4 CL 5 CL 6 CL 7 CL 8 CL 9 CL 10 CL 11 CL 12 20% 25% 25% volume 12% Pourcentage en Volumes des clusters pour les 3 applications. 16% 13% 6% 4% < 1% 3% 14% 4% 6% 5% 14% 14% population Séminaire EGSSH mesures de flux internet - D26-23/09/2004

Plan :!Objectifs!Rappel sur les données observées!analyse simultanée des usages et des profils horaires "Méthodologie de l analyse, principe "Mise en œuvre sur les données OTARIE "Utilisation pratique des segments de clients!conclusion Séminaire EGSSH mesures de flux internet - D27-23/09/2004

Utilisation pratique de la segmentation 80 % de journées très actives (5% des clients) activité en continu sur la journée pour toutes les applications 25 1 UU UD PU PD WU WD % 2 9 4 6 ;. r u ste C l 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 % 3 9.2 2 ; 1 r u s te C l 0.8 0.6 0.4 0.2 0 0 10 20 30 40 50 60 70 80 Journée type 12, un type dominant par application Web down, journée type 6 à 85% 6 0.5 5 0.4 o b a l G l 4 3 2 1 o b a l G l 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 0 10 20 30 40 50 60 70 80 Volume Réel (Octets) : Cluster 6 4 x 106 3 2 1 0 0 5 10 15 20 25 Cluster 6; 12.23% 12 10 8 6 4 2 0 0 5 10 15 20 25 2.5 x 106 8 2 6 Global Réel 1.5 1 Global 4 0.5 2 0 0 5 10 15 20 25 0 0 5 10 15 20 25 profil moyen du cluster, volume réel fort trafic en continu sur la journée (profil moyen du cluster, moyenne des logs) Séminaire EGSSH mesures de flux internet - D28-23/09/2004

Conclusion!Segmentation fine des clients ADSL " Segmentation simultanée des profils journaliers de toutes les catégories de ports " Objectif : avoir une vue simultanée des usages et des profils horaires «qui fait quoi et quand?»!méthodologie d analyse exploratoire qui exploite la structure hiérarchique des données " Basée sur les cartes de Kohonen " Segments de clients basés sur une description agrégée de leur activité journalière " Segments simples à analyser et à interpréter " Laisse la liberté de «détailler» les segments à tout moment selon les besoins Séminaire EGSSH mesures de flux internet - D29-23/09/2004

Projection d informations externes!lien entre les usages et le type de contrat netissimo Faible activité 0 3 2 1 Trafic web Forte activité Séminaire EGSSH mesures de flux internet - D30-23/09/2004