Introduc)on à la fouille de données, cours 1

Documents pareils

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Introduction au Data-Mining

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Évolu>on et maintenance

UN GUIDE PROPOSÉ PAR PME-WEB MARKETING GUIDE ULTIME DES MOTS INTERDITS. Un guide pour Éviter de voir vos passer en SPAM. web.

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

Les réseaux sociaux et le mobile au service de l industrie du tourisme digital

Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Baromètre Direct Assurance des cyberconsommateurs

Pe#t déjeuner Prévention des risques professionnels dans la Mutualité

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

PRÉSENTATION DES RÉSULTATS DU LIVRE BLANC BIG DATA

L ou%l téléphone dans votre stratégie de marke%ng direct

Architecture matériel et logiciel 2

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

MTI820 Entrepôts de données et intelligence d affaires. Les applica+ons de BI

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

Programme «INVESTISSEUR»

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

Hervé Couturier EVP, SAP Technology Development

Chapitre 4 La prise en compte de l informa6on dans le modèle de marché

«UN REIN C EST PAS RIEN»

H2PS engage ses compétences auprès des entreprises et des parculiers par la mise en place de soluons d accompagnements et de services.

Introduc;on à l intelligence d affaires et aux entrepôts de données

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Le contrôle fiscal anno 2013

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au Data-Mining

Big Data et Graphes : Quelques pistes de recherche

Consultants, trouvez de nouveaux marchés grâce aux médias sociaux animé par Valérie March au Salon des micro- entreprises 2012

Architecture des entrepôts de données

Catalogue de FORMATIONS 2015

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Introduction au datamining

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

OFFRE MIX MARKETING : créateur de consommateurs. A l a&en)on de : Date de remise : Version : 3.0

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Data Mining. Master 1 Informatique - Mathématiques UAG

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

Comment valoriser votre patrimoine de données?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

Santé, condi,ons de travail et égalité professionnelle F/H Comment agir?

Concepon et réalisaon

Spécificités, Applications et Outils

Qu est ce qu une PME? 4. Pourquoi investir dans une PME? 6. Comment investir en direct dans une PME? 10

Comment u)liser les réseaux sociaux?

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Cabinet de Conseil STRATÉGIE MANAGEMENT ORGANISATION JURIDIQUE FORMATION AVEC BW CONSULTANTS CHOISISSEZ DE GARANTIR VOTRE DEVELOPPEMENT

ParK24. Solu%on innovante pour un sta%onnement intelligent

Le cycle de vie d'un projet en intelligence d'affaires

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

LA DIGITALISATION DE LA RELATION CLIENT

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

INTRASTAT No ce explica ve Merkbla

Analyse de grandes bases de données en santé

DEVELOPPER SON SOURCING VIA LES RESEAUX SOCIAUX FACEBOOK

Sites Internet : les. tendances. Jeudi 30 janvier 2014 Bordeaux L AGENCE CONNECTÉE À L ENTREPRISE

Me#re le Big Data sur la carte : déﬁs et avenues rela6fs à l exploita6on de la localisa6on

#GoSocial. solutions de marketing communautaire & social crm

Big Data et Graphes : Quelques pistes de recherche

ENVI-F-409. Economie écologique. Séance 8 13 Mai Tom Bauler tbauler@ulb.ac.be Supports de cours :

Les bases du SEO (référencement naturel)

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Un nouveau modèle régional à Ouranos : défis et opportunités

RESSOURCES INFORMATIQUES UFR IMAG ANNEE Présentation service informatique UFR IMAG année 2010/2011 1

Les 10 étapes clés pour trouver des clients par internet

Simplifiez la ges-on de votre parc informa-que

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

Focus: Les projets pour le renforcement des compétences

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Speed up your business

BIG DATA en Sciences et Industries de l Environnement

LES SOLUTIONS DE MESSAGERIE ET BUREAUTIQUE PROFESSIONNELLES

OPTIMISER SA STRATÉGIE SEA DANS UNE LOGIQUE DE VENTE

Introduc)on à Map- Reduce. Vincent Leroy

Les datas = le fuel du 21ième sicècle

Le don d organes après arrêt des thérapeu2ques Maastricht 3 Une réalité?...

Tables Rondes Le «Big Data»

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Réunion de rentrée Licence PER Programma3on en environnement répar3. Année universitaire

Jean-François Boulicaut & Mohand-Saïd Hacid

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Déployer et sécuriser des applica1ons mobiles dans votre SI / Cloud

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Transcription:

Introduc)on à la fouille de données, cours 1

Sources «Introduc)on to data mining» Cours de l année précédente

Pourquoi fouiller les données? Beaucoup de données stockées dans des «data centers» Web (pages, traffic ) Commerce ()ckets de caisse ) Transac)ons financières Puissance de calcul accessible Nouvelles architectures Cloud Compé))on entre entreprises L études des données peut donner un avantage (marke)ng, ges)on des stocks, )

Données récentes Pages Web Environ 1000 milliards (Google 2008) 50 milliards indexées Génome humain 3.4 milliards de paires de bases (3GB) 25000 gènes AT & T 312 TB dans une base de données (2005) 2800 milliards d appels téléphoniques ChoicePoint 250 TB sur 220 millions d Américains World Data Center for Climate (WDCC) 220 TB

Mo)va)on du Data Mining Grosses quan)tés de données Incompréhensibles pour un humain Souvent de l informa)on «cachée» non évidente 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 The Data Gap Total new disk (TB) since 1995 Number of analysts 1995 1996 1997 1998 1999

Qu est ce que la fouille de données? Extraire de l informa)on cachée ou implicite de données Informa)on nouvelle Informa)on u)le Explorer et analyser de façon automa)que de grandes quan)tés de données

Processus de fouille de données Knowledge Discovery in Data (KDD) 1. Données brutes 2. Pré- processing 3. Fouille de données 4. Post- processing 5. Informa)on

Fouille de données? Pas de la fouille de données Chercher un numéro de téléphone dans un annuaire Faire une recherche Web sur Amazon Fouille de données Découvrir que certains noms sont plus fréquents dans certaines régions Regrouper des documents suivant leur contexte Amazon.com Amazon rainforest

Origines de la fouille de données Provient des techniques de machine learning / Intelligence ar)ficielle, extrac)on de paherns, bases de données Adapta)on de ces techniques à De grandes quan)tés de données Des données avec de nombreuses dimensions (c.a.d. ahributs) Données hétérogènes et distribuées Sta)s)cs/ AI Machine Learning/ Pahern Recogni)on Data Mining Database systems

Tâches de fouille de données Méthodes prédic)ves U)liser des variables pour prédire la valeur de variables inconnues ou futures Descrip)on de données Trouver une interpréta)on humaine d un ensemble de données

Tâches de fouille de données Classifica)on (prédic)on) Clustering (descrip)on) Découverte de règles d associa)on (descrip)on) Découverte de paherns séquen)els (descrip)on) Régression (prédic)on) Détec)on d anomalies (prédic)on)

Classifica)on Ensemble de données (training set) Chaque donnée con)ent des ahributs, l un d entre eux est la classe Trouver un modèle de classe qui s appuie sur la valeur des ahributs Objec)f: de nouvelles données doivent être assignées à une classe de la façon la plus précise possible Évalua)on avec un test set qui permet de vérifier la précision du modèle

10 10 Exemple de classifica)on Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K? 2 No Married 100K No Yes Married 50K? 3 No Single 70K No No Married 150K? 4 Yes Married 120K No Yes Divorced 90K? 5 No Divorced 95K Yes No Single 40K? 6 No Married 60K No 7 Yes Divorced 220K No No Married 80K? Test Set 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model

Classifica)on : Applica)on 1 Marke)ng Objec)f : Dans une campagne de publicité par courrier, réduire le nombre de courriers envoyé en ciblant les consommateurs Approche: U)liser les données d un produit similaire Nous savons pour ce produit quels u)lisateurs ont acheté ou non à 2 classes, {achète, n achète pas} Récupérer les informa)ons démographiques, etc sur les consommateurs U)liser ces informa)ons comme ahributs pour entrainer un classifieur

Classifica)on: Applica)on 2 Détec)on de fraude Objec)f: Prédire des transac)ons de CB frauduleuses Approche: U)liser des transac)ons de CB en données et les caractéris)ques de la personne en ahributs Quand il achète, ce qu il achète, quelle fréquence Créer 2 classes de transac)ons, légi)mes et frauduleuses sur les opéra)ons passées (train set) Entrainer le modèle U)liser ce modèle sur de nouvelles données pour prédire les fraudes

Clustering Étant donné un ensemble de points ayant des ahributs et une fonc)on de similarité entre ces points, trouver des clusters tels que Les points d un cluster sont similaires entre eux Les points de clusters différents sont différents entre eux Mesures de similarité Distance euclidienne sur des ahributs con)nus D autres mesures spécifiques sur d autres ahributs

Illustra)on du clustering Distance Euclidienne dans un espace 4D Distance dans un cluster minimisée Distance entre clusters maximisée

Clustering: Applica)on 1 Segmenta)on de marché Objec)f: sous- diviser un marché en différents ensembles de clients de façon à mieux cibler le marke)ng Approche: Collecter différents ahributs sur les consommateurs Trouver des clusters d u)lisateurs similaires Faire une mesure de qualité de clustering en observant les achats des u)lisateurs d un cluster par rapport aux autres

Clustering: Applica)on 2 Clustering de documents Objec)f: trouver les groupes de documents qui sont similaires entre eux en fonc)on des termes qui y apparaissent Approche: iden)fier les termes qui apparaissent fréquemment dans chaque document. Faire une mesure de similarité basée sur la fréquence des termes, et l u)liser pour faire le clustering Gain: meilleure recherche d informa)on dans des documents (moteur de recherche), u)lisa)on des clusters pour assigner de nouveaux documents

Illustra)on du clustering de documents 3204 ar)cles du Los Angeles Times Mesure de similarité: nombre de mots en commun entre les documents (après filtrage des stop- words) Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278

Illustra)on: Clustering du cours des Observer le cours d une ac)on ac)ons Points simples: le cours monte ou il descend, vecteur sur une durée temporelle Mesure de similarité: 2 points sont similaires si les varia)ons entre les 2 points sont souvent les mêmes le même jour Discovered Clusters 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-dow N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N, Sun-DOW N Apple-Comp-DOW N,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, 2 Co mputer-assoc-down,circuit-city-down, Co mpaq-down, EM C-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN 3 4 Fannie-Mae-DOWN,Fed-Ho me-loan-dow N, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlu mberger-up Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP

Règles d associa)on Étant donné un ensemble d enregistrements qui con)ennent des éléments d une collec)on Générer des règles de dépendance qui prédisent les occurrences d éléments suivant les occurrences des autres TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Règles d associa)on: Applica)on 1 Marke)ng Étant donné la règle {Bière, }à {Chips} Chips en par)e droite à On peut déterminer comment booster les ventes de chips Bière en par)e gauche à Que se passerait- il si on arrêtait d en vendre Ensemble de la règle à Placement de produits dans le magasin

Règles d associa)on: Applica)on 2 Ges)on de rayons de supermarcher Obje)f: iden)fier les ar)cles qui sont achetés ensemble par de nombreux clients Approche: U)liser les )ckets de caisse des clients pour trouver les dépendances entre les ar)cles Une règle classique Si un u)lisateur achète des couches et du lait, alors il achète probablement de la bière Donc ne soyez pas surpris si vous trouver la bière à côté des couches dans les magasins!

Découverte de paherns séquen)els Étant donné un ensemble d objets, dans lequel chaque objet est associé à une séquence temporelle, trouver des dépendances séquen)elles entre les évènements (A B) (C) (D E) Les règles sont créées en découvrant les paherns, puis en étudiant les contraintes temporelles (A B) (C) (D E) <= xg >ng <= ws <= ms

Paherns séquen)els: Exemple En télécommunica)ons, logs d alarmes (Inverter_Problem Excessive_Line_Current) (Rec)fier_Alarm) - - > (Fire_Alarm) Dans un magasin, séquence d achats Livres d informa)que (Intro_To_Visual_C) (C++_Primer) - - > (Perl_for_dummies,Tcl_Tk) Ar)cles de sport (Shoes) (Racket, Racketball) - - > (Sports_Jacket)

Régression Prédire la valeur d une variable con)nue en u)lisant la valeur d autres variables en supposant une rela)on (non)linéaire entre elles Très u)lisé en sta)s)ques Exemples: Prédire la quan)té de ventes d un nouveau produit en fonc)on du budget de publicité Prédire la force du vent en fonc)on de la température, humidité, pression Prédire le cours de la bourse

Détec)on d anomalies Détecter des dévia)ons significa)ves d un comportement normal Applica)ons: Détec)on de fraudes (CB) Détec)on d une ahaque réseau Détec)on d un capteur défaillant

Challenges de la fouille de données Passage à l échelle Hautes dimensions Complexité de données hétérogènes Qualité des données Préserva)on de la vie privée