Extraction de Connaissances Avancées

Documents pareils
Introduction au datamining

Introduction au Data-Mining

La problématique. La philosophie ' ) * )

Agenda de la présentation

Introduction au Data-Mining

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Analyse de grandes bases de données en santé

Les datas = le fuel du 21ième sicècle

Big Data et Graphes : Quelques pistes de recherche

Cybermarché et analyse comportementale

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Didier MOUNIEN Samantha MOINEAUX

Introduction à la B.I. Avec SQL Server 2008

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Apprentissage Automatique

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Data Mining. Master 1 Informatique - Mathématiques UAG

Accélérer l agilité de votre site de e-commerce. Cas client

Les clients puissance cube

Travailler avec les télécommunications

Spécificités, Applications et Outils

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Big Data et Graphes : Quelques pistes de recherche

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

BIG DATA en Sciences et Industries de l Environnement

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Intégration de données hétérogènes et réparties. Anne Doucet

Conférence Big Data Paris

BI = Business Intelligence Master Data-Science

La classification automatique de données quantitatives

et les Systèmes Multidimensionnels

Présentations personnelles. filière IL

Présentation du module Base de données spatio-temporelles

Les Entrepôts de Données

Introduction Big Data

Introduction à la Fouille de Données (Data Mining) (8)

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Application de K-means à la définition du nombre de VM optimal dans un cloud

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Chapitre 9 : Informatique décisionnelle

Bases de Données Avancées

Jean-François Boulicaut & Mohand-Saïd Hacid

L apprentissage automatique

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Entreprise et Big Data

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

IBM Tivoli Monitoring, version 6.1

Intelligence Economique - Business Intelligence

Le cinquième chapitre

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Pourquoi l apprentissage?

INTRODUCTION AU DATA MINING

UE 8 Systèmes d information de gestion Le programme

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Structure fonctionnelle d un SGBD

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

données en connaissance et en actions?

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Bases de données Cours 1 : Généralités sur les bases de données

Business Intelligence avec Excel, Power BI et Office 365

LES ENTREPOTS DE DONNEES

Les dessous des moteurs de recommandation

Datawarehouse and OLAP

compario.com Fidélisation client Nouvelles tactiques pour un site E-Commerce rentable

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

INF6304 Interfaces Intelligentes

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

L information et la technologie de l informationl

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Big Data. Concept et perspectives : la réalité derrière le "buzz"

QU EST-CE QUE LE DECISIONNEL?

4.2 Unités d enseignement du M1

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

AXIAD Conseil pour décider en toute intelligence

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Urbanisation des SI-NFE107

Apprentissage Statistique

Fidélisation client : Nouvelles tactiques pour un site E- Commerce rentable

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Evry - M2 MIAGE Entrepôt de données

Transcription:

1 Extraction de Connaissances Avancées Maguelonne Teisseire TETIS Irstea teisseire@teledetection.fr http://www.lirmm.fr/~teisseir

Organisation o Planning http://www.lirmm.fr/~aze/gmin313.html o Les intervenants Equipes Advanse - SISO o Le projet 2

Plan o Pourquoi fouiller les données? o Le processus d extraction o Quelques domaines d application o Vocabulaire o Vers de nouveaux challenges 3

Pourquoi fouiller les données? o o De nombreuses données sont collectées et entreposées n Données du Web, E-commerce, Achats dans les supermarchés, Transactions de cartes bancaires n Capteurs intelligents, Textes, Sons, Images Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants n Information facile à produire n + 100 millions de blogs n 120.000 blogs crées par jour 4

Pourquoi fouiller les données? o Les données sont collectées et stockées rapidement (GB/heures) n Capteurs : RFID, supervision de procédé n Puces à ADN générant des expressions de gènes n Simulations générant de téraoctets de données n Yahoo : 48 Gbs par heure de clickstream n NASA EOS (Earth Observation System) observation par satellites 350 GBs par jour 5

Pourquoi fouiller les données? o Les techniques traditionnelles ne sont pas adaptées o Volume de données trop grands (trop de tuples, trop d attributs) Comment explorer des millions d enregistrements avec des milliers d attributs? o Requêtes traditionnelles (SQL) impossibles «Rechercher tous les enregistrements indiquant une fraude» o Croyance dans la présence de données importantes 6

Un enjeu stratégique Déterminer les moyens pour fidéliser les clients Identifier les nouveaux marchés Anticiper les changements de comportement Minimiser les risques Identifier les nouveaux produits ou services 7

Qu est ce que la fouille de données? n Exploration et analyse, par des moyens automatiques ou semi-automatiques, de grandes quantités de données en vue d extraire des motifs intéressants n De nombreuses définitions : Fayyad (1996) Knowledge Discovery in Databases : "the nontrivial process of identifying valid, potentially useful and ultimately understandable patterns in data" 8

Qu est-ce que la fouille de données? Convergence de domaines statistiques KDD vs. Data Mining I.H.M. I.A. apprentissage Bases de données 9

10 Le processus de KDD Données pré-traitées Pré-traitement et nettoyage Données transformées Databases Datawarehouse DataMart Web Données cibles visualisation Motifs / Modèles

Données, Informations, Connaissances Décision Promouvoir le produit P dans la région R durant la période N Réaliser un mailing sur le produit P aux familles de profil F Connaissance (data mining) Une quantité Q du produit P est vendue en région R Les familles de profil F utilisent M% de P durant la période N Information (requêtes) X habite la région R Y a A ans Z dépense son argent dans la ville V de la région R Données Consommateurs Magasins Ventes Démographie Géographie 11

Fouille de données. ou pas? NON Rechercher le salaire d un employé OUI Les supporters achètent de la bière le samedi et de l aspirine le dimanche Interroger un moteur de recherche Web pour avoir des informations sur le Data Mining Regrouper ensemble des documents retournés par un moteur de recherche en fonction de leur contenu 12

Cycle de vie du KDD «Questions stratégiques» Identification du problème DataWarehouse SGBD Evaluer Rapports, graphique, Executive Information Systems (EIS) Agir sur l information Transformation des données en information/ connaissances Processus de KDD 13

Applications o o o o o Médecine : bio-médecine, drogue, Sida, séquence génétique, gestion hôpitaux,... Finance, assurance : crédit, prédiction du marché, détection de fraudes, Social : données démographiques, votes, résultats des élections, Marketing et ventes : comportement des utilisateurs, prédiction des ventes, espionnage industriel, Militaire : fusion de données.. (secret défense) o Astrophysique : astronomie, «contact» ( ;-)) o Informatique : agents, règles actives, IHM, réseau, Data- Warehouse, Data Mart, Internet (moteurs intelligent, profiling, text mining, ) 14

Quid des données? o Grandes Bases de Données ou non? o Faut -il échantillonner? 100 000 enregistrements, 100 Mo par jour o 2 Go par jour, 100 Go par heure. Déjà les petabyte (2 50 )... Différents domaines n Bases de Données n Intelligence Artificielle (Machine Learning) n Statistiques n Algorithmique, 15

Data Mining vs Statistiques Hypothèses Nouvelles informations Techniques Statistiques Techniques de Data Mining Confirmatoires Exploratoires 16

Machine Learning vs Data Mining Passage à l échelle 17

Les tâches du DM o Fouille de données : de nombreuses tâches possibles (27) n n n n n n Classification créer une fonction qui classifie une donnée élémentaire parmi plusieurs classes prédéfinies existantes Régression créer une fonction qui donne une donnée élémentaire à une variable de prévision avec des données réelles Groupement (clustering) rechercher à identifier un ensemble fini de catégories ou groupe en vues de décrire les données Résumé affiner une description compacte d un sous-ensemble de données Modélisation des dépendances trouver un modèle qui décrit des dépendances significatives entre les variables Détection de changement et déviation découvrir les changements les plus significatifs dans les données 18

Les tâches du DM o Non pas 1 mais n approches donc m techniques o 3 approches principales (R. Agrawal) vision BD Classification Règles d association Motifs séquentiels 19

Supervisés et non supervisés n Apprentissage supervisé : o On dispose d'un fichier décrivant des données alliant une description et une classe o On cherche une fonction de classification permettant d'induire la classe en fonction d'une description n Apprentissage non supervisé : o On dispose d'un fichier de description des données sans classes connues a priori o On cherche à diviser ces données en catégories 20

Algorithmes prédictifs et descriptifs n Veut-on o Trouver une fonction permettant de prédire la classe d'une données jamais vue Ou o Trouver des descriptions résumées et pertinentes expliquant les données n La limite entre les 2 est floue! (méthodes descriptives pour la prédiction) 21

Algorithmes vu en M1 o Classification supervisée o Méthode de Bayes naïf o k plus proches voisins o Arbres de décision o Classification non supervisée : o o o k-means o De partition o Hiérarchique Règles d association Évaluation des méthodes 22

Classification n division de l ensemble de données en classes disjointes en utilisant un apprentissage supervisé ou non (clustering) o But : recherche d un ensemble de prédicats caractérisant une classe d objet et qui peut être appliqué à des objets inconnus pour prévoir leur classe d appartenance. o Exemple : une banque peut vouloir classer ses clients pour savoir si elle accorde un crédit ou non. o Techniques : Arbre de décision, réseaux neuronaux,... 23

Le mailing o Classification/clustering un exemple d utilisation n un cadeau est envoyé par mailing. Un envoi sans réponse coûte 50 et une réponse assure 100. n Pas d envoi de mailing à un client qui aurait répondu : perte de 100. 24

Le mailing Envoi du mailing Quel client a répondu? Déterminer les caractéristiques des clients avec le Data Mining Sélection des clients sur la base Résultat : groupement avec une forte probabilité de réponse 25

Résultat du mailing Population de Mailing 100 personnes Oui : 31%, Non : 69 % Prob : 97% Cadres 70 personnes Oui : 40 %, Non 60 % Prob : 95% Ouvrier 30 personnes Oui : 10 %, Non : 90 % Prob : 95 % Hommes 50 personnes Oui : 36 %, Non : 64 % Prob : 93 % Femmes 20 personnes Oui : 50 %, Non : 50 % Prob : 93 % 26

Quantification Population de mailing - 350 31*100-69*50 Cadres 700 (70* 40%)*100 - (70*60%)*50 Ouvriers - 1050 3 * 100-27 * 50 Hommes 200 18 * 100-32 * 50 Femmes 500 10 * 100-10 * 50 Mailing à l ensemble des cadres ou uniquement aux femmes cadres 27

Evaluation Matrice de coûts Prédit OBSERVE Payé Retardé Impayé TOTAL Payé 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 TOTAL 86 34 30 150 Validité du modèle : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 28

Recherche de motifs fréquents o Qu est ce qu un motif fréquent? n Un motif (ensemble d items, séquences, arbres, ) qui interviennent fréquemment ensemble dans une base de données [AIS93] o Les motifs fréquents : une forme importante de régularité n Quels produits sont souvent achetés ensemble? n Quelles sont les conséquences d un ouragan? n Quel est le prochain achat après un PC? 29

Recherche de motifs fréquents o Analyse des associations 35% des clients qui achètent de la bière achètent des couches n Panier de la ménagère, cross marketing, conception de catalogue, analyse de textes n Corrélation ou analyse de causalité o Analyse de séquences 25% des clients achètent de la bière et le lendemain de l aspirine n Web Mining, détection de tendances, analyses ADN n Périodicité partielle, associations temporelles/cycliques 30

Panier de la ménagère Localisation Produits achetés Identification Date, heure Les règles d association 31

Aidons Mme Guénolé 32

Aidons Mme Guénolé o Quels enseignements? n Rechercher sans a priori n est pas une tâche aisée n Quelle validation des découvertes de connaissance? surprenante et nouvelle

La légende Les règles d association 34

Motivations vers une évolution Requêtes sur une base de données Select F.Four_Nom, F.Ville From F,FP,P Where F.Four_No=FP.Four_No And FP.Piece_No=P.Piece_No And Piece_Nom=«Ecrou» Salsa, Lille Jean, Paris 35

Motivations vers une évolution http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=wi http://groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=ig http://news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=gn http://www.google.fr/search? hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http://maps.google.fr/ maps http://www.google.fr/search?hl=fr&q=maps&meta= http://www.google.fr/ search?hl=fr&q=scholar&meta= http://scholar.google.com/ http:// scholar.google.com/scholar?q=intrusion+detection+data+mining&hl=fr&lr=&lr= http://scholar.google.com/scholar?hl=fr&lr=&cluster=13562338393205821716 http://groups.google.fr/groups/dir?lnk=od&hl=fr&sel=16823695 http:// groups.google.fr/groups/dir? hl=fr&sel=16823695,67188904,16823684,16823694,16823683 http:// groups.google.fr/group/soswindows?lnk=gschg&hl=fr http://news.google.fr/? ned=fr&topic=n http://news.google.fr/?ned=fr&topic=n http://video.google.fr/ videosearch?q=genre:../../../etc/passwd http://earth.google.fr/earth4.html http:// books.google.fr/books? id=7na0ud5wbi4c&pg=pa1&ots=fo9stqkezv&dq=ids&sig=p3bmwwqjemo zrgondxsfj6tjn4m http://blogsearch.google.fr/blogsearch?hl=fr&q=ids&lr=.. Fouille De Données Motifs de fraudes : http://host/cgi-bin/vuln.cgi?file=* -> http://host/cgi-bin*file=/etc/passwd 36

Les challenges «classiques» 37

Les challenges «classiques» o Quelques exemples de gros volumes de données Sources wintercorp.com 2003 Co. Size (GB) DBMS System France Telecom 29323 Oracle HP AT&T 26269 Dayton Sun SBC 24805 Teradata NCR Anonymous 16191 DB2 for Unix IBM Amazon.com 13001 Oracle HP 38

Mais aussi o Capteurs : A, B, C o Mesures : le capteur A mesure la valeur 82.5 au temps 06:41:39 39

Pour la maintenance 40

Mais aussi http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=wi http:// groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=ig http:// news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=gn http:// www.google.fr/search?hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http:// maps.google.fr/maps http://www.google.fr/search?hl=fr&q=maps&meta= http://www.google.fr/search? hl=fr&q=scholar&meta= http://scholar.google.com/ http://scholar.google.com/scholar?q=intrusion +detection+data+mining&hl=fr&lr=&lr= http://scholar.google.com/scholar? hl=fr&lr=&cluster=13562338393205821716 http://groups.google.fr/groups/dir? lnk=od&hl=fr&sel=16823695 http://groups.google.fr/groups/dir? hl=fr&sel=16823695,67188904,16823684,16823694,16823683 http://groups.google.fr/group/ soswindows?lnk=gschg&hl=fr http://news.google.fr/?ned=fr&topic=n http://news.google.fr/? ned=fr&topic=n http://video.google.fr/videosearch?q=genre:../../../etc/passwd http://earth.google.fr/ earth4.html http://books.google.fr/books? id=7na0ud5wbi4c&pg=pa1&ots=fo9stqkezv&dq=ids&sig=p3bmwwqjemozrgondxsfj6tjn4m http://blogsearch.google.fr/blogsearch?hl=fr&q=ids&lr=.. Connaissance : http://host/cgi-bin/vuln.cgi?file=* -> http://host/cgi-bin*file=/etc/passwd http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=wi http:// groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=ig http:// news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=gn http:// www.google.fr/search?hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http:// maps.google.fr/maps http://www.google.fr/search?hl=fr&q=maps&meta= Quid des aspects incrémentaux? 41

Explosion de données ces dernières années n 30 Milliards d email par jour - 1 Milliard de SMS, MMS n «China s cellular operators estimate Chinese customers will send around 14 billion Lunar New Year text messages on their mobile phones during the weeklong holiday» n n n Trafic réseau IP : plus d 1 Milliard de packets par heure et par routeur. Chaque fournisseur de service internet possède (des centaines) de routeurs! 75000 tuples par seconde! AT&T collecte 100 GBs de données de réseaux chaque jour Données scientifiques: NASA EOS (Earth Observation System) observation par satellites génére 350 GBs par jour Sources: tutorial of Muthu Muthukrishnan (Rutgers Univ.), Turorial of G. Hebrail (ENST) News February 19th 07 42

Explosion de données ces dernières années n En moyenne 1 1Milliard de page par jour vus sur ebay Sources: ebay Report (2006) n Yahoo: 166 millions de visiteurs par jour; 48 Gbs par heure de clickstream Sources: Yahoo (2002) o Besoin de requête/analyse sophistiquée en temps réel 43

Applications o Enregistrement des appels téléphoniques o Business: transactions cartes banquaires o Supervision de réseau o Marché financier : stock exchange o Processus industriels, RFID o Capteurs, surveillance : flux vidéo o Localisation de Visiteur : IntelliBadge (expérience du NCSA) o Hôpitaux o Clickstreams 44

Qu est ce qu un flux de données? o Une définition n Un flux de données est une séquence (potentiellement) non limitée de tuples n Continue n Ordonné : suppose un numéro (éventuellement implicite) de séquence pour chaque élément n Changeant : la distribution des données change en temps réel n Rapide : les données arrivent rapidement n Volume très grand : De gros volumes de données (quelques terabytes) - éventuellement infinis n Vous n avez droit qu à un seul passage!!!! 45

Conclusion o Pour une application, de nombreuses approches possibles o De nombreuses questions : n Quelle technique choisir? Quelles données retenir? n Résultats attendus?.. o Ne pas oublier l étape de préparation des données : 80% du temps o Besoin de s adapter à de nouvelles contraintes : préservation de la vie privée, contraintes temporelles, données dynamiques (incrémental ou flot), données complexes (semi structurées, textuelles, multidimensionnelles), 46