Web Data Mining p. 1/2 Web Data Mining Fouille des données de la toile Maria Malek Options GL, ISICO & IdSI EISTI
Web Data Mining p. 2/2 Vous avez dit? World Wide Web
Web Data Mining p. 2/2 Vous avez dit? World Wide Web "Wide-area Hypermedia Information retrievel initiative aiming to give universal access to a large universe of documents"
Web Data Mining p. 2/2 Vous avez dit? World Wide Web "Wide-area Hypermedia Information retrievel initiative aiming to give universal access to a large universe of documents" réseau : internet, Client serveur..
Web Data Mining p. 2/2 Vous avez dit? World Wide Web "Wide-area Hypermedia Information retrievel initiative aiming to give universal access to a large universe of documents" réseau : internet, Client serveur.. Navigateur..
Web Data Mining p. 2/2 Vous avez dit? World Wide Web "Wide-area Hypermedia Information retrievel initiative aiming to give universal access to a large universe of documents" réseau : internet, Client serveur.. Navigateur.. Hypertext, hyperliens, Hypermédias..
Web Data Mining p. 3/2 Un peu d histoire? Création du Web 1989, Tim Berners-Lee (CERN) Système distribué, Hypertext HTML, HTTP, URL
Web Data Mining p. 3/2 Un peu d histoire? Création du Web 1989, Tim Berners-Lee (CERN) Système distribué, Hypertext HTML, HTTP, URL Les navigateurs Mosaic & Netscape, 1993.
Web Data Mining p. 3/2 Un peu d histoire? Création du Web 1989, Tim Berners-Lee (CERN) Système distribué, Hypertext HTML, HTTP, URL Les navigateurs Mosaic & Netscape, 1993. L internet Dès 1969 Protocole TCP/IP, 1973-1982
Web Data Mining p. 3/2 Un peu d histoire? Création du Web 1989, Tim Berners-Lee (CERN) Système distribué, Hypertext HTML, HTTP, URL Les navigateurs Mosaic & Netscape, 1993. L internet Dès 1969 Protocole TCP/IP, 1973-1982 Les moteurs de recherche Excite, 1993, Université de Stanford Yahoo, 1994. Lycos, Inforseek, AltaVista, etc. Google, 1998, Université de Stanford, etc.
Web Data Mining p. 4/2 Et Encore? W3C The World Wide Web Consortium MIT & CERN, 1994
Web Data Mining p. 4/2 Et Encore? W3C The World Wide Web Consortium MIT & CERN, 1994 Objectifs Standards pour l évolution du Web, Spécifications & logiciels de référence
Web Data Mining p. 5/2 fouiller les données de la TOILE?! Données - Informations : quantité énorme, diversité, couverture
Web Data Mining p. 5/2 fouiller les données de la TOILE?! Données - Informations : quantité énorme, diversité, couverture Différents types et natures de données
Web Data Mining p. 5/2 fouiller les données de la TOILE?! Données - Informations : quantité énorme, diversité, couverture Différents types et natures de données Information présentée d une façon hétérogène
Web Data Mining p. 5/2 fouiller les données de la TOILE?! Données - Informations : quantité énorme, diversité, couverture Différents types et natures de données Information présentée d une façon hétérogène Lien et Hyperliens, autorité de certaines pages
Web Data Mining p. 5/2 fouiller les données de la TOILE?! Données - Informations : quantité énorme, diversité, couverture Différents types et natures de données Information présentée d une façon hétérogène Lien et Hyperliens, autorité de certaines pages Informations bruitées : pour une application donnée, une partie de la page est considérée.
Web Data Mining p. 6/2 Et encore : fouiller la TOILE?! La toile "propose" des services : commande de produits, paiement de factures
Web Data Mining p. 6/2 Et encore : fouiller la TOILE?! La toile "propose" des services : commande de produits, paiement de factures La toile est dynamique, les informations changent d une façon continue.
Web Data Mining p. 6/2 Et encore : fouiller la TOILE?! La toile "propose" des services : commande de produits, paiement de factures La toile est dynamique, les informations changent d une façon continue. La toile est une société virtuelle : interactions entre les internautes, etc.
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez?
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD)
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD) Les domaines : Apprentissage supervisé (classification) Apprentissage non supervisé (catégorisation, segmentation) Découverte de règles d association
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD) Les domaines : Apprentissage supervisé (classification) Apprentissage non supervisé (catégorisation, segmentation) Découverte de règles d association Les étapes :
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD) Les domaines : Apprentissage supervisé (classification) Apprentissage non supervisé (catégorisation, segmentation) Découverte de règles d association Les étapes : 1. Pré-traitement des données
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD) Les domaines : Apprentissage supervisé (classification) Apprentissage non supervisé (catégorisation, segmentation) Découverte de règles d association Les étapes : 1. Pré-traitement des données 2. Application de l algorithme de la fouille en question
Web Data Mining p. 7/2 Alors : Fouille de données?!! DATA MINING!! vous connaissez? Knowledge Discovery in Databases (KDD) Les domaines : Apprentissage supervisé (classification) Apprentissage non supervisé (catégorisation, segmentation) Découverte de règles d association Les étapes : 1. Pré-traitement des données 2. Application de l algorithme de la fouille en question 3. Post-traitement des données
Web Data Mining p. 8/2 Alors : Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance à partir des hyperliens.
Web Data Mining p. 8/2 Alors : Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance à partir des hyperliens. Web Content Mining Analyse des contenus des pages web : Classer et/ou segmenter les pages selon le thème Chercher des descriptions de produits, etc.
Web Data Mining p. 8/2 Alors : Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance à partir des hyperliens. Web Content Mining Analyse des contenus des pages web : Classer et/ou segmenter les pages selon le thème Chercher des descriptions de produits, etc. Web Usage Mining Analyse les traces de navigations des internautes (logs) Algorithmes d analyse et de traitement de séquences Besoin d une phase de pré-traitement
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification)
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation)
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation) Web Mining
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation) Web Mining 1. Recherche d information sur le web
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation) Web Mining 1. Recherche d information sur le web 2. Analyse de liens
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation) Web Mining 1. Recherche d information sur le web 2. Analyse de liens 3. Extraction de données structurées et intégration
Web Data Mining p. 9/2 L essentiel : Contenu du cours Elements nécessaires de la fouille de données 1. Règles d association & traitement de séquences 2. Apprentissage supervisé (classification) 3. Apprentissage non supervisé (catégorisation) Web Mining 1. Recherche d information sur le web 2. Analyse de liens 3. Extraction de données structurées et intégration 4. Web Usage Mining
Web Data Mining p. 10/2 Référence Bibliographique Essentiellement..
Web Data Mining p. 10/2 Référence Bibliographique Essentiellement.. Bing Liu, Web Data Mining, Springer, 2007.
Web Data Mining p. 10/2 Référence Bibliographique Essentiellement.. Bing Liu, Web Data Mining, Springer, 2007. et autres..
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items.
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat]
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat] Un ensemble d items est une suite d items exprimée dans un ordre donné
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat] Un ensemble d items est une suite d items exprimée dans un ordre donné Une transaction est un ensemble d items, exemples
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat] Un ensemble d items est une suite d items exprimée dans un ordre donné Une transaction est un ensemble d items, exemples T1 [vin, fromage, viande]
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat] Un ensemble d items est une suite d items exprimée dans un ordre donné Une transaction est un ensemble d items, exemples T1 [vin, fromage, viande] T2 [vin, fromage, chocolat]
Web Data Mining p. 11/2 Les règles d association - Terminologie Domaine décrit par une liste d atomes appelée items. Application : panier de ménagère dans un supermarché : [vin, fromage, chocolat] Un ensemble d items est une suite d items exprimée dans un ordre donné Une transaction est un ensemble d items, exemples T1 [vin, fromage, viande] T2 [vin, fromage, chocolat] Un ensemble D de transactions correspond à un ensemble d apprentissage
Web Data Mining p. 12/2 Les règles d association - Objectif Objectif : chercher les associations à partir de D
Web Data Mining p. 12/2 Les règles d association - Objectif Objectif : chercher les associations à partir de D T1 vin fromage
Web Data Mining p. 12/2 Les règles d association - Objectif Objectif : chercher les associations à partir de D T1 vin fromage T2 vinf romage jambon
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions minsupp un paramètre
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions minsupp un paramètre Trouver tous les ensembles d items fréquents de longueurs différentes, exemple
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions minsupp un paramètre Trouver tous les ensembles d items fréquents de longueurs différentes, exemple 1. Si ABCD est un ensemble d items fréquent
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions minsupp un paramètre Trouver tous les ensembles d items fréquents de longueurs différentes, exemple 1. Si ABCD est un ensemble d items fréquent 2. Construire la règle AB CD ssi support(abcd)/support(ab) minconf
Web Data Mining p. 13/2 Les règles d association - Définition Ensemble d items fréquents : motif fréquent dans la base de transactions minsupp un paramètre Trouver tous les ensembles d items fréquents de longueurs différentes, exemple 1. Si ABCD est un ensemble d items fréquent 2. Construire la règle AB CD ssi support(abcd)/support(ab) minconf 3. minconf est un paramètre
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie L k est l ensemble constitué des sous-ensembles d items fréquents de longueur k.
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie L k est l ensemble constitué des sous-ensembles d items fréquents de longueur k. C k est un ensemble constitué des sous-ensembles d items candidats de longueur k, notons bien que L k C k
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie L k est l ensemble constitué des sous-ensembles d items fréquents de longueur k. C k est un ensemble constitué des sous-ensembles d items candidats de longueur k, notons bien que L k C k Propriété Soit X k un sous-ensemble d items fréquent, tous les sous-ensembles d items contenus dans X k et qui soient de longueurs inférieurs à k sont fréquents.
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie L k est l ensemble constitué des sous-ensembles d items fréquents de longueur k. C k est un ensemble constitué des sous-ensembles d items candidats de longueur k, notons bien que L k C k Propriété Soit X k un sous-ensemble d items fréquent, tous les sous-ensembles d items contenus dans X k et qui soient de longueurs inférieurs à k sont fréquents. 1. Si ABCD est un ensemble d items fréquent
Web Data Mining p. 14/2 Les règles d association - Algorithmes Terminologie L k est l ensemble constitué des sous-ensembles d items fréquents de longueur k. C k est un ensemble constitué des sous-ensembles d items candidats de longueur k, notons bien que L k C k Propriété Soit X k un sous-ensemble d items fréquent, tous les sous-ensembles d items contenus dans X k et qui soient de longueurs inférieurs à k sont fréquents. 1. Si ABCD est un ensemble d items fréquent 2. ABC,ABD, BCD, AB,AC,BC,BD,CD,A,B,C,D les sont aussi.
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 )
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t)
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup}
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup} 4. k k + 1
Web Data Mining p. 15/2 Les règles d association - Apriori Calculer L 1 k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup} 4. k k + 1 RETOURNER k L k
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre :
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1]
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q 4. Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1]
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q 4. Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1] L algorithme sousens calcule le sous ensemble C t C k, la phase effacer
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q 4. Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1] L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {{123}, {124}, {134}, {135}, {234}},
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q 4. Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1] L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {{123}, {124}, {134}, {135}, {234}}, 2. la phase joindre donne comme résultat C 4 = {{1234}, {1345}}
Web Data Mining p. 16/2 Les règles d association - Apriori - Suite L algorithme apriori-gen, la phase joindre : 1. insert into C k 2. select p[1],p[2],..p[k 1],q[k 1] 3. from p,q 4. Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1] L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {{123}, {124}, {134}, {135}, {234}}, 2. la phase joindre donne comme résultat C 4 = {{1234}, {1345}} 3. la phase effacer donne le résultat: C 4 = {{1234}
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble}
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++ (c) Si C t <> φ Alors
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++ (c) Si C t <> φ Alors i. Ĉ k + < t.tid,c t >
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++ (c) Si C t <> φ Alors i. Ĉ k + < t.tid,c t > 3. L k {c C k c.count minsup}, k k + 1
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++ (c) Si C t <> φ Alors i. Ĉ k + < t.tid,c t > 3. L k {c C k c.count minsup}, k k + 1 RETOURNER k L k
Web Data Mining p. 17/2 Les règles d association - AprioriTid Calculer L 1, Ĉ1 D, k 2 TantQue L k 1 <> φ 1. C k apriori gen(l k 1 ), Ĉk φ 2. TantQue t Ĉk 1 (a) C t {c C k (c[1].c[2]..c[k 1]) t.ensemble (c[1].c[2]..c[k 2].c[k]) t.ensemble} (b) TantQue c C t i. c.count++ (c) Si C t <> φ Alors i. Ĉ k + < t.tid,c t > 3. L k {c C k c.count minsup}, k k + 1 RETOURNER k L k
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés :
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple :
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple : R1 A B,C
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple : R1 A B,C R2 A,B C
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple : R1 A B,C R2 A,B C confiance(r1)=support(abc)/support(a),
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple : R1 A B,C R2 A,B C confiance(r1)=support(abc)/support(a), confiance(r2)=support(abc)/support(ab),
Web Data Mining p. 18/2 Génération de règles - 1 Approche descendante de génération fondée sur deux propriétés : 1. Redondance simple : Nous testons les règles ayant le nombre de conditions minimal pour un sous-ensemble fréquent, exemple : R1 A B,C R2 A,B C confiance(r1)=support(abc)/support(a), confiance(r2)=support(abc)/support(ab), confiance(r2)>confinace(r1).
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés :
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple :
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple : R1 A B,C,D
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple : R1 A B,C,D R2 A B,C
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple : R1 A B,C,D R2 A B,C confiance(r1)=support(abcd)/support(a),
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple : R1 A B,C,D R2 A B,C confiance(r1)=support(abcd)/support(a), confiance(r2)=support(abc)/support(a),
Web Data Mining p. 19/2 Génération de règles - 2 Approche descendante de génération fondée sur deux propriétés : 1. Redondance stricte : Nous commençons par la recherche par les ensembles fréquents les plus grands, exemple : R1 A B,C,D R2 A B,C confiance(r1)=support(abcd)/support(a), confiance(r2)=support(abc)/support(a), confiance(r2)>confinace(r1)
Web Data Mining p. 20/2 Passons aux séquences Une séquence est une liste ordonnée de de sous-ensembles d items.
Web Data Mining p. 20/2 Passons aux séquences Une séquence est une liste ordonnée de de sous-ensembles d items. exemple : La séquence est une sous-séquence de < {3}{4, 5}{8} > < {6}{3, 7}{9}{4, 5, 8}{3, 8} >
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup}
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 )
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t)
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup}
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup} 4. k k + 1
Web Data Mining p. 21/2 Les règles d association - L algorithme GSP L 1 {< {l} > l C 1 l.count minsup} k 2 TantQue L k 1 <> φ 1. C k apriori gen SPM(L k 1 ) 2. TantQue t D (a) C t sousens(c k,t) (b) TantQue c C t i. c.count++ 3. L k {c C k c.count minsup} 4. k k + 1 RETOURNER k L k
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >},
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >}
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >} 3. la phase effacer donne le résultat : {< {1, 2}{4, 5} >}
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >} 3. la phase effacer donne le résultat : {< {1, 2}{4, 5} >}
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >} 3. la phase effacer donne le résultat : {< {1, 2}{4, 5} >}
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >} 3. la phase effacer donne le résultat : {< {1, 2}{4, 5} >}
Web Data Mining p. 22/2 Les règles d association - GSP - Suite L algorithme apriori-gen-spm, la phase joindre : S1 joint S2 si en supprimant un premier élément de S1 et un dernier de S2, les deux sous séquence deviennent identiques L algorithme sousens calcule le sous ensemble C t C k, la phase effacer 1. Si L 3 = {< {1, 2}{4} >,< {1, 2}{5} >,< {1}{4, 5} >,< {1, 4}{6} >,< {2}{4, 5} >,< {2}{4}{6} >}, 2. la phase joindre donne comme résultat {< {1, 2}{4, 5} >} et {< {1, 2}{4}{6} >} 3. la phase effacer donne le résultat : {< {1, 2}{4, 5} >}