Découverte de Règles Associatives Hiérarchiques entre termes Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA 1
Plan Problématique et État de l art Nouvelle approche Approche Conceptuelle pour l Extraction des règles associatives non redondantes Génération d un Treillis de Générateurs Extraction des règles associatives non redondantes Exactes et Approximatives : Algorithme Gen_RA_RE L Extraction de règles associatives Hiérarchiques Objectifs et intérêts Les règles associatives Hiérarchiques: Génériques, Spécifiques et Equivalentes: algorithme Gen_RH Conclusion et perspectives 2
Problématique Données non structurées Corpus Textuels Besoin d exploitation Une méthode intéressante: L extraction des règles associatives Problèmes Les Algorithmes disponibles rendent un nombre trop important de règles Redondantes Non prise en compte de la sémantique malgré la disponibilité de taxonomies Proposition d une approche conceptuelle pour la découverte de règles d associations non redondantes et hiérarchiques 3
Les Règles Associatives Objectif représenter les corrélations entre les termes dans un ensemble de documents. Formalisme X Y α est une règle associative Exemple r : Langage O.O C++, Java 53% Dans 53% des documents où le terme langage O.O existe, les termes C++ et Java existent aussi 4
Les deux indicateurs Support Confiance mesure l efficacité d une règle associative Support ( X Y )= X &Y mesure la pertinence d une règle associatives. Confiance (X Y)= Support (XY) Documents Support( X ) Le nombre de documents contenant X et Y rapporté au nombre de documents total Le nombre de documents contenant X et Y rapporté au nombre de documents contenant X 5
Principe du processus d extraction de règles associatives 1 ère phase 2 ème phase Découverte des ensembles d attributs satisfaisant le seuil de support minsupp. Utilisation des ensembles d Itemsets fréquents pour en déduire les relations d implication: règles associatives valides. L ensemble retenu est dit : Itemsets fréquents Une règle associative est dite valide si elle satisfait le seuil de confiance minconf. 6
Les Connexions de Galois Soit R une relation binaire définie sur un ensemble E x F. Soient les deux ensembles O E. et I F. f (O) = { d / g, g O (g, d) R } h (I) = { g / d, d I (g, d) R } Les deux opérateurs f et h définissent une connexion de Galois. h ({I1,I2})= {O1, O3} f ({O1, O3})= {I1, I2, I3} f o h ({I1,I2})= { I1, I2, I3} Un concept formel f (O) R o1 o2 o3 o4 h (I) I1 I2 I3 I4 I 5 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 0 1 0 0 1 I est un concept formel ssi f o h( I )= I 7
Le Treillis de Galois C est l ensemble des concepts formels dérivés à partir d une relation R et en utilisant la fermeture de la connexion de Galois. Un ordre partiel (<<) définit les liaisons entre les concepts tel que : Il existe un arc direct entre c 1 et c 2 ssi f o h (c 1 ) f o h (c 2 ) h(c 1 ) h(c 2 ) Il c 3 h(c 2 ) h(c 3 ). & h(c 3 ) h(c 1 ) 8
Nouvelle Approche Extraction de Règles Associatives Non Redondantes Exactes et Approximatives. & Extraction de Règle Associatives Hiérarchiques 9
Motivations Règles associatives nombreuses et redondantes Une règle est dite redondante si elle n et pas porteuse de connaissances supplémentaires par rapport à l ensemble des règles résultats Taxonomie mal exploitée en textmining. Une Taxonomie est un graphe élaboré par des linguistes représentant les relations sémantiques entre les termes d un même domaine 10
Objectifs Améliorer la qualité des Règles Associatives à extraire à partir d un corpus textuel. Extraction de règles associatives Non Redondantes Exactes et Approximatives Extraction de règles associatives hiérarchiques 11
Les Avantages du Treillis de Générateurs un gain important d espace Mémoire Une meilleure visualisation Un Intérêt pour la génération des règles associatives. Treillis de Générateurs Treillis de Galois 12
Définition La redondance Simple r1 : A CTW et r2 : AT CW Supp ( r1 ) = supp ( r2 ) = supp ( ACTW ) Conf (r1) = supp( ACTW) / supp(a) << conf (r2) = supp(actw) / supp(at) Pour tout k-itemset, il suffit de générer la règle de prémisse minimale et satisfaisant min-conf La redondance stricte Conf (r 1 ) = supp (ACTW) /supp (A) r 1 : A CTW et r 2 : A CW Si ACTW est fréquent alors ACW est fréquent aussi << conf (r 2) = supp (ACW) /supp (A) 13
L algorithme Gen_RA_RE Principe Treillis de Générateurs Gen_RA_RE Règles associatives Non Redondantes Exactes & Approximatives Parcourir le Treillis de Générateurs de la racine vers les feuilles. Au niveau de chaque nœud générer les règles associatives non redondantes approximatives, Si il n y en a pas alors générer la règle associative non redondante exacte Amélioration de la qualité des règles associatives Gain en terme de temps d exécution 14
Exemple Conf (x y) = supp(xy xy) ) / supp(x) > min-conf supp(xy xy)> )>min-conf * supp(x) = seuil-supp supp Exemple Seuil-supp ( C ) =1/2 * 6 = 3 Seuil-supp (w) =1/2 * 5 = 5/2 15
Objectifs et intérêts des règles Hiérarchiques Pallier aux problèmes de bruit et de silence dans les SRI et/ou moteurs de recherche. Mieux cibler les besoins des utilisateurs non experts du domaine Possibilité d extension interactive des requêtes des utilisateurs Améliorer les deux indicateurs Rappel et précision 16
Principe de l algorithme Gen_RH Treillis de Générateurs & Règles associatives non redondantes & Taxonomie Gen_RH Principe Pour chaque règles non redondante : Règle Génériques & Règles Spécifiques & Règles Equivalentes Localiser les termes de la prémisse dans la Taxonomie Substituer chaque terme par : Son père Règle associative Générique Son fils Règle associative Spécifique Son voisin Règle associative Equivalentes Exploiter les relations sémantiques entre les termes Vérifier la validité statistiques des relations sémantiquement validesv alides. Etendre les requêtes dans les SRI 17
Exemple Soit la règle non redondante : D CT D A A CT : Supp = 3 ; Conf = 3 / 4 Règle Associative Générique D T T C : Supp = 4 ; Conf = 4 / 4 D W W CT : supp = 3 ; conf = 3 / 5 Règle Associative Equivalente Règle Associative Spécifique D G G CT impossible 18
Résultats Expérimentaux Les collections textuelles utilisées : OFIL: 35Mb contient 11016 articles hétérogènes et 119434 termes INIST: +100Mb contient 165431 articles scientifiques et 174659 termes Intervalle support Nbre règles Nbre règle Taux de réduction (CARD) (Gen-RA-RE) 5~ 50 documements 235806 5761 97,56% 50~ 500 documents 16162 3304 79,56% 50 ~1000 documents 291062 85878 70,49% 1000 ~ 5000 documents 374 257 31,28% 1000 ~ 11016 documents 2348 618 73,68% Résultats relatifs à la collection OFIL Intervalle support Nbre règles Nbre règles Taux de réduction (CARD) (Gen-RA-RE) 3 ~ 30 documents 5154 3062 40,59% 30 ~ 250 documents 472 273 42,16% 250 ~163000 documents 11012 8949 18,73% Résultats relatifs à la collection INIST 19
Conclusion Bilan Nouvelle approche conceptuelle efficace pour la réduction du nombre des règles associatives Exploitation des relations sémantiques véhiculées par la taxonomie dans le processus de génération de règles associatives Expérimentation sur les collections OFIL et INIST Perspectives Exploiter les règles découvertes pour l expansion de requêtes en RI. Comparer les deux indicateurs Rappel et Précision avec les résultats donnés par IOTA (Clips emac). Adapter cette approche à la floue 20