UMR 7005 Fuille de Dnnées http://dpt-inf.u-strasbg.fr/~gancars Pierre Gançarski
Questins Est-ce une bnne idée que de faire de la publicité pur des grupes de rap dans des magazines du trisième âge? Est-ce que vus saviez que les cmpagnies de cartes de crédit peuvent suspecter un vl de carte, même si le prpriétaire de la carte n est pas encre au curant? Est-ce que vus savez purqui les entreprises liées à la burse spnsrisent les turnis de glf télévisés? Intrductin KDD 2
Purqui? Purqui l etractin de cnnaissances? Nécessité écnmique e-cmmerce Haut degré de cncurrence Persnnalisatin, fidélisatin de la clientèle, market segmentatin Dispnibilité crissante de quantité énrme de dnnées : La technlgie est dispnible pur aider à cllecter les dnnées : cde barre, scanners, satellites, lgs des serveurs, etc. dispnible (et bn marché) pur aider à stcker : base de dnnées, data warehuses, biblithèques numériques, www Dnnées sur les clients Numérisatin de tetes, images, vidé, vi, etc. Wrld Wide Web et catalgue en ligne Intrductin KDD 3
Purqui? Dnnées en trp grandes quantités pur être traitées manuellement u par des algrithmes classiques : Nmbre d enregistrements en millins u milliards Dnnée de grande dimensin suvent trp clairsemée Surces de dnnées hétérgènes Utilisateur est gavé de dnnées mais en manque de cnnaissances The greatest prblem f tday is hw t teach peple t ignre the irrelevant, hw t refuse t knw things, befre they are suffcated. Fr t many facts are as bad as nne at all. (W.H. Auden) De qui a-t-n besin? Etraire des cnnaissances intéressantes et utiles à partir des dnnées : Règles, régularités, irrégularités, mtifs, cntraintes Intrductin KDD 4
Etractin de Cnnaissances à partir de Dnnées ECD : Etractin d infrmatins riginales (nn triviales) implicites, incnnues auparavant et ptentiellement utiles à partir de grandes bases de dnnées : Nn triviale : sinn la cnnaissance n est pas utile Implicite : la cnnaissance cachée est difficile à bserver Incnnue jusqu alrs : évident! Ptentiellement utile : utilisable, cmpréhensible ECD : ensemble du prcessus de décuvertes et d interprétatin de régularités dans des dnnées Autres appellatins : Knwledge Discvery in Databases (KDD) Knwledge etractin Data/pattern analysis Intrductin KDD 5
Le prcessus général de décuverte de cnnaissances dans les dnnées 1. Pser le prblème 2. Recherche des dnnées 3. Nettyage des dnnées 4. Cdage des dnnées, actins sur les variables 5. Recherche d un mdèle, de cnnaissances, 6. Validatin et interprétatin du résultat, avec retur pssible sur les étapes précédentes 7. Intégratin des cnnaissances apprises Intrductin KDD 6
Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 7
ECD - Préparatin des dnnées Dnnées eistantes u à cnstituer Fichiers : infrmatin cntenue dans un u plusieurs fichiers indépendants BD relatinnelles : infrmatin cntenue dans plusieurs fichiers unis par une clé cmmune Base de dnnées Transactinnelles Nettyage : dublns, erreurs de saisie, valeurs aberrantes, infrmatins manquantes (ignrer l bservatin, valeur myenne (!!), valeur myenne sur la classe, régressin ) Intrductin KDD 8
ECD - Préparatin des dnnées Data Warehuses : entrepôt de dnnées cllectées de surces multiples suvent hétérgènes Les dnnées snt enregistrées, nettyées, transfrmées et intégrées Habituellement mdélisé par une structure de dnnée multidimensinnelles (cube) :. Les dnnées snt structurées suivant plusieurs aes d'analyses (dimensins du cube) cmme le temps, la lcalisatin... Une cellule est l'intersectin des différentes dimensins. Le calcul de chaque cellule est réalisé au chargement. Le temps de répnse est ainsi stable quelque sit la requête Intrductin KDD 9
ECD - Préparatin des dnnées Data Warehuses : entrepôt de dnnées cllectées de surces multiples suvent hétérgènes les cubes snt bien adaptés au requêtes rapides et à l analyse des dnnées : On-Line Analytical Prcessing (OLAP) : Quel est le nmbre de paires de chaussures vendues par le magasin "OnVendDesChaussuresIci" en mai 2003 ET Cmparer les ventes avec le même mis de 2001 et 2002. Quelles snt les cmpsantes des machines de prductin ayant eu le plus grand nmbre d incidents imprévisibles au curs de la péride 1992-97? Les répnses au requêtes OLAP peuvent prendre de quelques secndes à plusieurs minutes. Intrductin KDD 10
ECD - Préparatin des dnnées Sélectin des dnnées : Échantillnnage Sélectin de surces Réductin dimensinnalité : Sélectin u transfrmatin d attributs Pndératin Cdage : Agrégatin (smme, myenne), discrétisatin, cdage des attributs discrets, unifrmisatin d échelle u standardisatin Intrductin KDD 11
Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 12
Fuille de dnnées But : apprendre quelque chse de nuveau! Cncepts : regrupements basés sur le partage de caractéristiques Assciatins : crrélatins entre attributs u dnnées Prcédures Curs d actins réalisées étape par étape pur atteindre un but Principes Obtenir le plus haut niveau d abstractin pssible Règles u vérités qui snt les bases pur d autres vérités Intrductin KDD 13
Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 14
Fuille de dnnées - Apprentissage Apprentissage supervisée : Mdèle inductif ù l apprenant cnsidère un ensemble d eemples la cible «à apprendre» est cnnue (classe d appartenance, prpriété, ) : les eemples snt étiquetés préalablement Data mining prédictif : Diviser/regruper les instances dans des classes spécifiques pur des prédictins futures Prédire des valeurs incnnues u manquantes Algrithmes Arbres de décisin, classificatins, algrithmes génétiques, régressin linéaire et nn linéaire Intrductin KDD 15
Fuille de dnnées - Apprentissage Inductin C est une technique cmmunément utilisée Généralisatin d une bservatin u d un raisnnement établis à partir de cas singuliers. Elle cnsiste à tirer des cnclusins à partir d une série de faits Eemple tiré du curs de Yasmine Charif-Djebbar Intrductin KDD 16
Fuille de dnnées - Apprentissage Apprentissage nn supervisée : Cnstructin d un mdèle et décuverte des relatins dans les dnnées sans référence à d autres dnnées On ne dispse d'aucune infrmatin a priri sur le dnnées Data mining eplicatif Regruper les instances dans des classes spécifiques en se basant sur leur ressemblance u sur le partage de prpriétés. Les classes snt incnnues et snt dnc créées : elles servent à «epliquer» u résumer les dnnées Mise en relatin des dnnées Algrithmes Segmentatin, regrupement, décuverte d assciatins et de règles Intrductin KDD 17
Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 18
Fuille de dnnées - Estimatin Estimatin Régressin Dette Revenu Méthde des mindres carrés (Eemples tirés de curs de Béatrice Duval, Labratire d'infrmatique, Université d'angers) Intrductin KDD 19
Fuille de dnnées - Estimatin Estimatin Régressin Réseau de neurnes valeur de srtie attributs de descriptin (Eemples tirés de curs de Béatrice Duval, Labratire d'infrmatique, Université d'angers) Intrductin KDD 20
Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 21
Fuille de dnnées Classificatin Divisin de l ensemble de dnnées en classes disjintes But : recherche d un ensemble de prédicats caractérisant une classe d bjets et qui peut être appliqué à des bjets incnnus pur prévir leur classe d appartenance. Principales techniques : Arbres de décisin, réseau neurnau, algrithmes génétiques, Intrductin KDD 22
Fuille de dnnées - Arbre de décisins Arbre de décisin : Classer les bjets en sus-classes par divisins hiérarchiques cnstructin autmatique à partir d un échantilln de la base Peut être vu cmme une présentatin hiérarchique d une table relatinnelle... Intrductin KDD 23
Fuille de dnnées - Arbre de décisins Eemple un cadeau est envyé par mailing. Un envi sans répnse cûte 50 F et une répnse assure 100F. «ubli» d un envi de mailing à un client qui aurait répndu : perte de 100 F. Tableau des répnses sur un échantilln (taille 100) de la ppulatin : Nm Prénm See Prfessin Répnse Martin Berluchette Sarkau Vil Maitre Jeanne Huguette Sy Dminique Kanter F F M M M Cadre Ouvrière Ouvrier Cadre Cadre k k nn nn k Questin : A quelle catégrie de la ppulatin faut-il envyer le mail? (Eemple issu de curs de Pascal Pncelet, Centre de Recherche LGI2P Ecle des Mines d Alès) Intrductin KDD 24
Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 25
Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 26
Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 27
Fuille de dnnées - Arbre de décisins Résultat en termes de cûts : Ppulatin de mailing - 350 F 31*100-69*50 Cadres 700 F (70* 40%)*100 - (70*60%)*50 Ouvriers - 1050 F 3 * 100-27 * 50 Hmmes 200 F 18 * 100-32 * 50 Femmes 500 F 10 * 100-10 * 50 Mailing à l ensemble des cadres u uniquement au femmes cadres Intrductin KDD 28
Fuille de dnnées - Arbre de décisins Autre eemple Une banque veut truver un myen d évaluer la slvabilité d un client Etude sur un échantilln (taille 100) de la ppulatin : Nm Martin Sarkau Vil Ganze Ifa Maitre Prénm Jeanne Sy Dminique Pierre Stude Kanter See F M M M F M Revenu 36 000 120 000 15 000 80 000 8 000 23 000 Prêts en curs 20 000 12 000 10 000 10 000 2 000 10 000 Défaillance 0 1 1 0 1 0 Questin : Laffrges Christine, avec un revenu de 60 00 peut-elle prétendre à un prêt de 10 000? Intrductin KDD 29
Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien : cherche à ptimiser la prbabilité P(ck ) c-à-d de P( ck).p(ck)/p() c-à-d P( ck).p(ck) car P(X) ne dépend pas de P(ck) - les attributs snt suppsés indépendants : P(ck) = nk/n et P( ck) = Π P(i ck) - Eercice : - Deu classes : - c1 = {01100, 11001, 10110, 10101, 10010} - et c2 = { 01010, 11111, 11010, 11101, 10101} - Classer X = 00111 - (Répnse c1) Intrductin KDD 30
Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins : n calcule tutes les distances entre le pint X à classifier et tus les pints dnc n cnnaît la classe : n cnserve les K plus prches. La classe majritaire dans cet ensemble est attribuée à X. Intrductin KDD 31
Fuille de dnnées - Classificatin Eemple Dette : pbe de rembursement : pas de pbe X Revenu Intrductin KDD 32
Fuille de dnnées - Classificatin Eemple Dette : pbe de rembursement : pas de pbe X K = 3, K = 5 Revenu Intrductin KDD 33
Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes : Inspirés de la structure du système nerveu: Un grand nmbre de neurnes cnnectés qui traitent l infrmatin La répnse du neurne dépend de sn état et des pids des cnneins Les pids (u frces) snt dévelppées par epérience Intrductin KDD 34
Fuille de dnnées Réseau de neurnes Principes Cnstructin d un réseau d'unités calculatires simples (neurne) liées par des cnneins Apprentissage des paramètres du réseau (pids des cnneins) grâce à un ensemble d'eemples Un neurne est frmé : d entrées (cnneins entrantes u variables d entrée) de pids sur les cnneins entrantes d une fnctin F qui calcule une srtie en fnctin des entrées et des pids sur les entrées d une fnctin d activatin φ qui mdifie l amplitude de la srtie du nœud. Intrductin KDD 35
Fuille de dnnées Réseau de neurnes 1 2 ω1 ω2 F s φ φ(s) 3 ω3 Intrductin KDD 36
Fuille de dnnées Réseau de neurnes Fnctin d activatin φ(s) = 1/(1 + e -ks ) φ(s) = linéaire f(s) = -1 si s <= - 1/a; f(s) = 1 si s >= 1/a ; f(s) = a*s ailleurs φ(s) = tangente hyperblique f(s)= (e gs - e -gs ) / (e gs + e -gs ) φ(s) = seuil φ (s) = 0 si s <= a; u... φ (s) = 1 si s > a ; Intrductin KDD 37
Fuille de dnnées Réseau de neurnes φ(s) = 1/(1 + e -ks ) 1 k grand k petit 0 Si le cefficient k est grand, alrs la srtie est presque tujurs prche de 0 u de 1 : réseau neurnal relativement symblique Si le cefficient k de 1/(1 + e -ks ) est petit, alrs la frce de chaque cellule est bien distribuée entre 0 et 1 : On a un réseau neurnal distribué. Un autre paramètre, implicite, est le centre de la fnctin sigmïde. Intrductin KDD 38
Fuille de dnnées Réseau de neurnes Cas le plus simple : Un seul neurne F = smme pndérée des entrées φ = seuillage φ(s) = 1 si s > a sinn 0 s = 1 si w1.1 + w2.2 +. > a s = 1 si w1.1 + w2.2 +. - a > 0 équatin d un hyperplan Intrductin KDD 39
Fuille de dnnées Réseau de neurnes Séparatin linéaire Dette : pbe de rembursement : pas de pbe Revenu Intrductin KDD 40
Fuille de dnnées Réseau de neurnes 1 2 ω1 ω2 Σ s φ φ(s) 3 ω3 0 = 1 Prblème de l apprentissage du seuil 1 2 ω1 ω2 ω0 = -a Σ s 1 si s> 0 0 sinn 3 ω3 Intrductin KDD 41
Fuille de dnnées Réseau de neurnes On rajute des eemples. Dette : pbe de rembursement : pas de pbe Revenu Truver un réseau de neurnes discriminant les deu classes Intrductin KDD 42
Fuille de dnnées Réseau de neurnes On rajute des eemples Dette : pbe de rembursement : pas de pbe Revenu Intrductin KDD 43
Fuille de dnnées Réseau de neurnes On peut faire un OU sur les deu réseau de neurnes On btient un réseau de neurnes à deu cuches Réseau multi-cuches Une cuche d entrée Une cuche de srtie Plusieurs cuches cachées Intrductin KDD 44
Fuille de dnnées Réseau de neurnes Perceptrn multi-cuches Cnneins pndérées dnnées srties Neurnes d entrd entrée Cuche(s) cachée(s) Neurne(s) de srtie Intrductin KDD 45
Fuille de dnnées Réseau de neurnes Apprentissage On eamine une dnnée On prpage les activatins jusqu'au cellules de srtie On eamine tutes les cellules de srtie On cmpare le résultat à celui espéré si il y une différence : On rétr prpage cette différence (erreur) On crrige des pids pur minimiser cette erreur : ω ij (t+1) = ω ij (t) + δω ij (t) Intrductin KDD 46
Fuille de dnnées Réseau de neurnes En pratique : On chisit une fnctin de calcul et une fnctin d activatin On chisit une architecte: Nmbre d entrées Nmbre de srties Nmbre de cuches internes Nmbre de neurnes de chacune des cuches internes On chisit une fnctin d erreur On définit un critère d arrêt Intrductin KDD 47
Fuille de dnnées Réseau de neurnes Pas de méthde autmatique pur chisir l'architecture du réseau On peut prcéder à des essais avec un mdèle simple (une cuche cachée) et un mdèle beaucup plus cmplee (2 u 3 cuches cachées) Méthde de cnstructin dynamique de réseau en curs d apprentissage : GNG Utilisatin des fnctins sigmïde et tangente pur la rétrprpagatin du gradient Intrductin KDD 48
Fuille de dnnées Réseau de neurnes Echantilln : Dit cuvrir l'ensemble des valeurs pur tutes les caractéristiques Les nmbres d'eemple d'apprentissage pur chaque valeur pssible de la srtie divent être similaires Lien entre nmbre d'eemples d'apprentissage et nmbre de pids à déterminer : Il est cnseillé de cnstruire un réseau ù le nmbre de cnneins est inférieur à 10% du nmbre d'eemples» E: avec 20 entrées 5 neurnes cachés et 5 neurnes de srties n a 20*5+5*5=125 cnneins» Dnc au mins 1250 bservatins Intrductin KDD 49
Fuille de dnnées Réseau de neurnes Avantages des réseau de neurnes Méthde rbuste au bruit Classement u estimatin rapide une fis le réseau cnstruit Dispnible dans tus les lgiciels de fuille de dnnées Incnvénients Bîte nire: difficile d'interpréter le mdèle btenu Temps d'apprentissage imprtant Difficulté de chi des paramètres Intrductin KDD 50
Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes SVM Algrithmes génétiques Inspirés des théries de l évlutin de Darwin, Lamarck u Baldwin Méthde générale d ptimisatin Intrductin KDD 51
Fuille de dnnées SVM Principe des Supprt Vectr Machines : séparer les dnnées en deu classes par un hyperplan tut en maimisant l écart entre cet hyperplan et les dnnées Intrductin KDD 52
Fuille de dnnées SVM Plusieurs drites pssibles. Dette : pbe de rembursement : pas de pbe Truver celle qui maimise l écart Revenu Intrductin KDD 53
Fuille de dnnées SVM Plusieurs drites pssibles. Dette : pbe de rembursement : pas de pbe Truver celle qui maimise l écart Revenu Intrductin KDD 54
Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes SVM Algrithmes génétiques Inspirés des théries de l évlutin de Darwin, Lamarck u Baldwin Méthde générale d ptimisatin Intrductin KDD 55
Fuille de dnnées Apprches génétiques Schéma général On définit les «paramètres» à ptimiser : intervalle de valeurs, seuils, etc. On définit le géntype crrespndant (chrmsmes). On définit la fnctin de calcul du phéntype et la fnctin d évaluatin d un individu On définit les mécanismes et tau de crisement et de mutatin On définit la fnctin de sélectin des survivants Intrductin KDD 56
Fuille de dnnées Apprches génétiques Schéma général initialiser la ppulatin calculer le degré d'adaptatin f() de chaque individu Tant que nn fini u nn cnvergence reprductin des parents : sélectinner 2 individus à la fis appliquer les pérateurs génétiques calculer le degré d'adaptatin f() de chaque enfant sélectinner les survivants parmi les parents et les enfants Intrductin KDD 57
Fuille de dnnées - Classificatin Validatin par le test Dnnées Ensemble d apprentissage Ensemble de test Cnstructin d un mdèle sur l ensemble d apprentissage et test du mdèle sur le jeu de test pur lequel les résultats snt cnnus Intrductin KDD 58
Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 59
Fuille de dnnées Classificatin autmatique But de la classificatin : btenir une représentatin simplifiée (structuratin) des dnnées initiales Organisatin d un ensemble d bjets en un ensemble de regrupements hmgènes et/u naturelles Intrductin KDD 60
Fuille de dnnées Classificatin autmatique Partitinnement Dette Emprunteurs sûrs : pbe de rembursement : pas de pbe Emprunteurs à éviter Aucune interprétatin sémantique a priri Revenu Intrductin KDD 61
Fuille de dnnées Classificatin autmatique Hiérarchie 6 8 7 Intrductin KDD 62
Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 63
Fuille de dnnées Assciatins Règles d assciatins : analyse du panier de la ménagère «le jeudi, les clients achètent suvent en même temps des packs de bière et des cuches» Y-a-t-il des liens de causalité entre l achat d un prduit P et d un autre prduit P? Intrductin KDD 64
Fuille de dnnées Assciatins Tickets Prduits achetés Questins : règle d assciatin : prémisse cnclusin Eemple tiré du curs de Jérôme Azé beurre pain? pissn viande lait? frmage pâtes vin? Intrductin KDD 65
Fuille de dnnées Assciatins Frmellement Etant dnné un ensemble de transactins D, truver tutes les règles d assciatin X => Y ayant un supprt et une cnfiance supérieurs au seuils minimau prédéfinis par l utilisateur Un transactin est un ensemble d attributs T1 : beurre, fruit, lait, pain Supprt : % de transactins dans D qui cntiennent X et Y Cnfiance : % de transactins qui cntiennent X parmi celles cntenant Y. Intrductin KDD 66
Fuille de dnnées Assciatins Interprétatin R : X Y (A%, B%) : A% de tutes les transactins mntrent que X et Y nt été achetés en même temps (supprt de la règle) et B% des clients qui nt acheté X nt aussi acheté Y (cnfiance dans la règle). Intrductin KDD 67
Fuille de dnnées Assciatins Deu sus-prblèmes : Truver tus les ensembles fréquents (itemsets) ayant un supprt supérieur u égal à une valeur minimale minsup dnnée : FIS A partir des FIS, engendrer l ensemble des règles d assciatin ayant une cnfiance supérieure u égale à mincnf Intrductin KDD 68
Fuille de dnnées Assciatins Tickets Prduits achetés et Supprt = Tus tickets Cnfiance = et + beurre pain Supprt 70% Cnfiance 100% pissn viande lait 20% 100% frmage pâtes vin 40% 80% Eemple tiré du curs de Jérôme Azé Intrductin KDD 69
Fuille de dnnées Assciatins Tickets Prduits achetés vin et Supprt = Tus tickets Cnfiance = et + beurre pain Supprt 70% Cnfiance 100% pissn viande lait 20% 100% frmage pâtes vin 40% 80% Intrductin KDD 70
Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 71
ECD - Validatin Génératin d un grand nmbre de mdèles Le mdèle est-il intéressant? Mesures d intérêt d un mdèle: Nuveau Facile à cmprendre Valide sur de nuvelles dnnées (avec une certaine mesure de certitude) Utile Cnfirme (u infirme) les hypthèses d un epert Intrductin KDD 72
ECD - Validatin Évaluatin d un mdèle subjective (epert) bjective (statistiques et structure des mdèles) Peut-n truver tus les mdèles? (Cmplétude) Peut-n générer seulement les mdèles intéressants? (Optimisatin) Génératin de tus les mdèles et filtrage suivant certaines mesures et caractéristiques : Nn réaliste Générer seulement les mdèles vérifiant une cnditin particulière Intrductin KDD 73
Cnclusin Quelques idées fausses Méthdes plus inductives que basées sur des hypthèses car il n y a aucun a priri sur les dnnées Fau: cnditin d applicatin des méthdes, chi des dnnées, cdage des dnnées, chi des variables eplicatives, des variables à epliquer, rdre d entrée des variables dans l algrithme, On n est jamais neutre! Intrductin KDD 74
Cnclusin Quelques idées fausses Il faut utiliser systématiquement tutes les dnnées infrmatiquement dispnibles ainsi tut va apparaître Fau: cdage des dnnées, rdre d entrée des variables dans l algrithme, effectifs irréguliers, utliers, influence des redndances, des crrélatins, du mdèle de dnnées infrmatique, saturatin, instabilité Biais et erreurs Intrductin KDD 75
Cnclusin Quelques idées fausses Avec tutes ces techniques, n va tujurs faire des décuvertes incryables Fau: il faut truver des slutins cnfrmes au bn sens (spécialistes, eperts métier). En fait, truver la meilleure slutin (parmi n) pur une prblématique dnnée Intrductin KDD 76
Cnclusin Quelques idées fausses Le data mining est révlutinnaire Fau: analyses de dnnées traditinnelles + méthdes plus spécifiques (réseau de neurnes). Optimisatin des techniques car grand nmbre de dnnées. Intrductin KDD 77
Cnclusin Questin : Purqui tant d'algrithmes? Répnses : Parce qu'aucun n'est ptimal dans tus les cas, parce qu'ils s'avèrent en pratique cmplémentaires les uns des autres Parce qu'en les cmbinant intelligemment (en cnstruisant des méta mdèles (des mdèles de mdèles)) il est pssible d'btenir des gains de perfrmance très signifiants. Intrductin KDD 78