UMR 7005. Fouille de Données. Pierre Gançarski. http://dpt-info.u-strasbg.fr/~gancars



Documents pareils
LE TABLEAU DE BORD REMONTEE DES COMPTES. Outils de gestion prévisionnelle, d'analyse financière et du contrôle de gestion. TABLE DES MATIERES

Utilisation de RAMSIS dans la conception automobile Lisa Denninger Apports et Limites des Mannequins Virtuels 18 Novembre 2014

Résumé du module 6 : Coût et structure du capital

Gestion des Prospects : Adresses à exporter

Utiliser les activités de cours de Moodle : le Questionnaire

GUIDE D ENTRETIEN POUR LA PHASE 1

Division des Statistiques du Commerce Extérieur

FOCUS : LES SYSTÈMES D INFORMATION

Financement des investissements Page 1 sur 6

SYSTEME DE TELERADIAMETRIE H*(10)

CYBERLEARN COURS MOODLE. SUPPORT DE TRAVAIL Pour professeur-es et assistant-es d'enseignement

Fiche de projet pour les institutions publiques

Cible de Sécurité - Blancco DataCleaner+ v4.8

Pour répondre au besoin de sécurité juridique et de prévisibilité, la Loi type devrait traiter des questions suivantes:

Solutions de pilotage énergétique pour les bâtiments d activité professionnelle

Article I - Objet. Article II - Conditions d'utilisation de la eboutique

Dossier Spécial. Les 5 étapes pour vendre ACT! Apprendre à détecter un besoin en Gestion de Contacts

Physique Chimie LA GRAVITATION

MISSIONS COMMERCIALES

PHASE 1 : choix et définition du sujet du TM.

Changement de régime fiscal des Mutuelles et des IP : remarques d ordre actuariel

ITIL V3. Les principes de la conception des services

Formation Référencement / SEO e-commerce

[SIMULATEUR DE CREDIT IMMOBILIER]

GUIDE INSTALLATION IAS

Archivage et valeur probatoire. Livre blanc

Locallife Leader de l édition d annuaires locaux en ligne, Présent en France depuis octobre 2008

Guide d aide à la rédaction d un essai

Nouveautés apportées à l assessment-tool

Chap I : Economie d'entreprises

PREPARATION DE VOTRE PFMP Réalisé et testé par Laurence Martin, enseignante au LP du Toulois et chargée de mission en économie et gestion option vente

LIVRE BLANC SEM. Google AdWords Le guide ultime du SEM pour votre Boutique en ligne

Communiqué de lancement : Sage 100 Scanfact Version V15.50

(les caractères apparaissent en vidéo inversé : blanc sur fond

ITIL V2. La gestion de la capacité

A toutes les Directrices et à tous les Directeurs des établissements scolaires de l enseignement secondaire et secondaire technique

Agilité et gestion de projet

Pour l étude d un logiciel documentaire : o Mener une réflexion technique sur les ressources d un logiciel documentaire : Caractériser le logiciel

esil PROJET DE MODELISATION ORIENTEE OBJET INFORMATIQUE - 3 ANNEE

Terrain de jeu Analogie au sport professionnel

Processus des services

Microsoft BizTalk Server et Microsoft Dynamics AX : Solutions d intégration pour l entreprise étendue

Les stratégies de Backup dans WSS V3

CATALOGUE DE FORMATION «EXPERTS COMPTABLES ET AVOCATS»

DM/Administrator fonctionne sans agents d administration spécifiques sur les contrôleurs de domaines.

PROPOSITION DE CREATION DE SITE INTERNET

Charte de l Association Suisse de Portage des Bébés (ASPB)

Vente de Capacités de Stockage de gaz du 13 mai 2015

Annexe 1 Annexe technique de la convention d habilitation «expert en automobile»

Dossier de Presse. 1 ier guide Interactif pour créateurs et entrepreneurs

a) Financement par des tiers : emprunts, crédits bancaires, leasing, crédit spontané (lors d un achat à crédit) ;

- Le service aux tables. - Le service rapide & commande pour emporter. - Le service à l auto. - La livraison. o Voir le feuillet Livraison.

Le dispositif de qualification OPQIBI pour les audits énergétiques (réglementaires)

République Française Services du Premier Ministre

Amandine CUER INDUSTRIELS! GAGNEZ DU TEMPS DANS VOS ECHANGES AVEC VOS INFORMATIQUE - INTERNET - TELECOMMUNICATIONS LA LETTRE D INFORMATION - MAI 2011

Project Portfolio Management

IDENTIFICATION DU POSTE. N de l emploi : Contractuel. Intitulé du poste : Chargé de mission FC

Les assurances automobiles

Coefficient 4. L ACRC est validé par le contrôle des compétences suivantes :

Meilleures pratiques en matière d'indexation de contenu. Mise à niveau à partir de versions antérieures à la version 6.5

Haut Conseil de la santé publique

ENT601 MARKETING ET VENTES Préalable(s) : ENT 202 PLAN DE COURS SESSION ÉTÉ 2014

PRIMONIAL SÉRÉNIPIERRE CONTRAT D ASSURANCE VIE

Sociétés Non Financières - taux endettement - % PIB, valeur nominale

Guide Octobre 2014 «Master Degree Dissertation»

livraisons en centrale

PROCESSUS DE CERTIFICATION DES MONITEURS JE NAGE INFORMATIONS POUR LES MAITRE ÉVALUATEURS

CAHIER DES CLAUSES TECHNIQUES PARTICULIERES

Chap 10 : L évaluation et la valorisation du potentiel de l équipe commerciale

Contenu de version

NOTICE POUR L IMPORT DU FICHIER «IACA» DANS CORRELYCE

Note de cadrage de la version Apogée 4.10

L'avenir de l'internet : vers une nouvelle ère?

Catalogue de formation bureautique

«NAVIGUER SUR INTERNET v 2» Support de formation tutoré «Réponses aux remarques les plus souvent posées»

SAP Financial Innovation Day 18 Mars 2014 Genève Amélioration du Planning financier : un processus simplifié pour une meilleure qualité de données

Proposition de Veille Internet Campagnes Electorales 2012

Colloque Rapport de l'atelier 1

Alcatel OmniPCX Office

2. Trouvez la version du firmware que vous souhaitez télécharger dans la rubrique Boot From CD, correspondant à votre modèle de SSD.

Demande d Information : Solution de messagerie et outils collaboratifs pour l État

Intégration «SugarCRM Asterisk» Ajouter la Téléphonie à votre CRM

Catalogue de formation des meilleures pratiques de la gestion des services informatiques

Çi-dessous le livret du module de réservation de sièges. Via Thomascookagent.be (pour les agences)

LOGICIELS ET BASES DE DONNÉES PROTECTION ET VALORISATION

ALL Arts, Lettres, Langues. Information Communication Culture

FORMATION SUR «CLOUD COMPUTING : CONCEPTS, TECHNOLOGIES ET APPROCHES DE MIGRATION»

Logiciel de gestion des inscriptions en CPGE

REGLEMENT COMPLET «3D World Koksijde»

CE QU IL FAUT RETENIR DE HITECHPROS UNE OPPORTUNITE POUR LES ACTEURS DU SECTEUR UN OBSERVATEUR PRIVILEGIE DU MARCHE

Démarche Coaching Individuel

Customer Relationship Management

Coalition énergie et construction durable

GUIDE DU CANDIDAT REPRESENTANT EN ASSURANCE DE DOMMAGES DES PARTICULIERS. Préparation aux examens de l AMF. Pour : DESJARDINS ASSURANCES GENERALES

Service de mobilité interbancaire - Règlement

Projet de renouvellement de l infrastructure informatique de la Mairie de Châtel-Guyon. Cahier des charges

Kluwer ERP Dashboard - VERO.

FICHE DE POSTE Fonction : Chef de Division Contrôle des opérations Financières FONCTION : CHEF DE DIVISION CONTRÔLE DES OPÉRATIONS FINANCIÈRES

Programme Eau, Climat et Développement pour l'afrique. Termes de référence pour le recrutement d un Expert Socio/agro-économiste

Transcription:

UMR 7005 Fuille de Dnnées http://dpt-inf.u-strasbg.fr/~gancars Pierre Gançarski

Questins Est-ce une bnne idée que de faire de la publicité pur des grupes de rap dans des magazines du trisième âge? Est-ce que vus saviez que les cmpagnies de cartes de crédit peuvent suspecter un vl de carte, même si le prpriétaire de la carte n est pas encre au curant? Est-ce que vus savez purqui les entreprises liées à la burse spnsrisent les turnis de glf télévisés? Intrductin KDD 2

Purqui? Purqui l etractin de cnnaissances? Nécessité écnmique e-cmmerce Haut degré de cncurrence Persnnalisatin, fidélisatin de la clientèle, market segmentatin Dispnibilité crissante de quantité énrme de dnnées : La technlgie est dispnible pur aider à cllecter les dnnées : cde barre, scanners, satellites, lgs des serveurs, etc. dispnible (et bn marché) pur aider à stcker : base de dnnées, data warehuses, biblithèques numériques, www Dnnées sur les clients Numérisatin de tetes, images, vidé, vi, etc. Wrld Wide Web et catalgue en ligne Intrductin KDD 3

Purqui? Dnnées en trp grandes quantités pur être traitées manuellement u par des algrithmes classiques : Nmbre d enregistrements en millins u milliards Dnnée de grande dimensin suvent trp clairsemée Surces de dnnées hétérgènes Utilisateur est gavé de dnnées mais en manque de cnnaissances The greatest prblem f tday is hw t teach peple t ignre the irrelevant, hw t refuse t knw things, befre they are suffcated. Fr t many facts are as bad as nne at all. (W.H. Auden) De qui a-t-n besin? Etraire des cnnaissances intéressantes et utiles à partir des dnnées : Règles, régularités, irrégularités, mtifs, cntraintes Intrductin KDD 4

Etractin de Cnnaissances à partir de Dnnées ECD : Etractin d infrmatins riginales (nn triviales) implicites, incnnues auparavant et ptentiellement utiles à partir de grandes bases de dnnées : Nn triviale : sinn la cnnaissance n est pas utile Implicite : la cnnaissance cachée est difficile à bserver Incnnue jusqu alrs : évident! Ptentiellement utile : utilisable, cmpréhensible ECD : ensemble du prcessus de décuvertes et d interprétatin de régularités dans des dnnées Autres appellatins : Knwledge Discvery in Databases (KDD) Knwledge etractin Data/pattern analysis Intrductin KDD 5

Le prcessus général de décuverte de cnnaissances dans les dnnées 1. Pser le prblème 2. Recherche des dnnées 3. Nettyage des dnnées 4. Cdage des dnnées, actins sur les variables 5. Recherche d un mdèle, de cnnaissances, 6. Validatin et interprétatin du résultat, avec retur pssible sur les étapes précédentes 7. Intégratin des cnnaissances apprises Intrductin KDD 6

Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 7

ECD - Préparatin des dnnées Dnnées eistantes u à cnstituer Fichiers : infrmatin cntenue dans un u plusieurs fichiers indépendants BD relatinnelles : infrmatin cntenue dans plusieurs fichiers unis par une clé cmmune Base de dnnées Transactinnelles Nettyage : dublns, erreurs de saisie, valeurs aberrantes, infrmatins manquantes (ignrer l bservatin, valeur myenne (!!), valeur myenne sur la classe, régressin ) Intrductin KDD 8

ECD - Préparatin des dnnées Data Warehuses : entrepôt de dnnées cllectées de surces multiples suvent hétérgènes Les dnnées snt enregistrées, nettyées, transfrmées et intégrées Habituellement mdélisé par une structure de dnnée multidimensinnelles (cube) :. Les dnnées snt structurées suivant plusieurs aes d'analyses (dimensins du cube) cmme le temps, la lcalisatin... Une cellule est l'intersectin des différentes dimensins. Le calcul de chaque cellule est réalisé au chargement. Le temps de répnse est ainsi stable quelque sit la requête Intrductin KDD 9

ECD - Préparatin des dnnées Data Warehuses : entrepôt de dnnées cllectées de surces multiples suvent hétérgènes les cubes snt bien adaptés au requêtes rapides et à l analyse des dnnées : On-Line Analytical Prcessing (OLAP) : Quel est le nmbre de paires de chaussures vendues par le magasin "OnVendDesChaussuresIci" en mai 2003 ET Cmparer les ventes avec le même mis de 2001 et 2002. Quelles snt les cmpsantes des machines de prductin ayant eu le plus grand nmbre d incidents imprévisibles au curs de la péride 1992-97? Les répnses au requêtes OLAP peuvent prendre de quelques secndes à plusieurs minutes. Intrductin KDD 10

ECD - Préparatin des dnnées Sélectin des dnnées : Échantillnnage Sélectin de surces Réductin dimensinnalité : Sélectin u transfrmatin d attributs Pndératin Cdage : Agrégatin (smme, myenne), discrétisatin, cdage des attributs discrets, unifrmisatin d échelle u standardisatin Intrductin KDD 11

Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 12

Fuille de dnnées But : apprendre quelque chse de nuveau! Cncepts : regrupements basés sur le partage de caractéristiques Assciatins : crrélatins entre attributs u dnnées Prcédures Curs d actins réalisées étape par étape pur atteindre un but Principes Obtenir le plus haut niveau d abstractin pssible Règles u vérités qui snt les bases pur d autres vérités Intrductin KDD 13

Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 14

Fuille de dnnées - Apprentissage Apprentissage supervisée : Mdèle inductif ù l apprenant cnsidère un ensemble d eemples la cible «à apprendre» est cnnue (classe d appartenance, prpriété, ) : les eemples snt étiquetés préalablement Data mining prédictif : Diviser/regruper les instances dans des classes spécifiques pur des prédictins futures Prédire des valeurs incnnues u manquantes Algrithmes Arbres de décisin, classificatins, algrithmes génétiques, régressin linéaire et nn linéaire Intrductin KDD 15

Fuille de dnnées - Apprentissage Inductin C est une technique cmmunément utilisée Généralisatin d une bservatin u d un raisnnement établis à partir de cas singuliers. Elle cnsiste à tirer des cnclusins à partir d une série de faits Eemple tiré du curs de Yasmine Charif-Djebbar Intrductin KDD 16

Fuille de dnnées - Apprentissage Apprentissage nn supervisée : Cnstructin d un mdèle et décuverte des relatins dans les dnnées sans référence à d autres dnnées On ne dispse d'aucune infrmatin a priri sur le dnnées Data mining eplicatif Regruper les instances dans des classes spécifiques en se basant sur leur ressemblance u sur le partage de prpriétés. Les classes snt incnnues et snt dnc créées : elles servent à «epliquer» u résumer les dnnées Mise en relatin des dnnées Algrithmes Segmentatin, regrupement, décuverte d assciatins et de règles Intrductin KDD 17

Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 18

Fuille de dnnées - Estimatin Estimatin Régressin Dette Revenu Méthde des mindres carrés (Eemples tirés de curs de Béatrice Duval, Labratire d'infrmatique, Université d'angers) Intrductin KDD 19

Fuille de dnnées - Estimatin Estimatin Régressin Réseau de neurnes valeur de srtie attributs de descriptin (Eemples tirés de curs de Béatrice Duval, Labratire d'infrmatique, Université d'angers) Intrductin KDD 20

Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 21

Fuille de dnnées Classificatin Divisin de l ensemble de dnnées en classes disjintes But : recherche d un ensemble de prédicats caractérisant une classe d bjets et qui peut être appliqué à des bjets incnnus pur prévir leur classe d appartenance. Principales techniques : Arbres de décisin, réseau neurnau, algrithmes génétiques, Intrductin KDD 22

Fuille de dnnées - Arbre de décisins Arbre de décisin : Classer les bjets en sus-classes par divisins hiérarchiques cnstructin autmatique à partir d un échantilln de la base Peut être vu cmme une présentatin hiérarchique d une table relatinnelle... Intrductin KDD 23

Fuille de dnnées - Arbre de décisins Eemple un cadeau est envyé par mailing. Un envi sans répnse cûte 50 F et une répnse assure 100F. «ubli» d un envi de mailing à un client qui aurait répndu : perte de 100 F. Tableau des répnses sur un échantilln (taille 100) de la ppulatin : Nm Prénm See Prfessin Répnse Martin Berluchette Sarkau Vil Maitre Jeanne Huguette Sy Dminique Kanter F F M M M Cadre Ouvrière Ouvrier Cadre Cadre k k nn nn k Questin : A quelle catégrie de la ppulatin faut-il envyer le mail? (Eemple issu de curs de Pascal Pncelet, Centre de Recherche LGI2P Ecle des Mines d Alès) Intrductin KDD 24

Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 25

Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 26

Fuille de dnnées - Arbre de décisins Ppulatin de Mailing 100 persnnes Oui : 31%, Nn : 69 % Prb : 97% Cadres 70 persnnes Oui : 40 %, Nn 60 % Prb : 95% Ouvrier 30 persnnes Oui : 10 %, Nn : 90 % Prb : 95 % Hmmes 50 persnnes Oui : 36 %, Nn : 64 % Prb : 93 % Femmes 20 persnnes Oui : 50 %, Nn : 50 % Prb : 93 % Intrductin KDD 27

Fuille de dnnées - Arbre de décisins Résultat en termes de cûts : Ppulatin de mailing - 350 F 31*100-69*50 Cadres 700 F (70* 40%)*100 - (70*60%)*50 Ouvriers - 1050 F 3 * 100-27 * 50 Hmmes 200 F 18 * 100-32 * 50 Femmes 500 F 10 * 100-10 * 50 Mailing à l ensemble des cadres u uniquement au femmes cadres Intrductin KDD 28

Fuille de dnnées - Arbre de décisins Autre eemple Une banque veut truver un myen d évaluer la slvabilité d un client Etude sur un échantilln (taille 100) de la ppulatin : Nm Martin Sarkau Vil Ganze Ifa Maitre Prénm Jeanne Sy Dminique Pierre Stude Kanter See F M M M F M Revenu 36 000 120 000 15 000 80 000 8 000 23 000 Prêts en curs 20 000 12 000 10 000 10 000 2 000 10 000 Défaillance 0 1 1 0 1 0 Questin : Laffrges Christine, avec un revenu de 60 00 peut-elle prétendre à un prêt de 10 000? Intrductin KDD 29

Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien : cherche à ptimiser la prbabilité P(ck ) c-à-d de P( ck).p(ck)/p() c-à-d P( ck).p(ck) car P(X) ne dépend pas de P(ck) - les attributs snt suppsés indépendants : P(ck) = nk/n et P( ck) = Π P(i ck) - Eercice : - Deu classes : - c1 = {01100, 11001, 10110, 10101, 10010} - et c2 = { 01010, 11111, 11010, 11101, 10101} - Classer X = 00111 - (Répnse c1) Intrductin KDD 30

Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins : n calcule tutes les distances entre le pint X à classifier et tus les pints dnc n cnnaît la classe : n cnserve les K plus prches. La classe majritaire dans cet ensemble est attribuée à X. Intrductin KDD 31

Fuille de dnnées - Classificatin Eemple Dette : pbe de rembursement : pas de pbe X Revenu Intrductin KDD 32

Fuille de dnnées - Classificatin Eemple Dette : pbe de rembursement : pas de pbe X K = 3, K = 5 Revenu Intrductin KDD 33

Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes : Inspirés de la structure du système nerveu: Un grand nmbre de neurnes cnnectés qui traitent l infrmatin La répnse du neurne dépend de sn état et des pids des cnneins Les pids (u frces) snt dévelppées par epérience Intrductin KDD 34

Fuille de dnnées Réseau de neurnes Principes Cnstructin d un réseau d'unités calculatires simples (neurne) liées par des cnneins Apprentissage des paramètres du réseau (pids des cnneins) grâce à un ensemble d'eemples Un neurne est frmé : d entrées (cnneins entrantes u variables d entrée) de pids sur les cnneins entrantes d une fnctin F qui calcule une srtie en fnctin des entrées et des pids sur les entrées d une fnctin d activatin φ qui mdifie l amplitude de la srtie du nœud. Intrductin KDD 35

Fuille de dnnées Réseau de neurnes 1 2 ω1 ω2 F s φ φ(s) 3 ω3 Intrductin KDD 36

Fuille de dnnées Réseau de neurnes Fnctin d activatin φ(s) = 1/(1 + e -ks ) φ(s) = linéaire f(s) = -1 si s <= - 1/a; f(s) = 1 si s >= 1/a ; f(s) = a*s ailleurs φ(s) = tangente hyperblique f(s)= (e gs - e -gs ) / (e gs + e -gs ) φ(s) = seuil φ (s) = 0 si s <= a; u... φ (s) = 1 si s > a ; Intrductin KDD 37

Fuille de dnnées Réseau de neurnes φ(s) = 1/(1 + e -ks ) 1 k grand k petit 0 Si le cefficient k est grand, alrs la srtie est presque tujurs prche de 0 u de 1 : réseau neurnal relativement symblique Si le cefficient k de 1/(1 + e -ks ) est petit, alrs la frce de chaque cellule est bien distribuée entre 0 et 1 : On a un réseau neurnal distribué. Un autre paramètre, implicite, est le centre de la fnctin sigmïde. Intrductin KDD 38

Fuille de dnnées Réseau de neurnes Cas le plus simple : Un seul neurne F = smme pndérée des entrées φ = seuillage φ(s) = 1 si s > a sinn 0 s = 1 si w1.1 + w2.2 +. > a s = 1 si w1.1 + w2.2 +. - a > 0 équatin d un hyperplan Intrductin KDD 39

Fuille de dnnées Réseau de neurnes Séparatin linéaire Dette : pbe de rembursement : pas de pbe Revenu Intrductin KDD 40

Fuille de dnnées Réseau de neurnes 1 2 ω1 ω2 Σ s φ φ(s) 3 ω3 0 = 1 Prblème de l apprentissage du seuil 1 2 ω1 ω2 ω0 = -a Σ s 1 si s> 0 0 sinn 3 ω3 Intrductin KDD 41

Fuille de dnnées Réseau de neurnes On rajute des eemples. Dette : pbe de rembursement : pas de pbe Revenu Truver un réseau de neurnes discriminant les deu classes Intrductin KDD 42

Fuille de dnnées Réseau de neurnes On rajute des eemples Dette : pbe de rembursement : pas de pbe Revenu Intrductin KDD 43

Fuille de dnnées Réseau de neurnes On peut faire un OU sur les deu réseau de neurnes On btient un réseau de neurnes à deu cuches Réseau multi-cuches Une cuche d entrée Une cuche de srtie Plusieurs cuches cachées Intrductin KDD 44

Fuille de dnnées Réseau de neurnes Perceptrn multi-cuches Cnneins pndérées dnnées srties Neurnes d entrd entrée Cuche(s) cachée(s) Neurne(s) de srtie Intrductin KDD 45

Fuille de dnnées Réseau de neurnes Apprentissage On eamine une dnnée On prpage les activatins jusqu'au cellules de srtie On eamine tutes les cellules de srtie On cmpare le résultat à celui espéré si il y une différence : On rétr prpage cette différence (erreur) On crrige des pids pur minimiser cette erreur : ω ij (t+1) = ω ij (t) + δω ij (t) Intrductin KDD 46

Fuille de dnnées Réseau de neurnes En pratique : On chisit une fnctin de calcul et une fnctin d activatin On chisit une architecte: Nmbre d entrées Nmbre de srties Nmbre de cuches internes Nmbre de neurnes de chacune des cuches internes On chisit une fnctin d erreur On définit un critère d arrêt Intrductin KDD 47

Fuille de dnnées Réseau de neurnes Pas de méthde autmatique pur chisir l'architecture du réseau On peut prcéder à des essais avec un mdèle simple (une cuche cachée) et un mdèle beaucup plus cmplee (2 u 3 cuches cachées) Méthde de cnstructin dynamique de réseau en curs d apprentissage : GNG Utilisatin des fnctins sigmïde et tangente pur la rétrprpagatin du gradient Intrductin KDD 48

Fuille de dnnées Réseau de neurnes Echantilln : Dit cuvrir l'ensemble des valeurs pur tutes les caractéristiques Les nmbres d'eemple d'apprentissage pur chaque valeur pssible de la srtie divent être similaires Lien entre nmbre d'eemples d'apprentissage et nmbre de pids à déterminer : Il est cnseillé de cnstruire un réseau ù le nmbre de cnneins est inférieur à 10% du nmbre d'eemples» E: avec 20 entrées 5 neurnes cachés et 5 neurnes de srties n a 20*5+5*5=125 cnneins» Dnc au mins 1250 bservatins Intrductin KDD 49

Fuille de dnnées Réseau de neurnes Avantages des réseau de neurnes Méthde rbuste au bruit Classement u estimatin rapide une fis le réseau cnstruit Dispnible dans tus les lgiciels de fuille de dnnées Incnvénients Bîte nire: difficile d'interpréter le mdèle btenu Temps d'apprentissage imprtant Difficulté de chi des paramètres Intrductin KDD 50

Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes SVM Algrithmes génétiques Inspirés des théries de l évlutin de Darwin, Lamarck u Baldwin Méthde générale d ptimisatin Intrductin KDD 51

Fuille de dnnées SVM Principe des Supprt Vectr Machines : séparer les dnnées en deu classes par un hyperplan tut en maimisant l écart entre cet hyperplan et les dnnées Intrductin KDD 52

Fuille de dnnées SVM Plusieurs drites pssibles. Dette : pbe de rembursement : pas de pbe Truver celle qui maimise l écart Revenu Intrductin KDD 53

Fuille de dnnées SVM Plusieurs drites pssibles. Dette : pbe de rembursement : pas de pbe Truver celle qui maimise l écart Revenu Intrductin KDD 54

Fuille de dnnées - Classificatin Classificatin supervisée : Classifieur bayésien K plus prches visins Réseau de neurnes SVM Algrithmes génétiques Inspirés des théries de l évlutin de Darwin, Lamarck u Baldwin Méthde générale d ptimisatin Intrductin KDD 55

Fuille de dnnées Apprches génétiques Schéma général On définit les «paramètres» à ptimiser : intervalle de valeurs, seuils, etc. On définit le géntype crrespndant (chrmsmes). On définit la fnctin de calcul du phéntype et la fnctin d évaluatin d un individu On définit les mécanismes et tau de crisement et de mutatin On définit la fnctin de sélectin des survivants Intrductin KDD 56

Fuille de dnnées Apprches génétiques Schéma général initialiser la ppulatin calculer le degré d'adaptatin f() de chaque individu Tant que nn fini u nn cnvergence reprductin des parents : sélectinner 2 individus à la fis appliquer les pérateurs génétiques calculer le degré d'adaptatin f() de chaque enfant sélectinner les survivants parmi les parents et les enfants Intrductin KDD 57

Fuille de dnnées - Classificatin Validatin par le test Dnnées Ensemble d apprentissage Ensemble de test Cnstructin d un mdèle sur l ensemble d apprentissage et test du mdèle sur le jeu de test pur lequel les résultats snt cnnus Intrductin KDD 58

Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 59

Fuille de dnnées Classificatin autmatique But de la classificatin : btenir une représentatin simplifiée (structuratin) des dnnées initiales Organisatin d un ensemble d bjets en un ensemble de regrupements hmgènes et/u naturelles Intrductin KDD 60

Fuille de dnnées Classificatin autmatique Partitinnement Dette Emprunteurs sûrs : pbe de rembursement : pas de pbe Emprunteurs à éviter Aucune interprétatin sémantique a priri Revenu Intrductin KDD 61

Fuille de dnnées Classificatin autmatique Hiérarchie 6 8 7 Intrductin KDD 62

Fuille de dnnées Différentes apprches : Estimatin : créer un mdèle qui décrit au mieu une variable de prévisin liée à des dnnées réelles Classificatin : créer une fnctin qui classifie une élémentaire parmi plusieurs classes prédéfinies eistantes Regrupement (clustering) : rechercher à identifier un ensemble fini de catégries u grupes en vue de décrire les dnnées Mdélisatin des dépendances : truver un mdèle qui décrit des dépendances significatives entre les variables Intrductin KDD 63

Fuille de dnnées Assciatins Règles d assciatins : analyse du panier de la ménagère «le jeudi, les clients achètent suvent en même temps des packs de bière et des cuches» Y-a-t-il des liens de causalité entre l achat d un prduit P et d un autre prduit P? Intrductin KDD 64

Fuille de dnnées Assciatins Tickets Prduits achetés Questins : règle d assciatin : prémisse cnclusin Eemple tiré du curs de Jérôme Azé beurre pain? pissn viande lait? frmage pâtes vin? Intrductin KDD 65

Fuille de dnnées Assciatins Frmellement Etant dnné un ensemble de transactins D, truver tutes les règles d assciatin X => Y ayant un supprt et une cnfiance supérieurs au seuils minimau prédéfinis par l utilisateur Un transactin est un ensemble d attributs T1 : beurre, fruit, lait, pain Supprt : % de transactins dans D qui cntiennent X et Y Cnfiance : % de transactins qui cntiennent X parmi celles cntenant Y. Intrductin KDD 66

Fuille de dnnées Assciatins Interprétatin R : X Y (A%, B%) : A% de tutes les transactins mntrent que X et Y nt été achetés en même temps (supprt de la règle) et B% des clients qui nt acheté X nt aussi acheté Y (cnfiance dans la règle). Intrductin KDD 67

Fuille de dnnées Assciatins Deu sus-prblèmes : Truver tus les ensembles fréquents (itemsets) ayant un supprt supérieur u égal à une valeur minimale minsup dnnée : FIS A partir des FIS, engendrer l ensemble des règles d assciatin ayant une cnfiance supérieure u égale à mincnf Intrductin KDD 68

Fuille de dnnées Assciatins Tickets Prduits achetés et Supprt = Tus tickets Cnfiance = et + beurre pain Supprt 70% Cnfiance 100% pissn viande lait 20% 100% frmage pâtes vin 40% 80% Eemple tiré du curs de Jérôme Azé Intrductin KDD 69

Fuille de dnnées Assciatins Tickets Prduits achetés vin et Supprt = Tus tickets Cnfiance = et + beurre pain Supprt 70% Cnfiance 100% pissn viande lait 20% 100% frmage pâtes vin 40% 80% Intrductin KDD 70

Le prcessus général de décuverte de cnnaissances dans les dnnées Dnnées Nettyage, Sélectin, Cdage Mdèles FDD Cnnaissances Validatin Acquisitin Intrductin KDD 71

ECD - Validatin Génératin d un grand nmbre de mdèles Le mdèle est-il intéressant? Mesures d intérêt d un mdèle: Nuveau Facile à cmprendre Valide sur de nuvelles dnnées (avec une certaine mesure de certitude) Utile Cnfirme (u infirme) les hypthèses d un epert Intrductin KDD 72

ECD - Validatin Évaluatin d un mdèle subjective (epert) bjective (statistiques et structure des mdèles) Peut-n truver tus les mdèles? (Cmplétude) Peut-n générer seulement les mdèles intéressants? (Optimisatin) Génératin de tus les mdèles et filtrage suivant certaines mesures et caractéristiques : Nn réaliste Générer seulement les mdèles vérifiant une cnditin particulière Intrductin KDD 73

Cnclusin Quelques idées fausses Méthdes plus inductives que basées sur des hypthèses car il n y a aucun a priri sur les dnnées Fau: cnditin d applicatin des méthdes, chi des dnnées, cdage des dnnées, chi des variables eplicatives, des variables à epliquer, rdre d entrée des variables dans l algrithme, On n est jamais neutre! Intrductin KDD 74

Cnclusin Quelques idées fausses Il faut utiliser systématiquement tutes les dnnées infrmatiquement dispnibles ainsi tut va apparaître Fau: cdage des dnnées, rdre d entrée des variables dans l algrithme, effectifs irréguliers, utliers, influence des redndances, des crrélatins, du mdèle de dnnées infrmatique, saturatin, instabilité Biais et erreurs Intrductin KDD 75

Cnclusin Quelques idées fausses Avec tutes ces techniques, n va tujurs faire des décuvertes incryables Fau: il faut truver des slutins cnfrmes au bn sens (spécialistes, eperts métier). En fait, truver la meilleure slutin (parmi n) pur une prblématique dnnée Intrductin KDD 76

Cnclusin Quelques idées fausses Le data mining est révlutinnaire Fau: analyses de dnnées traditinnelles + méthdes plus spécifiques (réseau de neurnes). Optimisatin des techniques car grand nmbre de dnnées. Intrductin KDD 77

Cnclusin Questin : Purqui tant d'algrithmes? Répnses : Parce qu'aucun n'est ptimal dans tus les cas, parce qu'ils s'avèrent en pratique cmplémentaires les uns des autres Parce qu'en les cmbinant intelligemment (en cnstruisant des méta mdèles (des mdèles de mdèles)) il est pssible d'btenir des gains de perfrmance très signifiants. Intrductin KDD 78