Discrétisation et génération de hiérarchies de concepts

Dimension: px

Commencer à balayer dès la page:

Download "Discrétisation et génération de hiérarchies de concepts"

Eloi Garon
il y a 8 ans
Total affichages :

1 Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts

2 Pourquoi prétraiter les données? 2 Données réelles souvent incomplètes : valeurs manquantes, données simplifiées bruitées : erreurs et exceptions incohérentes : nommage, codage Résultats de la fouille dépendent de la qualité des données

3 Principales étapes dans le prétraitement des données 3 Nettoyage Intégration Data cleaning Data integration Transformation Réduction Data transformation 2, 32, 100, 59, , 0.32, 1.00, 0.59, 0.48 Discrétisation transactions Data reduction attributes attributes A1 A2 A3... A126 A1 A3... A115 T1 T2 T3 T4... T2000 transactions s T1 T4... T1456

4 Données manquantes 4 Données non disponibles certains attributs nont n ont pas de valeur Causes : mauvais fonctionnement de l équipement incohérences avec d autres données et donc supprimées non saisies car non ou mal comprises considérées peu importantes au moment de la saisie ii Ces données doivent être inférées

autres données et donc supprimées non saisies car non ou mal comprises

5 Comment remplir les trous? 5 Ignorer le tuple peu efficace quand le pourcentage de valeurs manquantes est élevé Compléter manuellement les données Laborieux ou infaisable Utiliser une constante globale ex : «inconnue», une nouvelle catégorie? Utiliser la moyenne de l attribut Utiliser la moyenne de l attribut pour la même classe mieux Utiliser la valeur la plus probable formule Bayésienne ou arbre de décision

manuellement les données Laborieux ou infaisable Utiliser une constante globale ex : «inconnue», une

6 Données bruitées 6 Bruit : erreur ou variance aléatoire d une variable ibl mesurée Causes : Instrument de mesure défectueux Problème de saisie Problème de transmission Limitation technologique Incohérence dans les conventions de nommage Autres problèmes : enregistrement dupliqués données incomplètes données incohérentes

transmission Limitation technologique Incohérence dans les conventions de

7 Correction du bruit 7 Par partitionnement t (binning) i trier et partitionner les données li l titi l l édi l b lisser les partitions par la moyenne, la médiane, les bornes, Clustering détecter et supprimer les exceptions Inspection humaine et informatique combinée détection des valeurs suspectes et vérification humaine Régression lisser les données par des fonctions de régression

détecter et supprimer les exceptions Inspection humaine et informatique combinée détection des

8 Partitionnement simple : lissage 8 équi largeur (distance) : n intervalles de même taille équi profondeur : n intervalles contenant le même nombre de valeurs * données triées : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * équi profondeur : partition 1 : 4, 8, 9, 15 partition 2 : 21, 21, 24, 25 partition 3 : 26, 28, 29, 34 * lissage par la moyenne : partition 1: 9, 9, 9, 9 partition 2: 23, 23, 23, 23 partition 3: 29, 29, 29, 29 * lissage par les bornes : partition 1: 4, 4, 4, 15 partition 2: 21, 21, 25, 25 partition 3: 26, 26, 26, 34

partition 2 : 21, 21, 24, 25 partition 3 : 26, 28, 29, 34 * lissage par la moyenne : partition 1: 9, 9, 9, 9 partition 2: 23, 23, 23,

9 Clustering : suppression des exceptions 9

10 Régression 10 y Y1 Y1 y = x + 1 X1 x

11 Intégration des données 11 Intégration ti des données : combinaison de différentes sources en une seule Intégration des schémas : intégrer les méta données é de différentes sources problème de nommage : identifier les différents noms des mêmes données réelles, ex : num_client client_id Détecter et résoudre les conflits de valeurs pour les mêmes entités réelles, les valeurs des attributs provenant de sources différentessontsont différentes causes : représentation différentes, échelles différentes, ex : cm et pouces

réelles, ex : num_client client_id Détecter et résoudre les conflits de valeurs pour les mêmes entités réelles, les valeurs des

12 Gestion de la redondance 12 fréquente lors de l intégration de plusieurs sources de données le même attribut peut avoir des noms différents un attribut peut être déduit d un autre peut être détectée té par des analyses de corrélation

attribut peut avoir des noms différents un attribut peut

13 Transformation des données 13 Lissage : réduire le bruit itdans les données Agrégation : simplification, construction de cubes de données Généralisation é : hiérarchie de concepts Normalisation : mise à l échelle pour avoir un petit intervalle spécifié min max z score mise à l échelle décimale

Généralisation é : hiérarchie de concepts Normalisation : mise à l

14 Normalisation 14 min max v min A v' = ( new_ maxa new_ mina) + maxa mina new_ min A z score v ' = v stand mean A _ dev A mise à l échelle décimale v v'= 10 j avec j le plus petit entier tq max( v )<1

15 Réduction des données 15 La fouille de données peut être très longue sur les données complètes Réduction des données obtenir une représentation réduite du jeu de données, plus petite en volume, mais qui produit les mêmes (ou presque) résultats analytiques Stratégies Agrégation par cubes de données Réduction de dimension Réduction de numérosité Discrétisation et génération de hiérarchies de concepts

mais qui produit les mêmes (ou presque) résultats analytiques Stratégies Agrégation par cubes de

16 Réduction de numérosité 16 Méthodes paramétriques suppose que les données suivent un modèle. Estimer et stocker seulement les paramètres du modèle modèle log linéaire : approximation de la distribution des valeurs dans un espace multidimensionnel Méthodes non paramétriques les données ne suivent pas un modèle principales : histogrammes, clustering, échantillonnage

de la distribution des valeurs dans un espace multidimensionnel Méthodes non paramétriques

17 Histogrammes populaire li diviser en intervalles et stocker la moyenne 40 (somme) 35 mise en œuvre optimale sur une dimension par 30 programmation 25 dynamique

optimale sur une dimension par 30 programmation 25

18 Echantillonnage 18 Permet à un algorithme de s exécuter en un temps sous linéaire de la taille des données Choix d un sous ensemble représentatif des données potentiellement mauvais dans le cas de biais dans les données Méthodes d échantillonnage adaptatives échantillonnage stratifié approximer le pourcentage de chaque classe (ou sous population d intérêt) dans lejeu de données complet utilisé dans le cas de données biaisées L échantillonnage peut ne pas réduire le nombre d entrées/sorties ti

adaptatives échantillonnage stratifié approximer le pourcentage de chaque classe (ou sous population d intérêt) dans lejeu

19 Échantillonnage 19 Données brutes

20 Echantillonnage 20 Données brutes Echantillon stratifié

21 Discrétisation 21 Trois types d attributs t Nominal ou catégorique : valeurs d un dun ensemble Ordinal : valeurs d un ensemble ordonné Continu : réels Discrétisation diviser l intervalle de valeurs possibles en sous intervalles certains algorithmes acceptent seulement des attributs catégoriques réduit le volume des données préparation pour de futures analyses

22 Discrétisation et hiérarchie de concepts 22 Discrétisation réduit le nombre de valeurs dun d un attribut (continu) donné Hiérarchie de concepts réduit les données en collectant et remplaçant les concepts de bas niveau (âge) par des concepts de niveau d abstraction plus élevé é (jeune, sénior)

23 Discrétisation et génération de hiérarchie de concepts pour des données numériques 23 Partitionnement t (binning) i Histogramme Clustering Basée entropie Segmentation par partitionnement naturel

24 Segmentation par partitionnement naturel 24 La règle èl peut être utilisée pour segmenter des données numériques en intervalles relativement uniformes Si un intervalle couvre 3, 6, 7 ou 9 valeurs distinctes au chiffre le plus significatif alors partitionner l intervalle en 3 intervalles de même largeur Si un intervalle couvre 2, 4, ou 8 valeurs distinctes alors partitionner en 4 intervalles Si un intervalle couvre 1, 5, ou 10 valeurs distinctes t alors partitionner en 5 intervalles

25 Règle : exemple 25 count Step 1: -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max Step 2: msd=1,000 Low=-$1,000 High=$2,000 Step 3: (-$1,000 - $2,000) (-$1,000-0) (0 -$ 1,000) ($1,000 - $2,000) Step 4: (-$400 -$5,000) (-$400-0) (0 - $1,000) ($1,000 - $2, 000) ($2,000 - $5, 000) (-$ $300) (-$ $200) (-$ $100) (-$100-0) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000)

26 Génération de hiérarchie de concepts pour des données nominales 26 Spécification d un ordre partiel par des utilisateurs t ou des experts ex : Gene Ontology Spécification d une portion de hiérarchie par le groupage explicite des données Spécification d un ensemble d attributs t sans ordre partiel Spécification partielle d un ensemble

27 Spécification d un ensemble d attributs 27 La hiérarchie de concepts peut être générée é é automatiquement en se basant sur le nombre de valeurs distinctes d un attribut. country 15 valeurs distinctes province_or_ state 65 valeurs distinctes city valeurs distinctes street valeurs distinctes

Documents pareils

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le