Introduction Cours Data Warhousing et Data Mining. Introduction. Dr A. DJEFFAL.

Documents pareils
Introduction au Data-Mining

Analyse de grandes bases de données en santé

Introduction au Data-Mining

La classification automatique de données quantitatives

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Annexe commune aux séries ES, L et S : boîtes et quantiles

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Statistiques Descriptives à une dimension

Spécificités, Applications et Outils

Introduction au datamining

Le cinquième chapitre

Data Mining. Master 1 Informatique - Mathématiques UAG

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Statistique : Résumé de cours et méthodes

Agenda de la présentation

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Big Data et Graphes : Quelques pistes de recherche

MABioVis. Bio-informatique et la

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

données en connaissance et en actions?

Big Data et Graphes : Quelques pistes de recherche

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

A QUOI SERVENT LES BASES DE DONNÉES?

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Identification de nouveaux membres dans des familles d'interleukines

Introduction à la Fouille de Données (Data Mining) (8)

Séries Statistiques Simples

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

L apprentissage automatique

1 Modélisation d être mauvais payeur

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Les algorithmes de fouille de données

Les technologies du Big Data

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Représentation d une distribution

Vous êtes bien à la bonne présentation, c est juste que je trouvais que le titre de cette présentation étais un peu long,

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Algorithmes d'apprentissage

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Pourquoi l apprentissage?

Fouillez facilement dans votre système Big Data. Olivier TAVARD

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Extraction d informations stratégiques par Analyse en Composantes Principales

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

INVESTISSEMENTS D AVENIR

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Publications, ressources, liens, logiciels,

We make your. Data Smart. Data Smart

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Gestion de la Relation Client (GRC)

Soutenance de stage Laboratoire des Signaux et Systèmes

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Travailler avec les télécommunications

DATA MINING - Analyses de données symboliques sur les restaurants

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

IBM Tivoli Monitoring, version 6.1

Base de données bibliographiques Pubmed-Medline

Scénario: Données bancaires et segmentation de clientèle

Etude de cas. Acteur incontournable du marketing direct spécialiste des problématiques B to B. Christophe de Larquier, Dirigeant de Combbase

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Séquence 4. Comment expliquer la localisation des séismes et des volcans à la surface du globe?

AGENCE COMMERCIALE ENTREPRISES AQUITAINE NORD

Projet de Traitement du Signal Segmentation d images SAR

Cybermarché et analyse comportementale

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

L unité commerciale X&Y «Fidéliser la clientèle»

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

La problématique. La philosophie ' ) * )

Le langage SQL Rappels

Logiciel XLSTAT version rue Damrémont PARIS

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Disciplines. Ecoles - facultés - titres délivrés. UNIL - Faculté des lettres. Maîtrise universitaire ès Lettres

Initiation à LabView : Les exemples d applications :

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

UML Diagramme de communication (communication diagram) Emmanuel Pichon 2013

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Transcription:

1ère année IA 2016-2017 www.abdelhamid-djeffal.net 1 / 26

Quoi? 2 / 26

Quoi? Rechercher des informations 2 / 26

Quoi? Rechercher des informations Laquelle? 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) Où? 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) Où? Dans les grandes quantités de stockés par les SI 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) Où? Dans les grandes quantités de stockés par les SI Comment? 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) Où? Dans les grandes quantités de stockés par les SI Comment? En utilisant les statistiques, IA, Reconnaissance des formes,...etc. 2 / 26

Quoi? Rechercher des informations Laquelle? Les informations précieuses et utiles (corrélation, pattern, tendances,...) Où? Dans les grandes quantités de stockés par les SI Comment? En utilisant les statistiques, IA, Reconnaissance des formes,...etc. 2 / 26

Extraction des connaissance à partir des ECD Knowledge Discovery from Data KDD 3 / 26

Ingénierie et recherche scientifique classique Analyser les problèmes & comprendre leurs principes Développer les modèles mathématiques adéquats Vérifier la correction du système et estimer les paramètres par les expérimentales 4 / 26

Ingénierie et recherche scientifique classique Analyser les problèmes & comprendre leurs principes Développer les modèles mathématiques adéquats Vérifier la correction du système et estimer les paramètres par les expérimentales Systèmes trop complexes Analyse scientifique et compréhension des systèmes Arrivée à sa fin 4 / 26

Ingénierie et recherche scientifique classique Analyser les problèmes & comprendre leurs principes Développer les modèles mathématiques adéquats Vérifier la correction du système et estimer les paramètres par les expérimentales Systèmes trop complexes Analyse scientifique et compréhension des systèmes Arrivée à sa fin Nouvelle aire 4 / 26

Ingénierie et recherche scientifique moderne Surveiller suffisamment un système 5 / 26

Ingénierie et recherche scientifique moderne Surveiller suffisamment un système Stocker un historique de son comportements (entrées et sorties) 5 / 26

Ingénierie et recherche scientifique moderne Surveiller suffisamment un système Stocker un historique de son comportements (entrées et sorties) Exploiter ces pour extraire des modèles qui décrivent le système 5 / 26

Ingénierie et recherche scientifique moderne Surveiller suffisamment un système Stocker un historique de son comportements (entrées et sorties) Exploiter ces pour extraire des modèles qui décrivent le système 5 / 26

Outils de 6 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) 7 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) Optimisation du nombre de places dans les avions, hôtels,... ) surréservation 7 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) Optimisation du nombre de places dans les avions, hôtels,... ) surréservation 0rganisation des rayonnages dans les supermarchés : les clients qui achètent le produit X en fin de semaine, pendant l été, achètent généralement également le produit Y ; 7 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) Optimisation du nombre de places dans les avions, hôtels,... ) surréservation 0rganisation des rayonnages dans les supermarchés : les clients qui achètent le produit X en fin de semaine, pendant l été, achètent généralement également le produit Y ; Organisation de campagne de publicité, promotions, ciblage des offres, acquisition des clients, rétention 7 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) Optimisation du nombre de places dans les avions, hôtels,... ) surréservation 0rganisation des rayonnages dans les supermarchés : les clients qui achètent le produit X en fin de semaine, pendant l été, achètent généralement également le produit Y ; Organisation de campagne de publicité, promotions, ciblage des offres, acquisition des clients, rétention Diagnostic médical : les patients ayant tels et tels symptômes et demeurant dans des agglomérations de plus de 104 habitants développent couramment telle pathologie ; 7 / 26

Domaines d utilisation du (1) Attribution de crédits (Credit Scoring) Optimisation du nombre de places dans les avions, hôtels,... ) surréservation 0rganisation des rayonnages dans les supermarchés : les clients qui achètent le produit X en fin de semaine, pendant l été, achètent généralement également le produit Y ; Organisation de campagne de publicité, promotions, ciblage des offres, acquisition des clients, rétention Diagnostic médical : les patients ayant tels et tels symptômes et demeurant dans des agglomérations de plus de 104 habitants développent couramment telle pathologie ; 7 / 26

Domaines d utilisation du (2) Analyse du génome 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) Commerce électronique 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) Commerce électronique Analyser les pratiques et stratégies commerciales et leurs impacts sur les ventes 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) Commerce électronique Analyser les pratiques et stratégies commerciales et leurs impacts sur les ventes Moteur de recherche sur internet : Web mining 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) Commerce électronique Analyser les pratiques et stratégies commerciales et leurs impacts sur les ventes Moteur de recherche sur internet : Web mining Fouille de textes 8 / 26

Domaines d utilisation du (2) Analyse du génome Assurance Classification d objets (industrie, sécurité, astronomie,...) Commerce électronique Analyser les pratiques et stratégies commerciales et leurs impacts sur les ventes Moteur de recherche sur internet : Web mining Fouille de textes Fouille de séquences.... 8 / 26

Processus KDD 9 / 26

Processus 10 / 26

1. Définition et compréhension du problème Compréhension indispensable La plupart des problèmes sont dus à la mal compréhension du problème 11 / 26

1. Définition et compréhension du problème Compréhension indispensable La plupart des problèmes sont dus à la mal compréhension du problème Généralement, comprendre le domaine d application (banques, médecine, biologie, marketing,...etc) La compréhension est cruciale pour l explication des résultats et la justification des coûts 11 / 26

1. Définition et compréhension du problème Compréhension indispensable La plupart des problèmes sont dus à la mal compréhension du problème Généralement, comprendre le domaine d application (banques, médecine, biologie, marketing,...etc) La compréhension est cruciale pour l explication des résultats et la justification des coûts Pouvoir évaluer les résultats obtenus et convaincre l utilisateur de leur rentabilité 11 / 26

2. Collecte des Sélection des à utiliser selon le problème défini Attention!! plusieurs formats et structures (textes, BDD, pages web, images, vidéo,...etc) 12 / 26

2. Collecte des Sélection des à utiliser selon le problème défini Attention!! plusieurs formats et structures (textes, BDD, pages web, images, vidéo,...etc) Parfois : prendre une copie du système en cours de fonctionnement 12 / 26

2. Collecte des Sélection des à utiliser selon le problème défini Attention!! plusieurs formats et structures (textes, BDD, pages web, images, vidéo,...etc) Parfois : prendre une copie du système en cours de fonctionnement Subdiviser les en deux parties : Données d analyse et de test 12 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage Réduction des, verticale et horizontale (ACP) 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage Réduction des, verticale et horizontale (ACP) tendance centrale des (moyenne, médiane, mode), le maximum et le minimum, 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage Réduction des, verticale et horizontale (ACP) tendance centrale des (moyenne, médiane, mode), le maximum et le minimum, Rang, les quartiles, la variance,... etc. 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage Réduction des, verticale et horizontale (ACP) tendance centrale des (moyenne, médiane, mode), le maximum et le minimum, Rang, les quartiles, la variance,... etc. Courbes, diagrammes, graphes,... etc, peuvent aider à la sélection et le nettoyage des. 13 / 26

3. Prétraitement Souvent, bruitées (erreurs de frappe, erreurs système,...) Données incohérentes (qui sortent des intervalles permis) Unification des poids [0,1] ou [0,100], Lissage Réduction des, verticale et horizontale (ACP) tendance centrale des (moyenne, médiane, mode), le maximum et le minimum, Rang, les quartiles, la variance,... etc. Courbes, diagrammes, graphes,... etc, peuvent aider à la sélection et le nettoyage des. Stockage des des Entrepôts de (data warehouse) 13 / 26

4. Estimation du modèle Choisir la bonne technique pour extraire les connaissances Réseaux de neurones, Arbres de décision, Réseaux bayésiens, Clustering,... 14 / 26

4. Estimation du modèle Choisir la bonne technique pour extraire les connaissances Réseaux de neurones, Arbres de décision, Réseaux bayésiens, Clustering,... Utilisation de plusieurs de ces techniques 14 / 26

5. Interprétation du modèle et établissement des conclusions Fournir des modèles compréhensibles aux utilisateurs 15 / 26

5. Interprétation du modèle et établissement des conclusions Fournir des modèles compréhensibles aux utilisateurs Modèles simples plus compréhensibles mais moins précis 15 / 26

5. Interprétation du modèle et établissement des conclusions Fournir des modèles compréhensibles aux utilisateurs Modèles simples plus compréhensibles mais moins précis Modèles complexes plus précis mais difficiles à interpréter. 15 / 26

Échantillons, enregistrements, exemples, ensemble de Une donnée est : Individu en statistique 16 / 26

Échantillons, enregistrements, exemples, ensemble de Une donnée est : Individu en statistique Instance objets informatique 16 / 26

Échantillons, enregistrements, exemples, ensemble de Une donnée est : Individu en statistique Instance objets informatique Tuple bases de 16 / 26

Échantillons, enregistrements, exemples, ensemble de Une donnée est : Individu en statistique Instance objets informatique Tuple bases de Point ou vecteur en géométrie 16 / 26

Attributs, Champs, Caractéristiques Une donnée est caractérisé par un ensemble de : Champs en bases e Caractéristiques statistiques Attributs orienté objet 17 / 26

Types d attributs Deux types 1 Numérique comportent les variables réelles ou entières tel que la longueur, le poids, l âge,... relation d ordre (5 < 7.5) mesure de distance (D(5, 7.5) = 2.5). Calcul de moyenne, variance, écart-type,... 18 / 26

Types d attributs Deux types 1 Numérique comportent les variables réelles ou entières tel que la longueur, le poids, l âge,... relation d ordre (5 < 7.5) mesure de distance (D(5, 7.5) = 2.5). Calcul de moyenne, variance, écart-type,... 2 catégoriels (appelées aussi symboliques) tel que la couleur, l adresse ou le groupe sanguin Pas de relation d ordre (égalité ou différence) Distance spécifique (nombre de caractères en commun,...) Utilisation du mode : la valeur la plus fréquente ne possèdent aucune de ces caractéristiques. Deux variables catégorielles ne peuvent être qu égales ou différentes. 18 / 26

Qualité des Données précises : noms écrits correctement, valeurs dans les bons intervalles et complètes, 19 / 26

Qualité des Données précises : noms écrits correctement, valeurs dans les bons intervalles et complètes, Données enregistrées dans les bon formats : numérique caractère, entière réelle,...etc, 19 / 26

Qualité des Données précises : noms écrits correctement, valeurs dans les bons intervalles et complètes, Données enregistrées dans les bon formats : numérique caractère, entière réelle,...etc, La redondance doit être éliminée ou au moins minimisée,...etc. 19 / 26

Préparation Manuelle : nombre limité d échantillons 20 / 26

Préparation Manuelle : nombre limité d échantillons Semi-automatique : nombre moyen d échantillons 20 / 26

Préparation Manuelle : nombre limité d échantillons Semi-automatique : nombre moyen d échantillons Automatiques : BDD immenses 20 / 26

Préparation Manuelle : nombre limité d échantillons Semi-automatique : nombre moyen d échantillons Automatiques : BDD immenses...etc. 20 / 26

Tâches du Tâches (supervisées, non supervisées) Cinq tâches principales La classification 21 / 26

Tâches du Tâches (supervisées, non supervisées) Cinq tâches principales La classification L estimation 21 / 26

Tâches du Tâches (supervisées, non supervisées) Cinq tâches principales La classification L estimation Le groupement par similitude (règles d association) 21 / 26

Tâches du Tâches (supervisées, non supervisées) Cinq tâches principales La classification L estimation Le groupement par similitude (règles d association) L analyse des clusters 21 / 26

Tâches du Tâches (supervisées, non supervisées) Cinq tâches principales La classification L estimation Le groupement par similitude (règles d association) L analyse des clusters La description 21 / 26

Tâches du Classification Tache la plus commune du Etudier les caractéristiques d un nouvel objet pour l attribuer à une classe prédéfinie Mettre à jours chaque enregistrement d une BDD en déterminant la valeur d un champ de classe Deux phases 1 Apprentissage : apprend du jeu d apprentissage et construit un modèle. 2 Classification : le modèle appris est employé pour classifier de nouveaux objets 22 / 26

Tâches du Estimation Classification + variable de sortie numérique Estimer la valeur d une Action dans une bourse Estimer la tension d un passion 23 / 26

Tâches du Groupement par similitude (Analyse des associations et de motifs séquentiels) Déterminer quels attributs vont ensemble Analyse du panier du marché Forme Si <antécédent>, alors <conséquent> 24 / 26

Tâches du Analyse des clusters Clusiering ou Segmentation Regroupement d enregistrements ou des observations en classes d objets similaires Il n y a pas de variables sortantes Segmenter la totalité de en des sous groupes relativement homogènes Maximiser l homogénéité à l intérieur de chaque groupe et la minimiser entre les différents groupes. 25 / 26

Tâches du Description Expliquer ce qui se passe sur une Base de Données Expliquer les relations existantes dans les Pour mieux comprendre les individus, les produit et les processus Exemple : les femmes supportent le changement plus que les hommes Utilise les outils de visualisation 26 / 26