Introduction à la classification. Présentée par: Zaynab EL KHATTABI 04/12/2015

Documents pareils
Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

La classification automatique de données quantitatives

ANALYSE STATISTIQUE PRÉDICTIVE

Méthodes d apprentissage statistique «Machine Learning»

Introduction au Data-Mining

Spécificités, Applications et Outils

Optimisation, traitement d image et éclipse de Soleil

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Apprentissage Automatique

1 Modélisation d être mauvais payeur

2015 kmeans. September 3, 2015

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Gestion des identités Christian-Pierre Belin

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Géométrie discrète Chapitre V

Rotary et réseaux sociaux. Séminaire Image Publique du Rotary oct Rotary et réseaux sociaux Jacqueline Fétis

Mesures de performances Perspectives, prospective

Cours 7 : Utilisation de modules sous python

Introduction au Data-Mining

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Enjeux mathématiques et Statistiques du Big Data

Sélection de Caractéristiques pour le Filtrage de Spams

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

«Outils de gestion pour TPE CRM / ERP» Club

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Apprentissage statistique dans les graphes et les réseaux sociaux

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

ACTIVITES PROFESSIONNELLES DE FORMATION : BACHELIER EN MARKETING

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Fouille de données massives avec Hadoop

Atelier du 25 juin «Les bonnes pratiques dans l ing» Club

Chaque étape est à prendre en considération. Recommandation pour une meilleure approche de l'attribution

Détection d activité à l aide de Kinect 2.0

Vers une Optimisation de l Algorithme AntTreeStoch

5. Apprentissage pour le filtrage collaboratif

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Pôle Risques? Systèmes de surveillance environnementale? L ASI Risques? Une brique centrale : SIG de Synext

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Projet de Traitement du Signal Segmentation d images SAR

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Zimbra Collaboration 8.X

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Système immunitaire artificiel

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Application du data mining à la segmentation du marché des meubles aux États-Unis

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Les journées SQL Server 2013

MCMC et approximations en champ moyen pour les modèles de Markov

DATA MINING EN ASSURANCE : Quelques Utilisations

Principe de symétrisation pour la construction d un test adaptatif

Développement d outils de navigation hypermédia (images) pour dispositifs mobiles (Android)

CHAPITRE V SELECTION DES CONSULTANTS ET D AUTRES PRESTATAIRES DE SERVICES

La Performance Digitale en Business to Business

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

APP TECHNOLOGY. Tracking du ROI & Engagement sur Mobile

Les datas = le fuel du 21ième sicècle

Quantification Scalaire et Prédictive

VIENNE LONDRES MUNICH BERLIN ZURICH PARIS HONG KONG PEKIN MOSCOU ISTANBUL

Perso. SmartCard. Mail distribution. Annuaire LDAP. SmartCard Distribution OCSP. Codes mobiles ActivX Applet. CRLs

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Ne cherchez plus, soyez informés! Robert van Kommer

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Les algorithmes de base du graphisme

COMPOSANTS DE L ARCHITECTURE D UN SGBD. Chapitre 1

Apprentissage symbolique et statistique à l ère du mariage pour tous

SOMMAIRE. Conseil de lecture Préface Introduction. 1 Comprendre le rôle des technologies 1. 2 Maîtriser les concepts technologiques 13

Accélérer l agilité de votre site de e-commerce. Cas client

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

<Insert Picture Here> Maintenir le cap avec Oracle WebLogic Server

NIMBUS TRAINING. Administration de Citrix NetScaler 10. Déscription : Objectifs. Publics. Durée. Pré-requis. Programme de cette formation

Séance 11 : Typologies

LINUX - Sécurité. Déroulé de l'action. - 3 jours - Contenu de formation

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

ITIL Gestion de la capacité

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

é n e r g i e c r é a t i v e Solution ing Renforcez le pouvoir de communication de votre entreprise

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

L AUTOMATISATION DU MARKETING SUSCITE L URGENCE DE LA CONVERSION

Chapitre 1 L marketing : définitions et enjeux... 11

DATA MINING FOR SCIENTISTS

Introduction au datamining

Enregistrement et transformation du son. S. Natkin Novembre 2001

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Transcription:

Introduction à la classification Présentée par: Zaynab EL KHATTABI 04/12/2015

Plan But de la classification Apprentissage supervisé vs non supervisé Apprentissage supervisé - L algorithme k-nearest neighbors Représentation des données pour la classification Apprentissage non supervisé (clustering) - L algorithme k-means

But de la classification Méthodes de l'analyse des données Il ne suffit pas de collecter des montagnes d'informations, de les stocker dans des bases de données, mais il faut les exploiter c.-à-d. en tirer des connaissances. Domaines d application: Toutes les sciences et techniques qui font appel à la statistique multidimensionnelle. Database marketing Speech recognition Detection de spam

Apprentissage supervisé Vs. non supervisé Apprentissage Supervisé Essayer de prédire une information spécifique Disposer d un modèle (training set) avec des étiquettes(labels) On peut mesurer la précision directement Apprentissage non supervisé Essayer de comprendre les données Chercher une structure ou des modèles communs N exige pas des données avec des labels. L évaluation est indirecte

Apprentissage supervisé Vs. non supervisé Apprentissage Supervisé : - Decision trees - Random forest - K-nearest neighbors - SVM - Neural Networks Apprentissage non supervisé: - K-means - Expectation-maximization - Hierarchical clustering - Self organizing map - Isodata

Apprentissage supervisé Elle fait partie des techniques prédictives Les classes sont prédéterminées La classification consiste à examiner des caractéristiques d un élément nouvellement présenté afin de l affecter à une classe d un ensemble prédéfini. Processus en deux étapes: 1. Construction du modèle à partir de l ensemble d apprentissage (training data set). 2. Utilisation du modèle pour la classification de nouvelles données

Apprentissage supervisé Exemples de classification supervisée Reconnaissance de caractère manuscrits {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}?

Apprentissage supervisé Exemples de classification supervisée Reconnaissance d empreintes digitales: {suspect 1, suspect 2,, suspect n}?

Apprentissage supervisé l algorithme k nearest neighbors KNN Un échantillon d apprentissage dont on connait la classification Objectif : affecter une classe à une nouvelle instance Données: un échantillon de n enregistrements de dimension p : À chaque enregistrement est associée une classe connue à l avance: (Xi, C(Xi)) Fonction de distance (pour déterminer les voisins) Fonction de choix de la classe qui dépend de celles des voisins les plus proches.

Apprentissage supervisé l algorithme k nearest neighbors KNN Input: K le nombre des NN, Un enregistrement Xt Traitement: 1. Déterminer les K plus proches enregistrements (voisins) de Xt 2. On conserve les K enregistrements les plus proches de Xt 3. Déterminer la classe Ct de l enregistrement Xt en fonction de celles des K voisins. sortie: la classe de Xt est C(Xt)= Ct

Exemple: Apprentissage supervisé l algorithme k nearest neighbors KNN Si k=3, le nouveau point sera associé à la classe des cercles Si k=5, le nouveau point sera affecter à la classe des carrés

Représentation des données avant la classification Exemple de reconnaissance de caractères manuscrits: => Les Pixels peuvent être des attributs

Représentation des données avant la classification Exemple de reconnaissance d objets: => Les Pixels ne peuvent pas être des attributs!

Représentation des données avant la classification Exemple de reconnaissance d objets: Segmentation de l image en regions (Blobs) - Algorithmes : BlobWorld, Normalized cuts Calculer les attributs décrivant la région - Convexité, orientation, fréquence de la couleur, texture => Un vecteur de caractéristiques (Xi) peut être un attribut

Apprentissage non supervisé Clustering Signifie le regroupement des données ou répartition d un ensemble de données en sous ensembles de même similarités (attributs). Tâche non supervisée, aucune prédiction spécifique. Quels sont les sous-populations qui existent dans les données? Leurs tailles? Sont ils cohésives? Les éléments d une sous population partagent des propriétés communes? Y a-t-il des aberrantes?

Apprentissage non supervisé L algorithme k-means Input: k, ensemble de points x1, x2,,xi 1. Placer les centres des clusters (centroids) à des locations aléatoires. 2. Pour chaque Point (xi): - Trouver le plus proche centroid cj. (D(xi,cj) distance euclidien) - Assigner le point xi au cluster j. 3. Pour chaque Cluster (j): - Nouveau centroid cj=moyenne de tous les pts xi assignés au cluster j dans l étape précédente. 3. Répéter (2) jusqu à aucun changement de centroid n est possible. Sortie: Ensemble de clusters

Exemple: Apprentissage non supervisé L algorithme k-means

Exemple: Apprentissage non supervisé L algorithme k-means

Discussion