Traitement de l image et du signal Partie TI

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La classification automatique de données quantitatives

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Programmation linéaire

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

UE C avancé cours 1: introduction et révisions

Statistiques Descriptives à une dimension

Cours d analyse numérique SMI-S4

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Référencement naturel & E-tourisme. Pau 02/10/2008

Introduction aux Statistiques et à l utilisation du logiciel R

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Rupture et plasticité

Arbres binaires de décision

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Introduction au Data-Mining

Resolution limit in community detection

Analyse de grandes bases de données en santé

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Projet de Traitement du Signal Segmentation d images SAR

Continuité et dérivabilité d une fonction

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Plus courts chemins, programmation dynamique

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Organigramme / Algorigramme Dossier élève 1 SI

Laboratoire d Automatique et Productique Université de Batna, Algérie

Java Licence Professionnelle CISII,

L industrie pharmaceutique et la grippe aviaire

Qualité du logiciel: Méthodes de test

2015 kmeans. September 3, 2015

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

STATISTIQUES. UE Modélisation pour la biologie

Apprentissage statistique dans les graphes et les réseaux sociaux

Conception d une infrastructure «Cloud» pertinente

Indicateur. IDé 500. Descriptif indicateur. Schéma/Encombrement

Introduction au Data-Mining

Module d Electricité. 2 ème partie : Electrostatique. Fabrice Sincère (version 3.0.1)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Identification de nouveaux membres dans des familles d'interleukines

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Optimisation, traitement d image et éclipse de Soleil

Partie 1: Gestion de l interférence entre symboles

Irrigation Marketing. >1 : Un nouveau concept : l irrigation marketing

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Lire ; Compter ; Tester... avec R

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Séance 11 : Typologies

Travaux pratiques avec RapidMiner

Brève introduction à la fouille de grandes bases de données océaniques

Air Transat. Contexte. Buts. Défis. Solution. Industry Travelling, Transport

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Cours de Master Recherche

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Apprentissage Automatique

Laboratoire 4 Développement d un système intelligent

TD1 Signaux, énergie et puissance, signaux aléatoires

OPTIMISATION À UNE VARIABLE

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Une introduction aux codes correcteurs quantiques

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Chapitre 7. Circuits Magnétiques et Inductance. 7.1 Introduction Production d un champ magnétique

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

DEMANDE D INFORMATION RFI (Request for information)

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Représentation d un entier en base b

Java et les bases de données: JDBC: Java DataBase Connectivity SQLJ: Embedded SQL in Java. Michel Bonjour

Business Intelligence

Extraction d informations stratégiques par Analyse en Composantes Principales

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Examen Médian - 1 heure 30

Optimisation Discrète

Manuel de validation Fascicule v4.25 : Thermique transitoire des structures volumiques

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Eclipse Process Framework et Telelogic Harmony/ITSW

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Rappels sur les suites - Algorithme

EXIN Agile Scrum Master

Pagaie rouge. Lieu de pratique Plan d eau calme ou piscine comprenant un parcours sur deux buts (terrain 36 mètres par 20 mètres).

Être visible sur internet - Améliorez votre référencement

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

3. Caractéristiques et fonctions d une v.a.

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

données en connaissance et en actions?

Température corporelle d un castor (une petite introduction aux séries temporelles)

Quantification Scalaire et Prédictive

Planning Formation Juillet Décembre 2015

MABioVis. Bio-informatique et la

ECTS CM TD TP. 1er semestre (S3)

Chapitre 3. Les distributions à deux variables

BES WEBDEVELOPER ACTIVITÉ RÔLE

Partie II Cours 3 (suite) : Sécurité de bases de données

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

MCMC et approximations en champ moyen pour les modèles de Markov

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Programmation Linéaire - Cours 1

Transcription:

Traitement de l image et du signal Partie TI Emanuel Aldea <emanuel.aldea@u-psud.fr> http://hebergement.u-psud.fr/emi/453 Master Electronique, énergie électrique, automatique 1ère année

Plan du cours Définition Visualisation de données Réduction de dimensionnalité (PCA) Analyse linéaire discriminante (LDA) La classification non supervisée l algorithme K-means La classification supervisée l algorithme knn l algorithme SVM E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (2/25)

La classification Objectifs Obtenir une représentation simplifiée mais pertinente des données originales Mettre en évidence les similarités entre les objets Définitions préalables Espace d entrée et des instances à traiter x i Une image, un pixel, une composante connexe etc. Espace de caractéristiques d et y : d : x i,y i = y(x i ) d Un histogramme, un descripteur de forme etc. Besoin d une métrique Espace de décision Ω = {ω i,i [0c]} et x,ω(x) Ω {0,1} pour une décision binaire, { fond, route, panneau } pour une application de navigation autonome etc. Critère de performance Comment est-ce qu on évalue la performance de la classification? E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (3/25)

Exemple en visualisation La base IRIS Des attributs (en cm) portant sur les caractéristiques de trois espèces de plantes : longueur et largeur du sépale, et longueur et largeur du pétale dimensionnalité de l espace de caractéristiques : d = 4 dimensionnalité de l espace de décision : Ω = 3 nombre d instances n = 150 (approx. 50/classe) E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (4/25)

Exemple en visualisation Affichage des moyennes des classes E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (5/25)

Exemple en visualisation Plus informatif : les boxplots E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (6/25)

Exemple en visualisation - analyse croisée E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (7/25)

Exemple en visualisation Statistiques descriptives simples moyenne, boxplots, analyse croisée utiles en dimensions réduites Analyse en composantes principales (PCA) indispensable quand le nombre de variables est très grand analyse de la variabilité / dispersion des données objectif : décrire à partir de q < d dimensions cette variabilité réduction des données a q nouveaux descripteurs visualisation si q = 2 ou q = 3 interprétation des données : liaisons inter-variables E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (8/25)

Analyse en composantes principales composantes C 1,...,C q, avec C k combinaison lineaire de D 1,...,D d C k = d a ik x i i=1 les composantes sont deux à deux non corrélées les composantes sont de variance maximale les composantes sont d importance décroissante E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (9/25)

Analyse en composantes principales on peut montrer que la variance de la projection par rapport à une direction v est : σ 2 v = v T Σv Σ étant la matrice de covariance on cherche maxσ 2 v avec v unitaire : v T v = 1 on obtient Σv = λv et σ 2 v = λ solution PCA : projection sur le vecteur propre ayant la valeur propre λ la plus élevée E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (10/25)

Analyse en composantes principales Résumé de l algorithme 1. recentrage des données X = (x µ) T 2. calcul de la matrice de covariance Σ 3. diagonalisation de Σ et classement par valeurs propres croissantes 4. sélection des q premiers vecteurs propres C k 5. calcul des valeurs réduites a i qui remplacent x i par a ik =< x i,c k > E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (11/25)

Analyse linéaire discriminante (LDA) Limitation PCA : ne prend pas en compte la notion de classe E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (12/25)

Analyse linéaire discriminante (LDA) Limitation PCA : ne prend pas en compte la notion de classe E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (13/25)

Analyse linéaire discriminante (LDA) Limitation PCA : ne prend pas en compte la notion de classe idée : mettre en évidence des différences entre les classes méthode proche de PCA maximiser la variance inter-classes variance intra-classe minimale E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (14/25)

Analyse linéaire discriminante (LDA) Décomposition de la variance totale : σ 2 = σ 2 (w) +σ2 (b) et par rapport à une direction de projection v : σ 2 v = σ 2 (w)v +σ2 (b)v 1 = σ2 (w)v σ 2 v + σ2 (b)v σ 2 v v Optimisation de : max T Bv v v T Σv ) (v Condition nécessaire : T Bv v = 0 v T Σv D où : Σ 1 Bv = λv Solution LDA : projection des données sur le vecteur propre de Σ 1 B ayant la valeur propre λ la plus élevée. E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (15/25)

Analyse linéaire discriminante (LDA) Résumé de l algorithme 1. recentrage des données X = (x µ) T 2. calcul de la matrice de covariance Σ 3. calcul de la matrice de covariance inter-classe B : B = c k=1 n(k) (µ(k) µ)(µ(k) µ)t n 4. diagonalisation de Σ 1 B et classement par valeurs propres croissantes 5. sélection des q premiers vecteurs propres C k 6. calcul des valeurs réduites a i qui remplacent x i par a ik =< x i,c k > 7. classification d une nouvelle observation par la distance au centroïde le plus proche 8. classification linéaire : médiane entre les centroïdes E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (16/25)

Analyse linéaire discriminante (LDA) E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (17/25)

Intégration de la connaissance Cas supervisé Connaissance a priori des caractéristiques des classes Apprentissage à partir d objets déjà étiquetés (exemples, ou training data) Cas non supervisé Définition d un critère minimisation de la dispersion intra-classe / maximisation de la dispersion inter-classes minimisation de la probabilité d erreur proposition d un algorithme d optimisation convergence caractéristiques de la solution E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (18/25)

Classification non supervisée - K-means Algorithme itératif qui identifie k clusters dans les observations Fonctionnement min {µ 1,...,µ k } k i=1 choose µ i,i [1 k] // initialisation while (any µ i changes){ assign all x j to closest µ update µ i,i [1 k] } Avantages : x j C i (x j µ i ) 2 convergence : à chaque itération la fonction objectif diminue rapide parallélisable E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (19/25)

Classification non supervisée - K-means Algorithme itératif qui identifie k clusters dans les observations Fonctionnement min {µ 1,...,µ k } k i=1 choose µ i,i [1 k] // initialisation while (any µ i changes){ assign all x j to closest µ update µ i,i [1 k] } Avantages : x j C i (x j µ i ) 2 convergence : à chaque itération la fonction objectif diminue rapide parallélisable E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (19/25)

Classification non supervisée - K-means Algorithme itératif qui identifie k clusters dans les observations Fonctionnement min {µ 1,...,µ k } k i=1 choose µ i,i [1 k] // initialisation while (any µ i changes){ assign all x j to closest µ update µ i,i [1 k] } Avantages : x j C i (x j µ i ) 2 convergence : à chaque itération la fonction objectif diminue rapide parallélisable E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (19/25)

Classification non supervisée - K-means Algorithme itératif qui identifie k clusters dans les observations Fonctionnement min {µ 1,...,µ k } k i=1 choose µ i,i [1 k] // initialisation while (any µ i changes){ assign all x j to closest µ update µ i,i [1 k] } Avantages : x j C i (x j µ i ) 2 convergence : à chaque itération la fonction objectif diminue rapide parallélisable E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (19/25)

Classification non supervisée - K-means Limitations : densités ou tailles variables, formes complexes initialisation des centres µ i minima locaux choix du k techniques d initialisation outliers, clusters vides Quelques références : Jain AK, Dubes RC (1988) Algorithms for clustering data. Prentice-Hall Banerjee A, Merugu S, Dhillon I, Ghosh J (2005) Clustering with Bregman divergences. J Mach Learn Res Nock, R. and Nielsen, F. (2006) On Weighting Clustering, IEEE Trans. on Pattern Analysis and Machine Intelligence E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (20/25)

Classification supervisée - knn un ensemble d apprentissage {(y i,ω i )} requête y ; calcul de ses k plus proches voisins décision ω par maximum de votes Limitations : distribution inégale des exemples d apprentissage choix du k attributs pas relevants Améliorations : pondération de la distance pondération des attributs E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (21/25)

Classification supervisée - SVM classification linéaire ambiguë (voir perceptron) maximisation de la marge inter-classes Points forts : optimisation globale sélection des vecteurs support classification non linéaire possible par projection des features dans des espaces de plus grande dimension possibilité de tolérer des outliers Hyperplan de séparation : w,x b = 0 Première classe : w,x b 1 Deuxième classe : w,x b 1 min w t.q. i,ω i( w,x b) 1 w,b E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (22/25)

Sur-apprentissage Comment choisir le bon modèle? E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (23/25)

Sur-apprentissage E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (24/25)

Sur-apprentissage Validation croisée séparation en N sous-ensembles N fois train sur N-1 erreur totale : moyenne des N taux d erreur E. Aldea (M1-E3A) T. image et signal Chap II : Reconnaissance de formes (25/25)