Introduction à la classification des données de télédétection UMR TETIS Cemagref-CIRAD-ENGREF 5 mars 2007
Plan Principes généraux Classifications, évaluation, post-classification Classification : Extraction de l'information utile Stratification L apprentissage Classifications supervisées Classification : Approche non supervisée Évaluation de la classification Post-classification Méthodes récentes Approche Orienté-Objet Classifications floues 2/48
Principe général (1/3) Les éléments de la classification Problème général de classification Ranger des individus caractérisés par des variables dans des classes En télédétection : Individus = pixels Variables = canaux spectraux Classes = nomenclature 3/48
Principe général (2/3) De l espace géographique à l espace radiométrique Analyse de l'image Image de départ (2 canaux) Canal n 1 Partition de l'espace des variables Classification des pixels Généralisation Canal n 2 Image classée 4/48
Principe général (3/3) Modes de partition de l'espace des variables Approche non-supervisée (non dirigée) : partition automatique de l'espace des variables intervention post-classification (dirigée) : partition dirigée de l'espace des variables à l'aide de données de terrain intervention du thématicien avant, pendant et après la classification 5/48
Étapes de la démarche dirigée Sélection des données utiles Stratification Apprentissage Classification Évaluation Restitution des résultats Choix des variables (canaux originaux ou néo-canaux) Découpage de l espace en zones d iso-raisonnement Définition des règles de décision à partir des zones de référence Application des règles de décision à l ensemble des pixels à classer Confrontation du résultat de la classification aux connaissances de terrain Cartes thématiques, statistiques de l occupation du sol... 6/48
Sélection des données utiles (1/2) Sélection des données utiles Objectif : Stratification Apprentissage Classification Evaluation Choix des variables (canaux) pour la classification : ne retenir que l'information utile compte tenu des objectifs assignés Résultats 7/48
Sélection des données utiles (2/2) Selon critères Critères statistiques élimination de canaux trop redondants (matrice de corrélation) Canaux synthétiques décorrélés (ACP) - mais attention perte de sens physique Critères physiques intérêt thématique d'un canal (ex : PIR pour le thème "eau") création de nouveaux canaux (ex. indice de végétation) 8/48
La stratification (1/6) Sélection des données utiles Stratification Apprentissage Classification Evaluation Résultats Objectif : segmenter l'image en parties de même apparence définir des zones d'égale valeur de raisonnement 9/48
La stratification (2/6) Quand faut-il stratifier? variabilité géographique variabilité spectrale même réponse pour 2 classes sur 2 milieux différents exemple lié à la cible cas n 1 cas n 2 réponse différ. pour même classe sur 2 situations topo Milieu en eau Milieu terrestre Stratification par type de sol Stratification avec MNT 10/48
La stratification (3/6) Critères endogènes à l image Stratification manuelle par photo-interprétation des textures et structures Stratification automatique : classification sommaire (seuillage) classification automatique application de filtres passe-bas afin de faire apparaître les grandes unités de l'image Difficulté : relier ces segmentations à des déterminants physiques 11/48
La stratification (4/6) exemple de critère endogène Séparation zone brûlée / zone non brûlée Seuillage image SPOT (niveau 1B) limite de la zone incendiée 12/48
La stratification (5/6) Critères exogènes à l image Recherche du zonage pertinent carte pédo-géologique carte agro-pédologique carte des petites régions naturelles carte agro-climatique modèle numérique de terrain (MNT)... informations à introduire dans la géométrie de l'image 13/48
La stratification (6/6) exemple de critère exogène Etude de la reprise végétale en tenant compte de l'antécédent forestier au travers de la cartographie de l'inventaire Forestier National (IFN) Classes forestières avant incendie = strates pour analyse du comportement radiométrique Cartographie forestière avant incendie (IFN) Image SPOT (normalisation du relief souhaitable) 14/48
L apprentissage (1/8) Sélection des données utiles Stratification Apprentissage Classification Evaluation Objectifs : 1. établir la nomenclature de la classification 2. fournir les échantillons permettant d'initialiser et de valider la classification Résultats 15/48
L apprentissage (2/8) Principes et contraintes Localiser, extraire et caractériser les composantes d'un échantillon représentatif La démarche d'échantillonnage dépend du type de paysage paysage présentant des limites claires (ex : parcellaire agricole) paysage sans limites claires (ex : zone de continuum végétal ex. maquis) Plusieurs types d'apprentissage 16/48
L apprentissage (3/8) éléments de conception Positionnement Aléatoire Entité géographique enquêtée Systématique Raisonné Stratification Globale Point Ligne (transect) Surface (Segment) Stratifiée 17/48
L apprentissage (4/8) objets support d apprentissage Points : méthode par tirage aléatoire ou systématique Segments à frontières repérables sur le terrain : méthode de sondage stratifiée, aléatoire ou systématique Segments à forme géométrique (carré) : méthode de sondage aléatoire ou systématique Itinéraire : méthode de sondage raisonnée observation de parcelles le long d'un itinéraire Unité type : méthode de sondage raisonnée et stratifiée exemple : ensemble des terres d'une exploitation "moyenne" 18/48
L apprentissage (5/8) Eléments de choix (1) Tenir compte : de la résolution du capteur de la taille des objets des hétérogénéités spatiales de l objet d étude (saison / phénologie / dynamique) Problème de nomenclature et de niveau d organisation 19/48
L apprentissage (6/8) Eléments de choix (2) Si la taille des objets >> à la résolution faibles contraintes dans la collecte (enquêtes par point, par transect, par segment) : cas des régions à "limites nettes". Si la taille des objets << à la résolution fortes contraintes dans la collecte (ex. enquêtes par transect) : cas des régions à "limites floues" recherche de motifs paysagers, de structurations spatiales, etc. Si l objet d étude varie beaucoup d une saison à l autre choisir la bonne période en fonction des possibilités d acquisition des satellites : cas des régions agricoles, urbaines... 20/48
L apprentissage (7/8) Échantillonnage par segments carrés Positionnement des segments : - taux de sondage - superficie des segments Avantages enquête du segment (souvent avec aide photo aérienne, même ancienne de qqs années) Bon compromis résultats / temps passé (sous réserve représentativité des segments) 21/48
L apprentissage (8/8) Validation de l apprentissage Validation intra-classe vérifier l'homogénéité radiométrique de chaque échantillon et des échantillons appartenant à la même classe vérifier les hypothèses à la base des méthodes de classification ex : hypothèse gaussienne Validation inter-classe comparaison des populations de pixels matrice de confusion en pré-classification (cf. évaluation) 22/48
Classifications Généralités (1/2) Sélection des données utiles Stratification Apprentissage Classification Evaluation Trois étapes : 1 - Choix d'un modèle de classification 2 - Définition des paramètres de ce modèle 3 - Application à l'image Résultats 23/48
Classifications - Généralités (2/2) Les méthodes de classification Type de classification Méthodes Métrique Arithmétique Statistique Supervisée Non supervisée 24/48
Classifications supervisées (1/7) Principe général canal XS3 canal XS3 canal XS2 100 20 image brute 100 1 1 2 3 4 20 canal XS2 image classée 25/48
Classifications supervisées (2/7) méthodes disponibles Méthode de classification de type métrique exemple : classification par distance minimum Méthode de classification de type arithmétique exemple : classification par hypercube Méthode de classification de type statistique exemple : classification par maximum de vraisemblance sous hypothèse gaussienne 26/48
Classification supervisée (3/7) de type métrique par distance minimum exemple : Distance euclidienne Pixel classé dans classe dont il est le plus proche centres des classes estimés à partir des pixels d'apprentissage (barycentre) canal 2 Centre classe 1 Centre classe 3 Centre classe 2 Limites de classe : Médiatrices des segments reliant les centres de classes canal 1 27/48
Classification supervisée (4/7) de type arithmétique par hypercube (ou méthode des bornes) Cette méthode n'utilise : - ni la notion de distance, - ni d'hypothèse sur les propriétés de distribution des valeurs radiométriques des pixels dans l'espace des variables canal 1 Orge Vigne Forêt Blé Maïs Verger problème des recouvrements entre classes canal 2 28/48
Classification supervisée (5/7) de type arithmétique par seuillage nb de pixels blanc extraction de l eau cas de 2 classes noir 0 255 seuil compte numérique (canal XS3) 29/48
Classification supervisée (6/7) de type statistique : maximum de vraisemblance Fonction de densité de probabilité P(x/C 2 ) P(x/C1) La règle de Bayes permet de calculer : p( Cq / x) = p( x / Cq). p( Cq) p( x) X représentation des fonctions de densités de probabilités conditionnelles d un attribut x pour des points images provenant de 2 classes C 1 et C 2 + avec p( x) = p( x / Cq). dx q = 1, 2,... q= 1,2,... = 1 p( x / Cq). p( Cq) 30/48
Classifications supervisées (7/7) Comparaison des méthodes de classification supervisée Canal 2 Canal 2 Canal 2 Lignes d'équidensité de probabilité classification par distance minimale Canal 1 classification par hypercubes Canal 1 Canal 1 classification par maximum de vraisemblance Le choix de la méthode dépend de la structure des données. Mais seule l'approche statistique permet d'atteindre un taux d'erreur minimal 31/48
Approche non supervisée (1/2) méthode non supervisée : agrégation autour de centres mobiles (nuées dynamiques) C 2 x C 3 x C 1 x Tirage au hasard des centres C 2 x C 3 x C 1 x Calcul des nouveaux centres K itérations Constitution des classes C 2 x C 3 x C 1 x Constitution des classes C 2 x C 3 x C 1 x L utilisateur départ : choix du nombre de classes critères d arrêt des itérations : choix du nombre maximal des itérations (k) OU seuil de stabilité des classes astuce : choisir double du nbre souhaité de classes 32/48
Approche non supervisée (2/2) méthode non supervisée : agrégation autour de centres mobiles (nuées dynamiques) exemple : cartographie en 10 classes à partir de 6 images SPOT (1991 à 1996) Proche Infra Rouge 130 120 110 100 90 80 70 60 1 2 3 4 5 6 7 8 9 10 4 2 3 5 1 96 6 7 40 50 60 70 80 90 100 110 120 Rouge 9 8 Année 91 96 94 95 93 91 Numéro de la classe 10 92 33/48
Évaluation de la classification (1/10) étape essentielle de la démarche de cartographie Sélection des données utiles Stratification Apprentissage Classification Evaluation Résultats parcelles enquêtées vérification de la cohérence des paramètres de classification validation du modèle de classification terrain validation 34/48
Évaluation de la classification (2/10) Composantes de l'évaluation La précision des résultats cartographiques peut être évaluée par : la précision géométrique précision de la délimitation des limites des objets la précision sémantique identification du contenu des objets cartographiés 35/48
Évaluation de la classification (3/10) Conditions de l'évaluation Il existe une limite théorique de la précision : fonction du taux de pixels thématiquement "purs", lui même relié à la résolution du capteur et à la taille des objets L'évaluation de la précision n'a qu'une valeur relative, la référence elle-même étant une représentation du terrain (la vérité-terrain existe-t-elle?) 36/48
Évaluation de la classification (4/10) Types d'évaluation Évaluation globale : évaluation qualitative : Comparaison visuelle avec des données exogènes (photo-aériennes, cartes, etc.) évaluation quantitative : comparaison des superficies obtenues avec des données exogènes (statistiques agricoles, etc.) comparaison des populations de pixels provenant des parcelles d'apprentissage avec celles provenant de la cartographie obtenue Évaluation spatialisée 37/48
Évaluation de la classification (5/10) Notion de précision statistique et géographique Précision statistique géographique (cartographique) A B 100% 100% A B vérité terrain A B 100% 0% classifications 38/48
Évaluation de la classification (6/10) évaluation spatialisée à l aide de la matrice de confusion Vérité-terrain Classification X1 X1j X1n X1.. Xi Xij X ii Xin Xi.. X Xnj Xnn Xn. X. X.j X.n X.. Xij : nb de pixels appartenant sur le terrain à la classe Cj et classés dans Ci X.j : somme des Xij sur la colonne j Xi. : somme des Xij sur la ligne i X.. : somme en ligne et en colonne (nombre total de pixels d apprentissage) 39/48
Évaluation de la classification (7/10) Précisions et Types d erreur Paramètres par classe dérivés de la matrice de confusion : Précision du producteur (producer s accuracy) - probabilité pour un pixel de la classe Ck sur le terrain d être bien classé en Ck sur la carte : EC = (Xkk/X.k)*100 - Complément à 100% : Erreur de commission Précision de l'utilisateur (user s accuracy) - probabilité pour un pixel classé en Ck sur la carte d appartenir à Ck sur le terrain EO = (Xkk/Xk.)*100 - Complément à 100% : Erreur d omission Erreur statistique proportion de pixels classés en Ck par rapport au nombre de pixels réellement en Ck sur le terrain EA = (Xk./X.k)*100 40/48
Evaluation de la classification (8/10) Types d erreur Quelques paramètres globaux dérivés de la matrice de confusion Erreur de commission moyenne moyenne des EC sur les n classes Erreur d omission moyenne moyenne des EO sur les n classes Précision géographique globale somme de la diagonale PGG = [(Σ i X ij )/X..]*100 41/48
Evaluation de la classification (9/10) matrice de confusion exemple : 5 classes avec 100 pixels par classe Classification Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Total Classe 1 100 100 Terrain Classe 2 10 50 10 5 25 100 Classe 3 80 20 100 Classe 4 20 10 65 5 100 Classe 5 0 15 5 5 75 100 Total 110 85 105 95 105 500 Précision géographique Précision statistique 42/48
Evaluation de la classification (10/10) Emploi de la matrice de confusion Dans le cas de classifications pixel à pixel 1 pixel = 1 objet Lors de l'apprentissage (en pré-classification) cohérence des paramètres estimés pour le modèle de classification, mais ce n'est pas une validation! Pour valider le modèle de classification à partir de parcelles de validation (non utilisées lors de l'apprentissage) ces parcelles doivent constituer un échantillon représentatif et couvrir de façon homogène le territoire 43/48
Post-classification (1/2) Amélioration des images classées Processus itératif «classification / évaluation» : amélioration progressive Amélioration à partir des matrices de confusion redécoupages de classes radiométriques en sous-classes avant de relancer la classification regroupements visuels ou numériques des sous-classes d une même classe regroupement des classes thématiques trop confondues Probabilité de correcte affectation (max. de vraisemblance) utilisation du plan de probabilité comme plan masque pour retravailler les pixels classés avec une faible probabilité modification du seuil de rejet avant de relancer la classification 44/48
Post-classification (2/2) Amélioration des images classées Probabilité à priori (max. de vraisemblance) pondération des classes en fonction de leur répartition dans la réalité (selon données statistiques, expertises ) utile pour retravailler les classes qui se confondent => amélioration des statistiques Choix de l algorithme et de l approche de classification Filtrage des images classées ex : filtre d homogénéisation Introduction de variables exogènes comme néocanaux (ex: pente, altitude ) comme plans masques (ex: villes et réseaux tirés de BD IGN) comme éléments d homogénéisation (ex: limites du parcellaire) 45/48
Autres approches de classification Approche Orienté-Objet (AOO) Contexte AOO en télédétection Imagerie THR : augmentation hétérogénéité ex. variabilité intra-parcellaire ex. forêt -> arbre -> composantes de l'arbre : (1) partie du houppier au soleil, (2) partie du houppier à l'ombre, (3) ombre portée Objet d'intérêt : segment ( pixel) Méthode Segmentation Calcul de paramètres par segment radiométriques : moyenne, écart-type, texture Identification des segments voisins Exemple d'intérêt Arbre = 3 segments côte à côte, de taille et radiométrie correspondant aux 3 composantes (1) houppier au soleil, (2) houppier à l'ombre, (3) ombre portée 46/48
Autres approches de classification Classifications floues (1/2) Logique booléenne Ex. classification sur 3 classes, variable taille frontière franche, étanche à x = x 0 : avant x 0 : n'appartient pas, après x 0 : appartient Logique booléenne dans Plus proche voisin, hypercube, maximum vraisemblance Logique floue (fuzzy logic) Frontière floue Variation progressive de probabilité d'appartenance sur intervalle [x 0, x 1 ] x 0 x 1 47/48
Autres approches de classification Classifications floues (2/2) Combinaison de fonctions d'appartenance Par ex. par pondération des canaux 48/48