Traitement du signal et ses applications

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Statistiques Descriptives à une dimension

MABioVis. Bio-informatique et la

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

MAITRISE DE LA CHAINE LOGISTIQUE GLOBALE (SUPPLY CHAIN MANAGEMENT) Dimensionnement et pilotage des flux de produits

3. Artefacts permettant la mesure indirecte du débit

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TP N 57. Déploiement et renouvellement d une constellation de satellites

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

De la mesure à l analyse des risques

Les résistances de point neutre

Validation probabiliste d un Système de Prévision d Ensemble

Présentation du programme. de physique-chimie. de Terminale S. applicable en septembre 2012

COMMUNAUTE ECONOMIQUE ET MONETAIRE DE L AFRIQUE CENTRALE LA COMMISSION

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Géométrie discrète Chapitre V

CarrotAge, un logiciel pour la fouille de données agricoles

ANNEXE I. DOSSIER-TYPE DE DEMANDE D AGREMENT AU SCHEMA DE LIBERALISATION DES ECHANGES DE LA CEDEAO

CA Mainframe Chorus for Security and Compliance Management version 2.0

Système de détection d intrusions périmétrique par câble enterré INTREPID TM

Intérêt du découpage en sous-bandes pour l analyse spectrale

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

1. Vocabulaire : Introduction au tableau élémentaire

Modélisation du rendement électrique des datacenters

Agenda de la présentation

UNIVERSITE D'ORLEANS ISSOUDUN CHATEAUROUX

Deux disques dans un carré

COURS GESTION FINANCIERE A COURT TERME SEANCE 4 LE VOCABULAIRE BANCAIRE ET FINANCIER

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Soutenance de stage Laboratoire des Signaux et Systèmes

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

EPARGNE SELECT RENDEMENT

!-.!#- $'( 1&) &) (,' &*- %,!

DOCUMENTS REMIS A TITRE UNIQUEMENT INDICATIF L ENTREPRISE EST INVITEE A SE RAPPROCHER DE SES CONSEILS

Introduction au Data-Mining

Votre Réseau est-il prêt?

Evaluation générale de la qualité des données par âge et sexe

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

LOOKBACK TO MAXIMUM NOTE 2

Introduction au Data-Mining

Projet de Traitement du Signal Segmentation d images SAR

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

1 ROLE ET DESCRIPTION DES DIESELS D ULTIME SECOURS

Pourquoi l apprentissage?

DEUXIÈME ÉTUDE D'IMPACT QUANTITATIVE SUR LE RISQUE DE MARCHÉ SOMMAIRE DES RÉSULTATS

De la mesure à l analyse des risques

1 DC Vision / Généralités DC Vision / applications d intégralité DC Vision / Read and Print et Applications d adressage...

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Statistique Descriptive Élémentaire

Certificats BONUS CAPPÉS

CONSERVATEUR OPPORTUNITÉ TAUX US 2

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

DEMANDE D INFORMATION RFI (Request for information)

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

TARGET ACTION GDF SUEZ

TSTI 2D CH X : Exemples de lois à densité 1

Relation entre deux variables : estimation de la corrélation linéaire

TP 03 B : Mesure d une vitesse par effet Doppler

L apprentissage automatique

Commercialisation du 25 septembre au 19 décembre 2014 (12h00)

Information Technique Derating en température du Sunny Boy et du Sunny Tripower

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Publications, ressources, liens, logiciels,

Apprentissage Automatique

RISQUE SPORTIF ET ASSURANCE

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

DEMANDE D AUTORISATION D UN SYSTEME DE VIDEOPROTECTION

Titre de créance de droit français présentant un risque de perte en capital en cours de vie et à l échéance (1)

Alarme domestique- Présentation

Projet de raccordement au réseau de transport de gaz naturel EXPRESSION PRELIMINAIRE DE BESOIN SITE :..

fast Objectifs d investissement Caractéristiques du support Fast Autocall

MODÉLISATION DU FONCTIONNEMENT EN PARALLELE À DEUX OU PLUSIEURS POMPES CENTRIFUGES IDENTIQUES OU DIFFERENTES

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Convention de subvention relative à l achat d un vélo à assistance électrique par un particulier résidant sur le territoire de MPM

Conception d une infrastructure «Cloud» pertinente

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Modélisation multi-agent d allocation des ressources : application à la maintenance

MASTER 1 MANAGEMENT PUBLIC ENVIRONNEMENTAL CONTENU DES ENSEIGNEMENTS

MODELES DE DUREE DE VIE

TABLE DES MATIERES. C Exercices complémentaires 42

C est quoi un centre d apprentissage Les centres d apprentissage sont des lieux d exploration et de manipulation qui visent l acquisition de

Spécificités, Applications et Outils

DOMAINES MOTEUR ET SENSORIEL

NOTICE D UTILISATION

Métriques de performance pour les algorithmes et programmes parallèles

MERLIN GESTION PATRIMONIALE. Groupe GESTION PATRIMONIALE. Définition d un programme de renouvellement

LES REPRESENTATIONS DES NOMBRES

L incidence des hausses de prix des produits de base sur la balance commerciale du Canada 1

Prescriptions Techniques

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Principes généraux de la modélisation de la dispersion atmosphérique

Système de sécurité de périmètre INTREPID

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Recherche De Coalescences Binaires Étalonnage Du Détecteur

La crise de Lionel Artige. Introduction à la Macroéconomie HEC Université de Liège

Transcription:

Traitement du signal et ses applications et machine learning - Introduction -

Objectifs Des observations expérimentales à l élaboration de théories : Au 16 e siècle, J. Kepler élabore sa théorie du mouvement des planètes grâce aux observations de T. Brahé. Au début 20 e siècle, l observation de la régularité des spectres atomiques permet le développement de la physique quantique.... L objet de la reconnaissance des formes est l extraction automatique d informations d un ensemble d observations. Les objectifs sont : prédiction, classification, etc. Les domaines de la reconnaissance des formes et du machine learning ont les mêmes objectifs mais relèvent de 2 communautés distinctes, l ingénierie et l informatique. 1

Exemple : reconnaissance automatique de caractères manuscrits Figure 1 Traitement des codes postaux US (28 28) Objectif : reconnaissance automatique des codes postaux Plusieurs stratégies sont envisageables, dont : Elaboration d un système à base de règles... Extraction automatique d informations pertinentes à partir d un ensemble de données disponibles, dit d apprentissage. 2

Exemple : détection d objets dans des images Figure 2 Détection et suivi d objets Objectifs : détecter des objets d une certaine catégorie dans des images Etapes de résolution, comportant souvent plusieurs cycles : Déterminer quelles données devraient permettre de discriminer la classe visée du reste du monde ; Récolter, analyser, débruiter/corriger les données ; Modéliser la frontière de discrimination à partir des données. 3

Exemple illustratif simplifié Figure 3 Tri automatique des poissons Objectifs : sur un bateau de pêche industrielle, séparer automatiquement les saumons des autres poissons péchés Matériel : système de vision et bras robotisé Hypothèse : on ne s intéresse, ni à l extraction des primitives par le système de vision, ni au contrôle du bras Problème : à partir de primitives à définir, définir la classe «saumon» 4

Différentes finalités On distingue les problèmes de reconnaissance des formes suivants, selon la nature du scénario rencontré : Explorer une base de données vs. confirmer des hypothèses Exploration : représenter, identifier des particularités,... ; Confirmer : répondre à des questions précises. Décrire les données vs. élaborer une règle de décision Description : caractériser les données observées ; Décision : extrapoler à des données autres que celles dont on dispose. 5

Différentes finalités Exploration d une base de données exemple : regroupement automatique des données en classes (clustering) 6

Différentes finalités Confirmation ou infirmation d hypothèses exemple : étude de la séparabilité des classes C 1 et C 2 C 1 C 2 7

Différentes finalités Description des données exemple : modélisation probabiliste de chaque classe N(µ,Σ) 4 modes 8

Différentes finalités Elaboration d une règle de décision exemple : classification de nouvelles données???? 9

Scénarios d apprentissage On distingue au moins trois scénarios possibles en matière d apprentissage, et des stratégies différentes pour les aborder selon le problème sous-jacent : Apprentissage non supervisé. On dispose dans ce cas d un ensemble de données uniquement composé d entrées x n. On distingue dans ce cas clustering : regrouper automatiquement les x n en classes ; estimation de densité : déterminer la distribution des données ; visualisation : représenter les données dans un espace de faible dimension. Apprentissage supervisé. On dispose d un ensemble d apprentissage composé de couples entrée-sortie (x n,t n ). On distingue dans ce cas les problèmes de classification : les t n désignent un nombre fini de classes ; régression : les t n sont des réalisations d une variable continue. Apprentissage par renforcement. L algorithme interagit avec son environnement par des séquences d actions autorisées, à partir de desquelles il doit définir la meilleure stratégie. 10

Nature des données Données. Valeurs que prennent un ensemble de variables (attributs, traits,...) pour un ensemble d observations (objets, individus, enregistrements,...) Typologie quantitatives (continues, discrètes) vs. qualitatives (ordinales, nominales) séquentielles (ex. indice boursier) vs. non séquentielles spatiales (ex. fertilité d un sol) vs. non spatiales structurées (ex. phrases) vs. non structurées Remarque. Les variables retenues doivent être caractéristiques des données étudiées et du problème traité. 11

Réalité des données La qualité des données recueillies conditionne l efficacité des traitements. Cependant, le plus souvent, on déplore... données inadaptées données non représentatives données entachées de bruit données mal enregistrées données aberrantes données manquantes données en nombre insuffisant (malédiction de la dimensionnalité) Conseil. Il est indispensable de se familiariser avec le phénomène étudié et les données recueillies par des études exploratoires, la représentation des données, etc. 12

Données inadaptées Les variables utiles n ont pas été recueillies. On ne peut pas répondre à la question avec les mesures effectuées. Il est nécessaire de recommencer les acquisitions... C 1 C 2 13

Données non représentatives Une base de données non exhaustive correspond à une couverture partielle du support des distributions (d une statistique suffisante), par exemple due à un problème d échantillonnage. Ceci peut être critique pour les applications sensibles. non couvert par les mesures C 1 C 2 14

Données manquantes Pour quelques observations, les valeurs de certaines variables mesurées peuvent manquer Les observations à valeurs manquantes peuvent être éliminées mais, parfois, il peut être opportun de combler les manques par des estimations Le fait qu une donnée soit manquante peut être étroitement lié à la valeur qu elle aurait due prendre Conseil. Il est indispensable de comprendre pourquoi des données manquent 15

Données entachées de bruit Le niveau de bruit qui affecte des données peut dépendre des valeurs prises, ce qui ajoute une difficulté supplémentaire. Il convient d identifier les sources de bruit et leurs spécificités. domaine à plus fort niveau de bruit? C 1 C 2 16

Données aberrantes Les données aberrantes peuvent être dues à des erreurs d enregistrement, à du bruit, à des phénomènes significatifs... C 1?? C 2 Stratégies. Il est possible d ignorer ces données par des techniques robustes, ou chercher à les détecter et les expliquer. 17

Malédiction de la dimensionnalité La malédiction de la dimensionnalité exprime le fait que le nombre de données doit croître exponentiellement avec la dimension pour conserver une densité équivalente. x 2 x 2 x 1 D = 1 x 1 D = 2 x 1 x 3 D = 3 18

Chaine de traitement Problème Choix des données Conditionnement Débruitage Vérification Choix de représentation Transformation Analyse Interprétation Modélisation Choix de méthodes Critères de qualité Méthodes d'optimisation Gestion des données Sélection de modèle Evaluation Mise en oeuvre 19

Critères pour le choix d une méthode Précision : Les performances de la méthode sont souvent privilégiées.les critères de performance ci-dessous ne doivent pas être l unique motivation du choix. erreur minimale ; taux minimal de faux positifs à taux d erreur borné ;... Pour autant les critères ci-dessus ne doivent pas être l unique motivation pour le choix d une méthode. Lisibilité : On peut souhaiter recueillir des décisions et résultats interprétables. pour des applications critiques, on ne peut se contenter d une boite noire ; la lisibilité rend possible la vérification/validation. Rapidité : Des contraintes de temps peuvent être décisives. rapidité de construction du modèle ; contrainte sur la prise de décision. Contraintes liées à l application. 20

Critères pour le choix d une méthode Usability ou facilité d emploi Un expert est-il indispensable pour mettre au point le modèle et pour toute évolution ultérieure? Embedability ou facilité d introduction dans un système global La méthode impose-t-elle des contraintes sur l échange de données d entrée/sortie? Flexibilité ou adaptation aisée au changement de spécifications Faut-il reprendre tout le système si un capteur est remplacé par un autre, de courbe de réponse différente? Scalability ou passage à l échelle Le système s accommode-t-il d une augmentation du volume et débit de données? 21

Problèmes de sélection de modèle Les modèles et règles élaborés doivent être dotés d une bonne capacité de généralisation vis-à-vis de données autres que celles utilisées pour l apprentissage. trop simple? adapté? trop complexe? C 1 C 2 22

Problèmes de sélection de modèle La capacité d apprentissage d un modèle est notamment gouvernée par le nombre de degrés de liberté ; les termes de régularisation ;... Elle doit être adaptée au problème traité et au nombre de données disponibles car capacité trop faible : inaptitude à représenter de façon satisfaisante les informations contenues dans les données disponibles ; capacité trop forte : problème de détermination des paramètres du modèle mal posé, conduisant à de nombreuses solutions équivalentes. 23

Problèmes de sélection de modèle Les performances estimées sur l ensemble d apprentissage ne constituent pas un bon indicateur pour l ajustement des paramètres associés. Il convient de se munir de un ensemble de validation ; un ensemble de test éventuellement. Un ensemble de validation de faible taille fournit une estimation imprécise des performances. S il est de taille conséquente, l apprentissage en souffre. 24

Plan du cours 1. Introduction 2. Exploration : analyse en composantes principales et clustering 3. Classification : méthodes paramétriques et non paramétriques 4. Régression 25