Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Dimension: px
Commencer à balayer dès la page:

Download "Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique"

Transcription

1 Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55 p. /55 rincipe Applications Découvrir des paquets homogènes d exemples. Segmenter un ensemble en sous-ensembles d objets similaires Cartes de crédits Définir des groupes d utilisateurs de cartes. Données : Etat-civil (age, revenus, ) nombre de retraits Montant des retraits Localisation des GAB utilisés p. 3/55 p. 4/55 Cartes de crédits Applications Groupes homogènes Clients aisés, retraits fréquents et distants Clients frileux : un seul retrait important Cibler les mailings. Caractériser les clients sans connaissance initiale Biologie / Génomique Notion de distance entre animaux (gènes, protéines) Identifier les espèces proches Créer un arbre généalogique p. 5/55 p. 6/55 Biologie, Génomique Remarques Deux portions d ADN seront proches s il faut peu de mutations pour passer de l une à l autre. Deux animaux seront d autant plus proches que leur ADN (ou des portions de leur ADN) seront proches. Regrouper deux par deux les animaux les plus proches On s appuie sur une notion de distance entre exemples. Utilisation de distances définies différemment sur les mêmes exemples : regroupements différents. Besoin d avoir des critères pour juger de la pertinence de la partition. ouvoir influer ou contrôler la forme des amas

2 Exemple visuel Clustering Iris setosa Facile en dimension 3 Automatiser le processus. Quel est le bon nombre de groupes? Définir ce nombre de groupes? p. 9/55 p. /55 oints importants Mesures nécessaires Algorithmes efficaces (nombre d attributs, nombre d exemples). Attributs de tous types (continus, discrets). Forme des clusters. Ne pas demander à l utilisateur d introduire trop de paramètres (nombre de clusters). Sensibilité au bruit. Lisibilité et interprétabilité des résultats. Notion de distance entre exemples. Mesure de la compacité d un cluster. Mesure de la séparation des clusters. Mesure de valeur de la segmentation. Mesure de la pertinence de la solution. p. /55 p. /55 Attributs tous continus E = (x,,x n )E = (y,,y n ) Distances usuelles : Euclidienne : (x y ) + + (x n y n ) Manhattan : x y + + x n y n Minkowski : n (x y ) n + + (x n y n ) n p. 3/55 p. 4/55 Attributs tous continus Attributs tous continus Echelles différentes attributs dominants. Normaliser avant de calculer les distances. Tout ramener entre et. On peut vouloir garder la dissymétrie entre les attributs : Donner un poids à chaque attribut. Calculer la distance en fonction de ce poids. w (x y ) + + w n (x n y n ) Ne pas laisser l utilisateur manipuler trop de paramètres! Connaissance préalable du domaine.

3 Attributs non continus Attributs tous binaires Variables booléennes ou binaires. Variables discrètes : nominales ou ordinales. Mesurer la dissimilarité entre deux exemples : Exemple A Exemple B q r s t q : nombre de cas où le même attribut vaut dans les deux exemples. t : nombre de cas où le même attribut vaut dans les deux exemples. r et s : nombre de cas où un attribut n a pas la même valeur dans les deux exemples. p. 7/55 p. 8/55 Attributs tous binaires Attributs binaires : Exemple Même valeur : Attributs binaires symétriques : d(a,a) = d(b,b) = d(a,b) = Attributs binaires asymétriques : d(a,b) = (On ignore la similarité des ). r + s q + r + s + t r + s t + r + s Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non Tous les attributs sont asymétriques. p. 9/55 p. /55 Attributs binaires : Exemple Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non d(jack,mary) = =.33 d(jack,jim) = =.66 d(mary,jim) = =.75 p. /55 Attributs discrets d(x i,y i ) = x i = y i discret continu distance normale (introduit une notion d ordre sur les valeurs de l attribut) p. /55 Attributs de différents types Attributs de différents types Comment calculer la distance entre deux exemples? Raisonner comme dans le cas continu. Définir une mesure de dissemblance. Un exemple de mesure de dissemblance diss(i,j) = p k= δ(k) ij d(k) ij p k= δ(k) ij avec : δ (k) ij = si x ik ou x jk sont manquantes. Attribut discret : d (k) ij = si x ik = x jk, sinon.

4 Distance entre exemples Clustering Mesure de dissemblance Valeur toujours comprise entre et. Traite les valeurs manquantes. Tous les attributs à la même échelle (poids). Les classes de méthodes Algorithmes de partition. Méthodes hiérarchiques. Méthodes par densité. Modélisation. p. 5/55 p. 6/55 Méthodes de partition Méthodes hiérarchiques Choisir (?) une partition initiale en k sous-ensembles. Améliorer itérativement la partition en changeant certains exemples de cluster. On ne peut pas tester toutes les partitions possibles. K-moyennes, K-Medoids Division Diviser le cluster initial : Un seul cluster. Choisir un cluster et un découpage de ce cluster qui diminue le moins une fonction de score (i.e. une mesure de la qualité du découpage). p. 7/55 p. 8/55 Méthodes hiérarchiques Méthodes hiérarchiques : arrêt? Agglomération Regrouper des clusters. Chaque exemple est un cluster. Regrouper les deux clusters qui augmentent le moins une fonction de score. Quand tout est divisé (regroupé). Quand le nombre de clusters voulu est atteint (??) our un certain seuil de la fonction de score. as de condition d arrêt : considérer le résultat comme un modèle. Coupe transversale de l arbre obtenu. p. 9/55 p. 3/55 Méthodes par densité Modélisation Densité d un cluster : nombre d exemples par unité de volume. Ajouter des points à un cluster (regrouper deux clusters) si la nouvelle densité ne diminue pas (ou pas trop ). eu (pas) de contrainte sur la forme des clusters. On fait l hypothèse que les exemples obéissent à une famille de modèles. On cherche les paramètres du modèle qui décrivent le mieux les données.

5 Les K-moyennes Algorithme Clustering par partition. Choisir k points (les centres des k clusters).. Répéter : 3. Assigner à chaque exemple le cluster le plus proche. 4. Calculer les nouveaux centres des k clusters. 5. Jusqu à ce que : lus rien ne change. La mesure de score atteint un seuil p. 33/55 p. 34/55 K-Moyennes K-Moyennes : le score Complexité : O(nkt) Fonctionne bien pour les attributs continus (moyenne d attributs discrets?). Il faut fixer k. Sensible au bruit, aux intrus (outliers). Minimum local (pas forcément la meilleure solution). Clusters convexes. L algorithme minimise la somme des distances entre les exemples et les centres des clusters : k i Clusters compacts. Favorise les solutions comprenant beaucoup de clusters p C i d(p,m i ) p. 35/55 p. 36/55 Remarques K-Moyennes Essayer avec un nombre différent de clusters. Recommencer avec plusieurs valeurs initiales des clusters. Mesurer la qualité du clustering Compacité des clusters. Séparation des clusters. Score de la partition. p. 37/55 p. 38/55 Compacité des clusters Séparation des clusters Clusters compacts : minimiser wc (distance intra-cluster) K K wc(c) = wc(c k ) = d(x i,c k ) x i C k k= k= Autre fonction possible : wc(c k ) = max i min x C {d(x i,x j )/x i C k,x i x j } Distance inter-clusters (bc) : Distance entre les centres des clusters : bc = d(r j,r k ) j<k K Distance entre ensembles : Distance minimale. Distance maximale.

6 K-Moyennes Iris en D Valeur de la partition Combiner wc (à minimiser) et bc (à maximiser). ar exemple : ou bien : bc wc αbc + βwc bc + wc.5 setiosa.5 p. 4/ p. 4/55 Iris D Outlier setiosa setiosa p. 43/ p. 44/55 K-Medoids K-Medoids : algorithme roblème avec les K-moyennes : un exemple très. Choisir k points parmi les exemples(les centres des k clusters). éloigné pèse très fort sur le résultat.. Répéter : Idée : Au lieu de prendre le point central d un cluster, 3. Choisir un centre o j et un point o r (qui ne soit pas un centre). choisir un exemple central par rapport au cluster courant. 4. Regarder si remplacer o j par o r améliore le score. 5. Si oui, effectuer le remplacement. 6. Jusqu à : Un certain nombre d itérations. Score passe sous le seuil. p. 45/55 p. 46/55 K-Medoids : score K-Medoids K i= p C i d(p m i ) Si le centre o j est remplacé par o r Quatre cas à considérer :. soit p appartenait au cluster de centre o j, et p est maintenant plus Si en remplaçant o j par o r, on améliore ce score (en le proche de o r : p est réassigné à o r diminuant), alors on remplace effectivement o j par o r. soit p appartenait au cluster de centre o j, et p est maintenant plus proche de o i : p est réassigné à o i 3. soit p appartenait au cluster de centre o i,i j, et p est maintenant plus proche de o r : p est réassigné à o r

7 K-medoids Méthodes hiérarchiques p. 49/55 p. 5/55 Méthode agglomérative Méthode agglomérative. Chaque point est seul dans son cluster.. Tant qu il reste plus d un cluster : Trouver les deux clusters les plus proches. Les fusionner. Complexité : n Dépend de la distance entre clusters : Distance minimale : clusters allongés. Distance maximale : clusters de même volume. Distance moyenne. Distance entre centres de clusters. p. 5/55 p. 5/55 Distance entre clusters Méthode agglomérative Lecture : dendrogramme p. 53/55 p. 54/55 Méthode divisive Comment choisir : Le cluster à scinder? Le critère de scission?

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Cours Algorithmique, 2ème partie AS IUT

Cours Algorithmique, 2ème partie AS IUT Cours Algorithmique, 2ème partie AS IUT Cours 2 : Arbres Binaires Anne Vilnat http://www.limsi.fr/individu/anne/coursalgo Plan 1 Représentations arborescentes 2 Définition d un arbre binaire récursive

Plus en détail

Cours IFT6266, Apprentissage Non-Supervisé de Variétés

Cours IFT6266, Apprentissage Non-Supervisé de Variétés Cours IFT6266, Apprentissage Non-Supervisé de Variétés L Apprentissage Non-Supervisé L apprentissage non-supervisé vise à caractériser la distribution des données, et les relations entre les variables,

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI Chapitre 6 Modélisation en P.L.I. 6.1 Lien entre PL et PLI (P) problème de PL. On restreint les variables à être entières : on a un problème de PLI (ILP en anglais). On restreint certaines variables à

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année 1 / 20 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Cours : Jérôme Azé Université Paris-Sud LRI 2009-2010 2 / 20 Outline 1 Présentation de A q Algorithme Défauts

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Relations binaires. 1 Produits cartésiens et graphes. 2 Relations binaires. 1.1 Produit cartésien E F. 1.2 Graphe dans E F. 2.

Relations binaires. 1 Produits cartésiens et graphes. 2 Relations binaires. 1.1 Produit cartésien E F. 1.2 Graphe dans E F. 2. Relations binaires 1 Produits cartésiens et graphes 1.1 Produit cartésien E F Soient E et F deux ensembles non vides. E F = {(x; y) / x E et y F } Si E = F, E F = E 2 (carré cartésien) Soit (a; b) E F.

Plus en détail

Analyse de sensibilité pour données climatiques

Analyse de sensibilité pour données climatiques Analyse de sensibilité pour données climatiques Ronan Trépos (master 2 de Franck Boizard) 1 er octobre 2015 Collaborations : F. Boizard, R. Faivre, R. Trépos et pôle transverse du CATI IUMA (S. Roux, S.

Plus en détail

Évaluation d une approche de classification conceptuelle

Évaluation d une approche de classification conceptuelle Évaluation d une approche de classification conceptuelle Marie Chavent Yves Lechevallier Mathématiques Appliquées de Bordeaux, UMR 5466 CNRS Université Bordeaux 1-351, Cours de la libération 33405 Talence

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Chapitre 2: Modélisation

Chapitre 2: Modélisation 2013 2014 RCP104 Optimisation en Informatique Chapitre 2: Dr. Nazih OUWAYED nazih.ouwayed@gmail.com http://nouwayed.yolasite.com Sommaire Comment décrire un porblème Principe Cas réel par un programme

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN

A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN Mourad Hadjila Hervé Guyennet RGE Université Franche-Comté femto-st, DISC, Besançon

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Optimisation en nombres entiers

Optimisation en nombres entiers Optimisation en nombres entiers p. 1/83 Optimisation en nombres entiers Michel Bierlaire michel.bierlaire@epfl.ch EPFL - Laboratoire Transport et Mobilité - ENAC Optimisation en nombres entiers p. 2/83

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Chapitre 6. Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique. 6.1.1 Exemple introductif

Chapitre 6. Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique. 6.1.1 Exemple introductif Chapitre 6 Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique 6.1.1 Exemple introductif Problème : n matrices M i (m i, m i+1 ) à multiplier en minimisant le nombre de multiplications,

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

L imagerie vue par un mathématicien

L imagerie vue par un mathématicien L imagerie vue par un mathématicien Li-Thiao-Té Sébastien LAGA UMR 7539, Université Paris 13 Plan Généralités Images Modèles Qu est-ce qu une image? des coordonnées spatiales des mesures pour chaque position

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Exercices théoriques

Exercices théoriques École normale supérieure 2008-2009 Département d informatique Algorithmique et Programmation TD n 9 : Programmation Linéaire Avec Solutions Exercices théoriques Rappel : Dual d un programme linéaire cf.

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

MATH-F-306 - Optimisation. Prénom Nom Note

MATH-F-306 - Optimisation. Prénom Nom Note MATH-F-306 Optimisation examen de 1 e session année 2009 2010 Prénom Nom Note Répondre aux questions ci-dessous en justifiant rigoureusement chaque étape, affirmation, etc. AUCUNE NOTE N EST AUTORISÉE.

Plus en détail

Algorithmique et Structures de Données

Algorithmique et Structures de Données 1.1 Algorithmique et Structures de Données Jean-Charles Régin Licence Informatique 2ème année 1.2 Itérations Jean-Charles Régin Licence Informatique 2ème année Itération : définition 3 En informatique,

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Achats/ventes en bourse - IGI3006 - Michel Couprie

Achats/ventes en bourse - IGI3006 - Michel Couprie Achats/ventes en bourse - IGI00 - Michel Couprie NOTE:LessectionsA,B,C,D,Efontpartiedel énoncédonnéauxétudiants,lessections suivantes contiennent des indications ou des solutions. A. Le problème Une société

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014

INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014 INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014 CORRIGÉ Documents non autorisés, durée: 2h45 1 Questions de cours (6 points) Question 1 (2pts) Donner quatre méthodes vues en cours pour

Plus en détail

Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot

Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot JOURNEES IPFC Paris, 5 et 6 décembre 2011 Pour travailler sur l acquisition de la dimension orale

Plus en détail

SOMMES ET PRODUITS. 1 Techniques de calcul. 1.1 Le symbole. 1.2 Règles de calcul. Laurent Garcin MPSI Lycée Jean-Baptiste Corot

SOMMES ET PRODUITS. 1 Techniques de calcul. 1.1 Le symbole. 1.2 Règles de calcul. Laurent Garcin MPSI Lycée Jean-Baptiste Corot SOMMES ET PRODUITS 1 Techniques de calcul 1.1 Le symbole Notation 1.1 Soient m et n deux entiers naturels. Alors { a m + a m+1 + + a + a n si m n, a = 0 sinon. On peut aussi noter m n =m a ou encore m,n

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

ENSAE, 1A Maths. Roland Rathelot roland.rathelot@ensae.fr. Septembre 2010

ENSAE, 1A Maths. Roland Rathelot roland.rathelot@ensae.fr. Septembre 2010 Initiation à l économie ENSAE, 1A Maths Roland Rathelot roland.rathelot@ensae.fr Septembre 2010 Les ménages (2/2) La consommation agrégée des ménages : analyse macroéconomique Les ménages (2/2) La consommation

Plus en détail

1. Introduction. 2. Extraction d observation à partir du signal audio. TP ATIAM, Structuration et résumé audio Mardi 27 janvier 2009 14h00 17h30

1. Introduction. 2. Extraction d observation à partir du signal audio. TP ATIAM, Structuration et résumé audio Mardi 27 janvier 2009 14h00 17h30 Sujet : Date : Auteur : TP ATIAM, Structuration et résumé audio Mardi 7 janvier 009 14h00 17h30 Geoffroy Peeters 1. Introduction Ce TP vise à construire un système simple mais complet de création de résumé

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Travaux Pratiques Clustering sous WEKA Rapport Julien Baligant 2ème Licence Informatique Université de Mons-Hainaut 7 mai 2006 Ce rapport contient

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

THÉORIE DES JEUX : ÉQUILIBRES DE NASH

THÉORIE DES JEUX : ÉQUILIBRES DE NASH THÉORIE DES JEUX : ÉQUILIBRES DE NASH INDEX 1) INTRODUCTION 1.1)Définition d'un jeu 1.2)Historique et applications 2)LES JEUX MATRICIELS 2.1)Définition 2.2)Le Théorème fondamental 2.3)Principe de la preuve

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Un algorithme de composition musicale

Un algorithme de composition musicale Un algorithme de composition musicale Table des matières Présentation Le compositeur. Le code PMX.................................................. Structures de données utilisées........................................

Plus en détail

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET TP n 2 de DATA MINING : Modélisation 1 Jeu de données

Plus en détail

Automates temporisés Partie 1: Définitions

Automates temporisés Partie 1: Définitions p.1 Automates temporisés Partie 1: Définitions p.2 Motivation Les automates temporisés constituent un des modèle de systèmes réactifs à temps continu proposé par Alur et Dill en 1991. Temps continu vs

Plus en détail

Web Data Mining Web Usage Mining

Web Data Mining Web Usage Mining Web Data Mining p. 1/1 Web Data Mining Web Usage Mining Maria Malek Options GL, ISICO & IdSI EISTI Web Data Mining p. 2/1 Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire

Plan. Comparaison de 2 séquences. Dotplot, alignement optimal Recherche de similarité. Alignement multiple. Phylogénie moléculaire Plan 1 Banques de données 2 Comparaison de 2 séquences Dotplot, alignement optimal Recherche de similarité 3 Alignement multiple l 4 Phylogénie moléculaire Recherche de similarité 1 séquence (Query) comparée

Plus en détail