Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Dimension: px
Commencer à balayer dès la page:

Download "Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique"

Transcription

1 Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55 p. /55 rincipe Applications Découvrir des paquets homogènes d exemples. Segmenter un ensemble en sous-ensembles d objets similaires Cartes de crédits Définir des groupes d utilisateurs de cartes. Données : Etat-civil (age, revenus, ) nombre de retraits Montant des retraits Localisation des GAB utilisés p. 3/55 p. 4/55 Cartes de crédits Applications Groupes homogènes Clients aisés, retraits fréquents et distants Clients frileux : un seul retrait important Cibler les mailings. Caractériser les clients sans connaissance initiale Biologie / Génomique Notion de distance entre animaux (gènes, protéines) Identifier les espèces proches Créer un arbre généalogique p. 5/55 p. 6/55 Biologie, Génomique Remarques Deux portions d ADN seront proches s il faut peu de mutations pour passer de l une à l autre. Deux animaux seront d autant plus proches que leur ADN (ou des portions de leur ADN) seront proches. Regrouper deux par deux les animaux les plus proches On s appuie sur une notion de distance entre exemples. Utilisation de distances définies différemment sur les mêmes exemples : regroupements différents. Besoin d avoir des critères pour juger de la pertinence de la partition. ouvoir influer ou contrôler la forme des amas

2 Exemple visuel Clustering Iris setosa Facile en dimension 3 Automatiser le processus. Quel est le bon nombre de groupes? Définir ce nombre de groupes? p. 9/55 p. /55 oints importants Mesures nécessaires Algorithmes efficaces (nombre d attributs, nombre d exemples). Attributs de tous types (continus, discrets). Forme des clusters. Ne pas demander à l utilisateur d introduire trop de paramètres (nombre de clusters). Sensibilité au bruit. Lisibilité et interprétabilité des résultats. Notion de distance entre exemples. Mesure de la compacité d un cluster. Mesure de la séparation des clusters. Mesure de valeur de la segmentation. Mesure de la pertinence de la solution. p. /55 p. /55 Attributs tous continus E = (x,,x n )E = (y,,y n ) Distances usuelles : Euclidienne : (x y ) + + (x n y n ) Manhattan : x y + + x n y n Minkowski : n (x y ) n + + (x n y n ) n p. 3/55 p. 4/55 Attributs tous continus Attributs tous continus Echelles différentes attributs dominants. Normaliser avant de calculer les distances. Tout ramener entre et. On peut vouloir garder la dissymétrie entre les attributs : Donner un poids à chaque attribut. Calculer la distance en fonction de ce poids. w (x y ) + + w n (x n y n ) Ne pas laisser l utilisateur manipuler trop de paramètres! Connaissance préalable du domaine.

3 Attributs non continus Attributs tous binaires Variables booléennes ou binaires. Variables discrètes : nominales ou ordinales. Mesurer la dissimilarité entre deux exemples : Exemple A Exemple B q r s t q : nombre de cas où le même attribut vaut dans les deux exemples. t : nombre de cas où le même attribut vaut dans les deux exemples. r et s : nombre de cas où un attribut n a pas la même valeur dans les deux exemples. p. 7/55 p. 8/55 Attributs tous binaires Attributs binaires : Exemple Même valeur : Attributs binaires symétriques : d(a,a) = d(b,b) = d(a,b) = Attributs binaires asymétriques : d(a,b) = (On ignore la similarité des ). r + s q + r + s + t r + s t + r + s Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non Tous les attributs sont asymétriques. p. 9/55 p. /55 Attributs binaires : Exemple Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non d(jack,mary) = =.33 d(jack,jim) = =.66 d(mary,jim) = =.75 p. /55 Attributs discrets d(x i,y i ) = x i = y i discret continu distance normale (introduit une notion d ordre sur les valeurs de l attribut) p. /55 Attributs de différents types Attributs de différents types Comment calculer la distance entre deux exemples? Raisonner comme dans le cas continu. Définir une mesure de dissemblance. Un exemple de mesure de dissemblance diss(i,j) = p k= δ(k) ij d(k) ij p k= δ(k) ij avec : δ (k) ij = si x ik ou x jk sont manquantes. Attribut discret : d (k) ij = si x ik = x jk, sinon.

4 Distance entre exemples Clustering Mesure de dissemblance Valeur toujours comprise entre et. Traite les valeurs manquantes. Tous les attributs à la même échelle (poids). Les classes de méthodes Algorithmes de partition. Méthodes hiérarchiques. Méthodes par densité. Modélisation. p. 5/55 p. 6/55 Méthodes de partition Méthodes hiérarchiques Choisir (?) une partition initiale en k sous-ensembles. Améliorer itérativement la partition en changeant certains exemples de cluster. On ne peut pas tester toutes les partitions possibles. K-moyennes, K-Medoids Division Diviser le cluster initial : Un seul cluster. Choisir un cluster et un découpage de ce cluster qui diminue le moins une fonction de score (i.e. une mesure de la qualité du découpage). p. 7/55 p. 8/55 Méthodes hiérarchiques Méthodes hiérarchiques : arrêt? Agglomération Regrouper des clusters. Chaque exemple est un cluster. Regrouper les deux clusters qui augmentent le moins une fonction de score. Quand tout est divisé (regroupé). Quand le nombre de clusters voulu est atteint (??) our un certain seuil de la fonction de score. as de condition d arrêt : considérer le résultat comme un modèle. Coupe transversale de l arbre obtenu. p. 9/55 p. 3/55 Méthodes par densité Modélisation Densité d un cluster : nombre d exemples par unité de volume. Ajouter des points à un cluster (regrouper deux clusters) si la nouvelle densité ne diminue pas (ou pas trop ). eu (pas) de contrainte sur la forme des clusters. On fait l hypothèse que les exemples obéissent à une famille de modèles. On cherche les paramètres du modèle qui décrivent le mieux les données.

5 Les K-moyennes Algorithme Clustering par partition. Choisir k points (les centres des k clusters).. Répéter : 3. Assigner à chaque exemple le cluster le plus proche. 4. Calculer les nouveaux centres des k clusters. 5. Jusqu à ce que : lus rien ne change. La mesure de score atteint un seuil p. 33/55 p. 34/55 K-Moyennes K-Moyennes : le score Complexité : O(nkt) Fonctionne bien pour les attributs continus (moyenne d attributs discrets?). Il faut fixer k. Sensible au bruit, aux intrus (outliers). Minimum local (pas forcément la meilleure solution). Clusters convexes. L algorithme minimise la somme des distances entre les exemples et les centres des clusters : k i Clusters compacts. Favorise les solutions comprenant beaucoup de clusters p C i d(p,m i ) p. 35/55 p. 36/55 Remarques K-Moyennes Essayer avec un nombre différent de clusters. Recommencer avec plusieurs valeurs initiales des clusters. Mesurer la qualité du clustering Compacité des clusters. Séparation des clusters. Score de la partition. p. 37/55 p. 38/55 Compacité des clusters Séparation des clusters Clusters compacts : minimiser wc (distance intra-cluster) K K wc(c) = wc(c k ) = d(x i,c k ) x i C k k= k= Autre fonction possible : wc(c k ) = max i min x C {d(x i,x j )/x i C k,x i x j } Distance inter-clusters (bc) : Distance entre les centres des clusters : bc = d(r j,r k ) j<k K Distance entre ensembles : Distance minimale. Distance maximale.

6 K-Moyennes Iris en D Valeur de la partition Combiner wc (à minimiser) et bc (à maximiser). ar exemple : ou bien : bc wc αbc + βwc bc + wc.5 setiosa.5 p. 4/ p. 4/55 Iris D Outlier setiosa setiosa p. 43/ p. 44/55 K-Medoids K-Medoids : algorithme roblème avec les K-moyennes : un exemple très. Choisir k points parmi les exemples(les centres des k clusters). éloigné pèse très fort sur le résultat.. Répéter : Idée : Au lieu de prendre le point central d un cluster, 3. Choisir un centre o j et un point o r (qui ne soit pas un centre). choisir un exemple central par rapport au cluster courant. 4. Regarder si remplacer o j par o r améliore le score. 5. Si oui, effectuer le remplacement. 6. Jusqu à : Un certain nombre d itérations. Score passe sous le seuil. p. 45/55 p. 46/55 K-Medoids : score K-Medoids K i= p C i d(p m i ) Si le centre o j est remplacé par o r Quatre cas à considérer :. soit p appartenait au cluster de centre o j, et p est maintenant plus Si en remplaçant o j par o r, on améliore ce score (en le proche de o r : p est réassigné à o r diminuant), alors on remplace effectivement o j par o r. soit p appartenait au cluster de centre o j, et p est maintenant plus proche de o i : p est réassigné à o i 3. soit p appartenait au cluster de centre o i,i j, et p est maintenant plus proche de o r : p est réassigné à o r

7 K-medoids Méthodes hiérarchiques p. 49/55 p. 5/55 Méthode agglomérative Méthode agglomérative. Chaque point est seul dans son cluster.. Tant qu il reste plus d un cluster : Trouver les deux clusters les plus proches. Les fusionner. Complexité : n Dépend de la distance entre clusters : Distance minimale : clusters allongés. Distance maximale : clusters de même volume. Distance moyenne. Distance entre centres de clusters. p. 5/55 p. 5/55 Distance entre clusters Méthode agglomérative Lecture : dendrogramme p. 53/55 p. 54/55 Méthode divisive Comment choisir : Le cluster à scinder? Le critère de scission?

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Optimisation en nombres entiers

Optimisation en nombres entiers Optimisation en nombres entiers p. 1/83 Optimisation en nombres entiers Michel Bierlaire michel.bierlaire@epfl.ch EPFL - Laboratoire Transport et Mobilité - ENAC Optimisation en nombres entiers p. 2/83

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI

Chapitre 6. Modélisation en P.L.I. 6.1 Lien entre PL et PLI. 6.1.1 Approximation de la PLI Chapitre 6 Modélisation en P.L.I. 6.1 Lien entre PL et PLI (P) problème de PL. On restreint les variables à être entières : on a un problème de PLI (ILP en anglais). On restreint certaines variables à

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Cours IFT6266, Apprentissage Non-Supervisé de Variétés

Cours IFT6266, Apprentissage Non-Supervisé de Variétés Cours IFT6266, Apprentissage Non-Supervisé de Variétés L Apprentissage Non-Supervisé L apprentissage non-supervisé vise à caractériser la distribution des données, et les relations entre les variables,

Plus en détail

Cours Algorithmique, 2ème partie AS IUT

Cours Algorithmique, 2ème partie AS IUT Cours Algorithmique, 2ème partie AS IUT Cours 2 : Arbres Binaires Anne Vilnat http://www.limsi.fr/individu/anne/coursalgo Plan 1 Représentations arborescentes 2 Définition d un arbre binaire récursive

Plus en détail

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech

Méthodes de placement multidimensionnelles. Fabrice Rossi Télécom ParisTech Méthodes de placement multidimensionnelles Fabrice Rossi Télécom ParisTech Plan Introduction Analyse en composantes principales Modèle Qualité et interprétation Autres méthodes 2 / 27 F. Rossi Plan Introduction

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Relations binaires. 1 Produits cartésiens et graphes. 2 Relations binaires. 1.1 Produit cartésien E F. 1.2 Graphe dans E F. 2.

Relations binaires. 1 Produits cartésiens et graphes. 2 Relations binaires. 1.1 Produit cartésien E F. 1.2 Graphe dans E F. 2. Relations binaires 1 Produits cartésiens et graphes 1.1 Produit cartésien E F Soient E et F deux ensembles non vides. E F = {(x; y) / x E et y F } Si E = F, E F = E 2 (carré cartésien) Soit (a; b) E F.

Plus en détail

La recherche locale. INF6953 La recherche locale 1

La recherche locale. INF6953 La recherche locale 1 La recherche locale INF6953 La recherche locale 1 Sommaire Recherche locale et voisinage. Fonction de voisinage, optimum local Fonction de voisinage et mouvements Fonction de voisinage et mouvements Exemples

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Construction à partir d une régression logistique

Construction à partir d une régression logistique Construction à partir d une régression logistique Ricco RAKOTOMALALA Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 PLAN 1. Position du problème Grille de score?

Plus en détail

Chapitre 6. Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique. 6.1.1 Exemple introductif

Chapitre 6. Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique. 6.1.1 Exemple introductif Chapitre 6 Programmation Dynamique. Méthodes P.S.E.P. 6.1 Programmation dynamique 6.1.1 Exemple introductif Problème : n matrices M i (m i, m i+1 ) à multiplier en minimisant le nombre de multiplications,

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta

Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta Sommaire des mises à jour au document : Indicateurs de rendement des mathématiques M à 9 de l Alberta Ce document présente les mises à jour qui ont été faites au document d appui Indicateurs de rendement

Plus en détail

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année 1 / 20 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Cours : Jérôme Azé Université Paris-Sud LRI 2009-2010 2 / 20 Outline 1 Présentation de A q Algorithme Défauts

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN

A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN A Hybrid Routing Protocol based on Fuzzy C-Means Clustering and Ant Colony Optimization for Lifetime Improvement in WSN Mourad Hadjila Hervé Guyennet RGE Université Franche-Comté femto-st, DISC, Besançon

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot

Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot Elisabeth DELAIS ROUSSARIE UMR 7110 / LLF Laboratoire de Linguistique formelle Université de Paris Diderot JOURNEES IPFC Paris, 5 et 6 décembre 2011 Pour travailler sur l acquisition de la dimension orale

Plus en détail

Évaluation d une approche de classification conceptuelle

Évaluation d une approche de classification conceptuelle Évaluation d une approche de classification conceptuelle Marie Chavent Yves Lechevallier Mathématiques Appliquées de Bordeaux, UMR 5466 CNRS Université Bordeaux 1-351, Cours de la libération 33405 Talence

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Système ISO de tolérances Ajustements

Système ISO de tolérances Ajustements Principe de l interchangeabilité: Système ISO de tolérances Ajustements Lorsqu il faut fabriquer une série de pièces identiques, il est impossible d obtenir, d une pièce à l autre, exactement les mêmes

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Analyse de sensibilité pour données climatiques

Analyse de sensibilité pour données climatiques Analyse de sensibilité pour données climatiques Ronan Trépos (master 2 de Franck Boizard) 1 er octobre 2015 Collaborations : F. Boizard, R. Faivre, R. Trépos et pôle transverse du CATI IUMA (S. Roux, S.

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

SOMMES ET PRODUITS. 1 Techniques de calcul. 1.1 Le symbole. 1.2 Règles de calcul. Laurent Garcin MPSI Lycée Jean-Baptiste Corot

SOMMES ET PRODUITS. 1 Techniques de calcul. 1.1 Le symbole. 1.2 Règles de calcul. Laurent Garcin MPSI Lycée Jean-Baptiste Corot SOMMES ET PRODUITS 1 Techniques de calcul 1.1 Le symbole Notation 1.1 Soient m et n deux entiers naturels. Alors { a m + a m+1 + + a + a n si m n, a = 0 sinon. On peut aussi noter m n =m a ou encore m,n

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Questions pratiques 4: Transformer la variable dépendante

Questions pratiques 4: Transformer la variable dépendante Questions pratiques 4: Transformer la variable dépendante Jean-François Bickel Statistique II SPO8 Transformer une variable consiste en une opération arithmétique qui vise à construire une nouvelle variable

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Rapport. TME2 - Problème d affectation multi-agents

Rapport. TME2 - Problème d affectation multi-agents Rapport TME2 - Problème d affectation multi-agents Auteurs : Encadrant : Lan Zhou Safia Kedad-Sidhoum Minh Viet Le Plan I. Problème :... 2 II. Question 1 - Formulation linéaire du problème :... 2 III.

Plus en détail

Cours 4 : Traitement de données quantitatives multivariées - Introduction au partitionnement de données. Guénaël CABANES et Basarab MATEI

Cours 4 : Traitement de données quantitatives multivariées - Introduction au partitionnement de données. Guénaël CABANES et Basarab MATEI Cours 4 : Traitement de données quantitatives multivariées - Introduction au partitionnement de données Guénaël CABANES et Basarab MATEI Généralités Exemple Introduction Guénaël CABANES et Basarab MATEI

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

4. Programmation en nombres entiers

4. Programmation en nombres entiers IFT575 Modèles de recherche opérationnelle (RO). Programmation en nombres entiers b. Séparation et évaluation progressive c. Plans de coupes Résolution de modèles entiers Programmation en nombres entiers

Plus en détail

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : Analyse d images La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers

Plus en détail

Analyse de Données ID Classification Hiérarchique Ascendante

Analyse de Données ID Classification Hiérarchique Ascendante Analyse de Données ID Classification Hiérarchique Ascendante Philippe LERAY philippe.leray@univ-nantes.fr Equipe COnnaissances et Décision Laboratoire d Informatique de Nantes Atlantique FRE 2729 Site

Plus en détail

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert

STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales. Transparents Philippe Lambert STAT0162-1 Analyse statistique de données qualitatives et quantitatives en sciences sociales Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/quali.html Institut des Sciences Humaines et Sociales

Plus en détail

LIF1 : ALGORITHMIQUE ET PROGRAMMATION IMPÉRATIVE, INITIATION

LIF1 : ALGORITHMIQUE ET PROGRAMMATION IMPÉRATIVE, INITIATION Licence STS Université Claude Bernard Lyon I LIF1 : ALGORITHMIQUE ET PROGRAMMATION IMPÉRATIVE, INITIATION 1 COURS 5 : Les Tableaux PLAN DE LA SÉANCE Comprendre l utilité des tableaux Apprendre à manipuler

Plus en détail

Algorithmique et Structures de Données

Algorithmique et Structures de Données 1.1 Algorithmique et Structures de Données Jean-Charles Régin Licence Informatique 2ème année 1.2 Itérations Jean-Charles Régin Licence Informatique 2ème année Itération : définition 3 En informatique,

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 1 - Introduction Qu est-ce qu un

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Modèles de Markov et bases de données. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Modèles de Markov et bases de données Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale

Plus en détail

L imagerie vue par un mathématicien

L imagerie vue par un mathématicien L imagerie vue par un mathématicien Li-Thiao-Té Sébastien LAGA UMR 7539, Université Paris 13 Plan Généralités Images Modèles Qu est-ce qu une image? des coordonnées spatiales des mesures pour chaque position

Plus en détail

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining

Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Jef Wijsen Valérie Fiolet Datawarehousing & Datamining Travaux Pratiques Clustering sous WEKA Rapport Julien Baligant 2ème Licence Informatique Université de Mons-Hainaut 7 mai 2006 Ce rapport contient

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES

OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES OPTIMISATION DE LA TARIFICATION DES RÉSEAUX MOBILES ST50 - Projet de fin d études Matthieu Leromain - Génie Informatique Systèmes temps Réel, Embarqués et informatique Mobile - REM 1 Suiveur en entreprise

Plus en détail

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables

Utilisation des Structures Combinatoires pour le Test Statistique. Contexte. Plan. Le test de logiciel. Les structures combinatoires décomposables Utilisation des Structures Combinatoires pour le Test Statistique Sandrine-Dominique GOURAUD Équipe Programmation et Génie Logiciel, L.R.I. Co-encadrants: M.-C. Gaudel et A. Denise Plan Contexte Structures

Plus en détail

ENSAE, 1A Maths. Roland Rathelot roland.rathelot@ensae.fr. Septembre 2010

ENSAE, 1A Maths. Roland Rathelot roland.rathelot@ensae.fr. Septembre 2010 Initiation à l économie ENSAE, 1A Maths Roland Rathelot roland.rathelot@ensae.fr Septembre 2010 Les ménages (2/2) La consommation agrégée des ménages : analyse macroéconomique Les ménages (2/2) La consommation

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Automates temporisés Partie 1: Définitions

Automates temporisés Partie 1: Définitions p.1 Automates temporisés Partie 1: Définitions p.2 Motivation Les automates temporisés constituent un des modèle de systèmes réactifs à temps continu proposé par Alur et Dill en 1991. Temps continu vs

Plus en détail

Programmation par Contraintes. Correctif des quelques exercices.

Programmation par Contraintes. Correctif des quelques exercices. Programmation par Contraintes. Correctif des quelques exercices. Ruslan Sadykov 22 décembre 204 Les règles de Golomb Une règle de Golomb est un ensemble d entiers naturels dans lequel les distances entre

Plus en détail

INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014

INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014 INFO-F-302 Informatique Fondamentale Examen Session de Juin 2014 CORRIGÉ Documents non autorisés, durée: 2h45 1 Questions de cours (6 points) Question 1 (2pts) Donner quatre méthodes vues en cours pour

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Simulation de variables aléatoires S. Robin INA PG, Biométrie Décembre 1997 Table des matières 1 Introduction Variables aléatoires discrètes 3.1 Pile ou face................................... 3. Loi de

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I

ÉLÉMENTS D OPTIMISATION. Complément au cours et au livre de MTH 1101 - CALCUL I ÉLÉMENTS D OPTIMISATION Complément au cours et au livre de MTH 1101 - CALCUL I CHARLES AUDET DÉPARTEMENT DE MATHÉMATIQUES ET DE GÉNIE INDUSTRIEL ÉCOLE POLYTECHNIQUE DE MONTRÉAL Hiver 2011 1 Introduction

Plus en détail