Apprentissage actif pour le clustering semi-supervisé

Dimension: px
Commencer à balayer dès la page:

Download "Apprentissage actif pour le clustering semi-supervisé"

Transcription

1 Apprentissage actif pour le clustering semi-supervisé Nicolas Labroche Sorbonne Universités, UPMC Univ Paris 06 CNRS, UMR 7606, LIP6 F-75005, Paris, France Atelier Clustering and Co-clustering (CluCo), EGC 2014 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

2 Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

3 Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

4 Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

5 Plan de la présentation 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

6 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

7 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

8 Clustering Découvrir les groupes / structures / formes dans un ensemble de données non étiquetées D = {x i } 1 i n But : trouver la meilleure partition P = {C 1 C 2... C k } au sens d une fonction objectif en fonction d une métrique : distance, (dis)similarité Groupes compacts Groupes denses N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

9 Diversité des méthodes de clustering De très nombreux algorithmes [Jain, 2010] : Centres mobiles K-Means [MacQueen, 1967], FCM [Bezdek, 1981] Hiérarchiques CAH [Sneath and Sokal, 1973], BIRCH [Zhang et al., 1996] Modèles EM [Dempster et al., 1977] Densité DBSCAN [Ester et al., 1996], OPTICS [Ankerst et al., 1999] DENCLUE [Hinneburg and Keim, 1998] Flux de données Clustream [Aggarwal et al., 2003], DenStream [Cao et al., 2006] Clustree [Philipp Kranen and Seidl, 2011], SimpleTS [Angelov, 2011] Co-clustering mais qui possèdent certaines limitations! N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

10 Limite des algorithmes de clustering Sensibilité à l initialisation (K-Means... ) Choix d une métrique (normes L1, L2, Mahalanobis... ) Lenteur / qualité de la convergence Adéquation entre la partition produite et la partition souhaitée comment transférer la connaissance du domaine? Solution : Intégration de contraintes aux algorithmes non supervisés apprentissage semi-supervisé N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

11 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

12 Apprentissage semi-supervisé Considérer à la fois des données étiquetées et non étiquetées Classification semi-supervisée : semi-supervised learning ajout de données non étiquetées pour améliorer la capacité des classifieurs [Davidson and Basu, 2005] amélioration de l apprentissage de la frontière de décision avec des données non étiquetées N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

13 Clustering semi-supervisé Contraintes au niveau des instances [Wagstaff and Cardie, 2000] : étiquettes d appartenance à un cluster contraintes must-link : ML(xi, x j ) x i et x j dans le même cluster contraintes cannot-link : CL(x i, x j ) x i et x j dans deux clusters différents N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

14 Clustering semi-supervisé Contraintes au niveau des clusters : Contraintes δ : séparabilité minimale entre 2 clusters p, q P, x i p, x j q, D(x i, x j ) δ Contraintes ɛ : compacité minimale de chaque cluster p P, p > 1, x i p, x j p D(x i, x j ) ɛ N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

15 Approches pour le clustering semi-supervisé Modification directe du processus de partitionnement : modification de la fonction objectif [Demiriz et al., 1999] respect des contraintes : COP-KMeans [Wagstaff et al., 2001] Seed-KMeans [Basu et al., 2002] Constrained FCM [Grira et al., 2006] Seed-FCM [Pedrycz and Waletzky, 1997] Constrained HAC [Davidson and Ravi, 2005a] Spectral [Wang and Davidson, 2010] C-DBSCAN [Ruiz et al., 2007] SSDBSCAN [Lelis and Sander, 2009] N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

16 Approches pour le clustering semi-supervisé Apprentissage de la fonction de distance : les voisins de points liés par une ML (resp. CL) doivent aussi être proches (resp. distants) [Klein et al., 2002] Distance euclidienne et plus court chemin [Klein et al., 2002] Distance de Mahanalobis [Xing et al., 2003] [Bar-Hillel et al., 2003] Divergence de Kullback Leibler [Cohn et al., 2003] Distance d édition [Bilenko and Mooney, 2003] N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

17 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

18 Bénéfices du clustering semi-supervisé Stabilité de convergence [Basu et al., 2002] : Accélération de la vitesse de convergence : clustering hiérarchique [Davidson and Ravi, 2005a] N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

19 Bénéfices du clustering semi-supervisé Séparation de clusters et détection des densités : I C-DBSCAN [Ruiz et al., 2010] et SS-DBSCAN [Lelis and Sander, 2009] Découverte de clusters : I que les distances standard ne peuvent pas trouver I qui tirent profit des connaissances d un domaine N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

20 Limites du clustering semi-supervisé Problème de satisfiabilité des contraintes [Davidson and Ravi, 2005b] Détérioration des performances par des contraintes correctes : [Basu et al., 2004, Wagstaff, 2007, Mallapragada et al., 2008] N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

21 Qualité des contraintes Mesures a posteriori de la qualité de contraintes [Davidson and Basu, 2007] : informativeness : information présente dans les contraintes que l algorithme ne peut pas déterminer seul (a), coherence : accord entre les différentes contraintes (b) Nous nous intéressons aux méthodes de sélection active des contraintes a priori N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

22 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

23 Schéma général Données Clustering semi supervisé Clusters Algorithme d apprentissage actif Connaissances Questions Réponses Utilisateurs (Experts) N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

24 Méthode existante : MMFFQS Min-Max Farthest-First Query Strategy [Mallapragada et al., 2008] : Explore : exploration en profondeur (farthest-first) et construction de K voisinages disjoints (squelettes de clusters) Consolidate : ajout de points aux squelettes de clusters les plus proches pour une meilleure détermination des centres des clusters N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

25 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

26 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

27 Sélection active de contraintes Objectifs : détermination d un ensemble de contraintes C à partir des données D amélioration des performances de tous les types d algorithmes minimisation de l effort d annotation Solution proposée : mesure d utilité basée sur la détermination des zones où les algorithmes font le plus d erreurs d affectation mécanisme de propagation pour minimiser les interactions de l expert N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

28 Sélection active de contraintes [Vu et al., 2012, Vu et al., 2010a, Vu et al., 2010b] Etapes Déterminer les contraintes candidates Raffiner les contraintes candidates Ordonner lescontraintes candidates Etiqueter les contraintes candidates Propager les contraintes Outils Graphe des k plus proches voisins (GkPPV) Définition de la notion de Chemin Fort Définitiond une mesure d utilité d une contrainte Question à l utilisateur Définition et application de règles N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

29 Le graphe des k-plus proches voisins (GkPPV) Graphe pondéré : sommet de degré au plus k arête (u, v) si u PPV (v) et v PPV (u) où PPV (u) est l ensemble des k-plus proches voisins de u poids entre u et v : nombre de voisins communs ω(u, v) = PPV (u) PPV (v) k = N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

30 Identification des contraintes candidates Définition de l ensemble des contraintes candidates : C = {(u, v) ω(u, v) < θ} Illustration : Contraintes candidates k = 5, θ = 2, C = 16 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

31 Mécanisme de raffinement des contraintes Objectifs : réduire le nombre de contraintes candidates introduire de la diversité dans les contraintes Définition de la notion de chemin fort CF CF(u, v) : chemin tel que x0 = u,..., x n = v et i : ω(x i, x i+1 ) θ ou (x i, x i+1 ) est un must-link. N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

32 Mécanisme de raffinement des contraintes Mise en œuvre : Suppression des contraintes candidates (u, v) de C telles qu il existe au moins un chemin fort entre u et v Avant raffinement C = 16 Après raffinement C = Contraintes candidates N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

33 Mesure d utilité d une contrainte Ability to Separate Clusters (ASC) : ASC(u, v) = k ω(u, v) min{lds(u), LDS(v)} ω(u, v) : proximité entre u et v dans le GkPPV LDS() : Local Density Score [Le and Satoh., 2008] q PPV (u) ω(u, q) LDS(u) = k Mise en œuvre : demander à l utilisateur l étiquette de la contrainte candidate qui maximise ASC N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

34 Mécanisme de propagation des contraintes Objectif : augmenter la connaissance minimiser les interactions utilisateurs Méthode : créer de nouvelles contraintes à partir de contraintes existantes définition de règles de propagation de contraintes Règles de propagation : Notations : ML must-link ; CL cannot-link ; CF chemin fort ML(u, v) ML(v, w) ML(u, w) ML(u, v) CL(v, w) CL(u, w) CL(u, v) CF(u, t) CF(v, l) CL(t, l) ML(u, v) CF(u, t) CF(v, l) ML(t, l) N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

35 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

36 Protocole expérimental Algorithmes de clustering : hiérarchique AHCC [Davidson and Ravi, 2005a] : repose sur la détection des frontières entre clusters centres mobiles MPCK Means [Bilenko et al., 2004] : détermine des clusters hypersphériques bien séparés Stratégie de sélection des contraintes : MMFFQS [Mallapragada et al., 2008] : favorise k-means Proposé ASC : G-kPPV + ASC Proposé Aléatoire : G-kPPV + tirage aléatoire Aléatoire : utilisation des étiquettes de données Évaluation des résultats : indice de Rand [Rand, 1971] N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

37 Algorithme AHCC Résultats comparatifs Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Soybean Iris Breast Proposé ASC > Proposé aléatoire > MMFFQS > Aléatoire ASC permet de détecter les frontières de clusters cohérent avec le principe du clustering agglomératif N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

38 Algorithme AHCC Influence du mécanisme de propagation MMFFQS + génération aléatoire : 1 requête = 1 contrainte ASC + proposé aléatoire : 1 requête = plusieurs contraintes Nombre de contraintes collectées Proposé ASC Proposé aléatoire MMFFQS, Aléatoire Nombre de contraintes collectées Proposé ASC Proposé aléatoire MMFFQS, Aléatoire Nombre de contraintes collectées Proposé ASC Proposé aléatoire MMFFQS, Aléatoire Nombre de requêtes Nombre de requêtes Nombre de requêtes Soybean Iris Breast Proposé aléatoire propage plus de contraintes que ASC ASC génère des contraintes de meilleure qualité N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

39 Algorithme MPCK-Means Résultats comparatifs Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Indice de Rand Proposé ASC Proposé aléatoire MMFFQS Aléatoire Nombre de requêtes Soybean Iris Breast MMFFQS dédié à méthode de type K-Means Proposé ASC meilleur pour un faible nombre de questions cohérent avec le principe de l apprentissage actif N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

40 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

41 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

42 Problématique [Vu et al., 2010c] [Vu, 2011] But : proposer des données étiquetées (graines) qui couvrent l ensemble des clusters Proposition de 3 algorithmes actifs : Deux méthodes basées sur une stratégie Min-Max : Min-Max "simple" Min-Max-D basée sur la densité Une méthode basée sur la densité et utilisant le GkPPV N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

43 Principe de la stratégie Min-Max Sélection du point y qui maximise la distance minimale aux points déjà choisis Y : ( ) y = arg max x X Y min d(x, y) y Y Génération de l ensemble Y N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

44 Stratégie Min-Max active S-Min-Max : étiquetage par l utilisateur des points de Y : Étiquetage Seed K-Means N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

45 Algorithmes actifs basés sur une stratégie Min-Max S-Min-Max-D : variante de S-Min-Max basée sur la densité : ajouter un filtrage à l aide de la mesure de densité LDS remplacer X par X ɛ : X ɛ = {p X : LDS(p) ɛ} où ɛ est un seuil de densité N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

46 Influence du paramètre ɛ Illustration : X ɛ contient les points rouges Remarque : ɛ = 0, S-Min-Max-D S-Min-Max N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

47 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

48 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

49 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

50 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

51 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

52 Méthode de collecte de graines basée sur un GkPPV Idée principale de la méthode S-GkPPV : définition de régions denses (composantes connexes) X δ = {u X : v ω(u, v) δ} ordonnancement des composantes selon leur cardinal sélection aléatoire d une graine candidate dans chaque composante et propagation de l étiquette Illustration : sommets des arêtes en rouge : ω(u, v) 3 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

53 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

54 Résultats comparatifs Indice de Rand Seed K-Means SSDBSCAN S Random S Min Max S Min Max D S GkPPV Indice de Rand Indice de Rand Thyroid Protein LetterIJL 0 Thyroid Protein LetterIJL S-GkPPV > S-Min-Max-D > S-Min-Max > Random S-GkPPV détecte les graines dans les régions denses cohérent avec SS-DBSCAN N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

55 Résultats comparatifs Nombre d itérations Nombre d itérations moyen avant convergence pour l algorithme Seed K-means Nombre d itérations S Random S Min Max S Min Max D S GkPPV 2 0 Iris Soybean Zoo Thyroid Protein LetterIJL Meilleures performances : S-Min-Max-D sélection des graines proches des centres des clusters N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

56 Résultats comparatifs Nombre de requêtes Nombre de questions posées à l utilisateur de façon à garantir qu il y ait au moins une graine par cluster Nombre de questions S Random S Min Max S Min Max D S GkPPV 0 Iris Soybean Zoo Thyroid Protein LetterIJL Meilleures performances : S-GkPPV couverture des clusters plus efficace N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

57 Plan 1 Problématique du clustering semi-supervisé Motivations Formalisation Bénéfices et limites Apprentissage actif de contraintes 2 Sélection active de contraintes ML et CL Présentation de notre méthode Expérimentations 3 Sélection active de données étiquetées Présentation de nos méthodes Expérimentations 4 Conclusions et perspectives N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

58 Conclusions Sélection active de contraintes : première mesure d utilité d une contrainte : ASC règles de propagation des contraintes Sélection active de données étiquetées : 2 méthodes de type Min-Max une méthode basée sur un G-kPPV Autres propositions [Vu, 2011] : algorithme de clustering avec des contraintes : MCLA algorithme de clustering avec des graines : SSGC N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

59 Perspectives Amélioration des performances du GkPPV Étude de nouvelles mesures d utilité de contraintes Passage à l échelle (big data) Lien fort avec la visualisation de données : solution au problème d interrogation de l expert N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

60 Perpectives Algorithmes mixtes : contraintes et/ou données étiquetées mesure d utilité mixte pour données étiquetées ou ML / CL mécanismes de propagation N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

61 Perpectives Contraintes plus expressives : cas où l expert n est pas sûr de sa réponse gradualité : degrés d appartenance, de possibilité, de croyance N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

62 Perpectives Algorithmes de clustering interactif : récupération des contraintes ou étiquettes pendant le processus de clustering clustering + apprentissage actif + visualisation N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

63 Apprentissage actif pour le clustering semi-supervisé Nicolas Labroche Sorbonne Universités, UPMC Univ Paris 06 CNRS, UMR 7606, LIP6 F-75005, Paris, France Atelier Clustering and Co-clustering (CluCo), EGC 2014 N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

64 Références I Aggarwal, C. C., Watson, T. J., Ctr, R., Han, J., Wang, J., and Yu, P. S. (2003). A framework for clustering evolving data streams. In In VLDB, pages Angelov, P. (2011). Fuzzily connected multimodel systems evolving autonomously from data streams. IEEE Transactions on Systems, Man and Cybernetics - Part B : Cybernetics, 41(4) : Ankerst, M., Breunig, M., Kriegel, H., and Sander, J. (1999). Optics : Ordering points to identify clustering structure. In Proc. of the ACM SIGMOD, pages 49 60, Philadenphia, USA. Bar-Hillel, A., Hertz, T., Shental, N., and Weinshall, D. (2003). Learning distance functions using equivalence relations. In In Proceedings of the Twentieth International Conference on Machine Learning, pages Basu, S., Banerjee, A., and Mooney, R. (2004). Active semi-supervision for pairwise constrained clustering. In Proceedings of the SIAM International Conference on Data Mining, pages N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

65 Références II Basu, S., Banerjee, A., and Mooney., R. J. (2002). Semi-supervised clustering by seeding. In In Proceeding of the 19th International Conference on Machine Learning (ICML), pages Bezdek, J. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, New York. Bilenko, M., Basu, S., and Mooney, R. J. (2004). Integrating constraints and metric learning in semi-supervised clustering. In Intl. Conference on Machine Learning, ICML 2004, pages Bilenko, M. and Mooney, R. J. (2003). Adaptive duplicate detection using learnable string similarity measures. In In Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2003), pages Cao, F., Ester, M., Qian, W., and Zhou, A. (2006). Density-based clustering over an evolving data stream with noise. In In 2006 SIAM Conference on Data Mining, pages Cohn, D., Caruana, R., and Mccallum, A. (2003). Semi-supervised clustering with user feedback. Technical report. N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

66 Références III Davidson, I. and Basu, S. (2005). Clustering with constraints : Incorporating prior knowledge into clustering. In Tutorial from SIAM 2005 Conference. Davidson, I. and Basu, S. (2007). A survey of clustering with instance level constraints. ACM Transactions on Knowledge Discovery from data, pages Davidson, I. and Ravi, S. (2005a). Agglomerative hierarchical clustering with constraints : Theoretical and empirical results. In Proceeding of European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, ECML PKDD-2005, pages Davidson, I. and Ravi, S. (2005b). Clustering with constraints : Feasibility issues and the k-means algorithm. In Proceedings of the SIAM International Conference on Data Mining. Demiriz, A., Bennett, K., and Embrechts, M. (1999). Semi-supervised clustering using genetic algorithms. In Proceedings of ANNIE, pages Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, Series B (Methodological) 39 (1) :1 38. N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

67 Références IV Ester, M., Kriegel, H.-P., Sander, J., and Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In Proc. of 2nd International Conference on Knowledge Discovery and Data Mining, pages , USA. AAAI Press. Grira, N., Crucianu, M., and Boujemaa, N. (2006). Fuzzy clustering with pairwise constraints for knowledge-driven image categorization. IEEE Vision, Image and Processing, 153(3) : Hinneburg, A. and Keim, A. (1998). An efficient approach to clustering in large multimedia databases with noise. In Proc. of Knowledge Discovery and Data Mining, pages Jain, A. K. (2010). Data clustering : 50 years beyond k-means. Pattern Recognition Letters, 31(8) : Klein, D., Kamvar, S., and Manning, C. (2002). From instance-level constraints to space-level constraints : Making the most of priori knowledge in data clustering. In Proceedings of the 22nd International Conference on Machine Learning. Le, D.-D. and Satoh., S. (2008). Unsupervised face annotation by mining the web. In In Proceedings of the IEEE International Conference on Data Mining (IEEE-ICDM). N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

68 Références V Lelis, L. and Sander, J. (2009). Semi-supervised density-based clustering. In Proceedings of the 2009 Ninth IEEE International Conference on Data Mining, ICDM 09, pages , Washington, DC, USA. IEEE Computer Society. MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In of California Press, U., editor, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, volume 1, pages , Berkeley. Mallapragada, P., Jin, R., and Jain, A. (2008). Active query selection for semi-supervised clustering. In Proceedings of the 19th International Conference on Pattern Recognition, pages 1 4. Pedrycz, W. and Waletzky, J. (1997). Fuzzy clustering with partial supervision. IEEE Transactions on systems, Man, and Cybernetics, 27(5) : Philipp Kranen, Ira Assent, C. B. and Seidl, T. (2011). The clustree : indexing micro-clusters for anytime stream mining. Knowledge and Information Systems, 29(2) : Rand, W. (1971). Objective criteria for the evaluation of clustering methods. Journal of American Statistical Association, vol. 66. N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

69 Références VI Ruiz, C., Spiliopoulou, M., and Menasalvas, E. (2007). C-dbscan : Density-based clustering with constraints. In Proceedings of the International Conference on Rough Sets Fuzzy Sets Data Mining and Granular Computing, pages Ruiz, C., Spiliopoulou, M., and Menasalvas, E. (2010). Density-based semi-supervised clustering. Data Mining and Knowledge Discovery, 21(3) : Sneath, P. H. A. and Sokal, R. R. (1973). Numerical taxonomy - the principles and practice of numerical classification. Technical report, W. H. Freeman, San Francisco. Vu, V., Labroche, N., and Bouchon-Meunier, B. (2010a). Boosting clustering by active constraint selection. In Proceedings of the 19th European Conference on Artificial Intelligence (ECAI-2010), pages , Lisbon, Portugal. IOI Press. Vu, V., Labroche, N., and Bouchon-Meunier, B. (2010b). An efficient active constraint selection algorithm for clustering. In Proceedings of the 20th International Conference on Pattern Recognition (ICPR-2010), pages , Istanbul, Turkey. IEEE. N. Labroche (UPMC - LIP6 - CNRS) CluCo / 63

Comparaison de bornes théoriques pour l accélération du clustering incrémental en une passe

Comparaison de bornes théoriques pour l accélération du clustering incrémental en une passe Comparaison de bornes théoriques pour l accélération du clustering incrémental en une passe Nicolas Labroche, Marcin Detyniecki Thomas Baerecke UPMC Paris 6, LIP6 UMR CNRS 7606 BC 169, 4 place Jussieu

Plus en détail

arxiv:1211.6851v1 [cs.lg] 29 Nov 2012

arxiv:1211.6851v1 [cs.lg] 29 Nov 2012 Classification Recouvrante Basée sur les Méthodes à Noyau arxiv:1211.6851v1 [cs.lg] 29 Nov 2012 Chiheb-Eddine Ben N Cir & Nadia Essoussi LARODEC,Institut Supérieur de Gestion de Tunis, Université de Tunis

Plus en détail

CLUSTERING DE FLUX DE DONNÉES

CLUSTERING DE FLUX DE DONNÉES Université Paris 13, Sorbonne Paris Cité, LIPN, UMR 7030 du CNRS 99 Avenue J-B. Clément - 93430 Villetaneuse - France CLUSTERING DE FLUX DE DONNÉES Mustapha LEBBAH MCF, HdR LIPN Univ. Paris 13 H. Azzag,

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Lyon - France Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Hakim Hacid Université Lumière Lyon 2 Laboratoire ERIC - 5, avenue Pierre Mendès-France 69676 Bron cedex

Plus en détail

Architecture des bases d images généralistes organisées en clusters

Architecture des bases d images généralistes organisées en clusters Architecture des bases d images généralistes organisées en clusters Z.Guellil 1 et L.Zaoui 2 1,2 Université des sciences et de la technologie d Oran MB, Université Mohamed Boudiaf USTO -BP 1505 El Mnaouer

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D

Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D Loïc Lecerf, Boris Chidlovskii Xerox Research Centre Europe 6, chemin de Maupertuis, 38240 Meylan, France {Prenom.Nom}@xrce.xerox.com,

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Regroupement d attributs en classes non-disjointes. Quel impact sur la classification de documents?

Regroupement d attributs en classes non-disjointes. Quel impact sur la classification de documents? EGC 2004 - Atelier sur la "Fouille de Textes" Regroupement d attributs en classes non-disjointes. Quel impact sur la classification de documents? Guillaume CLEUZIOU, Viviane CLAVIER, Lionel MARTIN et Christel

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Apprentissage interactif et collaboratif pour la recherche dans les bases multimédia

Apprentissage interactif et collaboratif pour la recherche dans les bases multimédia Apprentissage interactif et collaboratif pour la recherche dans les bases multimédia Philippe-Henri Gosselin Habilitation à Diriger des Recherches Université de Cergy-Pontoise 10 novembre 2011 La recherche

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 1 - Introduction Qu est-ce qu un

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

Apport d une classification non supervisée floue à la segmentation par ligne de partage des eaux

Apport d une classification non supervisée floue à la segmentation par ligne de partage des eaux Apport d une classification non supervisée floue à la segmentation par ligne de partage des eaux S. Derivaux, S. Lefèvre, C. Wemmert and J. J. Korczak LSIIT - CNRS - Université Louis Pasteur - UMR 7005

Plus en détail

Utilisation et évaluation de la concordance de plusieurs méthodes de classification sur des données cliniques de maladies rares

Utilisation et évaluation de la concordance de plusieurs méthodes de classification sur des données cliniques de maladies rares Utilisation et évaluation de la concordance de plusieurs méthodes de classification sur des données cliniques de maladies rares Emmanuelle Besse & Damien Chimits & Eva-Maria Hüßler & Virginie Stanislas

Plus en détail

ETUDES COMPARATIVE DES METHODES DE CLUSTERING DES TEXTES ARABES

ETUDES COMPARATIVE DES METHODES DE CLUSTERING DES TEXTES ARABES ETUDES COMPARATIVE DES METHODES DE CLUSTERING DES TEXTES ARABES EL KHADIR LAMRANI, EL HABIB BEN LAHMAR, ABDELAZIZ MARZAK Université Hassan II - Mohammedia Casablanca, Faculté des Sciences Ben M sik, Laboratoire

Plus en détail

Construction d un chemin Hamiltonien unique et robuste descripteur d un maillage

Construction d un chemin Hamiltonien unique et robuste descripteur d un maillage Construction d un chemin Hamiltonien unique et robuste descripteur d un maillage V. Itier 1,2, W. Puech 1, G. Gesquière 3, J.P. Pedeboy 2 and G. Subsol 1 LIRMM UMR 5506 CNRS, University of Montpellier

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Classification et caractérisation non supervisée des attaques vers des pots de miel

Classification et caractérisation non supervisée des attaques vers des pots de miel Classification et caractérisation non supervisée des attaques vers des pots de miel Author 1 (rturc@laas.fr) Author 2 (owe@laas.fr) Résumé : L observation des réseaux et de leur trafic est importante pour

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

Clustering par optimisation de la modularité pour trajectoires d objets mobiles Clustering par optimisation de la modularité pour trajectoires d objets mobiles Mohamed K. El Mahrsi, Télécom ParisTech, Département INFRES 46, rue Barrault 75634 Paris CEDEX 13, France Fabrice Rossi,

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

Clustering par quantification en présence de censure

Clustering par quantification en présence de censure Clustering par quantification en présence de censure Svetlana Gribkova 1 Laboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie Paris 6, 4 place Jussieu, 75005 Paris Résumé.

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

Découverte de motifs fréquents : Application à l analyse de documents graphiques

Découverte de motifs fréquents : Application à l analyse de documents graphiques Découverte de motifs fréquents : Application à l analyse de documents graphiques Eugen Barbu Pierre Héroux Sébastien Adam Éric Trupin Laboratoire PSI Université et INSA de Rouen F-76821 Mont-Saint-Aignan,

Plus en détail

Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification

Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification Sur l apprentissage de Réseaux Bayésiens à partir de bases d exemples incomplètes et application à la classification et Philippe LERAY, Laboratoire LITIS, Rouen. Rencontres Inter-Associations La classification

Plus en détail

Regroupements non-disjoints de mots pour la classification de documents

Regroupements non-disjoints de mots pour la classification de documents Regroupements non-disjoints de mots pour la classification de documents Guillaume Cleuziou LIFO, Laboratoire d'informatique Fondamentale d'orléans Université d'orléans BP 6759-45067 ORLEANS Cedex 2 guillaume.cleuziou@lifo.univ-orleans.fr

Plus en détail

Vers une Optimisation de l Algorithme AntTreeStoch

Vers une Optimisation de l Algorithme AntTreeStoch Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et

Plus en détail

Extraction de Règles de Classification à partir des Données Spatiales

Extraction de Règles de Classification à partir des Données Spatiales Extraction de Règles de Classification à partir des Données Spatiales ABDICHE Fethi, ATMANI Baghdad Equipe de recherche «Simulation, Intégration et Fouille de données (SIF)» Département d Informatique,

Plus en détail

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Abdenour Mokrane, Gérard Dray, Pascal Poncelet Groupe Connaissance et Systèmes Complexes LGI2P Site

Plus en détail

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. benjamin.auder@math.u-psud.fr

Plus en détail

Un algorithme ICM basé sur la compacité pour la segmentation des images satellites à très haute résolution

Un algorithme ICM basé sur la compacité pour la segmentation des images satellites à très haute résolution Un algorithme ICM basé sur la compacité pour la segmentation des images satellites à très haute résolution Jérémie Sublime, Younès Bennani, Antoine Cornuéjols AgroParisTech, INRA UMR MIA 518 16 rue Claude

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 2 Discrimination Invariance Expressions faciales Age Pose Eclairage 11/12/2012 3 Personne Inconnue Identité

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

Qualité des données & Grosses bases de données

Qualité des données & Grosses bases de données Qualité des données & Grosses bases de données Aïcha Ben Salem, Faouzi Boufarès, Sebastiao Correia Université Paris 13, Sorbonne Paris Cité LIPN, CNRS, UMR 7030 24/06/2013 FVDM2013, 24-25 Juin 2013, Paris-

Plus en détail

Introduction à l Intelligence Artificielle

Introduction à l Intelligence Artificielle 1 / 14 Introduction à l Intelligence Artificielle Présentation de l option 2 nd semestre 2014-15 Philippe Chatalic chatalic@lri.fr Université Paris Sud Laboratoire de Recherche en Informatique (UMR CNRS

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

Langage dédié pour le pilotage de solveurs de contraintes

Langage dédié pour le pilotage de solveurs de contraintes LABORATOIRE D INFORMATIQUE DE NANTES-ATLANTIQUE UMR 6241 ÉCOLE DOCTORALE STIM, N. 503 «Sciences et technologies de l information et des mathématiques» Sujet de thèse pour 2010 Langage dédié pour le pilotage

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Résumé hybride de flux de données par échantillonnage et classification automatique

Résumé hybride de flux de données par échantillonnage et classification automatique Résumé hybride de flux de données par échantillonnage et classification automatique Nesrine Gabsi,, Fabrice Clérot Georges Hébrail Institut TELECOM ; TELECOM ParisTech ; CNRS LTCI 46, rue Barrault 75013

Plus en détail

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN Mickaël Fabrègue, Agnès Braud, Sandra Bringay, Florence Le Ber, Charles Lecellier,

Plus en détail

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Aurélien Lauf* ** * ERTIM 1 (Équipe de Recherche en Textes, Informatique, Multilinguisme) INALCO - 49bis

Plus en détail

2 Représentation des données textuelles

2 Représentation des données textuelles Un système de vote pour la classification de textes d'opinion Michel Plantié*, Mathieu Roche**, Gérard Dray* * LGI2P, Ecole des Mines d'alès, Site EERIE (michel.plantie, gerard.dray)@ema.fr ** LIRMM, UMR

Plus en détail

Application de filtres collaboratifs et de fouille de texte pour sites de rencontres

Application de filtres collaboratifs et de fouille de texte pour sites de rencontres Application de filtres collaboratifs et de fouille de texte pour sites de rencontres Alexandre SPAETH 26 avril 2011 Alexandre SPAETH Filtres collaboratifs et fouille de texte pour sites de rencontres 26

Plus en détail

Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles

Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles Détection de communautés dans des réseaux scientifiques à partir de données relationnelles et textuelles David Combe* Christine Largeron* Előd Egyed-Zsigmond** Mathias Géry* * Université de Lyon, F-42023,

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Extraction de règles d association pour la prédiction de valeurs manquantes

Extraction de règles d association pour la prédiction de valeurs manquantes Cari 2004 7/10/04 12:00 Page 487 Extraction de règles d association pour la prédiction de valeurs manquantes Sylvie Jami 1, Tao-Yan Jen 2, Dominique Laurent 3, George Loizou 1, Oumar Sy 3,4 1. Birkbeck

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Vectorisation du modèle d appariement pour la recherche d images par le contenu

Vectorisation du modèle d appariement pour la recherche d images par le contenu - Vectorisation du modèle d appariement pour la recherche d images par le contenu Hanen Karamti 1 MIRACL, Université de Sfax Route de Tunis Km 10 B.P. 242, 3021, Sfax, Tunisie karamti.hanen@gmail.com RÉSUMÉ.

Plus en détail

Optimisation de la géométrie du voisinage pour la segmentation d images texturées

Optimisation de la géométrie du voisinage pour la segmentation d images texturées Optimisation de la géométrie du voisinage pour la segmentation d images texturées Pierre Beauseroy & André Smolarz Institut des Sciences et Technologies de l Information de Troyes (FRE 73) Université de

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Saunier N., Midenet S., Grumbach A.

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Saunier N., Midenet S., Grumbach A. Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Saunier N., Midenet S., Grumbach A. Actes de Conférence Cap'04, Montpellier, France, in : Conférence

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

stages d'initiation à la recherche / internships

stages d'initiation à la recherche / internships http://www.db-net.aueb.gr/ & http://www.vazirgiannis.com/ email: mvazirg@lix.poytechnique.fr or mvazir@aueb.gr stages d'initiation à la recherche / internships Titre Thématique Compétences espérées IN1:

Plus en détail

OPITER : Fouille de données d opinion pour les territoires

OPITER : Fouille de données d opinion pour les territoires OPITER : Fouille de données d opinion pour les territoires Sagéo Brest, 2013 Eric Kergosien (TETIS- LIRMM) Pierre Maurel (TETIS) Mathieu Roche (TETIS LIRMM) Maguelonne Teisseire (TETIS LIRMM) 26/09/2013

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype

Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype Experimental Evaluation of a Dynamic Cubing system: workflow, metrics and prototype Anne Tchounikine, Maryvonne Miquel, Usman Ahmed LIRIS CNRS UMR 5205, INSA-Université de Lyon, France 1 Motivations Motivé

Plus en détail

Sujet de stage de Master 2 Informatique

Sujet de stage de Master 2 Informatique UNIVERSITE PARIS 13, Sorbonne Paris Cité Laboratoire d'informatique de Paris-Nord, UMR CNRS 7030 99, avenue Jean-Baptiste Clément - 93430 Villetaneuse France Tél : (33) 01 49 40 40 71 ; Fax : (33) 01 48

Plus en détail

Analyse des variations entre partitions générées par différentes techniques de classification automatique de textes

Analyse des variations entre partitions générées par différentes techniques de classification automatique de textes Analyse des variations entre partitions générées par différentes techniques de classification automatique de textes Jean-François Chartier, Jean-Guy Meunier, Choukri Djellali LANCI UQAM - C.P. 8888, Succ.

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Images & Open Science en bref A. Trubuil INRA/MaIAGE, Jouy en Josas

Images & Open Science en bref A. Trubuil INRA/MaIAGE, Jouy en Josas Images & Open Science en bref A. Trubuil INRA/MaIAGE, Jouy en Josas 1. Ressources ouvertes Données Logiciels Connaissances 2. Besoins Données Logiciels Connaissances Défis 3. Exemple 1. Ressources ouvertes

Plus en détail

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images PROPOSITION DE STAGE Année 2016 Laboratoire L3i Sujet de stage : Vers la conception interactive d une hiérarchie sémantique de descripteurs d images Résumé du travail proposé : Ce travail s intéresse à

Plus en détail

Mesure d entropie asymétrique et consistante

Mesure d entropie asymétrique et consistante Djamel A. Zighed, Simon Marcellin Gilbert Ritschard Université Lumière Lyon 2, Laboratoire ERIC {abdelkader.zighed,simon.marcellin}@univ-lyon2.fr http://eric.univ-lyon2.fr Université de Genève, Département

Plus en détail

VISUALISATION DE NUAGES DE POINTS

VISUALISATION DE NUAGES DE POINTS ARNAUD BLETTERER MULTI-RÉSOLUTION 1/16 VISUALISATION DE NUAGES DE POINTS MULTI-RÉSOLUTION AU TRAVERS DE CARTES DE PROFONDEUR Arnaud Bletterer Université de Nice Sophia Antipolis Laboratoire I3S - Cintoo

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

Comparaison de dissimilarités pour l analyse de l usage d un site web

Comparaison de dissimilarités pour l analyse de l usage d un site web Comparaison de dissimilarités pour l analyse de l usage d un site web Fabrice Rossi, Francisco De Carvalho, Yves Lechevallier, Alzennyr Da Silva, Projet AxIS, INRIA Rocquencourt Domaine de Voluceau, Rocquencourt,

Plus en détail

FELIX: UN OUTIL INTERACTIF D'AIDE A LA FOUILLE DE CONNAISSANCES S'APPUYANT SUR L'INTENSITE D'IMPLICATION.

FELIX: UN OUTIL INTERACTIF D'AIDE A LA FOUILLE DE CONNAISSANCES S'APPUYANT SUR L'INTENSITE D'IMPLICATION. FELIX: UN OUTIL INTERACTIF D'AIDE A LA FOUILLE DE CONNAISSANCES S'APPUYANT SUR L'INTENSITE D'IMPLICATION. 1 REMI LEHN, 1 FABRICE GUILLET, 1 PASCALE KUNTZ, 1 HENRI BRIAND, 1,2 JACQUES PHILIPPE 1 RESUME

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Apprentissage symbolique et statistique à l ère du mariage pour tous

Apprentissage symbolique et statistique à l ère du mariage pour tous Apprentissage symbolique et statistique à l ère du mariage pour tous Stéphane Canu asi.insa-rouen.fr/enseignants/~scanu RFIA 2014, INSA Rouen 2 juillet 2014 Apprentissage : humain vs. machine Les apprentissages

Plus en détail

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Contrôle stochastique d allocation de ressources dans le «cloud computing» Contrôle stochastique d allocation de ressources dans le «cloud computing» Jacques Malenfant 1 Olga Melekhova 1, Xavier Dutreilh 1,3, Sergey Kirghizov 1, Isis Truck 2, Nicolas Rivierre 3 Travaux partiellement

Plus en détail

Classification à base de clustering : ou comment décrire et prédire simultanément

Classification à base de clustering : ou comment décrire et prédire simultanément Classification à base de clustering : ou comment décrire et prédire simultanément O. Alaoui Ismaili 1,2 V. Lemaire 1 A. Cornuéjols 2 1 Orange Labs, 2 av. Pierre Marzin 22307 Lannion, France 2 AgroParisTech,

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Accès personnalisé multicritères à de multiples sources d informations.

Accès personnalisé multicritères à de multiples sources d informations. Lyon - France Accès personnalisé multicritères à de multiples sources d informations. Samir kechid Université des Sciences et de la Technologie Houari Boumediene. USTHB BP 32 El Alia Bab Ezzouar Alger

Plus en détail

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013 PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF Ianis Lallemand, 21 janvier 2013 APPRENTISSAGE INTERACTIF definition Contours encore assez flous dans le champ de l apprentissage automatique. Néanmoins,

Plus en détail

Segmentation conjointe d images et copules Joint image segmentation and copulas

Segmentation conjointe d images et copules Joint image segmentation and copulas Segmentation conjointe d images et copules Joint image segmentation and copulas Stéphane Derrode 1 et Wojciech Pieczynski 2 1 École Centrale Marseille & Institut Fresnel (CNRS UMR 6133), 38, rue F. Joliot-Curie,

Plus en détail

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE «Journée Open Data» 5 Novembre 2013 Présenté par : Imen Megdiche Directeur de thèse : Pr. Olivier Teste (SIG-IRIT) Co-directeur de thèse : Mr. Alain

Plus en détail

FOUILLE DE DONNEES SPATIALES

FOUILLE DE DONNEES SPATIALES Fouille de données spatiales 1 CHAPITRE PREMIER FOUILLE DE DONNEES SPATIALES Marie-Aude Aufaure 1, Laurent Yeh 2, Karine Zeitouni 2 1 Laboratoire d'ingénierie des Systèmes d'information - INSA de Lyon

Plus en détail

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Clarisse DHAENENS LIFL Equipe OPAC INRIA Projet DOLPHIN Université de Lille 1 KESAKO Datamining Datamining : définitiond

Plus en détail

Fouille de données dans des bases parcellaires (cadre projet PayOTe)

Fouille de données dans des bases parcellaires (cadre projet PayOTe) Fouille de données dans des bases parcellaires (cadre projet PayOTe) Thomas Guyet AGROCAMPUS-OUEST IRISA Équipe DREAM 01 mars 2010, Nancy Équipe DREAM : axes de recherche Diagnosing, recommending actions

Plus en détail

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence

Plus en détail

Modélisation du comportement habituel de la personne en smarthome

Modélisation du comportement habituel de la personne en smarthome Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai

Plus en détail

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters Présenté par : Equipe de travail : Laboratoire : Maxime CHASSAING Philippe LACOMME, Nikolay

Plus en détail

Projet I(M-RI)T. Comparaison de graphes et visualisation d évolution. Mai 2007

Projet I(M-RI)T. Comparaison de graphes et visualisation d évolution. Mai 2007 Projet I(M-RI)T Comparaison de graphes et visualisation d évolution Mai 2007 Table des matières 1 Description du projet 1 1.1 Contexte et problématiques................................... 1 1.1.1 Étude

Plus en détail

Simulations numériques de bio-molécules

Simulations numériques de bio-molécules Simulations numériques de bio-molécules Université d Orléans Centre de Biophysique Moléculaire CNRS Norbert Garnier Auto-association du domaine transmembranaire du récepteur ErbB2/Neu sauvage et muté Détermination

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Développement d une ontologie pour la classification d images en télédétection

Développement d une ontologie pour la classification d images en télédétection Développement d une ontologie pour la classification d images en télédétection Omar Boussaid, David Sheeren, Anne Puissant et Pierre Gançarski Laboratoire ERIC, EA 3038 - Université Lyon 2 Omar.Boussaid@univ-lyon2.fr

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

Chaînes de Markov Cachées Floues et Segmentation d Images

Chaînes de Markov Cachées Floues et Segmentation d Images Introduction Chaînes de Markov Cachées Floues et Segmentation d Images Cyril Carincotte et Stéphane Derrode Équipe GSM Groupe Signaux Multi-dimensionnels Institut Fresnel (UMR 6133) EGIM Université Paul

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail