Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)
|
|
|
- Stéphane Boisvert
- il y a 10 ans
- Total affichages :
Transcription
1 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)
2 C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires quand ils appartiennent à des groupes différents Le Clustering est de la classification non supervisée: pas de classes prédéfinies
3 3 Qu est ce qu un bon regroupement? Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.
4 4 Structures de données Matrice de données [ x11... x1f... x1p x i1... x if... x ip x n1... x nf... x np ] Matrice de similarité [ 0 ] d (2,1 ) 0 d (3,1 ) d (3,2 ) 0 : : : d(n,1) d (n,2 )
5 5 Mesurer la qualité d un clustering Métrique pour la similarité : La similarité est exprimée par le biais d une mesure de distance. Une autre fonction est utilisée pour la mesure de la qualité. Les définitions de distance sont très différentes que les variables soient des intervalles (continues), des catégories, booléennes ou ordinales. En pratique, on utilise souvent une pondération des variables.
6 6 Types des variables Intervalles Binaires catégories, ordinales, ratio Différents types
7 Intervalle (continues) Standardiser les données On utilise l'écart type (possible aussi avec l'écart absolu moyen) où σ f = (( x 1f m f )2 +( x 2f m f ) 2 + +( x nf m f ) 2 n m f = ( x 1f + x 2f + + x nf ) n Calculer la mesure standardisée (z-score) z if = x if m f σ f 7
8 8 Exemple Age Salaire Personne Personne Personne Personne M Age =60 λ Age =8,16 M salaire =11074 λ salaire =53,09 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0
9 9 Similarité entre objets Les distances expriment une similarité Ex: la distance de Minkowski : d (i, j )= q ( x i1 x j1 q + x i 2 x j2 q x i p x j p q ) où i = (x i1, x i2,, x ip ) et j = (x j1, x j2,, x jp ) sont deux objets p-dimensionnels et q un entier positif Si q = 1, d est la distance de Manhattan d (i, j )= x i1 x j 1 + x i 2 x j x i p x j p
10 10 Similarité entre objets(i) Si q = 2, d est la distance Euclidienne : d (i, j )= ( x i1 x j1 2 + x i2 x j x i p x j p 2 ) Propriétés d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
11 11 Exemple: distance de Manhattan Age Salaire Personne Personne Personne Personne d(p1,p2)=120 d(p1,p3)=132 Conclusion: p1 ressemble plus à p2 qu à p3 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0 d(p1,p2)=3,1 d(p1,p3)=2,6 Conclusion: p1 ressemble plus à p3 qu à p2
12 Variables binaires Une table de contingence pour données binaires Objet i Objet j 1 0 sum 1 a b a+b 0 c d c+d sum a+c b+d p a = nombre de positions où i a 1 et j a 1 Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) a=1, b=2, c=1, d=1 12
13 Mesures de distances Coefficient d appariement (matching) simple (invariant pour variables symétriques): Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) d(o i, o j )=3/5 d (i, j )= b+c a+b+c+d Coefficient de Jaccard d(o i, o j )=3/4 d (i, j )= b+c a+b+c Généralisation du rapport entre le cardinal de l'intersection et le cardinal de l'union 13
14 14 Variables binaires (I) Variable symétrique : Ex. le sexe d une personne, i.e. coder masculin par 1 et féminin par 0 c est pareil que le codage inverse. Variable asymétrique : Ex. Test HIV. Le test peut être positif ou négatif (1 ou 0) mais il y a une valeur qui sera plus présente que l autre. Généralement, on code par 1 la modalité la moins fréquente. 2 personnes ayant la valeur 1 pour le test sont plus similaires que 2 personnes ayant 0 pour le test
15 Exemple Variables binaires(ii) Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Jack M O N P N N Mary F O N P N P Sexe est un attribut symétrique Les autres attributs sont asymétriques O et P 1, N 0, la distance n est mesurée que sur les asymétriques d( jack, mary )= =0. 33 d( jack, jim )= =0.67 d( jim, mary )= =0. 75 Les plus similaires sont Jack et Mary atteints du même mal 15
16 16 Variables Nominales Une généralisation des variables binaires, ex: rouge, vert et bleu Méthode 1: Matching simple m: # d appariements, p: # total de variables d (i, j )= p m p Méthode 2: utiliser un grand nombre de variables binaires Créer une variable binaire pour chaque modalité (ex: variable rouge qui prend les valeurs vrai ou faux)
17 Variables Ordinales Une variable ordinale peut être discrète ou continue. L ordre peut être important, ex: classement. Peuvent être traitées comme les variables intervalles r if {1,, M f } remplacer x if par son rang Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaçant la variable f dans l objet I par z if = r if 1 M f 1 Utiliser une distance pour calculer la similarité 17
18 18 En Présence de Variables de différents Types Pour chaque type de variables utiliser une mesure adéquate. Problèmes: les clusters obtenus peuvent être différents. On utilise une formule pondérée pour faire la p ( f ) combinaison : f est binaire ou nominale: d (i, j )= Σ f =1 p Σ f =1 ( f δ ) ij d ij (f ) δ ij d (f) ij = 0 si x if = x jf f est de type intervalle: utiliser une distance normalisée f est ordinale calculer les rangs rif et z if = r if 1 M f 1 Ensuite traiter zif comme une variable de type intervalle
19 19 Quelques approches pour le clustering Algorithmes de Partitionnement: Construire plusieurs partitions puis les évaluer selon certains critères Algorithmes hiérarchiques: Créer une décomposition hiérarchique des objets selon certains critères Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité Algorithmes à modèles: Un modèle est supposé pour chaque cluster ensuite vérifier chaque modèle sur chaque groupe pour choisir le meilleur
20 20 Algorithmes à partionnement Construire une partition à k clusters d une base D de n objets Les k clusters doivent optimiser le critère choisi Global optimal: Considérer toutes les k-partitions Heuristic methods: Algorithmes k-means k-means (MacQueen 67): chaque cluster est représenté par son centre
21 21 La méthode des k-moyennes (K-Means) L algorithme k-means est en 4 étapes : 1. Choisir k objets formant ainsi k clusters. 2. (Ré)affecter chaque objet O restant au cluster C i de centre M i tel que dist(o,m i ) est minimale. 3. Recalculer M i de chaque cluster (le barycentre). 4. Aller à l étape 2 si on vient de faire une affectation.
22 K-Means :Exemple A={1,2,3,6,7,8,13,15,17} Créer 3 clusters à partir de A. On prend 3 objets au hasard. Supposons que c est 1, 2 et 3. Ça donne C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2, C 3 ={3} et M 3 =3 Chaque objet O restant est affecté au cluster au milieu duquel, O est le plus proche. 6 est affecté à C 3 car dist(m 3,6)<dist(M 2,6) et dist(m 3,6)<dist(M 1,6) On a C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2 C 3 ={3, 6,7,8,13,15,17}, M 3 =69/7=
23 23 K-Means :Exemple (suite) dist(3,m2 )<dist(3,m 3 )3 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3}, M 2 =2.5,C 3 ={6,7,8,13,15,17} et M 3 = 66/6=11 dist(6,m2 )<dist(6,m 3 )6 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3,6}, M 2 =11/3=3.67, C 3 ={7,8,13,15,17}, M 3 = 12 dist(2,m1 )<dist(2,m 2 )2 passe en C 1. dist(7,m 2 )<dist(7,m 3 ) 7 passe en C 2. Les autres ne bougent pas. C 1 ={1,2}, M 1 =1.5, C 2 ={3,6,7}, M 2 =5.34, C 3 = {8,13,15,17}, M 3 =13.25 dist(3,m1 )<dist(3,m 2 )3 passe en 1. dist(8,m 2 )<dist(8,m 3 )8 passe en C 2. C 1 ={1,2,3}, M 1 =2, C 2 ={6,7,8}, M 2 =7, C 3 ={13,15,17}, M 3 =15
24 24 Commentaires sur la méthode des K-Means Forces Relativement efficace: O(tkn), où n est # objets, k est # clusters (C), et t est # itérations. Normalement, k, t << n. Tend à réduire la distance entre les élements de chaque partition : k E= p m i 2 i=1 p C i Faiblesses N est pas applicable en présence d attributs qui ne sont pas du type intervalle (moyenne=?) On doit spécifier k (nombre de clusters) Les clusters sont construits par rapports à des objets inexistants (les milieux) Sensible aux exceptions
25 Clustering Hiérarchique Utiliser la matrice de distances comme critère de regroupement. k n a pas à être précisé, mais a besoin d une condition d arrêt. Etape 0 Étape 1 Étape 2 Étape 3 Étape 4 a a b b a b c d e c c d e d d e e Etape 4 Étape 3 Étape 2 Étape 1 Étape 0 agglomerative (AGNES) divisive (DIANA) 25
26 26 AGNES (Agglomerative Nesting) Utilise la matrice de dissimilarité. Fusionne les nœuds qui ont la plus faible dissimilarité On peut se retrouver dans la situation où tous les nœuds sont dans le même groupe
27 27 DIANA (Divisive Analysis) L ordre inverse de celui d AGNES Il se peut que chaque objet forme à lui seul un groupe
28 28 Critères de fusion-éclatement Exemple: pour les méthodes agglomératives, C1 et C2 sont fusionnés si il existe o1 C1 et o2 C2 tels que Lien unique dist(o1,o2) seuil, ou il n existe pas o1 C1 et o2 C2 tels que dist(o1,o2) seuil, ou distance entre C1 et C2 seuil avec dist (C 1,C 2 )= 1 n1 n2 o1 C1, o2 C2 dist ( o1,o2 ) et n1= C1. Ces techniques peuvent être adaptées pour les méthodes divisives.
29 CURE (Clustering Using REpresentatives ) Les méthodes précédentes donnent les groupes (b) CURE: (1998) Arrête la création de clusters dès qu on en a k Utilise plusieurs points représentatifs clusters 29
30 30 Cure : l algorithme Chaque élément forme un cluster (singleton) Calculer les représentants de chaque cluster Ordonner les clusters dans un tas en mettant en premier les clusters les plus proches Tant que le nombre de clusters > k Prendre les deux premiers clusters les plus proches dans le tas Fusionner les clusters Calculer les nouveaux représentants Mettre le nouveau cluster dans le tas
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
LES DIFFERENTS TYPES DE MESURE
LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Agrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Enjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Maria RIFQI. Mesures de similarité, raisonnement et modélisation de l utilisateur
HABILITATION A DIRIGER DES RECHERCHES DE L UNIVERSITÉ PIERRE ET MARIE CURIE de Maria RIFQI Titre : Mesures de similarité, raisonnement et modélisation de l utilisateur devant le jury composé de : soutenue
Une nouvelle approche de détection de communautés dans les réseaux sociaux
UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Statistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Classification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS [email protected] 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e
P r o b l é m a t i q u e OCL : O b j e c t C o n s t r a i n t L a n g u a g e Le langage de contraintes d UML Les différents diagrammes d UML permettent d exprimer certaines contraintes graphiquement
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Loi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Qu est-ce qu une probabilité?
Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont
Optimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Licence Sciences et Technologies Examen janvier 2010
Université de Provence Introduction à l Informatique Licence Sciences et Technologies Examen janvier 2010 Année 2009-10 Aucun document n est autorisé Les exercices peuvent être traités dans le désordre.
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
2.4 Représentation graphique, tableau de Karnaugh
2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables
Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.
Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé. L usage d une calculatrice est autorisé Durée : 3heures Deux annexes sont à rendre avec la copie. Exercice 1 5 points 1_ Soit f la
UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET [email protected] http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée
Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la
Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)
CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse
TSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
1 Définition et premières propriétés des congruences
Université Paris 13, Institut Galilée Département de Mathématiques Licence 2ème année Informatique 2013-2014 Cours de Mathématiques pour l Informatique Des nombres aux structures Sylviane R. Schwer Leçon
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Résolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Structures algébriques
Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe
Vers une Optimisation de l Algorithme AntTreeStoch
Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et
Représentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.
EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements
3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements Développer une expression consiste à transformer un produit en une somme Qu est-ce qu une somme? Qu est-ce qu un produit?
Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.
Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC
1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : [email protected] Page personnelle : http://www.lri.fr/ hivert
1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : [email protected] Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes
Conversion d un entier. Méthode par soustraction
Conversion entre bases Pour passer d un nombre en base b à un nombre en base 10, on utilise l écriture polynomiale décrite précédemment. Pour passer d un nombre en base 10 à un nombre en base b, on peut
Identification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Talend Technical Note
Mars 2011 Page 1 sur 5 Le MDM offre un hub central de contrôle et une vision unique des données maître de l'entreprise, quelles que soient les disparités entre les systèmes source. Il assure que les données
Architecture des ordinateurs TD1 - Portes logiques et premiers circuits
Architecture des ordinateurs TD1 - Portes logiques et premiers circuits 1 Rappel : un peu de logique Exercice 1.1 Remplir la table de vérité suivante : a b a + b ab a + b ab a b 0 0 0 1 1 0 1 1 Exercice
1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)
1/4 Objectif de ce cours /4 Objectifs de ce cours Introduction au langage C - Cours Girardot/Roelens Septembre 013 Du problème au programme I passer d un problème exprimé en français à la réalisation d
Modélisation Conceptuelle. Partie 2: Le modèle Entité-Association
Modélisation Conceptuelle Partie 2: Le modèle Entité-Association Modèle de type conceptuel But: permettre la description conceptuelle des structures de données d'une application Les concepts de base (correspondent
Cours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.
La NP-complétude Johanne Cohen PRISM/CNRS, Versailles, France. Références 1. Algorithm Design, Jon Kleinberg, Eva Tardos, Addison-Wesley, 2006. 2. Computers and Intractability : A Guide to the Theory of
Chapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
DATAMINING C4.5 - DBSCAN
14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
Exercice : la frontière des portefeuilles optimaux sans actif certain
Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué
IFT1215 Introduction aux systèmes informatiques
Introduction aux circuits logiques de base IFT25 Architecture en couches Niveau 5 Niveau 4 Niveau 3 Niveau 2 Niveau Niveau Couche des langages d application Traduction (compilateur) Couche du langage d
Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
STAGE IREM 0- Premiers pas en Python
Université de Bordeaux 16-18 Février 2014/2015 STAGE IREM 0- Premiers pas en Python IREM de Bordeaux Affectation et expressions Le langage python permet tout d abord de faire des calculs. On peut évaluer
Analyse dialectométrique des parlers berbères de Kabylie
Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation
LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE
LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M [email protected] 1 1.Le réseau
TP : Gestion d une image au format PGM
TP : Gestion d une image au format PGM Objectif : L objectif du sujet est de créer une classe de manipulation d images au format PGM (Portable GreyMap), et de programmer des opérations relativement simples
CHAPITRE 2. Les variables
CHAPITRE 2 Les variables 1. La nature des variables Définition 2.1 (Variable). Une variable est une caractéristique étudiée pour une population donnée. Le sexe, la couleur préférée, le nombre de téléviseurs
Chapitre 7. Récurrences
Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
201-105-RE SOLUTIONS CHAPITRE 1
Chapitre1 Matrices 1 201-105-RE SOLUTIONS CHAPITRE 1 EXERCICES 1.2 1. a) 1 3 Ë3 7 3 2 Ë 1 16 pas défini d) 16 30 17 3 e) Ë 7 68 22 16 13 Ë 5 18 6 2. a) 0 4 4 4 0 4 Ë4 4 0 Ë 0 4 32 4 4 0 4 32 32 4 0 4 4
Résolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Annexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. [email protected] Résumé Ce document
Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.
Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining
Objets Combinatoires élementaires
Objets Combinatoires élementaires 0-0 Permutations Arrangements Permutations pour un multi-ensemble mots sous-ensemble à k éléments (Problème du choix) Compositions LE2I 04 1 Permutations Supposons que
Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites
I Droites perpendiculaires Lorsque deux droites se coupent, on dit qu elles sont sécantes Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites Lorsque deux
IBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12
Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 2 Discrimination Invariance Expressions faciales Age Pose Eclairage 11/12/2012 3 Personne Inconnue Identité
Une Démarche pour la sélection d outils de cartographie des processus métiers
Une Démarche pour la sélection d outils de cartographie des processus métiers Résumé El Haddadi Anass, Atahran Ahmed, Ebobissé Yves, B. Bounabat [email protected], [email protected], [email protected],
Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.
Logique binaire I. L'algèbre de Boole L'algèbre de Boole est la partie des mathématiques, de la logique et de l'électronique qui s'intéresse aux opérations et aux fonctions sur les variables logiques.
Bases de données réparties: Fragmentation et allocation
Pourquoi une base de données distribuée? Bibliographie Patrick Valduriez, S. Ceri, Guiseppe Delagatti Bases de données réparties: Fragmentation et allocation 1 - Introduction inventés à la fin des années
Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.
Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3
Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. [email protected]
Théorie et codage de l information
Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q
1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Projet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Texte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =
LE NOMBRE D OR Présentation et calcul du nombre d or Euclide avait trouvé un moyen de partager en deu un segment selon en «etrême et moyenne raison» Soit un segment [AB]. Le partage d Euclide consiste
Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
