Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)
|
|
- Stéphane Boisvert
- il y a 8 ans
- Total affichages :
Transcription
1 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)
2 C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires quand ils appartiennent à des groupes différents Le Clustering est de la classification non supervisée: pas de classes prédéfinies
3 3 Qu est ce qu un bon regroupement? Une bonne méthode de regroupement permet de garantir Une grande similarité intra-groupe Une faible similarité inter-groupe La qualité d un regroupement dépend donc de la mesure de similarité utilisée par la méthode et de son implémentation.
4 4 Structures de données Matrice de données [ x11... x1f... x1p x i1... x if... x ip x n1... x nf... x np ] Matrice de similarité [ 0 ] d (2,1 ) 0 d (3,1 ) d (3,2 ) 0 : : : d(n,1) d (n,2 )
5 5 Mesurer la qualité d un clustering Métrique pour la similarité : La similarité est exprimée par le biais d une mesure de distance. Une autre fonction est utilisée pour la mesure de la qualité. Les définitions de distance sont très différentes que les variables soient des intervalles (continues), des catégories, booléennes ou ordinales. En pratique, on utilise souvent une pondération des variables.
6 6 Types des variables Intervalles Binaires catégories, ordinales, ratio Différents types
7 Intervalle (continues) Standardiser les données On utilise l'écart type (possible aussi avec l'écart absolu moyen) où σ f = (( x 1f m f )2 +( x 2f m f ) 2 + +( x nf m f ) 2 n m f = ( x 1f + x 2f + + x nf ) n Calculer la mesure standardisée (z-score) z if = x if m f σ f 7
8 8 Exemple Age Salaire Personne Personne Personne Personne M Age =60 λ Age =8,16 M salaire =11074 λ salaire =53,09 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0
9 9 Similarité entre objets Les distances expriment une similarité Ex: la distance de Minkowski : d (i, j )= q ( x i1 x j1 q + x i 2 x j2 q x i p x j p q ) où i = (x i1, x i2,, x ip ) et j = (x j1, x j2,, x jp ) sont deux objets p-dimensionnels et q un entier positif Si q = 1, d est la distance de Manhattan d (i, j )= x i1 x j 1 + x i 2 x j x i p x j p
10 10 Similarité entre objets(i) Si q = 2, d est la distance Euclidienne : d (i, j )= ( x i1 x j1 2 + x i2 x j x i p x j p 2 ) Propriétés d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
11 11 Exemple: distance de Manhattan Age Salaire Personne Personne Personne Personne d(p1,p2)=120 d(p1,p3)=132 Conclusion: p1 ressemble plus à p2 qu à p3 Personne1-1,23-1,39 Personne2 1,23 0,49 Personne3 0 0,9 Personne4 0 0 d(p1,p2)=3,1 d(p1,p3)=2,6 Conclusion: p1 ressemble plus à p3 qu à p2
12 Variables binaires Une table de contingence pour données binaires Objet i Objet j 1 0 sum 1 a b a+b 0 c d c+d sum a+c b+d p a = nombre de positions où i a 1 et j a 1 Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) a=1, b=2, c=1, d=1 12
13 Mesures de distances Coefficient d appariement (matching) simple (invariant pour variables symétriques): Exemple o i =(1,1,0,1,0) et o j =(1,0,0,0,1) d(o i, o j )=3/5 d (i, j )= b+c a+b+c+d Coefficient de Jaccard d(o i, o j )=3/4 d (i, j )= b+c a+b+c Généralisation du rapport entre le cardinal de l'intersection et le cardinal de l'union 13
14 14 Variables binaires (I) Variable symétrique : Ex. le sexe d une personne, i.e. coder masculin par 1 et féminin par 0 c est pareil que le codage inverse. Variable asymétrique : Ex. Test HIV. Le test peut être positif ou négatif (1 ou 0) mais il y a une valeur qui sera plus présente que l autre. Généralement, on code par 1 la modalité la moins fréquente. 2 personnes ayant la valeur 1 pour le test sont plus similaires que 2 personnes ayant 0 pour le test
15 Exemple Variables binaires(ii) Nom Sexe Fièvre Toux Test-1 Test-2 Test-3 Jack M O N P N N Mary F O N P N P Sexe est un attribut symétrique Les autres attributs sont asymétriques O et P 1, N 0, la distance n est mesurée que sur les asymétriques d( jack, mary )= =0. 33 d( jack, jim )= =0.67 d( jim, mary )= =0. 75 Les plus similaires sont Jack et Mary atteints du même mal 15
16 16 Variables Nominales Une généralisation des variables binaires, ex: rouge, vert et bleu Méthode 1: Matching simple m: # d appariements, p: # total de variables d (i, j )= p m p Méthode 2: utiliser un grand nombre de variables binaires Créer une variable binaire pour chaque modalité (ex: variable rouge qui prend les valeurs vrai ou faux)
17 Variables Ordinales Une variable ordinale peut être discrète ou continue. L ordre peut être important, ex: classement. Peuvent être traitées comme les variables intervalles r if {1,, M f } remplacer x if par son rang Remplacer le rang de chaque variable par une valeur dans [0, 1] en remplaçant la variable f dans l objet I par z if = r if 1 M f 1 Utiliser une distance pour calculer la similarité 17
18 18 En Présence de Variables de différents Types Pour chaque type de variables utiliser une mesure adéquate. Problèmes: les clusters obtenus peuvent être différents. On utilise une formule pondérée pour faire la p ( f ) combinaison : f est binaire ou nominale: d (i, j )= Σ f =1 p Σ f =1 ( f δ ) ij d ij (f ) δ ij d (f) ij = 0 si x if = x jf f est de type intervalle: utiliser une distance normalisée f est ordinale calculer les rangs rif et z if = r if 1 M f 1 Ensuite traiter zif comme une variable de type intervalle
19 19 Quelques approches pour le clustering Algorithmes de Partitionnement: Construire plusieurs partitions puis les évaluer selon certains critères Algorithmes hiérarchiques: Créer une décomposition hiérarchique des objets selon certains critères Algorithmes basés sur la densité: basés sur des notions de connectivité et de densité Algorithmes à modèles: Un modèle est supposé pour chaque cluster ensuite vérifier chaque modèle sur chaque groupe pour choisir le meilleur
20 20 Algorithmes à partionnement Construire une partition à k clusters d une base D de n objets Les k clusters doivent optimiser le critère choisi Global optimal: Considérer toutes les k-partitions Heuristic methods: Algorithmes k-means k-means (MacQueen 67): chaque cluster est représenté par son centre
21 21 La méthode des k-moyennes (K-Means) L algorithme k-means est en 4 étapes : 1. Choisir k objets formant ainsi k clusters. 2. (Ré)affecter chaque objet O restant au cluster C i de centre M i tel que dist(o,m i ) est minimale. 3. Recalculer M i de chaque cluster (le barycentre). 4. Aller à l étape 2 si on vient de faire une affectation.
22 K-Means :Exemple A={1,2,3,6,7,8,13,15,17} Créer 3 clusters à partir de A. On prend 3 objets au hasard. Supposons que c est 1, 2 et 3. Ça donne C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2, C 3 ={3} et M 3 =3 Chaque objet O restant est affecté au cluster au milieu duquel, O est le plus proche. 6 est affecté à C 3 car dist(m 3,6)<dist(M 2,6) et dist(m 3,6)<dist(M 1,6) On a C 1 ={1}, M 1 =1, C 2 ={2}, M 2 =2 C 3 ={3, 6,7,8,13,15,17}, M 3 =69/7=
23 23 K-Means :Exemple (suite) dist(3,m2 )<dist(3,m 3 )3 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3}, M 2 =2.5,C 3 ={6,7,8,13,15,17} et M 3 = 66/6=11 dist(6,m2 )<dist(6,m 3 )6 passe dans C 2. Tous les autres objets ne bougent pas. C 1 ={1}, M 1 =1, C 2 ={2,3,6}, M 2 =11/3=3.67, C 3 ={7,8,13,15,17}, M 3 = 12 dist(2,m1 )<dist(2,m 2 )2 passe en C 1. dist(7,m 2 )<dist(7,m 3 ) 7 passe en C 2. Les autres ne bougent pas. C 1 ={1,2}, M 1 =1.5, C 2 ={3,6,7}, M 2 =5.34, C 3 = {8,13,15,17}, M 3 =13.25 dist(3,m1 )<dist(3,m 2 )3 passe en 1. dist(8,m 2 )<dist(8,m 3 )8 passe en C 2. C 1 ={1,2,3}, M 1 =2, C 2 ={6,7,8}, M 2 =7, C 3 ={13,15,17}, M 3 =15
24 24 Commentaires sur la méthode des K-Means Forces Relativement efficace: O(tkn), où n est # objets, k est # clusters (C), et t est # itérations. Normalement, k, t << n. Tend à réduire la distance entre les élements de chaque partition : k E= p m i 2 i=1 p C i Faiblesses N est pas applicable en présence d attributs qui ne sont pas du type intervalle (moyenne=?) On doit spécifier k (nombre de clusters) Les clusters sont construits par rapports à des objets inexistants (les milieux) Sensible aux exceptions
25 Clustering Hiérarchique Utiliser la matrice de distances comme critère de regroupement. k n a pas à être précisé, mais a besoin d une condition d arrêt. Etape 0 Étape 1 Étape 2 Étape 3 Étape 4 a a b b a b c d e c c d e d d e e Etape 4 Étape 3 Étape 2 Étape 1 Étape 0 agglomerative (AGNES) divisive (DIANA) 25
26 26 AGNES (Agglomerative Nesting) Utilise la matrice de dissimilarité. Fusionne les nœuds qui ont la plus faible dissimilarité On peut se retrouver dans la situation où tous les nœuds sont dans le même groupe
27 27 DIANA (Divisive Analysis) L ordre inverse de celui d AGNES Il se peut que chaque objet forme à lui seul un groupe
28 28 Critères de fusion-éclatement Exemple: pour les méthodes agglomératives, C1 et C2 sont fusionnés si il existe o1 C1 et o2 C2 tels que Lien unique dist(o1,o2) seuil, ou il n existe pas o1 C1 et o2 C2 tels que dist(o1,o2) seuil, ou distance entre C1 et C2 seuil avec dist (C 1,C 2 )= 1 n1 n2 o1 C1, o2 C2 dist ( o1,o2 ) et n1= C1. Ces techniques peuvent être adaptées pour les méthodes divisives.
29 CURE (Clustering Using REpresentatives ) Les méthodes précédentes donnent les groupes (b) CURE: (1998) Arrête la création de clusters dès qu on en a k Utilise plusieurs points représentatifs clusters 29
30 30 Cure : l algorithme Chaque élément forme un cluster (singleton) Calculer les représentants de chaque cluster Ordonner les clusters dans un tas en mettant en premier les clusters les plus proches Tant que le nombre de clusters > k Prendre les deux premiers clusters les plus proches dans le tas Fusionner les clusters Calculer les nouveaux représentants Mettre le nouveau cluster dans le tas
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailLES DIFFERENTS TYPES DE MESURE
LES DIFFERENTS TYPES DE MESURE Licence - Statistiques 2004/2005 REALITE ET DONNEES CHIFFREES Recherche = - mesure. - traduction d une réalité en chiffre - abouti à des tableaux, des calculs 1) Qu est-ce
Plus en détailLa segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailMaria RIFQI. Mesures de similarité, raisonnement et modélisation de l utilisateur
HABILITATION A DIRIGER DES RECHERCHES DE L UNIVERSITÉ PIERRE ET MARIE CURIE de Maria RIFQI Titre : Mesures de similarité, raisonnement et modélisation de l utilisateur devant le jury composé de : soutenue
Plus en détailUne nouvelle approche de détection de communautés dans les réseaux sociaux
UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailStatistiques Descriptives à une dimension
I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailLOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détailExpression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e
P r o b l é m a t i q u e OCL : O b j e c t C o n s t r a i n t L a n g u a g e Le langage de contraintes d UML Les différents diagrammes d UML permettent d exprimer certaines contraintes graphiquement
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailLoi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailQu est-ce qu une probabilité?
Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont
Plus en détailOptimisation, traitement d image et éclipse de Soleil
Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailMaster IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008
Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance
Plus en détailLicence Sciences et Technologies Examen janvier 2010
Université de Provence Introduction à l Informatique Licence Sciences et Technologies Examen janvier 2010 Année 2009-10 Aucun document n est autorisé Les exercices peuvent être traités dans le désordre.
Plus en détailCOURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES
COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée
Plus en détail2.4 Représentation graphique, tableau de Karnaugh
2 Fonctions binaires 45 2.4 Représentation graphique, tableau de Karnaugh On peut définir complètement une fonction binaire en dressant son tableau de Karnaugh, table de vérité à 2 n cases pour n variables
Plus en détailBaccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.
Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé. L usage d une calculatrice est autorisé Durée : 3heures Deux annexes sont à rendre avec la copie. Exercice 1 5 points 1_ Soit f la
Plus en détailUEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.
UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailDe même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Plus en détailRapport de Stage. Titre : Clustering à l aide d une représentation supervisée
Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la
Plus en détailUne variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)
CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détail1 Définition et premières propriétés des congruences
Université Paris 13, Institut Galilée Département de Mathématiques Licence 2ème année Informatique 2013-2014 Cours de Mathématiques pour l Informatique Des nombres aux structures Sylviane R. Schwer Leçon
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailStructures algébriques
Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe
Plus en détailVers une Optimisation de l Algorithme AntTreeStoch
Revue des Sciences et de la Technologie - RST- Volume 3 N 1 / janvier 2012 Vers une Optimisation de l Algorithme AntTreeStoch O. KADRI, H. MOUSS, A. ABDELHADI, R. MAHDAOUI Laboratoire d Automatique et
Plus en détailReprésentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailI.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.
EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailStatistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Plus en détail3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements
3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements Développer une expression consiste à transformer un produit en une somme Qu est-ce qu une somme? Qu est-ce qu un produit?
Plus en détailConception d un lecteur de musique intelligent basé sur l apprentissage automatique.
Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC
Plus en détail1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert
1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes
Plus en détailConversion d un entier. Méthode par soustraction
Conversion entre bases Pour passer d un nombre en base b à un nombre en base 10, on utilise l écriture polynomiale décrite précédemment. Pour passer d un nombre en base 10 à un nombre en base b, on peut
Plus en détailIdentification de nouveaux membres dans des familles d'interleukines
Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes
Plus en détailTalend Technical Note
Mars 2011 Page 1 sur 5 Le MDM offre un hub central de contrôle et une vision unique des données maître de l'entreprise, quelles que soient les disparités entre les systèmes source. Il assure que les données
Plus en détailArchitecture des ordinateurs TD1 - Portes logiques et premiers circuits
Architecture des ordinateurs TD1 - Portes logiques et premiers circuits 1 Rappel : un peu de logique Exercice 1.1 Remplir la table de vérité suivante : a b a + b ab a + b ab a b 0 0 0 1 1 0 1 1 Exercice
Plus en détail1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)
1/4 Objectif de ce cours /4 Objectifs de ce cours Introduction au langage C - Cours Girardot/Roelens Septembre 013 Du problème au programme I passer d un problème exprimé en français à la réalisation d
Plus en détailModélisation Conceptuelle. Partie 2: Le modèle Entité-Association
Modélisation Conceptuelle Partie 2: Le modèle Entité-Association Modèle de type conceptuel But: permettre la description conceptuelle des structures de données d'une application Les concepts de base (correspondent
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailLa NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.
La NP-complétude Johanne Cohen PRISM/CNRS, Versailles, France. Références 1. Algorithm Design, Jon Kleinberg, Eva Tardos, Addison-Wesley, 2006. 2. Computers and Intractability : A Guide to the Theory of
Plus en détailChapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailDATAMINING C4.5 - DBSCAN
14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table
Plus en détailExercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT
Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,
Plus en détailExercice : la frontière des portefeuilles optimaux sans actif certain
Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué
Plus en détailIFT1215 Introduction aux systèmes informatiques
Introduction aux circuits logiques de base IFT25 Architecture en couches Niveau 5 Niveau 4 Niveau 3 Niveau 2 Niveau Niveau Couche des langages d application Traduction (compilateur) Couche du langage d
Plus en détailCalcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détail1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailSTAGE IREM 0- Premiers pas en Python
Université de Bordeaux 16-18 Février 2014/2015 STAGE IREM 0- Premiers pas en Python IREM de Bordeaux Affectation et expressions Le langage python permet tout d abord de faire des calculs. On peut évaluer
Plus en détailAnalyse dialectométrique des parlers berbères de Kabylie
Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation
Plus en détailLA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE
LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau
Plus en détailTP : Gestion d une image au format PGM
TP : Gestion d une image au format PGM Objectif : L objectif du sujet est de créer une classe de manipulation d images au format PGM (Portable GreyMap), et de programmer des opérations relativement simples
Plus en détailCHAPITRE 2. Les variables
CHAPITRE 2 Les variables 1. La nature des variables Définition 2.1 (Variable). Une variable est une caractéristique étudiée pour une population donnée. Le sexe, la couleur préférée, le nombre de téléviseurs
Plus en détailChapitre 7. Récurrences
Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,
Plus en détailChapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Plus en détail201-105-RE SOLUTIONS CHAPITRE 1
Chapitre1 Matrices 1 201-105-RE SOLUTIONS CHAPITRE 1 EXERCICES 1.2 1. a) 1 3 Ë3 7 3 2 Ë 1 16 pas défini d) 16 30 17 3 e) Ë 7 68 22 16 13 Ë 5 18 6 2. a) 0 4 4 4 0 4 Ë4 4 0 Ë 0 4 32 4 4 0 4 32 32 4 0 4 4
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailAnnexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document
Plus en détailPlan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.
Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining
Plus en détailObjets Combinatoires élementaires
Objets Combinatoires élementaires 0-0 Permutations Arrangements Permutations pour un multi-ensemble mots sous-ensemble à k éléments (Problème du choix) Compositions LE2I 04 1 Permutations Supposons que
Plus en détailLes droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites
I Droites perpendiculaires Lorsque deux droites se coupent, on dit qu elles sont sécantes Les droites (d 1 ) et (d 2 ) sont sécantes en A Le point A est le point d intersection des 2 droites Lorsque deux
Plus en détailIBM SPSS Direct Marketing 21
IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS
Plus en détailReconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12
Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 2 Discrimination Invariance Expressions faciales Age Pose Eclairage 11/12/2012 3 Personne Inconnue Identité
Plus en détailUne Démarche pour la sélection d outils de cartographie des processus métiers
Une Démarche pour la sélection d outils de cartographie des processus métiers Résumé El Haddadi Anass, Atahran Ahmed, Ebobissé Yves, B. Bounabat anass.elhaddadi@gmail.com, atahran.ahmed@gmail.com, ebobisseyves@yahoo.fr,
Plus en détailLogique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.
Logique binaire I. L'algèbre de Boole L'algèbre de Boole est la partie des mathématiques, de la logique et de l'électronique qui s'intéresse aux opérations et aux fonctions sur les variables logiques.
Plus en détailBases de données réparties: Fragmentation et allocation
Pourquoi une base de données distribuée? Bibliographie Patrick Valduriez, S. Ceri, Guiseppe Delagatti Bases de données réparties: Fragmentation et allocation 1 - Introduction inventés à la fin des années
Plus en détailExo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.
Eo7 Calculs de déterminants Fiche corrigée par Arnaud Bodin Eercice Calculer les déterminants des matrices suivantes : Correction Vidéo ( ) 0 6 7 3 4 5 8 4 5 6 0 3 4 5 5 6 7 0 3 5 4 3 0 3 0 0 3 0 0 0 3
Plus en détailCapacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailParallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.
Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes. Benjamin Auder 1 & Jairo Cugliari 2 1 Laboratoire LMO. Université Paris-Sud. Bât 425. 91405 Orsay Cedex, France. benjamin.auder@math.u-psud.fr
Plus en détailThéorie et codage de l information
Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q
Plus en détail1. Vocabulaire : Introduction au tableau élémentaire
L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailTexte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Plus en détailAC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =
LE NOMBRE D OR Présentation et calcul du nombre d or Euclide avait trouvé un moyen de partager en deu un segment selon en «etrême et moyenne raison» Soit un segment [AB]. Le partage d Euclide consiste
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détail