Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Dimension: px
Commencer à balayer dès la page:

Download "Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique"

Transcription

1 Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55 p. /55 rincipe Applications Découvrir des paquets homogènes d exemples. Segmenter un ensemble en sous-ensembles d objets similaires Cartes de crédits Définir des groupes d utilisateurs de cartes. Données : Etat-civil (age, revenus, ) nombre de retraits Montant des retraits Localisation des GAB utilisés p. 3/55 p. 4/55 Cartes de crédits Applications Groupes homogènes Clients aisés, retraits fréquents et distants Clients frileux : un seul retrait important Cibler les mailings. Caractériser les clients sans connaissance initiale Biologie / Génomique Notion de distance entre animaux (gènes, protéines) Identifier les espèces proches Créer un arbre généalogique p. 5/55 p. 6/55 Biologie, Génomique Remarques Deux portions d ADN seront proches s il faut peu de mutations pour passer de l une à l autre. Deux animaux seront d autant plus proches que leur ADN (ou des portions de leur ADN) seront proches. Regrouper deux par deux les animaux les plus proches On s appuie sur une notion de distance entre exemples. Utilisation de distances définies différemment sur les mêmes exemples : regroupements différents. Besoin d avoir des critères pour juger de la pertinence de la partition. ouvoir influer ou contrôler la forme des amas

2 Exemple visuel Clustering Iris setosa Facile en dimension 3 Automatiser le processus. Quel est le bon nombre de groupes? Définir ce nombre de groupes? p. 9/55 p. /55 oints importants Mesures nécessaires Algorithmes efficaces (nombre d attributs, nombre d exemples). Attributs de tous types (continus, discrets). Forme des clusters. Ne pas demander à l utilisateur d introduire trop de paramètres (nombre de clusters). Sensibilité au bruit. Lisibilité et interprétabilité des résultats. Notion de distance entre exemples. Mesure de la compacité d un cluster. Mesure de la séparation des clusters. Mesure de valeur de la segmentation. Mesure de la pertinence de la solution. p. /55 p. /55 Attributs tous continus E = (x,,x n )E = (y,,y n ) Distances usuelles : Euclidienne : (x y ) + + (x n y n ) Manhattan : x y + + x n y n Minkowski : n (x y ) n + + (x n y n ) n p. 3/55 p. 4/55 Attributs tous continus Attributs tous continus Echelles différentes attributs dominants. Normaliser avant de calculer les distances. Tout ramener entre et. On peut vouloir garder la dissymétrie entre les attributs : Donner un poids à chaque attribut. Calculer la distance en fonction de ce poids. w (x y ) + + w n (x n y n ) Ne pas laisser l utilisateur manipuler trop de paramètres! Connaissance préalable du domaine.

3 Attributs non continus Attributs tous binaires Variables booléennes ou binaires. Variables discrètes : nominales ou ordinales. Mesurer la dissimilarité entre deux exemples : Exemple A Exemple B q r s t q : nombre de cas où le même attribut vaut dans les deux exemples. t : nombre de cas où le même attribut vaut dans les deux exemples. r et s : nombre de cas où un attribut n a pas la même valeur dans les deux exemples. p. 7/55 p. 8/55 Attributs tous binaires Attributs binaires : Exemple Même valeur : Attributs binaires symétriques : d(a,a) = d(b,b) = d(a,b) = Attributs binaires asymétriques : d(a,b) = (On ignore la similarité des ). r + s q + r + s + t r + s t + r + s Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non Tous les attributs sont asymétriques. p. 9/55 p. /55 Attributs binaires : Exemple Nom Fièvre Toux test test test 3 test 4 Jack oui non oui non non non Mary oui non oui non oui non Jim oui oui non non non non d(jack,mary) = =.33 d(jack,jim) = =.66 d(mary,jim) = =.75 p. /55 Attributs discrets d(x i,y i ) = x i = y i discret continu distance normale (introduit une notion d ordre sur les valeurs de l attribut) p. /55 Attributs de différents types Attributs de différents types Comment calculer la distance entre deux exemples? Raisonner comme dans le cas continu. Définir une mesure de dissemblance. Un exemple de mesure de dissemblance diss(i,j) = p k= δ(k) ij d(k) ij p k= δ(k) ij avec : δ (k) ij = si x ik ou x jk sont manquantes. Attribut discret : d (k) ij = si x ik = x jk, sinon.

4 Distance entre exemples Clustering Mesure de dissemblance Valeur toujours comprise entre et. Traite les valeurs manquantes. Tous les attributs à la même échelle (poids). Les classes de méthodes Algorithmes de partition. Méthodes hiérarchiques. Méthodes par densité. Modélisation. p. 5/55 p. 6/55 Méthodes de partition Méthodes hiérarchiques Choisir (?) une partition initiale en k sous-ensembles. Améliorer itérativement la partition en changeant certains exemples de cluster. On ne peut pas tester toutes les partitions possibles. K-moyennes, K-Medoids Division Diviser le cluster initial : Un seul cluster. Choisir un cluster et un découpage de ce cluster qui diminue le moins une fonction de score (i.e. une mesure de la qualité du découpage). p. 7/55 p. 8/55 Méthodes hiérarchiques Méthodes hiérarchiques : arrêt? Agglomération Regrouper des clusters. Chaque exemple est un cluster. Regrouper les deux clusters qui augmentent le moins une fonction de score. Quand tout est divisé (regroupé). Quand le nombre de clusters voulu est atteint (??) our un certain seuil de la fonction de score. as de condition d arrêt : considérer le résultat comme un modèle. Coupe transversale de l arbre obtenu. p. 9/55 p. 3/55 Méthodes par densité Modélisation Densité d un cluster : nombre d exemples par unité de volume. Ajouter des points à un cluster (regrouper deux clusters) si la nouvelle densité ne diminue pas (ou pas trop ). eu (pas) de contrainte sur la forme des clusters. On fait l hypothèse que les exemples obéissent à une famille de modèles. On cherche les paramètres du modèle qui décrivent le mieux les données.

5 Les K-moyennes Algorithme Clustering par partition. Choisir k points (les centres des k clusters).. Répéter : 3. Assigner à chaque exemple le cluster le plus proche. 4. Calculer les nouveaux centres des k clusters. 5. Jusqu à ce que : lus rien ne change. La mesure de score atteint un seuil p. 33/55 p. 34/55 K-Moyennes K-Moyennes : le score Complexité : O(nkt) Fonctionne bien pour les attributs continus (moyenne d attributs discrets?). Il faut fixer k. Sensible au bruit, aux intrus (outliers). Minimum local (pas forcément la meilleure solution). Clusters convexes. L algorithme minimise la somme des distances entre les exemples et les centres des clusters : k i Clusters compacts. Favorise les solutions comprenant beaucoup de clusters p C i d(p,m i ) p. 35/55 p. 36/55 Remarques K-Moyennes Essayer avec un nombre différent de clusters. Recommencer avec plusieurs valeurs initiales des clusters. Mesurer la qualité du clustering Compacité des clusters. Séparation des clusters. Score de la partition. p. 37/55 p. 38/55 Compacité des clusters Séparation des clusters Clusters compacts : minimiser wc (distance intra-cluster) K K wc(c) = wc(c k ) = d(x i,c k ) x i C k k= k= Autre fonction possible : wc(c k ) = max i min x C {d(x i,x j )/x i C k,x i x j } Distance inter-clusters (bc) : Distance entre les centres des clusters : bc = d(r j,r k ) j<k K Distance entre ensembles : Distance minimale. Distance maximale.

6 K-Moyennes Iris en D Valeur de la partition Combiner wc (à minimiser) et bc (à maximiser). ar exemple : ou bien : bc wc αbc + βwc bc + wc.5 setiosa.5 p. 4/ p. 4/55 Iris D Outlier setiosa setiosa p. 43/ p. 44/55 K-Medoids K-Medoids : algorithme roblème avec les K-moyennes : un exemple très. Choisir k points parmi les exemples(les centres des k clusters). éloigné pèse très fort sur le résultat.. Répéter : Idée : Au lieu de prendre le point central d un cluster, 3. Choisir un centre o j et un point o r (qui ne soit pas un centre). choisir un exemple central par rapport au cluster courant. 4. Regarder si remplacer o j par o r améliore le score. 5. Si oui, effectuer le remplacement. 6. Jusqu à : Un certain nombre d itérations. Score passe sous le seuil. p. 45/55 p. 46/55 K-Medoids : score K-Medoids K i= p C i d(p m i ) Si le centre o j est remplacé par o r Quatre cas à considérer :. soit p appartenait au cluster de centre o j, et p est maintenant plus Si en remplaçant o j par o r, on améliore ce score (en le proche de o r : p est réassigné à o r diminuant), alors on remplace effectivement o j par o r. soit p appartenait au cluster de centre o j, et p est maintenant plus proche de o i : p est réassigné à o i 3. soit p appartenait au cluster de centre o i,i j, et p est maintenant plus proche de o r : p est réassigné à o r

7 K-medoids Méthodes hiérarchiques p. 49/55 p. 5/55 Méthode agglomérative Méthode agglomérative. Chaque point est seul dans son cluster.. Tant qu il reste plus d un cluster : Trouver les deux clusters les plus proches. Les fusionner. Complexité : n Dépend de la distance entre clusters : Distance minimale : clusters allongés. Distance maximale : clusters de même volume. Distance moyenne. Distance entre centres de clusters. p. 5/55 p. 5/55 Distance entre clusters Méthode agglomérative Lecture : dendrogramme p. 53/55 p. 54/55 Méthode divisive Comment choisir : Le cluster à scinder? Le critère de scission?

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Cours Algorithmique, 2ème partie AS IUT

Cours Algorithmique, 2ème partie AS IUT Cours Algorithmique, 2ème partie AS IUT Cours 2 : Arbres Binaires Anne Vilnat http://www.limsi.fr/individu/anne/coursalgo Plan 1 Représentations arborescentes 2 Définition d un arbre binaire récursive

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Cours de Data Mining PageRank et HITS

Cours de Data Mining PageRank et HITS Cours de Data Mining PageRank et HITS Andreea Dragut Univ. Aix-Marseille, IUT d Aix-en-Provence Andreea Dragut Cours de Data Mining PageRank et HITS 1 / 48 Plan du cours Présentation Andreea Dragut Cours

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Utilisation des modèles de co-clustering pour l analyse exploratoire des données

Utilisation des modèles de co-clustering pour l analyse exploratoire des données Utilisation des modèles de co-clustering pour l analyse exploratoire des données Romain Guigourès To cite this version: Romain Guigourès. Utilisation des modèles de co-clustering pour l analyse exploratoire

Plus en détail

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la

Plus en détail

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC

Plus en détail

III Caractérisation d'image binaire

III Caractérisation d'image binaire III Caractérisation d'image binaire 1. Généralités Les images binaires codent l'information sur deux valeurs. Rarement le résultat direct d'un capteur, mais facilement obtenues par seuillage dans certains

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Gestion des Clés Publiques (PKI)

Gestion des Clés Publiques (PKI) Chapitre 3 Gestion des Clés Publiques (PKI) L infrastructure de gestion de clés publiques (PKI : Public Key Infrastructure) représente l ensemble des moyens matériels et logiciels assurant la gestion des

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Analyse des déplacements des objets mobiles : définition de comportements types

Analyse des déplacements des objets mobiles : définition de comportements types Analyse des déplacements des objets mobiles : définition de comportements types Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Les déplacements L analyse des déplacements

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Chapitre 5 : Flot maximal dans un graphe

Chapitre 5 : Flot maximal dans un graphe Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Rapport Technique No. GIDE-01-2013. Soyons un peu logiques! par. Jean-Marc BERNARD GIDE GIDE

Rapport Technique No. GIDE-01-2013. Soyons un peu logiques! par. Jean-Marc BERNARD GIDE <jeanmarc@gide.net> GIDE Rapport Technique No. -01-2013 Soyons un peu logiques! par Jean-Marc BERNARD 17 rue La Noue Bras de Fer 44200 Nantes, France 28 février 2014 Soyons un peu logiques! Jean-Marc BERNARD

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

UV Théorie de l Information. Codes à longueur variable

UV Théorie de l Information. Codes à longueur variable Cours n 5 : UV Théorie de l Information Compression de l information : Codage de source sans distorsion Ex 1 : Code de Shannon Fano Ex 2 : Code de Huffman Ex 3 : Codage par plage Ex 4 : Codage de Lempel

Plus en détail

Economie de l Incertain et des Incitations

Economie de l Incertain et des Incitations Economie de l Incertain et des Incitations CHAPITRE 2 Eléments de théorie des jeux en information symétrique et asymétrique Equilibres Bayesiens - Université de Tours - M1 AGE - Arnold Chassagnon - Automne

Plus en détail

M2-OSIL Mémoire Thématique-Présoutenance le 02.12.2009. Ayse Sena Eruguz

M2-OSIL Mémoire Thématique-Présoutenance le 02.12.2009. Ayse Sena Eruguz M2-OSIL Mémoire Thématique-Présoutenance le 02.12.2009 Ayse Sena Eruguz 1 Plan Introduction Présentation de la Problématique Facteurs de Modélisation Modèles de Localisation-Allocation Applications Méthodes

Plus en détail

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Systèmes cellulaires Réseaux cellulaires analogiques de 1ère génération : AMPS (USA), NMT(Scandinavie), TACS (RU)... Réseaux numériques de 2ème

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

FaceBook aime les Maths!

FaceBook aime les Maths! FaceBook aime les Maths! Michel Rigo http://www.discmath.ulg.ac.be/ http://orbi.ulg.ac.be/ Réseaux Visualizing my Twitter Network by number of followers. Michael Atkisson http://woknowing.wordpress.com/

Plus en détail

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN. EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Reputation, Prix Limite et Prédation

Reputation, Prix Limite et Prédation Reputation, Prix Limite et Prédation Economie Industrielle Laurent Linnemer Thibaud Vergé Laboratoire d Economie Industrielle (CREST-INSEE) 13 et 20 janvier 2009 Linnemer - Vergé (CREST-LEI) Reputation,

Plus en détail

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2) Objectifs du cours d aujourd hui Informatique II : Cours d introduction à l informatique et à la programmation objet Complexité des problèmes Introduire la notion de complexité d un problème Présenter

Plus en détail

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte

Plus en détail

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé

Plus en détail

Apprentissage automatique

Apprentissage automatique Apprentissage automatique François Denis, Hachem Kadri, Cécile Capponi Laboratoire d Informatique Fondamentale de Marseille LIF - UMR CNRS 7279 Equipe QARMA francois.denis@lif.univ-mrs.fr 2 Chapitre 1

Plus en détail

Classification et caractérisation

Classification et caractérisation Classification et caractérisation Classification arbre de décision classificateur Bayésien réseau de neurones 1 Caractérisation Description des concepts Généralisation des données Induction orientée attribut

Plus en détail

Théorie et codage de l information

Théorie et codage de l information Théorie et codage de l information Mesure quantitative de l information - Chapitre 2 - Information propre et mutuelle Quantité d information propre d un événement Soit A un événement de probabilité P (A)

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

TP 2 Réseaux. Adresses IP, routage et sous-réseaux TP 2 Réseaux Adresses IP, routage et sous-réseaux C. Pain-Barre INFO - IUT Aix-en-Provence version du 24/2/2 Adressage IP. Limites du nombre d adresses IP.. Adresses de réseaux valides Les adresses IP

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Chapitre IX SKIZ et Ligne de partage des eaux

Chapitre IX SKIZ et Ligne de partage des eaux Chapitre IX SKIZ et Ligne de partage des eaux SKIZ euclidien et géodésique Fonction distance Ligne de partage des eaux Définition et propriétés Algorithmes J. Serra Ecole des Mines de Paris ( 2000 ) Course

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

Modélisation des données

Modélisation des données Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.

Plus en détail

Jeux à somme nulle : le cas fini

Jeux à somme nulle : le cas fini CHAPITRE 2 Jeux à somme nulle : le cas fini Les jeux à somme nulle sont les jeux à deux joueurs où la somme des fonctions de paiement est nulle. Dans ce type d interaction stratégique, les intérêts des

Plus en détail

Structures de données, IMA S6

Structures de données, IMA S6 Structures de données, IMA S6 Arbres Binaires d après un cours de N. Devésa, Polytech Lille. Laure Gonnord http://laure.gonnord.org/pro/teaching/ Laure.Gonnord@polytech-lille.fr Université Lille 1 - Polytech

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. E-mail address: Nicolas.Thiery@u-psud.fr URL: http://nicolas.thiery.

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. E-mail address: Nicolas.Thiery@u-psud.fr URL: http://nicolas.thiery. Cours de Recherche Opérationnelle IUT d Orsay Nicolas M. THIÉRY E-mail address: Nicolas.Thiery@u-psud.fr URL: http://nicolas.thiery.name/ CHAPTER 1 Introduction à l optimisation 1.1. TD: Ordonnancement

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Meeting Room : An Interactive Systems Laboratories Project

Meeting Room : An Interactive Systems Laboratories Project Travail de Séminaire DIVA Research Group University of Fribourg Etude de Projets Actuels sur l enregistrement et l analyse de Réunions Meeting Room : An Interactive Systems Laboratories Project Canergie

Plus en détail