Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Dimension: px
Commencer à balayer dès la page:

Download "Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt"

Transcription

1 Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt

2 Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte similarité intra-classe et une faible similarité inter-classe. Un nombre conséquent d algorithmes nous sont présentés avec leurs avantages mais aussi leurs inconvénients. De ce fait, la présence d un utilisateur expert capable de jugement objectif est fortement recommandée pour le choix des dimensions significatives et l analyse des résultats. D une manière schématique, nous catégorisons les algorithmes de clustering autour de plusieurs méthodes : hiérarchique, par partition, basée sur la densité et sur les grilles. Les algorithmes sont entre autres usités pour pallier à des problématiques récurrentes telles que le traitement des données bruitées ou la gestion des objets à haute dimension. Nous ne méprenons pas sur l importance de ces données bruitées qui peuvent en effet compromettre significativement la qualité des clusters. Elles influent directement sur les performances et le fonctionnement des algorithmes, qui plus est, sur la précision des clusters créés. La haute dimensionnalité des données (> 10 dimensions) enlève toute utilité aux mesures de distance et apportent aux objets une relative équidistance les uns par rapport aux autres. Nous adoptons la méthode du clustering par sous-espace comme solution à la problématique rencontrée. Ce genre de clustering se divise autour : De méthodes de recherche ascendante qui utilisent celles basées sur la densité, les grilles statiques ou adaptatives, De méthodes itératives de recherche descendante qui affectent des coefficients de pondération aux dimensions. Mots-clés : Clustering de données, réduction du bruit, haute-dimensionnalité des données, clustering hiérarchique, clustering par partition, clustering basé sur la densité, clustering basé sur les grilles

3 Introduction Mise en contexte Clustering, apprentissage non supervisé ou regroupement automatique sont des expressions similaires auxquelles nous devons nous familiariser ; elles convergent toutes dans la même direction et font référence à des méthodes qui se singularisent par : un regroupement de données issues elles-mêmes d un ensemble de données, en groupes homogènes inconnus initialement, en fonction de leur similarité. Les techniques de clustering voient leur intérêt se décupler très rapidement. Leurs applications progressives sont très porteuses et se retrouvent aujourd hui en nombre incalculable dans maints domaines. Nous pouvons citer par exemple l analyse de données économiques qui permet de segmenter un marché ou profiler des clients, la classification et catégorisation de documents sur le Web, la reconnaissance de formes et le traitement d images,...// Posons-nous à présent la question pertinente suivante et tentons d y répondre : quelles sont les raisons pour lesquelles ces techniques novatrices ont fait leur apparition? La réponse que nous apportons fait preuve de bon sens. Depuis l apparition de l informatique, nous sommes confrontés à une croissance effrénée de la quantité de données stockées dans le monde entier. Ces données se retrouvent sous formes diverses et variées et constituent un gigantesque vivier où l Homme vient puiser des informations et des connaissances pour en tirer le meilleur profit. Une analyse manuelle relève dès lors de l impossible et au vu de ce constat, l Homme crée des techniques de recherche, d analyses de données de plus en plus performantes. Une idée prédomine désormais : regrouper des données et en soustraire des connaissances. Tout pense à croire que cette idée est en relation avec l instinct primaire de l Homme qui par son comportement obéit à la logique aristotélicienne, celle qui "aime" tout catégoriser. Et pour cause, "Aristote n a pas vécu sous l ère informatique certes, cependant nous lui devons les premières classifications hiérarchiques systématiques des connaissances et des concepts. S inspirait-il des divisions utilisées pour l organisation des armées? Cette hypothèse nous semble plus que probable."[17]. Définition Nous utilisons de nos jours les techniques de clustering pour la découverte de groupes inconnus parmi certains ensembles de données. La classification peut être considérée comme une fin en soi, néanmoins elle est très efficace comme outil de pré-traitement et accepter par d autres i

4 méthodes de fouille de données. Figure 1: Étapes du datamining Dans le cadre d une analyse complète de datamining, l utilisation du clustering durant la phase de fouille de données s avère bien judicieuse. Argumentons : le seul fait de pratiquer à un regroupement des données en fonction de leur similarité peut faire apparaître des "motifs" utiles qui viennent alimenter nos connaissances. Cette alternative sied parfaitement à des méthodes telles que : l association, la récapitulation, la régression dans les cas d absence de classement des données avec cependant possibilité de détecter des similarités entre ces données. ii

5 Problématiques Nous utilisons dans notre vie quotidienne différentes méthodes de classement pour nos objets ; il en va de même pour les algorithmes de clustering. L article "Data Clustering : A review [8]" révèle qu il "n existe pas de techniques de clustering de données universellement applicables puisque nous sommes en présence d une grande variété de structures multidimensionnelles de données.". Cette affirmation nous conduit à ces deux questions : Quelles méthodes sont actuellement proposées? Quelles sont leur spécificité respective? Nous sommes amenés par ailleurs à œuvrer sur des ensembles de données potentiellement complexes avec plusieurs dimensions ou des ensembles contenants des données bruitées (des données parasites). Dès lors, des interrogations apparaissent : Que signifie la haute dimensionnalité des données? Quelles sont les techniques appropriées dans la gestion de ce problème? Quels sont les impacts occasionnés par les données bruitées sur une analyse de données? De quelle manière les algorithmes de clustering réagissent-ils face au bruit? A quelles méthodes faisons-nous appel pour l élimination de ce "bruit" dans un ensemble de données? Nous développerons principalement les réponses apportées à ces deux dernières questions et cernerons les problématiques qui en découlent. Nous souhaitons à toutes et à tous une bonne lecture, et de ne pas être : "Celui qui se perd dans ce qu il lit, mais celui qui s y trouve" Paul Valéry. iii

6 Table des matières Introduction iii Mise en contexte iii Définition iii Problématiques iii Table des matières iv 1 Méthodes de clustering Généralités Hiérarchiques Généralités Méthodes agglomératives et divisives Méthodes de mesure entre deux clusters Algorithme BIRCH Partitions Généralités Fonctionnement Les méthodes heuristiques Autres méthodes Méthode s appuyant sur la densité Méthode basée sur les grilles Réduction du bruit Introduction au problème Conséquences des données bruitées Avis des articles scientifiques Expérimentations Conclusion Les solutions Méthodes fondées sur la distance Méthodes fondées sur le regroupement Approche fondée sur le facteur des valeurs aberrantes locales Haute dimensionnalité des données Mise en contexte et problématiques Méthodes de clustering subspatial Présentation iv

7 3.2.2 Méthode de recherche ascendante Méthode itérative de recherche descendante Comparaison des méthodes ascendantes et descendantes Conclusion 32 Analyse Perspectives d évolution Table des figures 33 Bibliographie 35 Appendices 37 v

8 Chapitre 1 Méthodes de clustering 1.1 Généralités Un algorithme de clustering dit "efficace" gère toutes les situations. Dans une mission parfaitement accomplie, un algorithme devrait répondre aux critères suivants [7] : 1. Evolutivité : Les BDD sont capables de réceptionner un volume considérable de données notamment lorsque nous faisons appel dans le cadre de notre travail aux services du Web. Dans ce cas précis, les algorithmes communs perdent de leur efficacité dans le traitement des données qui sont légions et risquent de générer des résultats biaisés. La recherche d algorithmes évolutifs s avère donc indispensable. 2. Capacité à traiter différents types d attributs :Un algorithme peut aisément traiter des données dans des formats simples et uniques sous forme de nombre par exemple Nous utilisons cependant des types de données de plus en plus complexes tels que des graphiques, des images. De plus, les ensembles de données contiennent souvent plusieurs types de données, en simultané, compliquant fortement le fonctionnement des algorithmes. Notre objectif est de garantir des résultats probants ; cette phase de réalisation revêt donc un caractère essentiel dans le cheminement du "bon" algorithme. 3. Découverte de clusters de forme arbitraire : Différentes méthodes permettent de classer les données, chacune d entre elles se distingue par des spécificités qui affectent les résultats obtenus. Prenons un exemple pour affiner nos propos : Les algorithmes qui s appuient sur des mesures de distance pour effectuer des regroupements obtiennent au travers de leur recherche des amas de points de forme sphérique généralement de taille et de densité relativement similaires. In fine, ne négligeons pas l impact que peut avoir une méthode de classification ; il est primordial pour un "bon" algorithme d effectuer une détection pointue sur les résultats obtenus et nous confirmer la découverte d une forme arbitraire. 4. Exigences relatives aux connaissances du domaine pour déterminer les paramètres d entrée : Délivrer à un algorithme des informations relatives au domaine de recherche sous forme de paramètre d entrée, peut sembler dérisoire. Cependant l intervention humaine influe considérablement les résultats finals. En effet, les algorithmes de clustering peuvent être très sensibles à ces paramètres. Prenons un exemple concret : Si, pour fonctionner, l algorithme de clustering nécessite l intervention de l utilisateur pour renseigner le nombre de groupes (de clusters) souhaités, nous obtiendrons au final des résultats que nous ne pourrons pas qualifier de partiaux et généraux même s ils reproduiront fidèlement les souhaits formulés en amont par l usager. De ce fait, il est conseillé de réduire de façon maximale l intervention de l utilisateur dans le fonctionnement de l algorithme afin de ne pas ternir la qualité des résultats, et de conserver leur pertinence et leur précision. 5. Aptitude à faire face à des données bruitées : Dans le monde réel, les ensembles de données sont soumis aux inexactitudes de la vie. En effet, ces ensembles sont susceptibles de contenir des valeurs aberrantes, des données manquantes, inconnues ou erronées. Nous connaissons la sensibilité des algorithmes de clustering face au bruit ; celle-ci peut donc 1

9 conduire à des regroupements de mauvaise qualité. Pour remédier à cette sensibilité, les méthodes de clustering doivent faire preuve de robustesse. 6. Regroupement incrémentiel et insensibilité à l ordre d entrée : Des algorithmes fiables sont capables de gérer sans encombre les données dynamiques au fur et à mesure de leur arrivée sans retourner systématiquement à la case départ. Des algorithmes dits sensibles à l ordre d entrée des données fournissent des résultats diamétralement différents en fonction de l ordre de présentation de ces données. Nous devons de ce fait veiller à conserver une insensibilité dans l ordre d entrée des données. 7. Capacité à créer des regroupements à partir d importants volumes de données : La majorité des algorithmes font preuve d incompétence lorsqu il s agit de traiter plusieurs dimensions 1 : de nouveaux problèmes viennent se greffer à ceux déjà existants telle la dispersion des données. S approprier des clusters de qualité devient donc très complexe. 8. Problèmes liés au contexte, à l Interprétation et à l utilisation des résultats : Les utilisateurs exigent des résultats de clustering clairs et exploitables d où l importance d étudier la manière dont l objectif peut influencer le choix des fonctions et des méthodes de clustering. Tous ces constatations affectent le déroulement et les résultats du clustering. La littérature nous fait découvrir l existence de nombreux algorithmes de clustering et à notre grand dam l inexistence d une technique universelle de regroupement. Cependant, l organisation de ces algorithmes passe par différentes méthodes retenues en fonction de leur approche en matière de traitement des données : Les méthodes de clustering hiérarchiques étudiées en 1.2, Les méthodes de clustering par partition étudiées en 1.3, Les autres méthodes de clustering étudiées en Basées sur les grilles, + Basées sur la densité. Les cinq étapes du regroupement de données sont représentées sur la figure 1.1 : Prenons connaissance des étapes [8] : Figure 1.1: Étapes du clustering 1. La représentation de motifs : Cette étape correspond au nombre : de motifs, de classes, de types et d échelles disponibles pour un algorithme de clustering. La sélection de caractéristiques passe par la recherche d attributs les plus concrets dans un souci d identification des sous-espaces de recherche. L extraction de caractéristiques résume le jeu de données 2 par la création d une combinaison linéaire des attributs. Cette phase d ex- 1. Une dimension est un attribut ou une caractéristique d un jeu de données. 2. Un jeu de données est une matrice de valeurs. Les enregistrements représentent les instances ou objets, et les colonnes les dimensions 2

10 traction permet entre autres de produire de nouvelles caractéristiques saillantes. Notons que les deux méthodes précitées sont optionnelles dans cette étape, 2. La définition d un modèle de mesure de proximité approprié pour les données étudiées : Cette méthode s efforce de mesurer la distance entre motifs grâce à l utilisation de fonctions de mesure, 3. Le regroupement : Avec cette étape, nous touchons le centre du processus de clustering. Nous prendrons connaissance ci-après des nombreuses méthodes de regroupement utilisables à ce jour. Néanmoins, les deux plus communes sont les méthodes de clustering (1.2) et les méthodes par partition (1.3). La figure 1.2 permet d apprécier l étendue de ces dernières, 4. L abstraction des données (facultatif) : Cette étape autorise l extraction d une petite portion de chaque cluster. L être humain maîtrise théoriquement ce petit jeu de données, dans le cas contraire, cette phase est traitée par analyse automatique offrant sûreté et efficacité. 5. L évaluation des résultats (facultatif). La figure 1.1 nous démontre que certaines étapes donnent lieu à des retours en arrière ; notons dès lors que l expérience et la dextérité de l utilisateur revêtent un grande importance. En effet, une parfaite compréhension des résultats obtenus à chaque étape s avère nécessaire au regard de la qualité finale du cluster. Par ailleurs, l utilisateur se trouve en présence d un nombre considérable d algorithmes de clustering, il doit être en mesure de sélectionner le plus approprié face à la problématique rencontrée. Enfin, il doit être pourvu de suffisamment de connaissances liées au domaine d étude pour une sélection adéquate de sa part des variables d entrée. En résumé : nous attendons de l utilisateur qu il fasse preuve d éclectisme. Plusieurs regroupements de données sont réalisables pour un même jeu de données. Dans ce cas,l évaluation de la pertinence des résultats relève de la subjectivité et nous restons face à un problème récurrent. Différentes méthodes telles que l utilisation de données artificielles communément appelée "évaluation externe", de classes étiquetées ou le recours à un expert dans le domaine, constituent des métriques efficaces quant à la qualité statistique des résultats obtenus [3]. Figure 1.2: Découpage des méthodes de clustering [8] 3

11 Le terme de similarité revêt toute son importance dans le sens où le clustering est imprégnée de cette volonté à vouloir rassembler naturellement les groupes d objets 3. L algorithme s attèle à maximiser les similarités intra-classe, à minimiser les similarités inter-classe en vue d une création de sous-groupes de qualité. 3. Un objet ou une instance est une ligne dans un jeu de données. 4

12 1.2 Hiérarchiques Généralités Les méthodes de regroupement hiérarchique ont pour vocation de grouper les données sous forme hiérarchique c est à dire sous forme d arbre ou d un "Dendrogramme" composés de clusters : En plus d être visuelle, cette représentation trouve toute son utilité dans le résumé des données. La figure 1.4b montre un tel dendogramme. Ainsi le nœud au top de l arbre constitue l ensemble des données de la base. Un parcours de l arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d objets ; objets qui se caractérisent par une notion de similitude Méthodes agglomératives et divisives Deux méthodes diamétralement opposées se distinguent par leur capacité à créer de tels arbres : 1. La première méthode appelée méthode agglomérative débute au bas de l arbre bottom. Il y a autant de clusters que de données présents dans la base. A mesure que nous remontons dans l arbre, les objets se regroupent en formant leurs propres clusters, ces clusters fusionnent itérativement prenant ainsi de l ampleur jusqu à atteindre le nœud racine (top) 4. Les algorithmes BIRCH ou AGNES sont le parfait reflet de cette méthode (figure 1.3). 2. La deuxième méthode appelée méthode divisive prend sa source au noeud racine et place tous les objets dans un seul et unique cluster. Cette méthode divise successivement les clusters en sous-clusters de plus petite taille 5. L algorithme DIANA est un exemple de cette méthode (figure 1.3). Figure 1.3: Méthodes divisive et agglomérative 4. Nous sommes en présence du concept de généralisation si chère au paradigme objet 5. Notons l analogie avec le design pattern de spécialisation propre au concept de programmation orientée objet 5

13 La réalisation de l une ou l autre de ces étapes rend impossible un retour en arrière, ce qui confère une certaine rigidité à ces méthodes hiérarchiques. Un point positif se dégage cependant : un gain d économie en terme de mémoire centrale. Puisque nous venons de définir les axiomes qui régissent les algorithmes hiérarchiques, allons plus loin dans nos investigations et posons nous la question : De quelle manière pouvons-nous mesurer la distance entre deux clusters? Méthodes de mesure entre deux clusters Nous utiliserons principalement quatre mesures qui se fondent sur la distance entre clusters (mesure de liaison) : 1. La distance minimum : les algorithmes qui s appuient sur ce concept s intitulent Algorithme de clustering du plus proche voisin. "Si le processus de clustering est terminé quand la distance entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme est aussi appelé "Algorithme à simple lien"."[7]. La figure 1.4b illustre ce concept. Par ailleurs, un algorithme de type agglomératif qui utilise cette mesure de distance pour la construction d un arbre est appelé "minimal Spanning Tree Algorithm", 2. La distance maximum : les algorithmes qui adoptent cette technique se nomment Algorithme de clustering du voisin le plus éloigné. Contrairement à l algorithme à simple lien, dans le cas où le processus est achevé lorsque la distance maximale entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme sera qualifié d algorithme à lien complet. La figure 1.4c nous en donne un exemple. 3. La distance au milieu et 4. la distance moyenne : Ces deux distances cherchent un compromis par rapport aux deux distances extrêmes présentées ci-dessus ; elles se caractérisent à la fois par une sensibilité aux données bruitées et aux valeurs aberrantes. Notons que la distance au milieu se calcule facilement alors que le calcul de la distance moyenne s avère plus complexe voire même impossible dans certains cas. (a) Un jeu de données (b) Algorithme de clustering utilisant la méthode à simple lien. (c) Algorithme de clustering utilisant la méthode à lien complet Figure 1.4: Clustering hiérarchique ayant recours aux algorithmes à lien simple et à lien complet. [7] 6

14 1.2.4 Algorithme BIRCH BIRCH est l acronyme de "Balanced Iterative Reducing and Clustering using Hierarchies". Son fonctionnement se singularise par une division en quatre phases dont deux sont optionnelles : 1. Phase 1 : Dans un premier temps, l algorithme scanne la base de données pour construire un arbre de type CF-Tree (figure 1.5) placé dans la mémoire centrale de l ordinateur. Cet arbre qui permet de conserver la structure des données est composé de deux facteurs : Le facteur de branchement β qui correspond au nombre d enfants pour chaque noeud et le seuil noté T qui indique le diamètre maximal du sous-cluster. L arbre est construit dynamiquement en fonction de l insertion des objets, ce qui en fait un algorithme incrémental. Un objet est inséré dans la feuille la plus proche. Si le diamètre du sous-cluster après insertion de l objet est supérieur au seuil T la feuille est alors séparée, 2. Phase 2 (Optionnelle) : L algorithme peut condenser l arbre CF en un plus petit, 3. Phase 3 : L algorithme applique un algorithme de clustering pour regrouper les feuilles de l arbre CF. Les données bruitées sont élaguées et les unités denses sont fusionnées pour former de plus gros clusters, 4. Phase 4 (Optionnelle) : Cette phase raffine les clusters pour améliorer leur qualité cette étape cependant requiert un nouveau passage sur la base de données. Figure 1.5: Une structure CF-Tree [7] Dans la ressource bibliographique [20], Tian Zhang & Al affirment que la force de leur algorithme réside dans les points suivants : Chaque décision se prend sans scannage systématique de toutes les données favorisant ainsi un gain de puissance computationnelle non négligeable, L espace de données n est pas uniforme, ainsi BIRCH ne donne pas la même pondération à chaque point : Les clusters ainsi créés sont plus précis, Toute la mémoire disponible est utilisée pour créer des clusters de bonne qualité et ainsi minimiser le coût des entrées-sorties. BIRCH offre une bonne flexibilité puisqu il laisse à l utilisateur la possibilité de renseigner les valeurs de seuil et le nombre de clusters, cependant il devient un handicap pour un utilisateur non- expert. La qualité des clusters créés est dépendante des valeurs d entrée. BIRCH ne s apprêtent pas efficacement aux clusters de forme non sphérique car il adopte des valeurs telles que le diamètre et le radius pour le calcul des bornes du cluster. 7

15 1.3 Partitions Généralités Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de groupes (clusters) défini par avance, tel est l objectif que se fixent les méthodes de regroupement par partitionnement. Figure 1.6: Exemple de clustering par partition Fonctionnement Nous disposons principalement de deux procédés efficaces pour la création de partitions. La première méthode consiste à déceler l "optimum global" pour un ensemble de données. Plus précisément, elle construit toutes les partitions possibles, évalue par la suite la qualité de chaque groupe et retient enfin la meilleure partition. Cette technique augmente de manière exponentielle le nombre de partitions possibles rendant trop onéreux une utilisation constante de ressources. La seconde méthode est appelée méthode heuristique. Elle permet d acquérir au moins une bonne partition qui n est cependant pas nécessairement la partition "optimale". Elle nous épargne néanmoins l énumération exhaustive de toutes les partitions possibles ; elle est donc reconnue en tant que principale méthode utilisée Les méthodes heuristiques Comme nous venons de le décrire, les méthodes heuristiques ne décèlent pas systématiquement la partition "optimale". Plusieurs moyens existent cependant pour obtenir une bonne partition proche de la partition "optimale" : 8

16 première technique : elle représente chaque groupe (cluster) par son centre (nous parlons de centroïde) ; l algorithme K-means exploite cette méthode. deuxième technique : elle représente chaque groupe par un objet qui correspond au membre le plus proche du centre (nous parlons de médoïde). Les algorithmes K-medoids et PAM (Partition Around Medoids) se servent de cette méthode. K-means Dans un premier temps, l utilisateur va choisir le nombre de groupes qu il souhaite acquérir. L algorithme partitionne ensuite les objets en autant de groupes non vides sollicités par l utilisateur. Une fois la création des groupes achevée, nous pouvons calculer leur centre. Nous affectons chaque objet au groupe dont le "centre" est le plus proche. L algorithme recommence les deux dernières étapes autant de fois qu il est nécessaire jusqu à ce qu il n y ait plus de changements dans les groupes. Nous parlons dans ce cas de groupes stables ; la fin du travail de l algorithme correspond à ce que nous appelons un optimum local. Le schéma ci-après 1.7 récapitule le fonctionnement de l algorithme. Figure 1.7: Fonctionnement d une itération de l algorithme K-means Nous trouvons un intérêt dans le travail de cet algorithme par sa capacité à regrouper efficacement les données. Il souffre néanmoins de quelques faiblesses : Cet algorithme n est utilisable que lorsque la moyenne est définie posant ainsi problème à certains types de données, notamment les données non numériques. Nous devons sélectionner le nombre de groupes à l avance 1.8. Il est très sensible aux données bruitées et aux valeurs aberrantes puisque la moyenne est impactée. Cet algorithme ne détecte que des groupes de forme convexe. 9

17 Figure 1.8: Impact du choix du nombre de groupes K-medoids et PAM Cet algorithme par son fonctionnement se rapproche de l algorithme K-means. Nous choisissons un nombre de groupes et nous calculons le centre de chacun de ces groupes. Cependant, ce centre n est plus considéré comme point de référence à conserver. En effet, le centre du groupe correspond dans cet algorithme à l objet du groupe le plus proche du centre calculé (le centre est donc un objet "réel" et non plus un point "fictif"). Nous affectons ensuite les objets (hors objets considérés comme centre de groupe) au groupe dont l objet central est le plus limitrophe. Ces opérations se répètent jusqu à la parfaite stabilisation des groupes. La figure ci-dessous 1.9 récapitule le fonctionnement de l algorithme : Figure 1.9: Calcul du centre par l algorithme K-medoids L algorithme K-medoids présente un avantage sur l algorithme K-means par sa plus grande robustesse, il est nettement moins affecté par les données bruitées. L inconvénient cependant réside dans sa performance qui n égale pas celle de l algorithme K-means. Il conviendra donc parfaitement pour de petits jeux de données mais ne s affirmera pas sur un nombre plus conséquent de données. Pour pallier à cette problématique, une solution est retenue avec l algorithme CLARA qui fonctionne en parallèle avec PAM. CLARA correspond à une méthode d échantillonnages. 10

18 CLARA CLARA signifie Clustering LARge Application. Retenons l idée principale qui se dégage de cet algorithme : nous allons appliquer la méthode PAM à un échantillon de données. Pour ce faire, plusieurs échantillons sont extraits d un grand ensemble de données ; chaque échantillon ainsi prélevé est soumis à la méthode PAM. Nous sélectionnons ensuite le meilleur résultat. Cette combinaison de deux algorithmes présente un intérêt évident car nous faisons appel à l efficacité de PAM pour travailler sur de grands ensembles de points. Sa performance a cependant des limites, elle est tributaire de la taille et de la quantité des échantillons. Pour pallier à ce problème d échantillons, nous utiliserons une variante de CLARA appelée CLARANS. CLARANS améliore la qualité du travail par rapport à CLARA grâce à sa capacité à récupérer les échantillons de manière aléatoire (et non plus sélectionnés par l homme), et différents à chaque étape. 11

19 1.4 Autres méthodes Cette section présente deux autres méthodes qui permettent la pratique du clustering à savoir la méthode basée sur la densité et la méthode basée sur les grilles Méthode s appuyant sur la densité Cette méthode est un remède à la problématique récurrente des méthodes hiérarchiques et des méthodes par partition : ceux-ci gèrent correctement les clusters de forme sphérique, beaucoup moins les clusters de forme arbitraire (figure 1.10). Pour régir au mieux ces formes aléatoires, "il est nécessaire de considérer un cluster comme étant une région homogène de haute densité entourée de régions de faible densité"[3] comme le démontre concrètement la figure De plus, cette méthode est capable de gérer le bruit qui peut exister dans les données. Figure 1.10: BDD à formes particulières L algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est l algorithme le plus connu. Il contient trois données d entrée : 1. D : le jeu de données contenant n objet, 2. ɛ : le rayon, 3. MinP ts : Le nombre minimum de points qui doit être contenu dans le rayon ɛ pour que la zone soit considérée comme étant dense. Tout d abord, DBSCAN marque chaque objet contenu dans D comme non-visité. L algorithme fonctionne ensuite en deux étapes. En premier lieu, pour chaque objet p sélectionné aléatoirement, l algorithme le marque comme visité. Il teste ensuite si le voisinage décrit par le rayon ɛ et ayant pour centre l objet p contient au moins MinP ts objets. Si ce n est pas le cas, l objet est marqué et répertorié en tant que bruit. Sinon deux alternatives se présentent : soit l objet est rajouté à un cluster, soit un nouveau cluster est crée. L algorithme continue de cette manière aussi longtemps que subsistent des objets non-visités. Figure 1.11: Résultats des regroupements effectués par DBSCAN L utilisateur spécifie les valeurs MinP ts et ɛ, ce qui peut paraître complexe. Ces deux dernières valeurs étant globales, elles sont incapables de traiter des clusters de densités différentes. 12

20 1.4.2 Méthode basée sur les grilles Principes et challenges techniques Les algorithmes de clustering basés sur les grilles se conforment aux trois étapes suivantes : 1. Diviser l espace en cellules rectangulaires afin d obtenir une grille composée de cellules de taille équivalente. La figure 1.12 montre une telle grille, 2. Supprimer les cellules de basse densité c est à dire que les cellules qui possèdent une densité de points élevés s apparentent à des clusters, à contrario les cellules à peu de points à du bruit, 3. Combiner les cellules adjacentes ayant une forte densité pour former des clusters. Figure 1.12: Grille à deux dimensions pour la recherche de clusters La force de l approche par grille permet d obtenir un temps linéaire pour l assignement des points aux cellules : la complexité est donc de O(n), où n représente le nombre de points de données. Nous devons nécessairement nous arrêter un petit moment afin de méditer sur la problématique suivante : Puisque les cellules présentent une taille rectangulaire et fixe, elles ne viennent pas épouser systématiquement la forme du cluster. Une approche naïve consisterait à augmenter le nombre de cellules dans un but de précision. Le temps d exécution augmenterait de façon significative et plus encore en présence d un grand nombre de dimensions occasionnant par la même un problème de sur-partitionnement. Abordons une autre difficulté liée à l utilisation de ces méthodes fondées sur les grilles, celle de la haute dimensionnalité des données : une augmentation des données entraînerait systématiquement un surcroît impressionnant du nombre de cellules. A contrario, la création d une grille pourvue de peu de cellules pourrait engendrer des trous dans le cluster, le résultat ainsi obtenu ne serait donc pas significatif : c est bien là tout le problème du sous-partitionnement. Noircissons le tableau des difficultés et parlons de celle rencontrée lors de la recherche de clusters dans un espace à pleine dimension. Comme précisé dans [15],"si nous rajoutions de nombreuses variables additionnelles à chaque point d un cluster de la figure 1.12 et que ces points soient uniformément répartis, la majorité des points se retrouveraient dans une cellule séparée de cet 13

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT Introduction NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT (Applicable aux audits d états financiers pour les périodes ouvertes à compter du 15 décembre 2009) SOMMAIRE Paragraphe Champ d application

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Informatique Première et seconde années

Plus en détail

Savoirs de base en sécurité routière mars 2006. Lieux accidentés. Détection et traitement - Milieu urbain et milieu interurbain

Savoirs de base en sécurité routière mars 2006. Lieux accidentés. Détection et traitement - Milieu urbain et milieu interurbain Sétra interurbain urbain Savoirs de base en sécurité routière mars 2006 Lieux accidentés - Milieu urbain et milieu interurbain Avertissement : cette série de fiches est destinée à fournir une information

Plus en détail

Comparaison de modèles mathématiques et implémentation d une métaheuristique pour le Master Surgical Scheduling Problem

Comparaison de modèles mathématiques et implémentation d une métaheuristique pour le Master Surgical Scheduling Problem École Polytechnique de l Université de Tours 64, Avenue Jean Portalis 37200 TOURS, FRANCE Tél. +33 (0)2 47 36 14 14 www.polytech.univ-tours.fr Département Informatique 5 e année 2013-2014 Rapport de Projet

Plus en détail

Apprentissage par exploration

Apprentissage par exploration Apprentissage par exploration 1/32 Introduction Méthode particulière d acquisition de connaissance : apprentissage artificiel, à partir d induction. obtention des connaissances à partir d exemples. On

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel)

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel) UPMC - UFR 99 Licence d informatique 205/206 Module 3I009 Cours 4 : Méthodes d accès aux données Plan Fonctions et structure des SGBD Structures physiques Stockage des données Organisation de fichiers

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais 11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Droit d auteur Max2G 2012 : Reproduction permise avec obligation d indiquer la source www.max2g.com

Droit d auteur Max2G 2012 : Reproduction permise avec obligation d indiquer la source www.max2g.com Max2G Démarche d analyse de risques avec l Assistant Méhari L analyse de risques est une approche de gestion permettant d identifier les risques négatifs pouvant affecter une organisation et de déterminer

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Chapitre 3 RÉGRESSION ET CORRÉLATION

Chapitre 3 RÉGRESSION ET CORRÉLATION Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 3 RÉGRESSION ET CORRÉLATION La corrélation est une notion couramment utilisée dans toutes les applications

Plus en détail

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Dossier de planification initiale Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE

L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE DIDIER LECLÈRE L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE Cinquième édition LES ESSENTIELS DE LA FINANCE, 1997, 2001, 2002, 2004, 2011 ISBN : 978-2-212-54964-5 Sommaire Introduction Les objectifs de la

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Métaheuristique. Jérémy CHANUT Charles BALLARINI

Métaheuristique. Jérémy CHANUT Charles BALLARINI Métaheuristique Jérémy CHANUT Charles BALLARINI 15 octobre 2012 CHAPITRE 1 INTRODUCTION Ce projet consiste en la résolution du problème des composants électroniques par deux méthodes : Recuit simulé Algorithme

Plus en détail

Analyse abstraite de missions sous PILOT

Analyse abstraite de missions sous PILOT Analyse abstraite de missions sous PILOT Damien Massé EA 3883, Université de Bretagne Occidentale, Brest damien.masse@univ-brest.fr Résumé Nous étudions la possibilité de réaliser un analyseur par interprétation

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Initiation Access 2003

Initiation Access 2003 Initiation Access 2003 Sommaire Introduction...3 1. Création d une base...3 1.1. Modélisation...3 1.2. Création de la base...4 2. Les tables...5 2.1. Création d'une table en mode Création...5 2.2. Les

Plus en détail

2 Probabilités conditionnelles. Événements indépendants

2 Probabilités conditionnelles. Événements indépendants 2 Probabilités conditionnelles. Événements indépendants 2.1 Probabilité conditionnelle Soient A et B deux événements tels que P(B) > 0. Soit alors P(A B), la probabilité que A se réalise, B étant réalisé.

Plus en détail

Simulations de Monte Carlo en finance : Pricer d option

Simulations de Monte Carlo en finance : Pricer d option Emma Alfonsi, Xavier Milhaud - M2R SAF Simulations de Monte Carlo en finance : Pricer d option Sous la direction de M. Pierre Alain Patard ISFA - Mars 2008 . 1 Table des matières 1 Introduction 4 2 Un

Plus en détail

Programme de Première

Programme de Première BAC TECHNO STAV 66 I. Algèbre Programme de Première Objectif 1 - Effectuer de manière autonome des calculs numériques ou algébriques, résoudre des équations ou inéquations en vue de résoudre des problèmes

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

Visibilité polygone à polygone :

Visibilité polygone à polygone : Introduction Visibilité polygone à polygone : calcul, représentation, applications Frédéric Mora Université de Poitiers - Laboratoire SIC 10 juillet 2006 1 La visibilité Introduction Contexte L espace

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Etude de la suppression de clés dans les arbres lexicographiques équilibrés

Etude de la suppression de clés dans les arbres lexicographiques équilibrés Université de Tours UFR Sciences & Techniques Av. Monge, Parc de Grandmont 37200 TOURS, FRANCE Tél. (33)2-47-36-70-20 www.univ-tours.fr http://depinfo.univ-tours.fr Département d Informatique Projet d

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Factorisation des matrices creuses

Factorisation des matrices creuses Chapitre 5 Factorisation des matrices creuses 5.1 Matrices creuses La plupart des codes de simulation numérique en mécanique des fluides ou des structures et en électromagnétisme utilisent des discrétisations

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Problème combinatoire sur le réseau de transport de gaz. Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS

Problème combinatoire sur le réseau de transport de gaz. Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS Problème combinatoire sur le réseau de transport de gaz Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS Au programme Présentation du problème Un problème d optimisation

Plus en détail

Enseignement secondaire technique. Outils de gestion sur poste informatique

Enseignement secondaire technique. Outils de gestion sur poste informatique Enseignement secondaire technique Régime professionnel Professions du commerce Division de l'apprentissage commercial Section des employés administratifs et commerciaux Section des employés administratifs

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

BE1 2 : Phase d analyse Gestion des prêts dans une médiathèque

BE1 2 : Phase d analyse Gestion des prêts dans une médiathèque Gestion des prêts dans une médiathèque Équipe enseignante Revision : 1302 CSC 4002 Télécom SudParis Octobre 2015 Première étape : mise au point de la solution, aspect statique L étape d analyse nécessite

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Dossier de Validation des Acquis de l expérience

Dossier de Validation des Acquis de l expérience Dossier de Validation des Acquis de l expérience Etape : 2 Guide de réalisation du dossier de présentation de V.A.E. Demande concernant le Diplôme de l Ipag Diplôme de Formation Supérieure au Management

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

Espaces vectoriels et applications linéaires

Espaces vectoriels et applications linéaires Espaces vectoriels et applications linéaires Exercice 1 On considère l'ensemble E des matrices carrées d'ordre 3 défini par,,, 1) Montrer que est un sous-espace vectoriel de l'espace vectoriel des matrices

Plus en détail

L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion.

L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion. www.julienrio.com Introduction: L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion. Cet article s est inspiré de l ouvrage

Plus en détail

Création d un catalogue en ligne

Création d un catalogue en ligne 5 Création d un catalogue en ligne Au sommaire de ce chapitre Fonctionnement théorique Définition de jeux d enregistrements Insertion de contenu dynamique Aperçu des données Finalisation de la page de

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Excel Outils avancés [sv]

Excel Outils avancés [sv] Excel Outils avancés [sv] K. Zampieri, Version 14 octobre 2013 Table des matières 1 Le Solveur / sv00mcours1 3 1.1 Installation du Solveur............................ 3 1.2 Exemple : Utilisation du Solveur.......................

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Ecole Nationale Supérieure d Arts et Métiers Meknès

Ecole Nationale Supérieure d Arts et Métiers Meknès Ecole Nationale Supérieure d Arts et Métiers Meknès EFFECTUE AUPRES D IMACAB Du 01/07/02 Au 05/08/02 Préparé par : Encadré par : CHADMI ISSAM M.HABTI Année Universitaire: 2001/2002 Ensam-Méknes - 1 - imacab

Plus en détail

Module 24 : Analyse de scénarios

Module 24 : Analyse de scénarios Module 24 : Analyse de scénarios 24.0 Introduction Ce module enseigne un sous-ensemble de techniques de création de modèle qui, dans Excel 2007, constitue l «analyse de scénarios». Ces techniques sont

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS 1. Pourquoi il est indispensable de surveiller les coûts d entrées des articles fabriqués 1.1. La règle de base de valorisation du stock

Plus en détail

Freestyle : Sculpting Meshes with Self-Adaptive Topology

Freestyle : Sculpting Meshes with Self-Adaptive Topology Freestyle : Sculpting Meshes with Self-Adaptive Topology Rapport Recette Étudiants : Charles Garibal, Maxime Robinot, Mathieu Dachy Tuteur : Loïc Barthe 20/02/2015 1 I) Introduction Rappel : Objectif du

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE Table des matières 1. Introduction... 1 2. Développement... 2 2.1. Droit successoral, réserve des héritiers... 2 2.2.

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE

L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE DIDIER LECLÈRE L ESSENTIEL DE LA COMPTABILITÉ ANALYTIQUE Cinquième édition LES ESSENTIELS DE LA FINANCE, 1997, 2001, 2002, 2004, 2011 ISBN : 978-2-212-54964-5 PREMIÈRE PARTIE L analyse des coûts complets

Plus en détail

Systèmes de Fichiers

Systèmes de Fichiers Systèmes de Fichiers Hachage et Arbres B Serge Abiteboul INRIA February 28, 2008 Serge Abiteboul (INRIA) Systèmes de Fichiers February 28, 2008 1 / 26 Systèmes de fichiers et SGBD Introduction Hiérarchie

Plus en détail

Enquête consommation - Tableaux croisés dynamiques

Enquête consommation - Tableaux croisés dynamiques Enquête consommation Tableaux croisés dynamiques 1. Chargement des données dans Excel Souvent les données collectées sont stockées dans un fichier au format texte, dont les informations sont séparées par

Plus en détail

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 résumé : Ce projet a pour but de récupérer des données géolocalisées

Plus en détail

«Défaire» un nombre entier pour en faire une liste dont les éléments sont les chiffres de ce nombre. Deux applications.

«Défaire» un nombre entier pour en faire une liste dont les éléments sont les chiffres de ce nombre. Deux applications. «Défaire» un nombre entier pour en faire une liste dont les éléments sont les chiffres de ce nombre. Deux applications. En fait, ce sont les applications en question qui posent le problème du titre : Première

Plus en détail

Enquête EPCI 2014 : l appropriation des TIC par les intercommunalités bretonnes

Enquête EPCI 2014 : l appropriation des TIC par les intercommunalités bretonnes Enquête EPCI 2014 : l appropriation des TIC par les intercommunalités bretonnes Nicolas Deporte & Margot Beauchamps Observatoire du GIS M@rsouin Prenant en compte le rôle croissant de l échelon intercommunal

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

LES MÉTHODES D INVESTIGATION

LES MÉTHODES D INVESTIGATION LES MÉTHODES D INVESTIGATION Une méthode d investigation est une procédure définie qui permet d interroger scientifiquement une certaine réalité. Pour appréhender un phénomène, tout chercheur doit faire

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Outsourcing : la sauvegarde en ligne des données de l entreprise.

Outsourcing : la sauvegarde en ligne des données de l entreprise. Outsourcing : la sauvegarde en ligne des données de l entreprise. Sur quels marchés votre entreprise de Sauvegarde en Ligne évolue t elle? Dans un contexte de montée en puissance de l insécurité, les solutions

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Pierre-Louis GONZALEZ

Pierre-Louis GONZALEZ SEGMENTATION Pierre-Louis GONZALEZ 1 I. Les méthodes de segmentation. Introduction Les méthodes de segmentation cherchent à résoudre les problèmes de discrimination et de régression en divisant de façon

Plus en détail

Automates Cellulaires : Jeu de la Vie

Automates Cellulaires : Jeu de la Vie Automates Cellulaires : Jeu de la Vie November 13, 2010 Laurent Orseau Antoine Cornuéjols 1 Introduction Le grand public se fait souvent une idée bien

Plus en détail

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

1. Faire Démarrer, Paramètres, Panneau de configuration, Outils d administration, Gestion de l ordinateur.

1. Faire Démarrer, Paramètres, Panneau de configuration, Outils d administration, Gestion de l ordinateur. TP PERSONNALISER SON POSTE DE TRAVAIL LES COMPTES, LES GROUPES C'EST QUOI? Les comptes et les groupes permettent de gérer plus facilement l administration d une machine. Il semble assez logique que sur

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Type du document MANUEL UTILISATEUR. Titre. Création carte situation: Manuel Utilisateur v 2.0. Création carte situation. Diffusion.

Type du document MANUEL UTILISATEUR. Titre. Création carte situation: Manuel Utilisateur v 2.0. Création carte situation. Diffusion. Type du document MANUEL UTILISATEUR Titre Création carte situation Date 14/05/2008 19/05/2009 Version 1.0 2.0 Auteur S Barthon S Barthon Commentaires Création du document Ajout de l utilisation de ArcGis

Plus en détail

PROCÉDURE DE SÉLECTION POUR LES CONTRATS DE GÉNIE CIVIL

PROCÉDURE DE SÉLECTION POUR LES CONTRATS DE GÉNIE CIVIL PROCÉDURE DE SÉLECTION POUR LES CONTRATS DE GÉNIE CIVIL J.L. Baldy Division ST - Groupe Génie Civil (ST/CE) CERN, Genève, Suisse Résumé L exposé débute par le rappel de quelques caractéristiques du projet

Plus en détail