Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Dimension: px
Commencer à balayer dès la page:

Download "Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt"

Transcription

1 Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt

2 Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte similarité intra-classe et une faible similarité inter-classe. Un nombre conséquent d algorithmes nous sont présentés avec leurs avantages mais aussi leurs inconvénients. De ce fait, la présence d un utilisateur expert capable de jugement objectif est fortement recommandée pour le choix des dimensions significatives et l analyse des résultats. D une manière schématique, nous catégorisons les algorithmes de clustering autour de plusieurs méthodes : hiérarchique, par partition, basée sur la densité et sur les grilles. Les algorithmes sont entre autres usités pour pallier à des problématiques récurrentes telles que le traitement des données bruitées ou la gestion des objets à haute dimension. Nous ne méprenons pas sur l importance de ces données bruitées qui peuvent en effet compromettre significativement la qualité des clusters. Elles influent directement sur les performances et le fonctionnement des algorithmes, qui plus est, sur la précision des clusters créés. La haute dimensionnalité des données (> 10 dimensions) enlève toute utilité aux mesures de distance et apportent aux objets une relative équidistance les uns par rapport aux autres. Nous adoptons la méthode du clustering par sous-espace comme solution à la problématique rencontrée. Ce genre de clustering se divise autour : De méthodes de recherche ascendante qui utilisent celles basées sur la densité, les grilles statiques ou adaptatives, De méthodes itératives de recherche descendante qui affectent des coefficients de pondération aux dimensions. Mots-clés : Clustering de données, réduction du bruit, haute-dimensionnalité des données, clustering hiérarchique, clustering par partition, clustering basé sur la densité, clustering basé sur les grilles

3 Introduction Mise en contexte Clustering, apprentissage non supervisé ou regroupement automatique sont des expressions similaires auxquelles nous devons nous familiariser ; elles convergent toutes dans la même direction et font référence à des méthodes qui se singularisent par : un regroupement de données issues elles-mêmes d un ensemble de données, en groupes homogènes inconnus initialement, en fonction de leur similarité. Les techniques de clustering voient leur intérêt se décupler très rapidement. Leurs applications progressives sont très porteuses et se retrouvent aujourd hui en nombre incalculable dans maints domaines. Nous pouvons citer par exemple l analyse de données économiques qui permet de segmenter un marché ou profiler des clients, la classification et catégorisation de documents sur le Web, la reconnaissance de formes et le traitement d images,...// Posons-nous à présent la question pertinente suivante et tentons d y répondre : quelles sont les raisons pour lesquelles ces techniques novatrices ont fait leur apparition? La réponse que nous apportons fait preuve de bon sens. Depuis l apparition de l informatique, nous sommes confrontés à une croissance effrénée de la quantité de données stockées dans le monde entier. Ces données se retrouvent sous formes diverses et variées et constituent un gigantesque vivier où l Homme vient puiser des informations et des connaissances pour en tirer le meilleur profit. Une analyse manuelle relève dès lors de l impossible et au vu de ce constat, l Homme crée des techniques de recherche, d analyses de données de plus en plus performantes. Une idée prédomine désormais : regrouper des données et en soustraire des connaissances. Tout pense à croire que cette idée est en relation avec l instinct primaire de l Homme qui par son comportement obéit à la logique aristotélicienne, celle qui "aime" tout catégoriser. Et pour cause, "Aristote n a pas vécu sous l ère informatique certes, cependant nous lui devons les premières classifications hiérarchiques systématiques des connaissances et des concepts. S inspirait-il des divisions utilisées pour l organisation des armées? Cette hypothèse nous semble plus que probable."[17]. Définition Nous utilisons de nos jours les techniques de clustering pour la découverte de groupes inconnus parmi certains ensembles de données. La classification peut être considérée comme une fin en soi, néanmoins elle est très efficace comme outil de pré-traitement et accepter par d autres i

4 méthodes de fouille de données. Figure 1: Étapes du datamining Dans le cadre d une analyse complète de datamining, l utilisation du clustering durant la phase de fouille de données s avère bien judicieuse. Argumentons : le seul fait de pratiquer à un regroupement des données en fonction de leur similarité peut faire apparaître des "motifs" utiles qui viennent alimenter nos connaissances. Cette alternative sied parfaitement à des méthodes telles que : l association, la récapitulation, la régression dans les cas d absence de classement des données avec cependant possibilité de détecter des similarités entre ces données. ii

5 Problématiques Nous utilisons dans notre vie quotidienne différentes méthodes de classement pour nos objets ; il en va de même pour les algorithmes de clustering. L article "Data Clustering : A review [8]" révèle qu il "n existe pas de techniques de clustering de données universellement applicables puisque nous sommes en présence d une grande variété de structures multidimensionnelles de données.". Cette affirmation nous conduit à ces deux questions : Quelles méthodes sont actuellement proposées? Quelles sont leur spécificité respective? Nous sommes amenés par ailleurs à œuvrer sur des ensembles de données potentiellement complexes avec plusieurs dimensions ou des ensembles contenants des données bruitées (des données parasites). Dès lors, des interrogations apparaissent : Que signifie la haute dimensionnalité des données? Quelles sont les techniques appropriées dans la gestion de ce problème? Quels sont les impacts occasionnés par les données bruitées sur une analyse de données? De quelle manière les algorithmes de clustering réagissent-ils face au bruit? A quelles méthodes faisons-nous appel pour l élimination de ce "bruit" dans un ensemble de données? Nous développerons principalement les réponses apportées à ces deux dernières questions et cernerons les problématiques qui en découlent. Nous souhaitons à toutes et à tous une bonne lecture, et de ne pas être : "Celui qui se perd dans ce qu il lit, mais celui qui s y trouve" Paul Valéry. iii

6 Table des matières Introduction iii Mise en contexte iii Définition iii Problématiques iii Table des matières iv 1 Méthodes de clustering Généralités Hiérarchiques Généralités Méthodes agglomératives et divisives Méthodes de mesure entre deux clusters Algorithme BIRCH Partitions Généralités Fonctionnement Les méthodes heuristiques Autres méthodes Méthode s appuyant sur la densité Méthode basée sur les grilles Réduction du bruit Introduction au problème Conséquences des données bruitées Avis des articles scientifiques Expérimentations Conclusion Les solutions Méthodes fondées sur la distance Méthodes fondées sur le regroupement Approche fondée sur le facteur des valeurs aberrantes locales Haute dimensionnalité des données Mise en contexte et problématiques Méthodes de clustering subspatial Présentation iv

7 3.2.2 Méthode de recherche ascendante Méthode itérative de recherche descendante Comparaison des méthodes ascendantes et descendantes Conclusion 32 Analyse Perspectives d évolution Table des figures 33 Bibliographie 35 Appendices 37 v

8 Chapitre 1 Méthodes de clustering 1.1 Généralités Un algorithme de clustering dit "efficace" gère toutes les situations. Dans une mission parfaitement accomplie, un algorithme devrait répondre aux critères suivants [7] : 1. Evolutivité : Les BDD sont capables de réceptionner un volume considérable de données notamment lorsque nous faisons appel dans le cadre de notre travail aux services du Web. Dans ce cas précis, les algorithmes communs perdent de leur efficacité dans le traitement des données qui sont légions et risquent de générer des résultats biaisés. La recherche d algorithmes évolutifs s avère donc indispensable. 2. Capacité à traiter différents types d attributs :Un algorithme peut aisément traiter des données dans des formats simples et uniques sous forme de nombre par exemple Nous utilisons cependant des types de données de plus en plus complexes tels que des graphiques, des images. De plus, les ensembles de données contiennent souvent plusieurs types de données, en simultané, compliquant fortement le fonctionnement des algorithmes. Notre objectif est de garantir des résultats probants ; cette phase de réalisation revêt donc un caractère essentiel dans le cheminement du "bon" algorithme. 3. Découverte de clusters de forme arbitraire : Différentes méthodes permettent de classer les données, chacune d entre elles se distingue par des spécificités qui affectent les résultats obtenus. Prenons un exemple pour affiner nos propos : Les algorithmes qui s appuient sur des mesures de distance pour effectuer des regroupements obtiennent au travers de leur recherche des amas de points de forme sphérique généralement de taille et de densité relativement similaires. In fine, ne négligeons pas l impact que peut avoir une méthode de classification ; il est primordial pour un "bon" algorithme d effectuer une détection pointue sur les résultats obtenus et nous confirmer la découverte d une forme arbitraire. 4. Exigences relatives aux connaissances du domaine pour déterminer les paramètres d entrée : Délivrer à un algorithme des informations relatives au domaine de recherche sous forme de paramètre d entrée, peut sembler dérisoire. Cependant l intervention humaine influe considérablement les résultats finals. En effet, les algorithmes de clustering peuvent être très sensibles à ces paramètres. Prenons un exemple concret : Si, pour fonctionner, l algorithme de clustering nécessite l intervention de l utilisateur pour renseigner le nombre de groupes (de clusters) souhaités, nous obtiendrons au final des résultats que nous ne pourrons pas qualifier de partiaux et généraux même s ils reproduiront fidèlement les souhaits formulés en amont par l usager. De ce fait, il est conseillé de réduire de façon maximale l intervention de l utilisateur dans le fonctionnement de l algorithme afin de ne pas ternir la qualité des résultats, et de conserver leur pertinence et leur précision. 5. Aptitude à faire face à des données bruitées : Dans le monde réel, les ensembles de données sont soumis aux inexactitudes de la vie. En effet, ces ensembles sont susceptibles de contenir des valeurs aberrantes, des données manquantes, inconnues ou erronées. Nous connaissons la sensibilité des algorithmes de clustering face au bruit ; celle-ci peut donc 1

9 conduire à des regroupements de mauvaise qualité. Pour remédier à cette sensibilité, les méthodes de clustering doivent faire preuve de robustesse. 6. Regroupement incrémentiel et insensibilité à l ordre d entrée : Des algorithmes fiables sont capables de gérer sans encombre les données dynamiques au fur et à mesure de leur arrivée sans retourner systématiquement à la case départ. Des algorithmes dits sensibles à l ordre d entrée des données fournissent des résultats diamétralement différents en fonction de l ordre de présentation de ces données. Nous devons de ce fait veiller à conserver une insensibilité dans l ordre d entrée des données. 7. Capacité à créer des regroupements à partir d importants volumes de données : La majorité des algorithmes font preuve d incompétence lorsqu il s agit de traiter plusieurs dimensions 1 : de nouveaux problèmes viennent se greffer à ceux déjà existants telle la dispersion des données. S approprier des clusters de qualité devient donc très complexe. 8. Problèmes liés au contexte, à l Interprétation et à l utilisation des résultats : Les utilisateurs exigent des résultats de clustering clairs et exploitables d où l importance d étudier la manière dont l objectif peut influencer le choix des fonctions et des méthodes de clustering. Tous ces constatations affectent le déroulement et les résultats du clustering. La littérature nous fait découvrir l existence de nombreux algorithmes de clustering et à notre grand dam l inexistence d une technique universelle de regroupement. Cependant, l organisation de ces algorithmes passe par différentes méthodes retenues en fonction de leur approche en matière de traitement des données : Les méthodes de clustering hiérarchiques étudiées en 1.2, Les méthodes de clustering par partition étudiées en 1.3, Les autres méthodes de clustering étudiées en Basées sur les grilles, + Basées sur la densité. Les cinq étapes du regroupement de données sont représentées sur la figure 1.1 : Prenons connaissance des étapes [8] : Figure 1.1: Étapes du clustering 1. La représentation de motifs : Cette étape correspond au nombre : de motifs, de classes, de types et d échelles disponibles pour un algorithme de clustering. La sélection de caractéristiques passe par la recherche d attributs les plus concrets dans un souci d identification des sous-espaces de recherche. L extraction de caractéristiques résume le jeu de données 2 par la création d une combinaison linéaire des attributs. Cette phase d ex- 1. Une dimension est un attribut ou une caractéristique d un jeu de données. 2. Un jeu de données est une matrice de valeurs. Les enregistrements représentent les instances ou objets, et les colonnes les dimensions 2

10 traction permet entre autres de produire de nouvelles caractéristiques saillantes. Notons que les deux méthodes précitées sont optionnelles dans cette étape, 2. La définition d un modèle de mesure de proximité approprié pour les données étudiées : Cette méthode s efforce de mesurer la distance entre motifs grâce à l utilisation de fonctions de mesure, 3. Le regroupement : Avec cette étape, nous touchons le centre du processus de clustering. Nous prendrons connaissance ci-après des nombreuses méthodes de regroupement utilisables à ce jour. Néanmoins, les deux plus communes sont les méthodes de clustering (1.2) et les méthodes par partition (1.3). La figure 1.2 permet d apprécier l étendue de ces dernières, 4. L abstraction des données (facultatif) : Cette étape autorise l extraction d une petite portion de chaque cluster. L être humain maîtrise théoriquement ce petit jeu de données, dans le cas contraire, cette phase est traitée par analyse automatique offrant sûreté et efficacité. 5. L évaluation des résultats (facultatif). La figure 1.1 nous démontre que certaines étapes donnent lieu à des retours en arrière ; notons dès lors que l expérience et la dextérité de l utilisateur revêtent un grande importance. En effet, une parfaite compréhension des résultats obtenus à chaque étape s avère nécessaire au regard de la qualité finale du cluster. Par ailleurs, l utilisateur se trouve en présence d un nombre considérable d algorithmes de clustering, il doit être en mesure de sélectionner le plus approprié face à la problématique rencontrée. Enfin, il doit être pourvu de suffisamment de connaissances liées au domaine d étude pour une sélection adéquate de sa part des variables d entrée. En résumé : nous attendons de l utilisateur qu il fasse preuve d éclectisme. Plusieurs regroupements de données sont réalisables pour un même jeu de données. Dans ce cas,l évaluation de la pertinence des résultats relève de la subjectivité et nous restons face à un problème récurrent. Différentes méthodes telles que l utilisation de données artificielles communément appelée "évaluation externe", de classes étiquetées ou le recours à un expert dans le domaine, constituent des métriques efficaces quant à la qualité statistique des résultats obtenus [3]. Figure 1.2: Découpage des méthodes de clustering [8] 3

11 Le terme de similarité revêt toute son importance dans le sens où le clustering est imprégnée de cette volonté à vouloir rassembler naturellement les groupes d objets 3. L algorithme s attèle à maximiser les similarités intra-classe, à minimiser les similarités inter-classe en vue d une création de sous-groupes de qualité. 3. Un objet ou une instance est une ligne dans un jeu de données. 4

12 1.2 Hiérarchiques Généralités Les méthodes de regroupement hiérarchique ont pour vocation de grouper les données sous forme hiérarchique c est à dire sous forme d arbre ou d un "Dendrogramme" composés de clusters : En plus d être visuelle, cette représentation trouve toute son utilité dans le résumé des données. La figure 1.4b montre un tel dendogramme. Ainsi le nœud au top de l arbre constitue l ensemble des données de la base. Un parcours de l arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d objets ; objets qui se caractérisent par une notion de similitude Méthodes agglomératives et divisives Deux méthodes diamétralement opposées se distinguent par leur capacité à créer de tels arbres : 1. La première méthode appelée méthode agglomérative débute au bas de l arbre bottom. Il y a autant de clusters que de données présents dans la base. A mesure que nous remontons dans l arbre, les objets se regroupent en formant leurs propres clusters, ces clusters fusionnent itérativement prenant ainsi de l ampleur jusqu à atteindre le nœud racine (top) 4. Les algorithmes BIRCH ou AGNES sont le parfait reflet de cette méthode (figure 1.3). 2. La deuxième méthode appelée méthode divisive prend sa source au noeud racine et place tous les objets dans un seul et unique cluster. Cette méthode divise successivement les clusters en sous-clusters de plus petite taille 5. L algorithme DIANA est un exemple de cette méthode (figure 1.3). Figure 1.3: Méthodes divisive et agglomérative 4. Nous sommes en présence du concept de généralisation si chère au paradigme objet 5. Notons l analogie avec le design pattern de spécialisation propre au concept de programmation orientée objet 5

13 La réalisation de l une ou l autre de ces étapes rend impossible un retour en arrière, ce qui confère une certaine rigidité à ces méthodes hiérarchiques. Un point positif se dégage cependant : un gain d économie en terme de mémoire centrale. Puisque nous venons de définir les axiomes qui régissent les algorithmes hiérarchiques, allons plus loin dans nos investigations et posons nous la question : De quelle manière pouvons-nous mesurer la distance entre deux clusters? Méthodes de mesure entre deux clusters Nous utiliserons principalement quatre mesures qui se fondent sur la distance entre clusters (mesure de liaison) : 1. La distance minimum : les algorithmes qui s appuient sur ce concept s intitulent Algorithme de clustering du plus proche voisin. "Si le processus de clustering est terminé quand la distance entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme est aussi appelé "Algorithme à simple lien"."[7]. La figure 1.4b illustre ce concept. Par ailleurs, un algorithme de type agglomératif qui utilise cette mesure de distance pour la construction d un arbre est appelé "minimal Spanning Tree Algorithm", 2. La distance maximum : les algorithmes qui adoptent cette technique se nomment Algorithme de clustering du voisin le plus éloigné. Contrairement à l algorithme à simple lien, dans le cas où le processus est achevé lorsque la distance maximale entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme sera qualifié d algorithme à lien complet. La figure 1.4c nous en donne un exemple. 3. La distance au milieu et 4. la distance moyenne : Ces deux distances cherchent un compromis par rapport aux deux distances extrêmes présentées ci-dessus ; elles se caractérisent à la fois par une sensibilité aux données bruitées et aux valeurs aberrantes. Notons que la distance au milieu se calcule facilement alors que le calcul de la distance moyenne s avère plus complexe voire même impossible dans certains cas. (a) Un jeu de données (b) Algorithme de clustering utilisant la méthode à simple lien. (c) Algorithme de clustering utilisant la méthode à lien complet Figure 1.4: Clustering hiérarchique ayant recours aux algorithmes à lien simple et à lien complet. [7] 6

14 1.2.4 Algorithme BIRCH BIRCH est l acronyme de "Balanced Iterative Reducing and Clustering using Hierarchies". Son fonctionnement se singularise par une division en quatre phases dont deux sont optionnelles : 1. Phase 1 : Dans un premier temps, l algorithme scanne la base de données pour construire un arbre de type CF-Tree (figure 1.5) placé dans la mémoire centrale de l ordinateur. Cet arbre qui permet de conserver la structure des données est composé de deux facteurs : Le facteur de branchement β qui correspond au nombre d enfants pour chaque noeud et le seuil noté T qui indique le diamètre maximal du sous-cluster. L arbre est construit dynamiquement en fonction de l insertion des objets, ce qui en fait un algorithme incrémental. Un objet est inséré dans la feuille la plus proche. Si le diamètre du sous-cluster après insertion de l objet est supérieur au seuil T la feuille est alors séparée, 2. Phase 2 (Optionnelle) : L algorithme peut condenser l arbre CF en un plus petit, 3. Phase 3 : L algorithme applique un algorithme de clustering pour regrouper les feuilles de l arbre CF. Les données bruitées sont élaguées et les unités denses sont fusionnées pour former de plus gros clusters, 4. Phase 4 (Optionnelle) : Cette phase raffine les clusters pour améliorer leur qualité cette étape cependant requiert un nouveau passage sur la base de données. Figure 1.5: Une structure CF-Tree [7] Dans la ressource bibliographique [20], Tian Zhang & Al affirment que la force de leur algorithme réside dans les points suivants : Chaque décision se prend sans scannage systématique de toutes les données favorisant ainsi un gain de puissance computationnelle non négligeable, L espace de données n est pas uniforme, ainsi BIRCH ne donne pas la même pondération à chaque point : Les clusters ainsi créés sont plus précis, Toute la mémoire disponible est utilisée pour créer des clusters de bonne qualité et ainsi minimiser le coût des entrées-sorties. BIRCH offre une bonne flexibilité puisqu il laisse à l utilisateur la possibilité de renseigner les valeurs de seuil et le nombre de clusters, cependant il devient un handicap pour un utilisateur non- expert. La qualité des clusters créés est dépendante des valeurs d entrée. BIRCH ne s apprêtent pas efficacement aux clusters de forme non sphérique car il adopte des valeurs telles que le diamètre et le radius pour le calcul des bornes du cluster. 7

15 1.3 Partitions Généralités Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de groupes (clusters) défini par avance, tel est l objectif que se fixent les méthodes de regroupement par partitionnement. Figure 1.6: Exemple de clustering par partition Fonctionnement Nous disposons principalement de deux procédés efficaces pour la création de partitions. La première méthode consiste à déceler l "optimum global" pour un ensemble de données. Plus précisément, elle construit toutes les partitions possibles, évalue par la suite la qualité de chaque groupe et retient enfin la meilleure partition. Cette technique augmente de manière exponentielle le nombre de partitions possibles rendant trop onéreux une utilisation constante de ressources. La seconde méthode est appelée méthode heuristique. Elle permet d acquérir au moins une bonne partition qui n est cependant pas nécessairement la partition "optimale". Elle nous épargne néanmoins l énumération exhaustive de toutes les partitions possibles ; elle est donc reconnue en tant que principale méthode utilisée Les méthodes heuristiques Comme nous venons de le décrire, les méthodes heuristiques ne décèlent pas systématiquement la partition "optimale". Plusieurs moyens existent cependant pour obtenir une bonne partition proche de la partition "optimale" : 8

16 première technique : elle représente chaque groupe (cluster) par son centre (nous parlons de centroïde) ; l algorithme K-means exploite cette méthode. deuxième technique : elle représente chaque groupe par un objet qui correspond au membre le plus proche du centre (nous parlons de médoïde). Les algorithmes K-medoids et PAM (Partition Around Medoids) se servent de cette méthode. K-means Dans un premier temps, l utilisateur va choisir le nombre de groupes qu il souhaite acquérir. L algorithme partitionne ensuite les objets en autant de groupes non vides sollicités par l utilisateur. Une fois la création des groupes achevée, nous pouvons calculer leur centre. Nous affectons chaque objet au groupe dont le "centre" est le plus proche. L algorithme recommence les deux dernières étapes autant de fois qu il est nécessaire jusqu à ce qu il n y ait plus de changements dans les groupes. Nous parlons dans ce cas de groupes stables ; la fin du travail de l algorithme correspond à ce que nous appelons un optimum local. Le schéma ci-après 1.7 récapitule le fonctionnement de l algorithme. Figure 1.7: Fonctionnement d une itération de l algorithme K-means Nous trouvons un intérêt dans le travail de cet algorithme par sa capacité à regrouper efficacement les données. Il souffre néanmoins de quelques faiblesses : Cet algorithme n est utilisable que lorsque la moyenne est définie posant ainsi problème à certains types de données, notamment les données non numériques. Nous devons sélectionner le nombre de groupes à l avance 1.8. Il est très sensible aux données bruitées et aux valeurs aberrantes puisque la moyenne est impactée. Cet algorithme ne détecte que des groupes de forme convexe. 9

17 Figure 1.8: Impact du choix du nombre de groupes K-medoids et PAM Cet algorithme par son fonctionnement se rapproche de l algorithme K-means. Nous choisissons un nombre de groupes et nous calculons le centre de chacun de ces groupes. Cependant, ce centre n est plus considéré comme point de référence à conserver. En effet, le centre du groupe correspond dans cet algorithme à l objet du groupe le plus proche du centre calculé (le centre est donc un objet "réel" et non plus un point "fictif"). Nous affectons ensuite les objets (hors objets considérés comme centre de groupe) au groupe dont l objet central est le plus limitrophe. Ces opérations se répètent jusqu à la parfaite stabilisation des groupes. La figure ci-dessous 1.9 récapitule le fonctionnement de l algorithme : Figure 1.9: Calcul du centre par l algorithme K-medoids L algorithme K-medoids présente un avantage sur l algorithme K-means par sa plus grande robustesse, il est nettement moins affecté par les données bruitées. L inconvénient cependant réside dans sa performance qui n égale pas celle de l algorithme K-means. Il conviendra donc parfaitement pour de petits jeux de données mais ne s affirmera pas sur un nombre plus conséquent de données. Pour pallier à cette problématique, une solution est retenue avec l algorithme CLARA qui fonctionne en parallèle avec PAM. CLARA correspond à une méthode d échantillonnages. 10

18 CLARA CLARA signifie Clustering LARge Application. Retenons l idée principale qui se dégage de cet algorithme : nous allons appliquer la méthode PAM à un échantillon de données. Pour ce faire, plusieurs échantillons sont extraits d un grand ensemble de données ; chaque échantillon ainsi prélevé est soumis à la méthode PAM. Nous sélectionnons ensuite le meilleur résultat. Cette combinaison de deux algorithmes présente un intérêt évident car nous faisons appel à l efficacité de PAM pour travailler sur de grands ensembles de points. Sa performance a cependant des limites, elle est tributaire de la taille et de la quantité des échantillons. Pour pallier à ce problème d échantillons, nous utiliserons une variante de CLARA appelée CLARANS. CLARANS améliore la qualité du travail par rapport à CLARA grâce à sa capacité à récupérer les échantillons de manière aléatoire (et non plus sélectionnés par l homme), et différents à chaque étape. 11

19 1.4 Autres méthodes Cette section présente deux autres méthodes qui permettent la pratique du clustering à savoir la méthode basée sur la densité et la méthode basée sur les grilles Méthode s appuyant sur la densité Cette méthode est un remède à la problématique récurrente des méthodes hiérarchiques et des méthodes par partition : ceux-ci gèrent correctement les clusters de forme sphérique, beaucoup moins les clusters de forme arbitraire (figure 1.10). Pour régir au mieux ces formes aléatoires, "il est nécessaire de considérer un cluster comme étant une région homogène de haute densité entourée de régions de faible densité"[3] comme le démontre concrètement la figure De plus, cette méthode est capable de gérer le bruit qui peut exister dans les données. Figure 1.10: BDD à formes particulières L algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est l algorithme le plus connu. Il contient trois données d entrée : 1. D : le jeu de données contenant n objet, 2. ɛ : le rayon, 3. MinP ts : Le nombre minimum de points qui doit être contenu dans le rayon ɛ pour que la zone soit considérée comme étant dense. Tout d abord, DBSCAN marque chaque objet contenu dans D comme non-visité. L algorithme fonctionne ensuite en deux étapes. En premier lieu, pour chaque objet p sélectionné aléatoirement, l algorithme le marque comme visité. Il teste ensuite si le voisinage décrit par le rayon ɛ et ayant pour centre l objet p contient au moins MinP ts objets. Si ce n est pas le cas, l objet est marqué et répertorié en tant que bruit. Sinon deux alternatives se présentent : soit l objet est rajouté à un cluster, soit un nouveau cluster est crée. L algorithme continue de cette manière aussi longtemps que subsistent des objets non-visités. Figure 1.11: Résultats des regroupements effectués par DBSCAN L utilisateur spécifie les valeurs MinP ts et ɛ, ce qui peut paraître complexe. Ces deux dernières valeurs étant globales, elles sont incapables de traiter des clusters de densités différentes. 12

20 1.4.2 Méthode basée sur les grilles Principes et challenges techniques Les algorithmes de clustering basés sur les grilles se conforment aux trois étapes suivantes : 1. Diviser l espace en cellules rectangulaires afin d obtenir une grille composée de cellules de taille équivalente. La figure 1.12 montre une telle grille, 2. Supprimer les cellules de basse densité c est à dire que les cellules qui possèdent une densité de points élevés s apparentent à des clusters, à contrario les cellules à peu de points à du bruit, 3. Combiner les cellules adjacentes ayant une forte densité pour former des clusters. Figure 1.12: Grille à deux dimensions pour la recherche de clusters La force de l approche par grille permet d obtenir un temps linéaire pour l assignement des points aux cellules : la complexité est donc de O(n), où n représente le nombre de points de données. Nous devons nécessairement nous arrêter un petit moment afin de méditer sur la problématique suivante : Puisque les cellules présentent une taille rectangulaire et fixe, elles ne viennent pas épouser systématiquement la forme du cluster. Une approche naïve consisterait à augmenter le nombre de cellules dans un but de précision. Le temps d exécution augmenterait de façon significative et plus encore en présence d un grand nombre de dimensions occasionnant par la même un problème de sur-partitionnement. Abordons une autre difficulté liée à l utilisation de ces méthodes fondées sur les grilles, celle de la haute dimensionnalité des données : une augmentation des données entraînerait systématiquement un surcroît impressionnant du nombre de cellules. A contrario, la création d une grille pourvue de peu de cellules pourrait engendrer des trous dans le cluster, le résultat ainsi obtenu ne serait donc pas significatif : c est bien là tout le problème du sous-partitionnement. Noircissons le tableau des difficultés et parlons de celle rencontrée lors de la recherche de clusters dans un espace à pleine dimension. Comme précisé dans [15],"si nous rajoutions de nombreuses variables additionnelles à chaque point d un cluster de la figure 1.12 et que ces points soient uniformément répartis, la majorité des points se retrouveraient dans une cellule séparée de cet 13

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Visibilité polygone à polygone :

Visibilité polygone à polygone : Introduction Visibilité polygone à polygone : calcul, représentation, applications Frédéric Mora Université de Poitiers - Laboratoire SIC 10 juillet 2006 1 La visibilité Introduction Contexte L espace

Plus en détail

L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion.

L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion. www.julienrio.com Introduction: L article qui suit tente de mettre en lumière les erreurs les plus courantes en ce qui concerne la fidélité client et sa gestion. Cet article s est inspiré de l ouvrage

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Simulations de Monte Carlo en finance : Pricer d option

Simulations de Monte Carlo en finance : Pricer d option Emma Alfonsi, Xavier Milhaud - M2R SAF Simulations de Monte Carlo en finance : Pricer d option Sous la direction de M. Pierre Alain Patard ISFA - Mars 2008 . 1 Table des matières 1 Introduction 4 2 Un

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Proposition d activité utilisant l application. Tripatouille. (http://www.malgouyres.fr/tripatouille/)

Proposition d activité utilisant l application. Tripatouille. (http://www.malgouyres.fr/tripatouille/) IREM Clermont-Ferrand Algorithmique au lycée Malika More malika.more@u-clermont1.fr 28 janvier 2011 Proposition d activité utilisant l application Tripatouille (http://www.malgouyres.fr/tripatouille/)

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Dossier de planification initiale Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014

Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 Rapport de TER : Collecte de médias géo-localisés et recherche de points d intérêt avec l algorithme Mean Shift Martin PUGNET Février 2014 résumé : Ce projet a pour but de récupérer des données géolocalisées

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE Table des matières 1. Introduction... 1 2. Développement... 2 2.1. Droit successoral, réserve des héritiers... 2 2.2.

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Module 24 : Analyse de scénarios

Module 24 : Analyse de scénarios Module 24 : Analyse de scénarios 24.0 Introduction Ce module enseigne un sous-ensemble de techniques de création de modèle qui, dans Excel 2007, constitue l «analyse de scénarios». Ces techniques sont

Plus en détail

LA CONDUITE D UNE MISSION D AUDIT INTERNE

LA CONDUITE D UNE MISSION D AUDIT INTERNE 1 LA CONDUITE D UNE MISSION D AUDIT INTERNE Toute mission d Audit est réalisée en trois étapes essentielles: 1 ère étape : La préparation de la mission 2 ème étape : La réalisation de la mission 3 ème

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Introduction à l Algorithmique

Introduction à l Algorithmique Introduction à l Algorithmique N. Jacon 1 Définition et exemples Un algorithme est une procédure de calcul qui prend en entier une valeur ou un ensemble de valeurs et qui donne en sortie une valeur ou

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Formation 3DS Partie 2. Fascicule 3DS. Partie 2 : Modélisation

Formation 3DS Partie 2. Fascicule 3DS. Partie 2 : Modélisation Fascicule 3DS Partie 2 : Modélisation Formation CIREVE 2007 1 Introduction sur l utilisation de formes 2D...3 1. Avant propos...4 2. Utilisation des splines (formes 2D)...4 3. Les types de sommet...5 4.

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS Département d informatique et d ingénierie Une nouvelle approche de détection de communautés dans les réseaux sociaux Mémoire (INF 6021) pour l obtention du grade de Maîtrise

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

ReportBuilder. Pour EBP Bâtiment et EBP Devis et Facturation. Guide d initiation et de prise en main

ReportBuilder. Pour EBP Bâtiment et EBP Devis et Facturation. Guide d initiation et de prise en main ReportBuilder Pour EBP Bâtiment et EBP Devis et Facturation Guide d initiation et de prise en main Edité par EBP Informatique, Rue de Cutesson, BP 95 78513 Rambouillet Cedex Tél : 01 34 94 80 20, Fax :

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Cours IV Mise en orbite

Cours IV Mise en orbite Introduction au vol spatial Cours IV Mise en orbite If you don t know where you re going, you ll probably end up somewhere else. Yogi Berra, NY Yankees catcher v1.2.8 by-sa Olivier Cleynen Introduction

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS

Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS Découverte de la calculatrice TI-nspire CX / TI-nspire CX CAS Ce document a été réalisé avec la version 3.02 de la calculatrice TI-Nspire CX CAS. Il peut être traité en une ou plusieurs séances (la procédure

Plus en détail

Arbres binaires de recherche

Arbres binaires de recherche Chapitre 1 Arbres binaires de recherche 1 Les arbre sont très utilisés en informatique, d une part parce que les informations sont souvent hiérarchisées, et peuvent être représentées naturellement sous

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

Génie logiciel. Concepts fondamentaux. Bruno MERMET, Université du Havre 1

Génie logiciel. Concepts fondamentaux. Bruno MERMET, Université du Havre 1 Génie logiciel Concepts fondamentaux Bruno MERMET, Université du Havre 1 Nécessité du Génie Logiciel Bruno MERMET, Université du Havre 2 Développement d un logiciel Caractéristiques souhaitées : Adéquation

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

L évolution de l automatisation.

L évolution de l automatisation. Gestion automatisée de la qualité Livre blanc Octobre 2009 L évolution de l automatisation. Etude de l évolution de l automatisation dans la gestion de la qualité des logiciels Page 2 Sommaire 2 Introduction

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image IN52-IN54 A2008 Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image Etudiants : Nicolas MONNERET Alexandre HAFFNER Sébastien DE MELO Responsable : Franck GECHTER Sommaire

Plus en détail

Induction électromagnétique

Induction électromagnétique Induction électromagnétique Sommaire I) Théorie de l induction électromagnétique..2 A. Introduction 2 B. Notion de force électromotrice 3 C. Loi de Faraday..5 D. Quelques applications.7 Spire circulaire

Plus en détail

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1 Primaire l ESCALIER Une activité sur les multiples et diviseurs en fin de primaire Lucie Passaplan et Sébastien Toninato 1 Dans le but d observer les stratégies usitées dans la résolution d un problème

Plus en détail

DATAMINING C4.5 - DBSCAN

DATAMINING C4.5 - DBSCAN 14-16 rue Voltaire 94270 Kremlin Bicêtre Benjamin DEVÈZE Matthieu FOUQUIN PROMOTION 2005 SCIA DATAMINING C4.5 - DBSCAN Mai 2004 Responsable de spécialité SCIA : M. Akli Adjaoute Table des matières Table

Plus en détail

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

Entraînement, consolidation, structuration... Que mettre derrière ces expressions? Entraînement, consolidation, structuration... Que mettre derrière ces expressions? Il est clair que la finalité principale d une démarche d investigation est de faire acquérir des connaissances aux élèves.

Plus en détail

IFT3245. Simulation et modèles

IFT3245. Simulation et modèles IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list =

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

Le management des risques de l entreprise Cadre de Référence. Synthèse

Le management des risques de l entreprise Cadre de Référence. Synthèse Le management des risques de l entreprise Cadre de Référence Synthèse SYNTHESE L incertitude est une donnée intrinsèque à la vie de toute organisation. Aussi l un des principaux défis pour la direction

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

La haute disponibilité

La haute disponibilité Chapitre 3 La haute 3.1 Définition du cluster de serveurs...112 3.2 La mise en cluster des applications...114 3.3 Les composants du cluster de serveurs...115 3.4 Les obets du cluster de serveurs...119

Plus en détail

7. Recherche des essais

7. Recherche des essais 7. Recherche des essais Le chapitre précédent a insisté sur la nécessité de réaliser une recherche des essais aussi exhaustive que possible. Seule la conjonction de tous les moyens disponibles peut laisser

Plus en détail

Méthode universitaire du commentaire de texte

Méthode universitaire du commentaire de texte Méthode universitaire du commentaire de texte Baptiste Mélès Novembre 2014 L objectif du commentaire de texte est de décrire la structure argumentative et de mettre au jour les concepts qui permettent

Plus en détail

Les compromis temps-mémoire et leur utilisation pour casser les mots de passe Windows

Les compromis temps-mémoire et leur utilisation pour casser les mots de passe Windows Les compromis temps-mémoire et leur utilisation pour casser les mots de passe Windows Philippe Oechslin Laboratoire de Securité et de Cryptographie (LASEC) École Polytechnique Fédérale de Lausanne Faculté

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Chapitre 2 : Systèmes radio mobiles et concepts cellulaires Systèmes cellulaires Réseaux cellulaires analogiques de 1ère génération : AMPS (USA), NMT(Scandinavie), TACS (RU)... Réseaux numériques de 2ème

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

Codage MPEG-4 de dessins animés

Codage MPEG-4 de dessins animés Codage MPEG-4 de dessins animés Jean-Claude Moissinac Cyril Concolato Jean-Claude Dufourd Ecole Nationale Supérieure des Télécommunications 46 rue Barrault 75013 Paris cyril.concolato@enst.fr, dufourd@enst.fr,

Plus en détail

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES...

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES... Diffusion de l information dans Internet Guide de création de documents Word accessibles 5 novembre 2009 OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT...

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

LeCroy. Recherche de défauts sur circuits logiques à l aide d oscilloscopes numériques

LeCroy. Recherche de défauts sur circuits logiques à l aide d oscilloscopes numériques LeCroy Recherche de défauts sur circuits logiques à l aide d oscilloscopes numériques Avec la constante évolution industrielle, les ingénieurs d études doivent aujourd hui caractériser en permanence de

Plus en détail

SIMULATION SUR ORDINATEUR DES LIGNES DE MOYENNE TENSION DE LA RÉGION EST DE LA SOCIÉTÉ ÉNERGIE ET EAU DU GABON - SEEG

SIMULATION SUR ORDINATEUR DES LIGNES DE MOYENNE TENSION DE LA RÉGION EST DE LA SOCIÉTÉ ÉNERGIE ET EAU DU GABON - SEEG SIMULATION SUR ORDINATEUR DES LIGNES DE MOYENNE TENSION DE LA RÉGION EST DE LA SOCIÉTÉ ÉNERGIE ET EAU DU GABON - SEEG Paul MAKANGA, Auguste NDTOUNGOU, Serge MOCTAR, Igor SABATIN Université de Sciences

Plus en détail

Module 22 : Les tableaux croisés dynamiques* contenu de 2010*

Module 22 : Les tableaux croisés dynamiques* contenu de 2010* Module 22 : Les tableaux croisés dynamiques* contenu de 2010* 22.0 Introduction On aurait pu appeler ce module Résumer rapidement les données. Excel possède un outil puissant qui permet de résumer les

Plus en détail

Gérer l activité d un service informatique

Gérer l activité d un service informatique Gérer l activité d un service informatique SOMMAIRE Les activités d un service informatique sont nombreuses et variées. Leur gestion nécessite un minimum d organisation. Heureusement, une fois encore,

Plus en détail

Formation. Module WEB 4.1. Support de cours

Formation. Module WEB 4.1. Support de cours Formation Module WEB 4.1 Support de cours Rédacteur Date de rédaction F.CHEA 08/02/2012 Les informations contenues dans ce document pourront faire l'objet de modifications sans préavis Sauf mention contraire,

Plus en détail

CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A

CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A CONSEIL DE COORDIN AT I O N DU PROGRAM M E DE L ONUSID A ONUSIDA/CCP (36)/15.12 Date de publication : 24 juin 2015 TRENTE-SIXIÈME RÉUNION Date : 30 juin - 2 juillet 2015 Lieu : Salle du conseil exécutif,

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail