Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt

Dimension: px
Commencer à balayer dès la page:

Download "Travail de session : Mémoire. Le clustering de données. Par Nicolas Sola & Mathieu Schmitt"

Transcription

1 Travail de session : Mémoire Le clustering de données Par Nicolas Sola & Mathieu Schmitt

2 Résumé Le travail du clustering consiste à regrouper les données en classe ; nous obtenons par ce biais une forte similarité intra-classe et une faible similarité inter-classe. Un nombre conséquent d algorithmes nous sont présentés avec leurs avantages mais aussi leurs inconvénients. De ce fait, la présence d un utilisateur expert capable de jugement objectif est fortement recommandée pour le choix des dimensions significatives et l analyse des résultats. D une manière schématique, nous catégorisons les algorithmes de clustering autour de plusieurs méthodes : hiérarchique, par partition, basée sur la densité et sur les grilles. Les algorithmes sont entre autres usités pour pallier à des problématiques récurrentes telles que le traitement des données bruitées ou la gestion des objets à haute dimension. Nous ne méprenons pas sur l importance de ces données bruitées qui peuvent en effet compromettre significativement la qualité des clusters. Elles influent directement sur les performances et le fonctionnement des algorithmes, qui plus est, sur la précision des clusters créés. La haute dimensionnalité des données (> 10 dimensions) enlève toute utilité aux mesures de distance et apportent aux objets une relative équidistance les uns par rapport aux autres. Nous adoptons la méthode du clustering par sous-espace comme solution à la problématique rencontrée. Ce genre de clustering se divise autour : De méthodes de recherche ascendante qui utilisent celles basées sur la densité, les grilles statiques ou adaptatives, De méthodes itératives de recherche descendante qui affectent des coefficients de pondération aux dimensions. Mots-clés : Clustering de données, réduction du bruit, haute-dimensionnalité des données, clustering hiérarchique, clustering par partition, clustering basé sur la densité, clustering basé sur les grilles

3 Introduction Mise en contexte Clustering, apprentissage non supervisé ou regroupement automatique sont des expressions similaires auxquelles nous devons nous familiariser ; elles convergent toutes dans la même direction et font référence à des méthodes qui se singularisent par : un regroupement de données issues elles-mêmes d un ensemble de données, en groupes homogènes inconnus initialement, en fonction de leur similarité. Les techniques de clustering voient leur intérêt se décupler très rapidement. Leurs applications progressives sont très porteuses et se retrouvent aujourd hui en nombre incalculable dans maints domaines. Nous pouvons citer par exemple l analyse de données économiques qui permet de segmenter un marché ou profiler des clients, la classification et catégorisation de documents sur le Web, la reconnaissance de formes et le traitement d images,...// Posons-nous à présent la question pertinente suivante et tentons d y répondre : quelles sont les raisons pour lesquelles ces techniques novatrices ont fait leur apparition? La réponse que nous apportons fait preuve de bon sens. Depuis l apparition de l informatique, nous sommes confrontés à une croissance effrénée de la quantité de données stockées dans le monde entier. Ces données se retrouvent sous formes diverses et variées et constituent un gigantesque vivier où l Homme vient puiser des informations et des connaissances pour en tirer le meilleur profit. Une analyse manuelle relève dès lors de l impossible et au vu de ce constat, l Homme crée des techniques de recherche, d analyses de données de plus en plus performantes. Une idée prédomine désormais : regrouper des données et en soustraire des connaissances. Tout pense à croire que cette idée est en relation avec l instinct primaire de l Homme qui par son comportement obéit à la logique aristotélicienne, celle qui "aime" tout catégoriser. Et pour cause, "Aristote n a pas vécu sous l ère informatique certes, cependant nous lui devons les premières classifications hiérarchiques systématiques des connaissances et des concepts. S inspirait-il des divisions utilisées pour l organisation des armées? Cette hypothèse nous semble plus que probable."[17]. Définition Nous utilisons de nos jours les techniques de clustering pour la découverte de groupes inconnus parmi certains ensembles de données. La classification peut être considérée comme une fin en soi, néanmoins elle est très efficace comme outil de pré-traitement et accepter par d autres i

4 méthodes de fouille de données. Figure 1: Étapes du datamining Dans le cadre d une analyse complète de datamining, l utilisation du clustering durant la phase de fouille de données s avère bien judicieuse. Argumentons : le seul fait de pratiquer à un regroupement des données en fonction de leur similarité peut faire apparaître des "motifs" utiles qui viennent alimenter nos connaissances. Cette alternative sied parfaitement à des méthodes telles que : l association, la récapitulation, la régression dans les cas d absence de classement des données avec cependant possibilité de détecter des similarités entre ces données. ii

5 Problématiques Nous utilisons dans notre vie quotidienne différentes méthodes de classement pour nos objets ; il en va de même pour les algorithmes de clustering. L article "Data Clustering : A review [8]" révèle qu il "n existe pas de techniques de clustering de données universellement applicables puisque nous sommes en présence d une grande variété de structures multidimensionnelles de données.". Cette affirmation nous conduit à ces deux questions : Quelles méthodes sont actuellement proposées? Quelles sont leur spécificité respective? Nous sommes amenés par ailleurs à œuvrer sur des ensembles de données potentiellement complexes avec plusieurs dimensions ou des ensembles contenants des données bruitées (des données parasites). Dès lors, des interrogations apparaissent : Que signifie la haute dimensionnalité des données? Quelles sont les techniques appropriées dans la gestion de ce problème? Quels sont les impacts occasionnés par les données bruitées sur une analyse de données? De quelle manière les algorithmes de clustering réagissent-ils face au bruit? A quelles méthodes faisons-nous appel pour l élimination de ce "bruit" dans un ensemble de données? Nous développerons principalement les réponses apportées à ces deux dernières questions et cernerons les problématiques qui en découlent. Nous souhaitons à toutes et à tous une bonne lecture, et de ne pas être : "Celui qui se perd dans ce qu il lit, mais celui qui s y trouve" Paul Valéry. iii

6 Table des matières Introduction iii Mise en contexte iii Définition iii Problématiques iii Table des matières iv 1 Méthodes de clustering Généralités Hiérarchiques Généralités Méthodes agglomératives et divisives Méthodes de mesure entre deux clusters Algorithme BIRCH Partitions Généralités Fonctionnement Les méthodes heuristiques Autres méthodes Méthode s appuyant sur la densité Méthode basée sur les grilles Réduction du bruit Introduction au problème Conséquences des données bruitées Avis des articles scientifiques Expérimentations Conclusion Les solutions Méthodes fondées sur la distance Méthodes fondées sur le regroupement Approche fondée sur le facteur des valeurs aberrantes locales Haute dimensionnalité des données Mise en contexte et problématiques Méthodes de clustering subspatial Présentation iv

7 3.2.2 Méthode de recherche ascendante Méthode itérative de recherche descendante Comparaison des méthodes ascendantes et descendantes Conclusion 32 Analyse Perspectives d évolution Table des figures 33 Bibliographie 35 Appendices 37 v

8 Chapitre 1 Méthodes de clustering 1.1 Généralités Un algorithme de clustering dit "efficace" gère toutes les situations. Dans une mission parfaitement accomplie, un algorithme devrait répondre aux critères suivants [7] : 1. Evolutivité : Les BDD sont capables de réceptionner un volume considérable de données notamment lorsque nous faisons appel dans le cadre de notre travail aux services du Web. Dans ce cas précis, les algorithmes communs perdent de leur efficacité dans le traitement des données qui sont légions et risquent de générer des résultats biaisés. La recherche d algorithmes évolutifs s avère donc indispensable. 2. Capacité à traiter différents types d attributs :Un algorithme peut aisément traiter des données dans des formats simples et uniques sous forme de nombre par exemple Nous utilisons cependant des types de données de plus en plus complexes tels que des graphiques, des images. De plus, les ensembles de données contiennent souvent plusieurs types de données, en simultané, compliquant fortement le fonctionnement des algorithmes. Notre objectif est de garantir des résultats probants ; cette phase de réalisation revêt donc un caractère essentiel dans le cheminement du "bon" algorithme. 3. Découverte de clusters de forme arbitraire : Différentes méthodes permettent de classer les données, chacune d entre elles se distingue par des spécificités qui affectent les résultats obtenus. Prenons un exemple pour affiner nos propos : Les algorithmes qui s appuient sur des mesures de distance pour effectuer des regroupements obtiennent au travers de leur recherche des amas de points de forme sphérique généralement de taille et de densité relativement similaires. In fine, ne négligeons pas l impact que peut avoir une méthode de classification ; il est primordial pour un "bon" algorithme d effectuer une détection pointue sur les résultats obtenus et nous confirmer la découverte d une forme arbitraire. 4. Exigences relatives aux connaissances du domaine pour déterminer les paramètres d entrée : Délivrer à un algorithme des informations relatives au domaine de recherche sous forme de paramètre d entrée, peut sembler dérisoire. Cependant l intervention humaine influe considérablement les résultats finals. En effet, les algorithmes de clustering peuvent être très sensibles à ces paramètres. Prenons un exemple concret : Si, pour fonctionner, l algorithme de clustering nécessite l intervention de l utilisateur pour renseigner le nombre de groupes (de clusters) souhaités, nous obtiendrons au final des résultats que nous ne pourrons pas qualifier de partiaux et généraux même s ils reproduiront fidèlement les souhaits formulés en amont par l usager. De ce fait, il est conseillé de réduire de façon maximale l intervention de l utilisateur dans le fonctionnement de l algorithme afin de ne pas ternir la qualité des résultats, et de conserver leur pertinence et leur précision. 5. Aptitude à faire face à des données bruitées : Dans le monde réel, les ensembles de données sont soumis aux inexactitudes de la vie. En effet, ces ensembles sont susceptibles de contenir des valeurs aberrantes, des données manquantes, inconnues ou erronées. Nous connaissons la sensibilité des algorithmes de clustering face au bruit ; celle-ci peut donc 1

9 conduire à des regroupements de mauvaise qualité. Pour remédier à cette sensibilité, les méthodes de clustering doivent faire preuve de robustesse. 6. Regroupement incrémentiel et insensibilité à l ordre d entrée : Des algorithmes fiables sont capables de gérer sans encombre les données dynamiques au fur et à mesure de leur arrivée sans retourner systématiquement à la case départ. Des algorithmes dits sensibles à l ordre d entrée des données fournissent des résultats diamétralement différents en fonction de l ordre de présentation de ces données. Nous devons de ce fait veiller à conserver une insensibilité dans l ordre d entrée des données. 7. Capacité à créer des regroupements à partir d importants volumes de données : La majorité des algorithmes font preuve d incompétence lorsqu il s agit de traiter plusieurs dimensions 1 : de nouveaux problèmes viennent se greffer à ceux déjà existants telle la dispersion des données. S approprier des clusters de qualité devient donc très complexe. 8. Problèmes liés au contexte, à l Interprétation et à l utilisation des résultats : Les utilisateurs exigent des résultats de clustering clairs et exploitables d où l importance d étudier la manière dont l objectif peut influencer le choix des fonctions et des méthodes de clustering. Tous ces constatations affectent le déroulement et les résultats du clustering. La littérature nous fait découvrir l existence de nombreux algorithmes de clustering et à notre grand dam l inexistence d une technique universelle de regroupement. Cependant, l organisation de ces algorithmes passe par différentes méthodes retenues en fonction de leur approche en matière de traitement des données : Les méthodes de clustering hiérarchiques étudiées en 1.2, Les méthodes de clustering par partition étudiées en 1.3, Les autres méthodes de clustering étudiées en Basées sur les grilles, + Basées sur la densité. Les cinq étapes du regroupement de données sont représentées sur la figure 1.1 : Prenons connaissance des étapes [8] : Figure 1.1: Étapes du clustering 1. La représentation de motifs : Cette étape correspond au nombre : de motifs, de classes, de types et d échelles disponibles pour un algorithme de clustering. La sélection de caractéristiques passe par la recherche d attributs les plus concrets dans un souci d identification des sous-espaces de recherche. L extraction de caractéristiques résume le jeu de données 2 par la création d une combinaison linéaire des attributs. Cette phase d ex- 1. Une dimension est un attribut ou une caractéristique d un jeu de données. 2. Un jeu de données est une matrice de valeurs. Les enregistrements représentent les instances ou objets, et les colonnes les dimensions 2

10 traction permet entre autres de produire de nouvelles caractéristiques saillantes. Notons que les deux méthodes précitées sont optionnelles dans cette étape, 2. La définition d un modèle de mesure de proximité approprié pour les données étudiées : Cette méthode s efforce de mesurer la distance entre motifs grâce à l utilisation de fonctions de mesure, 3. Le regroupement : Avec cette étape, nous touchons le centre du processus de clustering. Nous prendrons connaissance ci-après des nombreuses méthodes de regroupement utilisables à ce jour. Néanmoins, les deux plus communes sont les méthodes de clustering (1.2) et les méthodes par partition (1.3). La figure 1.2 permet d apprécier l étendue de ces dernières, 4. L abstraction des données (facultatif) : Cette étape autorise l extraction d une petite portion de chaque cluster. L être humain maîtrise théoriquement ce petit jeu de données, dans le cas contraire, cette phase est traitée par analyse automatique offrant sûreté et efficacité. 5. L évaluation des résultats (facultatif). La figure 1.1 nous démontre que certaines étapes donnent lieu à des retours en arrière ; notons dès lors que l expérience et la dextérité de l utilisateur revêtent un grande importance. En effet, une parfaite compréhension des résultats obtenus à chaque étape s avère nécessaire au regard de la qualité finale du cluster. Par ailleurs, l utilisateur se trouve en présence d un nombre considérable d algorithmes de clustering, il doit être en mesure de sélectionner le plus approprié face à la problématique rencontrée. Enfin, il doit être pourvu de suffisamment de connaissances liées au domaine d étude pour une sélection adéquate de sa part des variables d entrée. En résumé : nous attendons de l utilisateur qu il fasse preuve d éclectisme. Plusieurs regroupements de données sont réalisables pour un même jeu de données. Dans ce cas,l évaluation de la pertinence des résultats relève de la subjectivité et nous restons face à un problème récurrent. Différentes méthodes telles que l utilisation de données artificielles communément appelée "évaluation externe", de classes étiquetées ou le recours à un expert dans le domaine, constituent des métriques efficaces quant à la qualité statistique des résultats obtenus [3]. Figure 1.2: Découpage des méthodes de clustering [8] 3

11 Le terme de similarité revêt toute son importance dans le sens où le clustering est imprégnée de cette volonté à vouloir rassembler naturellement les groupes d objets 3. L algorithme s attèle à maximiser les similarités intra-classe, à minimiser les similarités inter-classe en vue d une création de sous-groupes de qualité. 3. Un objet ou une instance est une ligne dans un jeu de données. 4

12 1.2 Hiérarchiques Généralités Les méthodes de regroupement hiérarchique ont pour vocation de grouper les données sous forme hiérarchique c est à dire sous forme d arbre ou d un "Dendrogramme" composés de clusters : En plus d être visuelle, cette représentation trouve toute son utilité dans le résumé des données. La figure 1.4b montre un tel dendogramme. Ainsi le nœud au top de l arbre constitue l ensemble des données de la base. Un parcours de l arbre vers le bas nous montre des clusters de plus en plus spécifiques à un groupe d objets ; objets qui se caractérisent par une notion de similitude Méthodes agglomératives et divisives Deux méthodes diamétralement opposées se distinguent par leur capacité à créer de tels arbres : 1. La première méthode appelée méthode agglomérative débute au bas de l arbre bottom. Il y a autant de clusters que de données présents dans la base. A mesure que nous remontons dans l arbre, les objets se regroupent en formant leurs propres clusters, ces clusters fusionnent itérativement prenant ainsi de l ampleur jusqu à atteindre le nœud racine (top) 4. Les algorithmes BIRCH ou AGNES sont le parfait reflet de cette méthode (figure 1.3). 2. La deuxième méthode appelée méthode divisive prend sa source au noeud racine et place tous les objets dans un seul et unique cluster. Cette méthode divise successivement les clusters en sous-clusters de plus petite taille 5. L algorithme DIANA est un exemple de cette méthode (figure 1.3). Figure 1.3: Méthodes divisive et agglomérative 4. Nous sommes en présence du concept de généralisation si chère au paradigme objet 5. Notons l analogie avec le design pattern de spécialisation propre au concept de programmation orientée objet 5

13 La réalisation de l une ou l autre de ces étapes rend impossible un retour en arrière, ce qui confère une certaine rigidité à ces méthodes hiérarchiques. Un point positif se dégage cependant : un gain d économie en terme de mémoire centrale. Puisque nous venons de définir les axiomes qui régissent les algorithmes hiérarchiques, allons plus loin dans nos investigations et posons nous la question : De quelle manière pouvons-nous mesurer la distance entre deux clusters? Méthodes de mesure entre deux clusters Nous utiliserons principalement quatre mesures qui se fondent sur la distance entre clusters (mesure de liaison) : 1. La distance minimum : les algorithmes qui s appuient sur ce concept s intitulent Algorithme de clustering du plus proche voisin. "Si le processus de clustering est terminé quand la distance entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme est aussi appelé "Algorithme à simple lien"."[7]. La figure 1.4b illustre ce concept. Par ailleurs, un algorithme de type agglomératif qui utilise cette mesure de distance pour la construction d un arbre est appelé "minimal Spanning Tree Algorithm", 2. La distance maximum : les algorithmes qui adoptent cette technique se nomment Algorithme de clustering du voisin le plus éloigné. Contrairement à l algorithme à simple lien, dans le cas où le processus est achevé lorsque la distance maximale entre les clusters les plus proches excède la valeur définie par l utilisateur, cet algorithme sera qualifié d algorithme à lien complet. La figure 1.4c nous en donne un exemple. 3. La distance au milieu et 4. la distance moyenne : Ces deux distances cherchent un compromis par rapport aux deux distances extrêmes présentées ci-dessus ; elles se caractérisent à la fois par une sensibilité aux données bruitées et aux valeurs aberrantes. Notons que la distance au milieu se calcule facilement alors que le calcul de la distance moyenne s avère plus complexe voire même impossible dans certains cas. (a) Un jeu de données (b) Algorithme de clustering utilisant la méthode à simple lien. (c) Algorithme de clustering utilisant la méthode à lien complet Figure 1.4: Clustering hiérarchique ayant recours aux algorithmes à lien simple et à lien complet. [7] 6

14 1.2.4 Algorithme BIRCH BIRCH est l acronyme de "Balanced Iterative Reducing and Clustering using Hierarchies". Son fonctionnement se singularise par une division en quatre phases dont deux sont optionnelles : 1. Phase 1 : Dans un premier temps, l algorithme scanne la base de données pour construire un arbre de type CF-Tree (figure 1.5) placé dans la mémoire centrale de l ordinateur. Cet arbre qui permet de conserver la structure des données est composé de deux facteurs : Le facteur de branchement β qui correspond au nombre d enfants pour chaque noeud et le seuil noté T qui indique le diamètre maximal du sous-cluster. L arbre est construit dynamiquement en fonction de l insertion des objets, ce qui en fait un algorithme incrémental. Un objet est inséré dans la feuille la plus proche. Si le diamètre du sous-cluster après insertion de l objet est supérieur au seuil T la feuille est alors séparée, 2. Phase 2 (Optionnelle) : L algorithme peut condenser l arbre CF en un plus petit, 3. Phase 3 : L algorithme applique un algorithme de clustering pour regrouper les feuilles de l arbre CF. Les données bruitées sont élaguées et les unités denses sont fusionnées pour former de plus gros clusters, 4. Phase 4 (Optionnelle) : Cette phase raffine les clusters pour améliorer leur qualité cette étape cependant requiert un nouveau passage sur la base de données. Figure 1.5: Une structure CF-Tree [7] Dans la ressource bibliographique [20], Tian Zhang & Al affirment que la force de leur algorithme réside dans les points suivants : Chaque décision se prend sans scannage systématique de toutes les données favorisant ainsi un gain de puissance computationnelle non négligeable, L espace de données n est pas uniforme, ainsi BIRCH ne donne pas la même pondération à chaque point : Les clusters ainsi créés sont plus précis, Toute la mémoire disponible est utilisée pour créer des clusters de bonne qualité et ainsi minimiser le coût des entrées-sorties. BIRCH offre une bonne flexibilité puisqu il laisse à l utilisateur la possibilité de renseigner les valeurs de seuil et le nombre de clusters, cependant il devient un handicap pour un utilisateur non- expert. La qualité des clusters créés est dépendante des valeurs d entrée. BIRCH ne s apprêtent pas efficacement aux clusters de forme non sphérique car il adopte des valeurs telles que le diamètre et le radius pour le calcul des bornes du cluster. 7

15 1.3 Partitions Généralités Grouper les données de façon optimale pour un critère de partitionnement donné et un nombre de groupes (clusters) défini par avance, tel est l objectif que se fixent les méthodes de regroupement par partitionnement. Figure 1.6: Exemple de clustering par partition Fonctionnement Nous disposons principalement de deux procédés efficaces pour la création de partitions. La première méthode consiste à déceler l "optimum global" pour un ensemble de données. Plus précisément, elle construit toutes les partitions possibles, évalue par la suite la qualité de chaque groupe et retient enfin la meilleure partition. Cette technique augmente de manière exponentielle le nombre de partitions possibles rendant trop onéreux une utilisation constante de ressources. La seconde méthode est appelée méthode heuristique. Elle permet d acquérir au moins une bonne partition qui n est cependant pas nécessairement la partition "optimale". Elle nous épargne néanmoins l énumération exhaustive de toutes les partitions possibles ; elle est donc reconnue en tant que principale méthode utilisée Les méthodes heuristiques Comme nous venons de le décrire, les méthodes heuristiques ne décèlent pas systématiquement la partition "optimale". Plusieurs moyens existent cependant pour obtenir une bonne partition proche de la partition "optimale" : 8

16 première technique : elle représente chaque groupe (cluster) par son centre (nous parlons de centroïde) ; l algorithme K-means exploite cette méthode. deuxième technique : elle représente chaque groupe par un objet qui correspond au membre le plus proche du centre (nous parlons de médoïde). Les algorithmes K-medoids et PAM (Partition Around Medoids) se servent de cette méthode. K-means Dans un premier temps, l utilisateur va choisir le nombre de groupes qu il souhaite acquérir. L algorithme partitionne ensuite les objets en autant de groupes non vides sollicités par l utilisateur. Une fois la création des groupes achevée, nous pouvons calculer leur centre. Nous affectons chaque objet au groupe dont le "centre" est le plus proche. L algorithme recommence les deux dernières étapes autant de fois qu il est nécessaire jusqu à ce qu il n y ait plus de changements dans les groupes. Nous parlons dans ce cas de groupes stables ; la fin du travail de l algorithme correspond à ce que nous appelons un optimum local. Le schéma ci-après 1.7 récapitule le fonctionnement de l algorithme. Figure 1.7: Fonctionnement d une itération de l algorithme K-means Nous trouvons un intérêt dans le travail de cet algorithme par sa capacité à regrouper efficacement les données. Il souffre néanmoins de quelques faiblesses : Cet algorithme n est utilisable que lorsque la moyenne est définie posant ainsi problème à certains types de données, notamment les données non numériques. Nous devons sélectionner le nombre de groupes à l avance 1.8. Il est très sensible aux données bruitées et aux valeurs aberrantes puisque la moyenne est impactée. Cet algorithme ne détecte que des groupes de forme convexe. 9

17 Figure 1.8: Impact du choix du nombre de groupes K-medoids et PAM Cet algorithme par son fonctionnement se rapproche de l algorithme K-means. Nous choisissons un nombre de groupes et nous calculons le centre de chacun de ces groupes. Cependant, ce centre n est plus considéré comme point de référence à conserver. En effet, le centre du groupe correspond dans cet algorithme à l objet du groupe le plus proche du centre calculé (le centre est donc un objet "réel" et non plus un point "fictif"). Nous affectons ensuite les objets (hors objets considérés comme centre de groupe) au groupe dont l objet central est le plus limitrophe. Ces opérations se répètent jusqu à la parfaite stabilisation des groupes. La figure ci-dessous 1.9 récapitule le fonctionnement de l algorithme : Figure 1.9: Calcul du centre par l algorithme K-medoids L algorithme K-medoids présente un avantage sur l algorithme K-means par sa plus grande robustesse, il est nettement moins affecté par les données bruitées. L inconvénient cependant réside dans sa performance qui n égale pas celle de l algorithme K-means. Il conviendra donc parfaitement pour de petits jeux de données mais ne s affirmera pas sur un nombre plus conséquent de données. Pour pallier à cette problématique, une solution est retenue avec l algorithme CLARA qui fonctionne en parallèle avec PAM. CLARA correspond à une méthode d échantillonnages. 10

18 CLARA CLARA signifie Clustering LARge Application. Retenons l idée principale qui se dégage de cet algorithme : nous allons appliquer la méthode PAM à un échantillon de données. Pour ce faire, plusieurs échantillons sont extraits d un grand ensemble de données ; chaque échantillon ainsi prélevé est soumis à la méthode PAM. Nous sélectionnons ensuite le meilleur résultat. Cette combinaison de deux algorithmes présente un intérêt évident car nous faisons appel à l efficacité de PAM pour travailler sur de grands ensembles de points. Sa performance a cependant des limites, elle est tributaire de la taille et de la quantité des échantillons. Pour pallier à ce problème d échantillons, nous utiliserons une variante de CLARA appelée CLARANS. CLARANS améliore la qualité du travail par rapport à CLARA grâce à sa capacité à récupérer les échantillons de manière aléatoire (et non plus sélectionnés par l homme), et différents à chaque étape. 11

19 1.4 Autres méthodes Cette section présente deux autres méthodes qui permettent la pratique du clustering à savoir la méthode basée sur la densité et la méthode basée sur les grilles Méthode s appuyant sur la densité Cette méthode est un remède à la problématique récurrente des méthodes hiérarchiques et des méthodes par partition : ceux-ci gèrent correctement les clusters de forme sphérique, beaucoup moins les clusters de forme arbitraire (figure 1.10). Pour régir au mieux ces formes aléatoires, "il est nécessaire de considérer un cluster comme étant une région homogène de haute densité entourée de régions de faible densité"[3] comme le démontre concrètement la figure De plus, cette méthode est capable de gérer le bruit qui peut exister dans les données. Figure 1.10: BDD à formes particulières L algorithme DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est l algorithme le plus connu. Il contient trois données d entrée : 1. D : le jeu de données contenant n objet, 2. ɛ : le rayon, 3. MinP ts : Le nombre minimum de points qui doit être contenu dans le rayon ɛ pour que la zone soit considérée comme étant dense. Tout d abord, DBSCAN marque chaque objet contenu dans D comme non-visité. L algorithme fonctionne ensuite en deux étapes. En premier lieu, pour chaque objet p sélectionné aléatoirement, l algorithme le marque comme visité. Il teste ensuite si le voisinage décrit par le rayon ɛ et ayant pour centre l objet p contient au moins MinP ts objets. Si ce n est pas le cas, l objet est marqué et répertorié en tant que bruit. Sinon deux alternatives se présentent : soit l objet est rajouté à un cluster, soit un nouveau cluster est crée. L algorithme continue de cette manière aussi longtemps que subsistent des objets non-visités. Figure 1.11: Résultats des regroupements effectués par DBSCAN L utilisateur spécifie les valeurs MinP ts et ɛ, ce qui peut paraître complexe. Ces deux dernières valeurs étant globales, elles sont incapables de traiter des clusters de densités différentes. 12

20 1.4.2 Méthode basée sur les grilles Principes et challenges techniques Les algorithmes de clustering basés sur les grilles se conforment aux trois étapes suivantes : 1. Diviser l espace en cellules rectangulaires afin d obtenir une grille composée de cellules de taille équivalente. La figure 1.12 montre une telle grille, 2. Supprimer les cellules de basse densité c est à dire que les cellules qui possèdent une densité de points élevés s apparentent à des clusters, à contrario les cellules à peu de points à du bruit, 3. Combiner les cellules adjacentes ayant une forte densité pour former des clusters. Figure 1.12: Grille à deux dimensions pour la recherche de clusters La force de l approche par grille permet d obtenir un temps linéaire pour l assignement des points aux cellules : la complexité est donc de O(n), où n représente le nombre de points de données. Nous devons nécessairement nous arrêter un petit moment afin de méditer sur la problématique suivante : Puisque les cellules présentent une taille rectangulaire et fixe, elles ne viennent pas épouser systématiquement la forme du cluster. Une approche naïve consisterait à augmenter le nombre de cellules dans un but de précision. Le temps d exécution augmenterait de façon significative et plus encore en présence d un grand nombre de dimensions occasionnant par la même un problème de sur-partitionnement. Abordons une autre difficulté liée à l utilisation de ces méthodes fondées sur les grilles, celle de la haute dimensionnalité des données : une augmentation des données entraînerait systématiquement un surcroît impressionnant du nombre de cellules. A contrario, la création d une grille pourvue de peu de cellules pourrait engendrer des trous dans le cluster, le résultat ainsi obtenu ne serait donc pas significatif : c est bien là tout le problème du sous-partitionnement. Noircissons le tableau des difficultés et parlons de celle rencontrée lors de la recherche de clusters dans un espace à pleine dimension. Comme précisé dans [15],"si nous rajoutions de nombreuses variables additionnelles à chaque point d un cluster de la figure 1.12 et que ces points soient uniformément répartis, la majorité des points se retrouveraient dans une cellule séparée de cet 13

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT

NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT Introduction NORME INTERNATIONALE D AUDIT 530 SONDAGES EN AUDIT (Applicable aux audits d états financiers pour les périodes ouvertes à compter du 15 décembre 2009) SOMMAIRE Paragraphe Champ d application

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

CRÉER UN COURS EN LIGNE

CRÉER UN COURS EN LIGNE Anne DELABY CRÉER UN COURS EN LIGNE Deuxième édition, 2006, 2008 ISBN : 978-2-212-54153-3 2 Que recouvre le concept d interactivité? Dans une perspective de cours en ligne, une activité interactive est

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

Commission des Outils d évaluation pour les Humanités générales et technologiques. Présentation générale des outils

Commission des Outils d évaluation pour les Humanités générales et technologiques. Présentation générale des outils Commission des Outils d évaluation pour les Humanités générales et technologiques Présentation générale des outils 1. Généralités 1.1. Cadre institutionnel Le décret du 24 juillet 1997 sur les missions

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Le rapport d audit Modifications apportées par la version révisée de la norme ISA 700 applicable à partir du 31/12/2006

Le rapport d audit Modifications apportées par la version révisée de la norme ISA 700 applicable à partir du 31/12/2006 Le rapport d audit Modifications apportées par la version révisée de la norme ISA 700 applicable à partir du 31/12/2006 Introduction : Dans le but d accroître la transparence et la comparabilité des rapports

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

2.3. APRÈS LA FORMATION 2.3.1. FAVORISER LES OPPORTUNITÉS D APPLICATION

2.3. APRÈS LA FORMATION 2.3.1. FAVORISER LES OPPORTUNITÉS D APPLICATION APRÈS LA FORMATION 2.3. APRÈS LA FORMATION Lorsque la formation est terminée, l organisation doit finalement s assurer que l apprenant puisse utiliser de manière concrète les nouveaux apprentissages. Cette

Plus en détail

5. Validité de la méta-analyse

5. Validité de la méta-analyse 5. Validité de la méta-analyse 5.1. Poids de la preuve d une méta-analyse Le poids de la preuve d un résultat scientifique quantifie le degré avec lequel ce résultat s approche de la réalité. Il ne s agit

Plus en détail

Concours EXTERNE d ingénieur des systèmes d information et de communication. «Session 2009»

Concours EXTERNE d ingénieur des systèmes d information et de communication. «Session 2009» Concours EXTERNE d ingénieur des systèmes d information et de communication «Session 2009» Meilleure copie "Rapport Technique" Thème : conception et développement logiciel Note : 15,75/20 Rapport technique

Plus en détail

Population étudiante en médecine vétérinaire : projections

Population étudiante en médecine vétérinaire : projections Population étudiante en médecine vétérinaire : projections Assemblée Générale des étudiants de Louvain 17 juin 2015 1 Avant-propos Depuis quelques semaines, la question de la surpopulation dans les filières

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

LES REPRESENTATIONS DES NOMBRES

LES REPRESENTATIONS DES NOMBRES LES CARTES A POINTS POUR VOIR LES NOMBRES INTRODUCTION On ne concevrait pas en maternelle une manipulation des nombres sans représentation spatiale. L enfant manipule des collections qu il va comparer,

Plus en détail

Création d un catalogue en ligne

Création d un catalogue en ligne 5 Création d un catalogue en ligne Au sommaire de ce chapitre Fonctionnement théorique Définition de jeux d enregistrements Insertion de contenu dynamique Aperçu des données Finalisation de la page de

Plus en détail

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS

GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS GÉDIA AUDIT & SURVEILLANCE DES COÛTS D ENTRÉE DES ARTICLES FABRIQUÉS 1. Pourquoi il est indispensable de surveiller les coûts d entrées des articles fabriqués 1.1. La règle de base de valorisation du stock

Plus en détail

Algorithmes de tri. 1 Introduction

Algorithmes de tri. 1 Introduction Algorithmes de tri L objectif de ce document est de présenter plusieurs algorithmes classiques de tri. On commence par présenter chaque méthode de manière intuitive, puis on détaille un exemple d exécution

Plus en détail

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES

PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES PROPOSITION D UNE APPROCHE DE SEGMENTATION D IMAGES HYPERSPECTRALES Nathalie GORRETTA MONTEIRO 1 1 UMR Information et Technologies pour les Agro-Procédés, Cemagref Montpellier, France Présentée le 25 Février

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Apprentissage par exploration

Apprentissage par exploration Apprentissage par exploration 1/32 Introduction Méthode particulière d acquisition de connaissance : apprentissage artificiel, à partir d induction. obtention des connaissances à partir d exemples. On

Plus en détail

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE

QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE QUATRE ÉLÉMENTS À NE PAS SOUS-ESTIMER DANS LE CONTEXTE D UNE TRANSMISSION D ENTREPRISE Table des matières 1. Introduction... 1 2. Développement... 2 2.1. Droit successoral, réserve des héritiers... 2 2.2.

Plus en détail

Document d orientation sur les allégations issues d essais de non-infériorité

Document d orientation sur les allégations issues d essais de non-infériorité Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette

Plus en détail

Analyse abstraite de missions sous PILOT

Analyse abstraite de missions sous PILOT Analyse abstraite de missions sous PILOT Damien Massé EA 3883, Université de Bretagne Occidentale, Brest damien.masse@univ-brest.fr Résumé Nous étudions la possibilité de réaliser un analyseur par interprétation

Plus en détail

11. Tests d hypothèses (partie 1/2)

11. Tests d hypothèses (partie 1/2) 11. Tests d hypothèses (partie 1/2) MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v1) MTH2302D: tests d hypothèses 1/30 Plan 1. Introduction 2. Hypothèses et erreurs 3. Tests d hypothèses

Plus en détail

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE INTRODUCTION GENERALE La situation concurrentielle des dernières années a confronté les entreprises à des problèmes économiques.

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB adoptés par le Comité d experts de l Union de l IPC à sa quarante-deuxième session et

Plus en détail

Politique de placements

Politique de placements Politique de placements Le 7 octobre 2010 Politique de placements Table des matières 1. La mission de la Fondation pour le développement des coopératives en Outaouais 2. Les principes de la gouvernance

Plus en détail

Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE

Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE COURRIER DU GROUPE LA POSTE? Alix LEGRAND ESG MANAGEMENT

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

Shadow Manager Simulateur de gestion globale d entreprise. Introduction

Shadow Manager Simulateur de gestion globale d entreprise. Introduction Shadow Manager Simulateur de gestion globale d entreprise Introduction Le logiciel de simulation d entreprise Shadow Manager représente le nec plus ultra des outils pédagogiques de simulation de gestion

Plus en détail

Mobilisation des ressources 45. Définition et composantes

Mobilisation des ressources 45. Définition et composantes vec l ouverture du Maroc sur l environnement international et sur les mécanismes et les enjeux planétaires du développement et de la coopération socioéconomique, ainsi qu avec le développement du mouvement

Plus en détail

BURTE Julien/MONTES Olivier/ROGLIANO Théo TER :2015 ETERNITY II. Tuteur : Eric BOURREAU

BURTE Julien/MONTES Olivier/ROGLIANO Théo TER :2015 ETERNITY II. Tuteur : Eric BOURREAU BURTE Julien/MONTES Olivier/ROGLIANO Théo TER :2015 ETERNITY II Tuteur : Eric BOURREAU Eternity II est un puzzle de 256 pièces, où chaque pièce est formée de 4 couleurs et doit être assortie à sa voisine

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Emilien Suquet, suquet@automaths.com

Emilien Suquet, suquet@automaths.com STATISTIQUES Emilien Suquet, suquet@automaths.com I Comment réagir face à un document statistique? Les deux graphiques ci-dessous représentent l évolution du taux de chômage en France sur les 1 mois de

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

Guide de production des notes pédagogiques mai 2011, septembre 2014

Guide de production des notes pédagogiques mai 2011, septembre 2014 Centre de cas 7 99 2011 001 Guide de production des notes pédagogiques mai 2011, septembre 2014 Document produit par la professeure Anne MESNY, marginalement révisé par la professeure Alix MANDRON 1 En

Plus en détail

CALCUL MENTAL AU CYCLE 3

CALCUL MENTAL AU CYCLE 3 CALCUL MENTAL AU CYCLE 3 Constat de départ : Les élèves du cycle 3 de l école ont des difficultés pour utiliser des procédures de calcul mental lors de calculs réfléchis : ils se trompent ou utilisent

Plus en détail

Étapes du développement et de l utilisation d un modèle de simulation

Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Étapes du développement et de l utilisation d un modèle de simulation Formulation du problème Cueillette et analyse de données Conception

Plus en détail

Correction de l épreuve intermédiaire de mai 2009.

Correction de l épreuve intermédiaire de mai 2009. Licence de Gestion. 3ème Année Année universitaire 8-9 Optimisation Appliquée C. Léonard Correction de l épreuve intermédiaire de mai 9. Exercice 1 Avec les notations du cours démontrer que la solution

Plus en détail

Initiation Access 2003

Initiation Access 2003 Initiation Access 2003 Sommaire Introduction...3 1. Création d une base...3 1.1. Modélisation...3 1.2. Création de la base...4 2. Les tables...5 2.1. Création d'une table en mode Création...5 2.2. Les

Plus en détail

Rapport synthétique. Une formation en communication de crise pour les autorités locales

Rapport synthétique. Une formation en communication de crise pour les autorités locales Rapport synthétique Une formation en communication de crise pour les autorités locales Ce rapport est la synthèse d une réflexion sur les sessions de formation en communication de crise qui ont été organisées

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

MAXIMISER LA DISPONIBILITÉ DES PRODUITS DANS LES MAGASINS

MAXIMISER LA DISPONIBILITÉ DES PRODUITS DANS LES MAGASINS Distribution MAXIMISER LA DISPONIBILITÉ DES PRODUITS DANS LES MAGASINS METTRE LES RUPTURES SOUS CONTRÔLE Introduction Tout distributeur veut que tous les produits soient bien présents dans ses rayons.

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Systèmes de Fichiers

Systèmes de Fichiers Systèmes de Fichiers Hachage et Arbres B Serge Abiteboul INRIA February 28, 2008 Serge Abiteboul (INRIA) Systèmes de Fichiers February 28, 2008 1 / 26 Systèmes de fichiers et SGBD Introduction Hiérarchie

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE

COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE COMPARAISON GRAHPIQUE DE DEUX VALEURS AVEC INCERTITUDE Le but d une expérience de laboratoire est souvent de vérifier un résultat théorique à l aide d un montage. Puisqu il est impossible (sinon très rare)

Plus en détail

2B La résolution de modèles linéaires par Excel 2010

2B La résolution de modèles linéaires par Excel 2010 2B La résolution de modèles linéaires par Excel 2010 Nous reprenons ici, de façon plus détaillée, la section où est indiqué comment utiliser le solveur d'excel 2010 pour résoudre un modèle linéaire (voir

Plus en détail

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Projet 2009 2010 Biométrie 3D PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Département : TIC Mots clés : Biométrie, Analyse d images, Vision, Caméra thermique, Caméra temps de vol, Détection

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

La méthode des quotas

La méthode des quotas La méthode des quotas Oliviero Marchese, décembre 2006 1 La méthode des quotas Principe de la méthode Point de départ et but recherché Caractère «intuitif» de la méthode A quoi ressemble une feuille de

Plus en détail

Introduction aux épreuves de logique des concours ACCÈS et SESAME

Introduction aux épreuves de logique des concours ACCÈS et SESAME Introduction aux épreuves de logique des concours ACCÈS et SESAME «La chance aide parfois, le travail toujours» Vous vous apprêtez à vous lancer dans cette course contre la montre qu est l admission en

Plus en détail

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Quebec PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Direction de la formation générale

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

LA MÉTHODE S.P.C. (STATISTICAL PROCESS CONTROL)

LA MÉTHODE S.P.C. (STATISTICAL PROCESS CONTROL) 1GM Sciences et Techniques Industrielles Page 1 sur 5 Productique - Cours Génie Mécanique Première LA MÉTHODE S.P.C. (STATISTICAL PROCESS CONTROL) Née aux USA, la méthode S. P. C. est traduite le plus

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

TERMES DE REFERENCE. INITIATION DES CADRES DE LA DNEEP ET DU MMG AUX LOGICIELS EXCEL, EVIEWS, SPSS et STATA

TERMES DE REFERENCE. INITIATION DES CADRES DE LA DNEEP ET DU MMG AUX LOGICIELS EXCEL, EVIEWS, SPSS et STATA REPUBLIQUE DE UINEE Travail Justice Solidarité MINISTERE DE L ECONOMIE ET DES FINANCES DIRECTION NATIONALE DES ETUDES ECONOMIQUES ET DE LA PREVISION (DNEEP) TERMES DE REFERENCE INITIATION DES CADRES DE

Plus en détail

Mini-Projet de Prolog : Solver de Sudoku

Mini-Projet de Prolog : Solver de Sudoku UNIVERSITE François Rabelais TOURS Polytech Tours-Département Informatique 64, Avenue Jean Portalis 37200 TOURS Mini-Projet de Prolog : Solver de Sudoku Encadré par : Présenté par : M. J-L Bouquard Florent

Plus en détail

LE RAPPORT DE STAGE. Le contenu du rapport de stage

LE RAPPORT DE STAGE. Le contenu du rapport de stage LE RAPPORT DE STAGE Le rapport de stage a pour objet de présenter des faits et des réflexions sur un stage d apprentissage qui, généralement, s est déroulé dans le cadre d un programme de formation professionnelle.

Plus en détail

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT www.imnrennes.fr ÉPREUVE E1 - CULTURE GÉNÉRALE ET EXPRESSION Coefficient 3 L objectif visé est de vérifier l aptitude des candidats à communiquer avec efficacité

Plus en détail

CAC, DAX ou DJ : lequel choisir?

CAC, DAX ou DJ : lequel choisir? CAC, DAX ou DJ : lequel choisir? 1. Pourquoi cette question Tout trader «travaillant 1» sur les indices s est, à un moment ou un autre, posé cette question : «je sais que la tendance est bien haussière

Plus en détail

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques.

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques. Cet ouvrage s inscrit dans le cadre d une problématique globale portant sur l amélioration de la qualité du logiciel pour des organismes qui ont atteint un certain niveau de maturité. Il cherche à rapprocher

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

Chap.3 Lentilles minces sphériques

Chap.3 Lentilles minces sphériques Chap.3 Lentilles minces sphériques 1. Les différents types de lentilles minces sphériques 1.1. Les différentes formes de lentilles sphériques 1.2. Lentilles minces Centre optique 1.3. Lentille convergente

Plus en détail

III CRITERES POUR CHOISIR UN COUPLE DE FLUOROPHORES

III CRITERES POUR CHOISIR UN COUPLE DE FLUOROPHORES Page : 17/ 77 III CRITERES POUR CHOISIR UN COUPLE DE FLUOROPHORES Le choix d un couple donneur-accepteur dépend de la technique utilisée (FRET, TR- FRET, BRET, etc.) et des molécules disponibles pour ces

Plus en détail

La gestion de projet

La gestion de projet K E K σ C D C C O N S U L T A N T S rue Hugi 3 CH 2502 Biel Bienne Tél: +41 32 325 19 25 Fax: +41 32 325 19 29 e-mail: kessler@kek.ch www.kek.ch La gestion de projet Sommaire 1 Le concept de «projet» 1

Plus en détail

Rapport de Post- Campagne 1

Rapport de Post- Campagne 1 Rapport de Post- Campagne 1 Résumé - La campagne Adwords que nous avons mené pour Galerie Photo-Originale a duré 21 jours (5.05-26.05) et nous a coûté $250,18. L objectif principal est en premier de stimuler

Plus en détail

Comment organiser une séance d EPS

Comment organiser une séance d EPS Comment organiser une séance d EPS Ce qui est important pour l élève c est de : - comprendre quand il réussit quelle procédure reproductible a été utilisée et isolée pour cette procédure - apprendre pour

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Le rôle d un tableau de bord

Le rôle d un tableau de bord CHAPITRE 1 Le rôle d un tableau de bord Introduction «Trop d informations tue l information.» Proverbe japonais Sur le plan théorique, un tableau de bord est un outil de reporting regroupant différents

Plus en détail

Conseil économique et social

Conseil économique et social NATIONS UNIES E Conseil économique et social Distr. GÉNÉRALE ECE/CES/2006/16 24 mars 2006 FRANÇAIS Original: ANGLAIS COMMISSION ÉCONOMIQUE POUR L EUROPE COMMISSION DE STATISTIQUE CONFÉRENCE DES STATISTICIENS

Plus en détail

Conseils pour l évaluation et l attribution de la note

Conseils pour l évaluation et l attribution de la note Entreprise formatrice Candidat/-e Téléphone: Téléphone: Ce document ne doit en aucun cas être montré au candidat après l attribution des points. Conseils pour l évaluation et l attribution de la note Documentation

Plus en détail

I n t r o d u c t i o n Les étapes de la recherche à l a r e c h e r c h e

I n t r o d u c t i o n Les étapes de la recherche à l a r e c h e r c h e I n t r o d u c t i o n Les étapes de la recherche à l a r e c h e r c h e Les objectifs pédagogiques Savoir délimiter les trois phases distinctes de la recherche Savoir identifier, pour chacune des trois

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail

Chapitre E : Allégations environnementales dans la communication commerciale

Chapitre E : Allégations environnementales dans la communication commerciale Chapitre E : Allégations environnementales dans la communication commerciale Le présent chapitre doit être lu en conjonction avec les Dispositions générales sur les pratiques de publicité et de communication

Plus en détail