Les algorithmes de fouille de données

Dimension: px
Commencer à balayer dès la page:

Download "Les algorithmes de fouille de données"

Transcription

1 Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique

2

3 Remerciements Je remercie les personnes, les universités et les sites Internet suivants qui m ont aidé pour la réalisation de ce probatoire Mr Nakache (http://nakache.9online.fr/) Université de Lille Université de Lyon Ainsi que le CNAM centre d enseignement de Valenciennes, son personnel et ses enseignants. Page 1 sur 43

4 Sommaire Introduction Les Pré-requis du Datamining Présentation du datamining L entrepôt de données Les taches Méthode d analyse de données Mise en garde Les algorithmes générateurs de connaissances Les règles d association Le raisonnement basé sur la mémoire La détection de cluster ou segmentation Les algorithmes destinés à l évaluation Les arbres de décision Les réseaux de neurones Les cartes de Kohonen...39 Conclusion Page 2 sur 43

5 Introduction Dans le contexte actuel de concurrence des entreprises, la mondialisation, la délocalisation, l objectif principal de l entreprise n est plus d agrandir sa clientèle, n y d optimiser ses processus mais de fidéliser ses clients, de leurs offrir des produits adaptés à leurs besoins et de leur faire naître des besoins. Au cours des dernières années les entreprises ont collecté de nombreuses informations sur leurs clients par le biais des systèmes de gestion. Aujourd hui ces informations représentent une mine d or. Des décennies de stockage de données dans des systèmes de gestion, le faible coût des espaces de stockage et la rapidité des machines, les entreprises ont une mine d or de renseignement sur ces clients. Dans l optique de progression, cette mine d or doit être explorée, fouillée, afin d en tirer des connaissances sur les clients, trouver les schémas comportementaux de ses clients et ainsi cadrer et anticiper leurs attentes. Le datamining répond aux besoins de l entreprise, il explore les données et en ressort des relations entre le client et ses comportements ou il évalue les résultats à une action future. Vous trouverez dans ce document un échantillon des méthodes du datamining. Page 3 sur 43

6 1 Les Pré-requis du Datamining 1.1 Présentation du datamining Traduit littéralement par «creusage des données» ou «forage des données», le Datamining est un processus plus ou moins autonome permettant de fouiller dans des grands ensembles de données afin de mettre en évidence des relations. Le parcours à travers ces grands ensembles de données, généralement stockés dans un entrepôt de données, est réalisé au moyen de méthodes mathématiques, statistiques ou algorithmiques. La méthode de parcours peut être itératif et/ou interactif en fonction des objectifs à atteindre. Le datamining est un processus qui va des données élémentaires disponibles à la décision en apportant à chaque étape une plus value informationnelle. Cette plus value peut générer, en fonction des informations de synthèse, des déclenchements automatiques d actions correctives, préventives ou amélioratrices. Les méthodes ont pour objet de découvrir des structures, des relations entre les faits. En partant d un jeu de données, la méthode va s initialiser, apprendre, soit de façon automatique (méthode non supervisée), soit de façon dirigée (méthode supervisée). Le datamining est un métissage entre l intelligence artificielle, les systèmes experts et les statistiques. Il est donc évident de retrouver au catalogue des méthodes du Datamining aussi bien les réseaux de neurones, les arbres de décisions que les méthodes de visualisation multidimensionnelle. Le datamining peut parcourir quasiment tous les types de données, cependant, dans un souci d optimisation et de performance, il est préférable de rassembler les données et de le formaliser au sein d un entrepôt de données (Datawarehouse). Page 4 sur 43

7 1.2 L entrepôt de données L entrepôt de données n est ni une base de données, ni un système d information, et cependant provient aussi bien de l un que de l autre. Un système d information désigne les données systématiquement collectées et les traitements réalisés sur elles pour que l entreprise puisse effectuer des opérations classiques telles que la facturation, le marketing, le contrôle de gestion, la maintenance, l exploitation. Un système d information n est pas nécessairement automatisé ou informatisé, pourtant sans cette informatisation la productivité de l entreprise serait réduite. Cette informatisation des systèmes met en jeu des bases de données, dessinées par des informaticiens à l aide de méthodes de conception de base de données donc pas exploitables par des non informaticiens, et des réseaux de communication permettant l échange des informations qu elles soient de types datas ou de courriers. Un entrepôt de données contient à la fois les données opérationnelles enregistrées au fil de l eau, les données agrégées selon toutes dimensions, les données archivées, les données de pilotage, et éventuellement toutes données externes à l entreprise mais ayant une relation possible avec ses activités. Ces données sont consignées dans une ou plusieurs bases de données et accessibles pour toutes applications par des systèmes d aide à la décision, des requêteurs de données, des systèmes de reporting, des systèmes d analyse statistique ou de Datamining. L entrepôt de données se différencie du système d information traditionnel par l orientation de ces données, elles sont uniformisées (une date est toujours au même format), concentrées, organisées, et prêtes pour être exploitées par des systèmes d aide à la décision et de Datamining. Page 5 sur 43

8 1.3 Les taches Lors de la fouille automatique des données le Datamining va utiliser des méthodes/algorithmes plus ou moins complexes et ainsi établir des corrélations entre ces données et définir des comportements types. Les différents algorithmes réalisent quelques opérations de base, les taches suivantes : Les définitions proviennent de : «le petit Larousse» la classification «Distribution par classes, par catégories, selon un certain ordre et une certaine méthode.» l estimation «Recherche de la valeur d un ou de plusieurs paramètres d une loi statistique à partir d observation ou de sondages». La prédiction Action de prédire. «Prédire : annoncer d avance ce qui doit se produire soit par intuition ou divination, soit par des règles certaines, soit par conjecture ou raisonnement» Association «Action d associer quelqu un à quelque chose, des choses diverses entre elles.». Il s'agit de trouver des similitudes ou des associations. Le sequencing est le terme anglais utilisé pour préciser que l'association se fera dans le temps. Page 6 sur 43

9 Segmentation ou clusterisation Diviser en segments. «Segment : portion bien délimitée, détachée d un ensemble.». La problématique est de trouver des groupes homogènes dans une population. description «Action de décrire, développement qui réduit». optimisation Action d optimiser. «Optimiser : donner à quelque chose, une machine, une entreprise, le rendement optimal en créant les conditions les plus favorables ou en tirant le meilleur parti possible.» 1.4 Méthode d analyse de données La mise en place d un outil de datamining passe par plusieurs étapes. En effet la simple installation d un outil ne résout pas tous les problèmes, et ne fournit pas les résultats espérés. La première étape consiste à poser la bonne question, à définir le domaine, les objectifs, le résultat attendu ainsi que les moyens de mesure du succès. La seconde étape est la recherche des données, cette étape consiste à rechercher les données utiles, exploitables, d évaluer leur fiabilité. Ensuite, les données sont normalisées, uniformisées afin de les rendre exploitables par le datamining. La troisième étape consiste à mettre en place les outils du datamining. La dernière étape est la validation des résultats, cette étape peut remettre en cause une des étapes précédentes. Dans ce cas, le cycle recommence. Page 7 sur 43

10 La phase de préparation des données représente la partie la plus importante en temps et en moyen de toute la mise en place d un outil de datamining. 1.5 Mise en garde Le regroupement et l exploitation de données personnelles sur un individu à des fins commerciaux posent quelques problèmes d éthique. En France, la loi informatique et liberté du 24 janvier 1978 oblige tous les organismes stockant des données d ordre personnel à faire une déclaration préalable à la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées. L article 25 de cette loi a été modifié le 22 décembre 2004 pour intégrer «les huit catégories de traitements qui sont soumis à autorisation préalable de la CNIL.». Le datamining apparaît dans la rubrique «les traitements automatisés ayant pour objet : l interconnexion de fichier». Dorénavant, la mise en place d un datamining est soumise à l approbation de la CNIL. Page 8 sur 43

11 2 Les algorithmes générateurs de connaissances Les algorithmes générateurs de connaissances vont analyser les données et trouver des relations. Ils se contentent d analyser le passé, leur pouvoir de prédiction reste limité. 2.1 Les règles d association Généralité Les règles d association sont traditionnellement liées au secteur de la grande distribution car leur principale application est l analyse du panier de la ménagère qui consiste à rechercher des associations entre produits sur les tickets de caisse. Le but de la méthode est d étudier les achats des clients afin d obtenir leur profil et ainsi de proposer des offres adéquates à ses clients. La méthode va rechercher les associations entre produits : si achat du produit A alors achat du produit B. Cette méthode peut être appliquée à tous types de secteurs pour lesquels il est intéressant de rechercher le groupement potentiel de produits ou de services. Elle peut également être utilisée dans le secteur médical pour la recherche de complications dues à des associations de traitement ou de médicaments ou à la détection des fraudes en recherchant les associations inhabituelles. L un des avantages de cette méthode est la clarté des résultats car les règles seront de la sorte : Association simple Si achat de plantes alors achat de terreau. Association plus complexe Si achat de vin blanc et de riz alors achat de poisson. Page 9 sur 43

12 Association dans le temps Si achat d un téléviseur alors achat d un lecteur DVD dans l année. Recherche de fraude Si achat d un lecteur de DVD alors possession d un téléviseur. Si possession d un téléviseur alors payement de la taxe audiovisuelle. Donc : Si achat d un lecteur DVD alors payement de la taxe audiovisuelle. Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se situent les uns par rapport aux autres. Cependant, la méthode produit des règles intéressantes mais peut aussi produire des règles triviales ou inutiles Mise en pratique Les données disponibles dans un magasin sont les tickets de caisse, un ticket regroupe des produits. Comme un ticket est de longueur variable chaque ticket sera un enregistrement dans la table. Les produits sont donc des champs. Produit A Produit B Produit C Produit D Produit E Ticket 1 X X Ticket 2 X X X Ticket 3 X X Ticket 4 X X X Ticket 5 X X Total Tableau 1 Page 10 sur 43

13 A partir des données brutes, on construit le tableau de cooccurrence afin d identifier les associations. Produit A Produit B Produit C Produit D Produit E Produit A Produit B Produit C Produit D Produit E Tableau 2 Ce tableau permet de déterminer la fréquence d apparition de deux produits dans un achat. Le produit C n est jamais acheté en même temps que les produits D et E. Les produits A et E apparaissent simultanément dans 40% des achats. Le produit E est toujours acheté avec le produit A Évaluation des résultats Chaque règle doit être quantifiée afin d évaluer sa pertinence Le support Le support est la fréquence d apparition simultanée des produits de la condition dans la liste des tickets. Pour le produit A Support = Σ apparitions = 4 Σ total = 5 Équation 1 4 Support = = 0.8 = 80% 5 apparitions total Page 11 sur 43

14 La confiance C est le rapport entre le nombre de tickets contenant les produits de la règle et le nombre de tickets contenant les produits de la condition. Exemple 3 produits X, Y et Z Articles X Y Z X et Y X et Z Y et Z X et Y et Z Fréquence 45% 42,5% 40% 25% 20% 15% 5% Tableau 3 Le niveau de confiance pour l association X, Y et Z. Règle Confiance si X et Y alors Z 0.20 si X et Z alors Y 0.25 si Y et Z alors X 0.33 Tableau 4 La règle si Y et Z alors X possède la plus grande confiance 33%, cependant, d après le tableau des fréquences X est présent dans 45% des achats. Il est donc plus judicieux de prédire X sans prédire la règle d association si Y et Z alors X L amélioration L amélioration permet de comparer la confiance de la règle par rapport à la fréquence d apparition du résultat de la règle. à 1. Une règle pertinente doit avoir une amélioration supérieure Règles Confiance Fréquence du résultat Amélioration Si X et Y alors Z % 0.50 Si X et Z alors Y % 0.59 Si Y et Z alors X % 0.74 Si X alors Y % 1.31 Tableau 5 Page 12 sur 43

15 Comme la règle si X alors Y a une amélioration supérieure à 1 donc c est la règle la plus pertinente Réduction des données Dans le cas d un supermarché, des milliers d articles existent, il est impossible malgré la puissance des machines de réaliser les calculs sur tous ces articles. Il existe différentes techniques pour réduire la liste des règles voici les deux principales : L élagage par support minimum Lors de la recherche de règles pour l association de deux produits, un support minimum est introduit. Si le support de la règle est inférieur au support minimum, la règle sera éliminée ainsi que les articles. A chaque recherche des règles d association (pour 3, 4, 5 articles) l élagage reprend avec une valeur différente pour le support minimum. Le groupement d articles Les articles sont regroupés d une façon ou d une autre, leurs nombres d apparition sont additionnés. Ce regroupement doit être fait par les experts métier afin de ne pas fausser les résultats Avantages / inconvénients Résultats clairs Les règles d association sont faciles à interpréter. Elles sont faciles à appliquer pour les utilisateurs. Apprentissage non supervisé La méthode ne nécessite pas d autre information qu une série d articles et des tickets de caisse. Achat de taille variable La méthode est l une des rares à prendre en entrée des achats qui sont des listes d articles de tailles variables. Page 13 sur 43

16 Introduction du temps Il est possible d introduire des articles virtuels tels que le jour, la semaine etc. En limitant la forme des règles, on obtient des comportements d achat qui dépendent du temps. Simplicité de la méthode La méthode et les calculs sont élémentaires. Elle peut être programmée sur un simple tailleur et est disponible dans la plus part des logiciels de datamining. Coût de la méthode La méthode est coûteuse en temps de calcul machine. La réduction des données permet de gagner du temps mais risque d éliminer des règles importantes. Les articles rares La méthode est plus efficace pour les articles fréquents, les articles rares sont souvent écartés. La qualité des règles La méthode peut produire des règles triviales ou inutiles (ex : tous les détenteurs du permis B ont plus de 18 ans). Page 14 sur 43

17 2.1.6 Applications Connaissance du client et donc du panier de la ménagère. Optimisation des stocks, la découverte logique des associations de produits permet d optimiser les stocks donc les commandes ou la production. Merchandising : la découverte d association entre les produits peut entraîner une réorganisation de la surface de vente. Ventes croisées : une opération promotionnelle sur un produit entraînera l achat d un autre au tarif fort. Analyse des mouvements bancaires. Analyse des incidents dans le domaine des assurances. Analyse des communications dans les télécoms. D une façon plus générale, l analyse des associations peut s appliquer à tous les problèmes dans lesquels l apparition d un événement est conditionnée par des événements passés. Page 15 sur 43

18 2.2 Le raisonnement basé sur la mémoire Généralité Le raisonnement basé sur la mémoire (RBM), également appelé le raisonnement à base de cas, est l équivalent de l expérience chez l homme. Le but de cet algorithme est de classer et de prédire, en s appuyant sur la comparaison d exemples proches tirés d un ensemble de cas préalablement enregistrés. Dès qu un nouveau cas se présente et qu il y a suffisamment de similitudes avec un cas stocké, les conclusions appliquées au cas stocké s appliquent au nouveau cas. La capacité de résolution augmente au fur et à mesure des cas présentés Mise en place La mise en place du RBM se décompose en 4 phases : Collecte des données Recherche des facteurs pertinents Indexation des données Tests et amélioration de la performance Collecte des données Les données sont constituées d enregistrements représentant des cas qui eux-mêmes représentent des situations caractéristiques dans un domaine particulier. Chaque cas regroupe deux types d information : Un recueil d informations descriptives d un état particulier et cohérent dans le domaine considéré. Un ensemble de déductions ou d interprétations applicables pour le cas en cours. Page 16 sur 43

19 Les variables sont définies par une liste finie de modalités ou sont sous une forme textuelle libre. La collecte de données se présente sous deux formes : Soit les données existent déjà dans des bases et la collecte des données prend alors la forme d une interface. Soit les données requièrent une saisie manuelle pour construire un premier ensemble de cas pertinents Recherche de facteurs pertinents La première méthode est la mesure des similitudes. Cette méthode consiste à compter les exemples qui présentent le plus de mots clés en commun puis de mesurer la distance entre les exemples et le cas à étudier. Distance (a,b)= 1 ((nombre de mots clés en communs) / (le nombre de mots communs en a ou en b)) La seconde méthode consiste à décrire une hiérarchie de concepts pour décrire un problème. La structuration du problème sous forme d arborescence permet de limiter la mesure de la distance aux cas pertinents Indexation des données L indexation limite le nombre de cas à ceux qui sont potentiellement similaires au cas à résoudre, et identifie ainsi les cas les plus proches. Le filtrage améliore la précision et la fiabilité du diagnostique. La méthode d indexation la plus fréquente consiste à rechercher les plus proches voisins du cas à résoudre avec une fonction de similitude. Cette fonction compte le nombre de diagnostiques présents et à effectuer un simple calcul de fréquence. Une seconde mesure de similitude introduit une pondération des critères pour définir une fonction globale. Dans un premier Page 17 sur 43

20 temps sélection des cas qui présentent un seuil minimal de similitude, ensuite recherche des différents types de diagnostiques présents. Ce double traitement permet de présenter à l utilisateur les réponses possibles avec à la fois une fréquence et une distance Tests et amélioration de la performance. Une phase de diagnostique est lancée, les résultats prédits sont comparés aux résultats réels. Si le niveau de performance est insuffisant la phase de recherche de pertinence et/ou l indexation est à revoir Avantages / inconvénients Apprentissage simple C est l échantillon qui construit le modèle. Chaque nouveau cas présenté est automatiquement intégré dans le modèle, sans aucune reconstruction de celui-ci. Clarté des résultats Bien que la méthode ne produit pas de règle, chaque prédiction peut être justifiée en dévoilant les plus proches voisins qui ont amené à ce choix. Tout type de données La méthode peut s appliquer dés qu il est possible de définir une distance sur les champs. Il est possible de définir des distances sur des champs complexes tel que des informations géographiques, des textes, des images, des sons etc. c est parfois un critère de choix de la méthode car les autres méthodes traitent difficilement les données complexes. Page 18 sur 43

21 Nombre d attributs La méthode permet de traiter des problèmes avec un grand nombre d attributs. Mais, plus le nombre d attributs est important, plus le nombre d exemples doit être grand. En effet, pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l espace et soient suffisamment proches les uns des autres. Si le nombre d attributs pertinents est faible relativement au nombre total d attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur des attributs non pertinents. Stocker le modèle Comme le modèle de l algorithme est l échantillon, l espace de stockage doit être important pour le stocker, de plus le temps d accès aux données doit être rapide Applications Le RBM peut être employé dans différents domaines tels que le service après vente, le diagnostique des pannes, la médecine et est également utilisé dans l estimation des éléments manquants, la détection des fraudes. Les applications du RBM sont généralement utilisées dans tous les cas où «l expérience» peut résoudre ou aider à résoudre le nouveau problème. Page 19 sur 43

22 2.3 La détection de cluster ou segmentation Généralité La segmentation est l opération qui consiste à regrouper les individus d une population en un nombre limité de groupe (ou cluster). Ces groupes ont deux propriétés : ils ne sont pas prédéfinis, ils sont découverts automatiquement. ils regroupent des individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes en s appuyant sur des critères tels que ceux de Condorcet ou de l insertion interclasse Segmentation relationnelle Généralité L analyse relationnelle repose sur la représentation des données sous la forme de relation d équivalence. Une segmentation est une relation d équivalence R, où arb si a et b sont dans le même segment. R est une matrice carrée qui est définie par si arb alors m ab =1, sinon m ab =0. Les trois propriétés d une relation d équivalence, réflexivité, symétrie et transitivité, se traduisent par les relations suivantes : m ab = 1 m ab = m ba m ab + m bk m ak 1 La recherche d une segmentation revient donc à la recherche d une matrice M = m ab satisfaisant aux conditions précédentes. Dans l analyse relationnelle, toutes les variables des individus de la population à segmenter doivent être catégoriques, sinon elles sont automatiquement écartées. Page 20 sur 43

23 A chacune des variables p catégoriques correspond une segmentation naturelle. Chaque segment est composé des individus ayant la même modalité pour la variable considérée. Le but de l analyse relationnelle est de trouver une segmentation qui fournisse un bon compromis entre les segmentations p naturelles initiales. Pour cela, on pose m ab le nombre de fois où les individus a et b ont été mis dans le même segment et on pose M = (m ab ) = 2(m ab )-p. m ab > 0 si a et b sont dans le même segment pour une majorité de variables. m ab <0 si a et b sont dans des segments différents pour une majorité de variables. m ab = 0 s il y a autant de variables pour lesquelles a et b sont réunis que de variables pour lesquelles a et b sont séparées. Ce critère ne suffit pas car il y a non transitivité de la règle majoritaire : il est possible d avoir une majorité pour a et b, b et k mais pas pour réunir a et k. Il faut rajouter des contraintes de relation d équivalence de la forme précédente pour trouver une segmentation satisfaisant au mieux la majorité des segmentations p initiales Avantages Détermination automatique du nombre optimal de segments au lieu de le fixer à priori. Traitement efficace d un grand nombre de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données. Obtention de segments bien différenciés. Obtention de segments stables vis-à-vis de légères modifications de données. Comparaison à chaque étape des individus deux à deux et obtention d une segmentation globale et non locale. Détention des «niches». Page 21 sur 43

24 Inconvénients La méthode relationnelle est affectée par la présence de variables redondantes, de ce fait le résultat de la segmentation va être orienté en faveur des ces variables qui deviendront les plus discriminantes dans la description des segments. De plus, la segmentation relationnelle est surtout destinée aux variables catégoriques puisqu elle écarte implicitement les variables continues Centres mobiles, K-moyennes et nuées dynamiques Centres mobiles La méthode des centres mobiles suit le déroulement suivant Etape 1 - Etape 2 - Etape 3 - Choix d un nombre K d individus, c est un choix arbitraire, tirage au sort, les k premiers qui seront appelés les centres. Regroupement des autres individus autour des centres définis à l étape 1 de telle sorte que les groupes sont constitués des individus les plus proches. Remplacement des k individus choisis à l étape 1 par les barycentres des groupes définis à l étape 2. Les étapes se répètent tant que l inertie interclasse, qui décroît d une itération à l autre, ne diminue plus sensiblement. Page 22 sur 43

25 K-moyennes La méthode des k-moyennes est une variante de la méthode des centres mobiles. Dans cette méthode le barycentre de chaque groupe est calculé à l introduction de chaque nouvel individu dans le groupe au lieu d attendre l affectation de tous les individus Les nuées dynamiques Avec cette méthode, le groupe n est plus représenté par son barycentre, qui peut être extérieur à la population, mais par un sous-ensemble du groupe appelé noyau. Ce noyau composé des individus centraux sera plus représentatif du groupe que le barycentre Avantages / inconvénients Temps de traitement Le temps de traitement est proportionnel aux nombres d individus. Données continues La méthode ne s applique qu à des données continues, il est donc nécessaire de transformer les données si elles ne le sont pas. Le choix des bons paramètres. La méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. Page 23 sur 43

26 2.3.4 Segmentation hiérarchique ascendante Généralité Cette segmentation produit une suite de classes organisées hiérarchiquement. La classe parent regroupe toute la population, puis la population est divisée successivement en classes enfants pour finir à une classe par individu. La représentation graphique est appelée dendrogramme. 250 Tous les individus dans la classe 150 Les classes 5 et 6 sont a une distance de Figure 1 Classe la plus fine, 1 individu par classe L algorithme de la segmentation hiérarchique recherche à chaque étape les deux classes les plus proches pour les fusionner. La notion de proche étant déterminée par la distance des deux classes. Ensuite vient la notion d inertie interclasse, les deux segments qui feront le moins baisser l inertie interclasse seront fusionnés. Page 24 sur 43

27 Avantages / inconvénients Pas de choix arbitraire des individus initiaux Pas de fixation du nombre de segments Nécessite des ressources matérielles importantes Deux individus placés dans des segments différents ne sont plus jamais comparés, certains segments naturels peuvent être occultés Applications Par son aptitude à traiter les données sans en privilégier une en particulier, à traiter des données hétérogènes et de nombreuses variables, la segmentation est utile : pour avoir une compréhension de l ensemble d une population. pour constituer des panels représentatifs. Comme préalable à d autres opérations de datamining car la segmentation évite le sur apprentissage du aux variables trop discriminantes, et le remplacement des données manquantes pour la valeur moyenne dans le segment de l individu. Page 25 sur 43

28 3 Les algorithmes destinés à l évaluation A la différence des algorithmes générateurs de connaissances, ces algorithmes ont la particularité de s initialiser avec un jeu de données pour créer le modèle, puis vient une phase de validation de ce modèle. Une fois le modèle calibré chaque cas présenté sera classé dans une catégorie. Les données d initialisation aussi que ceux de validation détermineront le modèle donc les résultats futurs. 3.1 Les arbres de décision Généralité Les arbres de décision sont une représentation graphique d un processus de classification qui doivent répondre à une question : «la banque peut elle accorder le prêt?», «le patient est il malade?» La réponse à cette question est une classe (un champ) de la population. A la question «la banque peut elle accorder le prêt?» l échantillon de population se représente de la façon suivante : Prêt Revenu annuel Age Classe Découvert accordé? professionnel Oui Cadre Jamais Non Cadre A découvert Tableau 6 La réponse à la question se situe dans le champ «prêt accordé». En partant d un jeu de données d apprentissage et d un jeu de données de validation, l arbre se construira seul et répondra à la question posée. Page 26 sur 43

29 3.1.2 Représentation d un arbre X > 500 Nœud Racine OUI Z < 2000 Nœud fils Y < 200 NON OUI NON Feuilles Figure 2 Un arbre de décision est basé sur l enchaînement hiérarchique de tests, «nœud», construit automatiquement en fonction du jeu de données d apprentissage. Un arbre de décision est constitué : D un nœud racine : servant de point d entrée De nœuds fils : des questions De feuilles : état final, classification Chaque nœud est une question. Le jeu de question est itératif et débouche sur un autre nœud ou sur une feuille. Dans le cas d une question Binaire (Oui ou Non) la réponse OUI se situe a gauche. Il existe trois algorithmes pour déterminer la variable à associer à un nœud : CART, C5.0 et CHAID. Page 27 sur 43

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Proposition d activité utilisant l application. Tripatouille. (http://www.malgouyres.fr/tripatouille/)

Proposition d activité utilisant l application. Tripatouille. (http://www.malgouyres.fr/tripatouille/) IREM Clermont-Ferrand Algorithmique au lycée Malika More malika.more@u-clermont1.fr 28 janvier 2011 Proposition d activité utilisant l application Tripatouille (http://www.malgouyres.fr/tripatouille/)

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Classification dans des bases de données par des méthodes de datamining

Classification dans des bases de données par des méthodes de datamining Classification dans des bases de données par des méthodes de datamining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Introduction L utilisation généralisée de l informatique ces dernières dizaines

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

1. Les types d enquêtes

1. Les types d enquêtes La conduite d une enquête par questionnaire La conception d un questionnaire ne doit pas être réalisée de façon hasardeuse. Elle suit une méthodologie stricte qui permet d atteindre des résultats utilisables

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

L évolution de l automatisation.

L évolution de l automatisation. Gestion automatisée de la qualité Livre blanc Octobre 2009 L évolution de l automatisation. Etude de l évolution de l automatisation dans la gestion de la qualité des logiciels Page 2 Sommaire 2 Introduction

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Le métier de Chargé(e) d Etudes Statistiques

Le métier de Chargé(e) d Etudes Statistiques Le métier de Chargé(e) d Etudes Statistiques Nicolas Cabaj Sommaire Présentation du chargé d études statistiques 3 exemples de missions réalisées: Le scoring, illustré par un outil de détection des fraudes

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

MARKETING MIX. Politique Produit. Les composantes d un produit POLITIQUE PRODUIT

MARKETING MIX. Politique Produit. Les composantes d un produit POLITIQUE PRODUIT MARKETING MIX POLITIQUE PRODUIT Sandrine Monfort Politique Produit! Les composantes d un produit! Les classifications produit! Lancement produit! Politique de gamme! Politique de marque Les composantes

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Choix sous incertitude

Choix sous incertitude 1/38 à l analyse microéconomique - Monitorat ENS (2014-2015) Janvier 2015 2/38 Plan du cours 1 2 3 4 5 3/38 Dans les chapitres précédents, hypothèse implicite de situations certaines et d information parfaite

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

Algorithmique P2. HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont

Algorithmique P2. HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont Algorithmique P2 HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont Structure de tas - arbre Un tas est une structure de données qui Permet un nouveau type de tri (Tri par tas) Permet l'implémentation

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Sélectionner la bonne base de données de gestion de configurations pour mettre en place une plate-forme efficace de gestion de services.

Sélectionner la bonne base de données de gestion de configurations pour mettre en place une plate-forme efficace de gestion de services. Solutions de Service Management Guide d achat Sélectionner la bonne base de données de gestion de configurations pour mettre en place une plate-forme efficace de gestion de services. Aujourd hui, toutes

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Construire un tableau de bord par Marc Maisonneuve

Construire un tableau de bord par Marc Maisonneuve Construire un tableau de bord par Marc Maisonneuve Le tableau de bord On peut le définir comme la présentation synoptique d indicateurs relatifs au suivi d une bibliothèque, d un projet, d un service.

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Le système d information en classe de première STMG

Le système d information en classe de première STMG Le système d information en classe de première STMG Description du thème Propriétés Description Intitulé long Formation concernée Matière Thème Question de gestion Intitulé long Données, information et

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1

Plus en détail

Formation PME Etude de marché

Formation PME Etude de marché Formation PME Etude de marché Fit for Business (PME)? Pour plus de détails sur les cycles de formation PME et sur les business-tools, aller sous www.banquecoop.ch/business L étude de marché ou étude marketing

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

Intelligence Artificielle Jeux

Intelligence Artificielle Jeux Intelligence Artificielle Jeux Bruno Bouzy http://web.mi.parisdescartes.fr/~bouzy bruno.bouzy@parisdescartes.fr Licence 3 Informatique UFR Mathématiques et Informatique Université Paris Descartes Programmation

Plus en détail

Principe et règles d audit

Principe et règles d audit CHAPITRE 2 Principe et règles d audit 2.1. Principe d audit Le principe et les règles d audit suivent logiquement l exposé précédent. D abord, comme dans toute branche de l activité d une entreprise, l

Plus en détail

ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE

ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE BAZEILLE Stéphane MOUGEL Baptiste IUP3 ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE EN Année 2003/2004 1 TABLE DES MATIERES Home... 3 Introduction.... 3 Marching Square... 4 Algorithme....4 Programmation...4

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail