Les algorithmes de fouille de données

Dimension: px
Commencer à balayer dès la page:

Download "Les algorithmes de fouille de données"

Transcription

1 Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique

2

3 Remerciements Je remercie les personnes, les universités et les sites Internet suivants qui m ont aidé pour la réalisation de ce probatoire Mr Nakache ( Université de Lille Université de Lyon Ainsi que le CNAM centre d enseignement de Valenciennes, son personnel et ses enseignants. Page 1 sur 43

4 Sommaire Introduction Les Pré-requis du Datamining Présentation du datamining L entrepôt de données Les taches Méthode d analyse de données Mise en garde Les algorithmes générateurs de connaissances Les règles d association Le raisonnement basé sur la mémoire La détection de cluster ou segmentation Les algorithmes destinés à l évaluation Les arbres de décision Les réseaux de neurones Les cartes de Kohonen...39 Conclusion Page 2 sur 43

5 Introduction Dans le contexte actuel de concurrence des entreprises, la mondialisation, la délocalisation, l objectif principal de l entreprise n est plus d agrandir sa clientèle, n y d optimiser ses processus mais de fidéliser ses clients, de leurs offrir des produits adaptés à leurs besoins et de leur faire naître des besoins. Au cours des dernières années les entreprises ont collecté de nombreuses informations sur leurs clients par le biais des systèmes de gestion. Aujourd hui ces informations représentent une mine d or. Des décennies de stockage de données dans des systèmes de gestion, le faible coût des espaces de stockage et la rapidité des machines, les entreprises ont une mine d or de renseignement sur ces clients. Dans l optique de progression, cette mine d or doit être explorée, fouillée, afin d en tirer des connaissances sur les clients, trouver les schémas comportementaux de ses clients et ainsi cadrer et anticiper leurs attentes. Le datamining répond aux besoins de l entreprise, il explore les données et en ressort des relations entre le client et ses comportements ou il évalue les résultats à une action future. Vous trouverez dans ce document un échantillon des méthodes du datamining. Page 3 sur 43

6 1 Les Pré-requis du Datamining 1.1 Présentation du datamining Traduit littéralement par «creusage des données» ou «forage des données», le Datamining est un processus plus ou moins autonome permettant de fouiller dans des grands ensembles de données afin de mettre en évidence des relations. Le parcours à travers ces grands ensembles de données, généralement stockés dans un entrepôt de données, est réalisé au moyen de méthodes mathématiques, statistiques ou algorithmiques. La méthode de parcours peut être itératif et/ou interactif en fonction des objectifs à atteindre. Le datamining est un processus qui va des données élémentaires disponibles à la décision en apportant à chaque étape une plus value informationnelle. Cette plus value peut générer, en fonction des informations de synthèse, des déclenchements automatiques d actions correctives, préventives ou amélioratrices. Les méthodes ont pour objet de découvrir des structures, des relations entre les faits. En partant d un jeu de données, la méthode va s initialiser, apprendre, soit de façon automatique (méthode non supervisée), soit de façon dirigée (méthode supervisée). Le datamining est un métissage entre l intelligence artificielle, les systèmes experts et les statistiques. Il est donc évident de retrouver au catalogue des méthodes du Datamining aussi bien les réseaux de neurones, les arbres de décisions que les méthodes de visualisation multidimensionnelle. Le datamining peut parcourir quasiment tous les types de données, cependant, dans un souci d optimisation et de performance, il est préférable de rassembler les données et de le formaliser au sein d un entrepôt de données (Datawarehouse). Page 4 sur 43

7 1.2 L entrepôt de données L entrepôt de données n est ni une base de données, ni un système d information, et cependant provient aussi bien de l un que de l autre. Un système d information désigne les données systématiquement collectées et les traitements réalisés sur elles pour que l entreprise puisse effectuer des opérations classiques telles que la facturation, le marketing, le contrôle de gestion, la maintenance, l exploitation. Un système d information n est pas nécessairement automatisé ou informatisé, pourtant sans cette informatisation la productivité de l entreprise serait réduite. Cette informatisation des systèmes met en jeu des bases de données, dessinées par des informaticiens à l aide de méthodes de conception de base de données donc pas exploitables par des non informaticiens, et des réseaux de communication permettant l échange des informations qu elles soient de types datas ou de courriers. Un entrepôt de données contient à la fois les données opérationnelles enregistrées au fil de l eau, les données agrégées selon toutes dimensions, les données archivées, les données de pilotage, et éventuellement toutes données externes à l entreprise mais ayant une relation possible avec ses activités. Ces données sont consignées dans une ou plusieurs bases de données et accessibles pour toutes applications par des systèmes d aide à la décision, des requêteurs de données, des systèmes de reporting, des systèmes d analyse statistique ou de Datamining. L entrepôt de données se différencie du système d information traditionnel par l orientation de ces données, elles sont uniformisées (une date est toujours au même format), concentrées, organisées, et prêtes pour être exploitées par des systèmes d aide à la décision et de Datamining. Page 5 sur 43

8 1.3 Les taches Lors de la fouille automatique des données le Datamining va utiliser des méthodes/algorithmes plus ou moins complexes et ainsi établir des corrélations entre ces données et définir des comportements types. Les différents algorithmes réalisent quelques opérations de base, les taches suivantes : Les définitions proviennent de : «le petit Larousse» la classification «Distribution par classes, par catégories, selon un certain ordre et une certaine méthode.» l estimation «Recherche de la valeur d un ou de plusieurs paramètres d une loi statistique à partir d observation ou de sondages». La prédiction Action de prédire. «Prédire : annoncer d avance ce qui doit se produire soit par intuition ou divination, soit par des règles certaines, soit par conjecture ou raisonnement» Association «Action d associer quelqu un à quelque chose, des choses diverses entre elles.». Il s'agit de trouver des similitudes ou des associations. Le sequencing est le terme anglais utilisé pour préciser que l'association se fera dans le temps. Page 6 sur 43

9 Segmentation ou clusterisation Diviser en segments. «Segment : portion bien délimitée, détachée d un ensemble.». La problématique est de trouver des groupes homogènes dans une population. description «Action de décrire, développement qui réduit». optimisation Action d optimiser. «Optimiser : donner à quelque chose, une machine, une entreprise, le rendement optimal en créant les conditions les plus favorables ou en tirant le meilleur parti possible.» 1.4 Méthode d analyse de données La mise en place d un outil de datamining passe par plusieurs étapes. En effet la simple installation d un outil ne résout pas tous les problèmes, et ne fournit pas les résultats espérés. La première étape consiste à poser la bonne question, à définir le domaine, les objectifs, le résultat attendu ainsi que les moyens de mesure du succès. La seconde étape est la recherche des données, cette étape consiste à rechercher les données utiles, exploitables, d évaluer leur fiabilité. Ensuite, les données sont normalisées, uniformisées afin de les rendre exploitables par le datamining. La troisième étape consiste à mettre en place les outils du datamining. La dernière étape est la validation des résultats, cette étape peut remettre en cause une des étapes précédentes. Dans ce cas, le cycle recommence. Page 7 sur 43

10 La phase de préparation des données représente la partie la plus importante en temps et en moyen de toute la mise en place d un outil de datamining. 1.5 Mise en garde Le regroupement et l exploitation de données personnelles sur un individu à des fins commerciaux posent quelques problèmes d éthique. En France, la loi informatique et liberté du 24 janvier 1978 oblige tous les organismes stockant des données d ordre personnel à faire une déclaration préalable à la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées. L article 25 de cette loi a été modifié le 22 décembre 2004 pour intégrer «les huit catégories de traitements qui sont soumis à autorisation préalable de la CNIL.». Le datamining apparaît dans la rubrique «les traitements automatisés ayant pour objet : l interconnexion de fichier». Dorénavant, la mise en place d un datamining est soumise à l approbation de la CNIL. Page 8 sur 43

11 2 Les algorithmes générateurs de connaissances Les algorithmes générateurs de connaissances vont analyser les données et trouver des relations. Ils se contentent d analyser le passé, leur pouvoir de prédiction reste limité. 2.1 Les règles d association Généralité Les règles d association sont traditionnellement liées au secteur de la grande distribution car leur principale application est l analyse du panier de la ménagère qui consiste à rechercher des associations entre produits sur les tickets de caisse. Le but de la méthode est d étudier les achats des clients afin d obtenir leur profil et ainsi de proposer des offres adéquates à ses clients. La méthode va rechercher les associations entre produits : si achat du produit A alors achat du produit B. Cette méthode peut être appliquée à tous types de secteurs pour lesquels il est intéressant de rechercher le groupement potentiel de produits ou de services. Elle peut également être utilisée dans le secteur médical pour la recherche de complications dues à des associations de traitement ou de médicaments ou à la détection des fraudes en recherchant les associations inhabituelles. L un des avantages de cette méthode est la clarté des résultats car les règles seront de la sorte : Association simple Si achat de plantes alors achat de terreau. Association plus complexe Si achat de vin blanc et de riz alors achat de poisson. Page 9 sur 43

12 Association dans le temps Si achat d un téléviseur alors achat d un lecteur DVD dans l année. Recherche de fraude Si achat d un lecteur de DVD alors possession d un téléviseur. Si possession d un téléviseur alors payement de la taxe audiovisuelle. Donc : Si achat d un lecteur DVD alors payement de la taxe audiovisuelle. Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se situent les uns par rapport aux autres. Cependant, la méthode produit des règles intéressantes mais peut aussi produire des règles triviales ou inutiles Mise en pratique Les données disponibles dans un magasin sont les tickets de caisse, un ticket regroupe des produits. Comme un ticket est de longueur variable chaque ticket sera un enregistrement dans la table. Les produits sont donc des champs. Produit A Produit B Produit C Produit D Produit E Ticket 1 X X Ticket 2 X X X Ticket 3 X X Ticket 4 X X X Ticket 5 X X Total Tableau 1 Page 10 sur 43

13 A partir des données brutes, on construit le tableau de cooccurrence afin d identifier les associations. Produit A Produit B Produit C Produit D Produit E Produit A Produit B Produit C Produit D Produit E Tableau 2 Ce tableau permet de déterminer la fréquence d apparition de deux produits dans un achat. Le produit C n est jamais acheté en même temps que les produits D et E. Les produits A et E apparaissent simultanément dans 40% des achats. Le produit E est toujours acheté avec le produit A Évaluation des résultats Chaque règle doit être quantifiée afin d évaluer sa pertinence Le support Le support est la fréquence d apparition simultanée des produits de la condition dans la liste des tickets. Pour le produit A Support = Σ apparitions = 4 Σ total = 5 Équation 1 4 Support = = 0.8 = 80% 5 apparitions total Page 11 sur 43

14 La confiance C est le rapport entre le nombre de tickets contenant les produits de la règle et le nombre de tickets contenant les produits de la condition. Exemple 3 produits X, Y et Z Articles X Y Z X et Y X et Z Y et Z X et Y et Z Fréquence 45% 42,5% 40% 25% 20% 15% 5% Tableau 3 Le niveau de confiance pour l association X, Y et Z. Règle Confiance si X et Y alors Z 0.20 si X et Z alors Y 0.25 si Y et Z alors X 0.33 Tableau 4 La règle si Y et Z alors X possède la plus grande confiance 33%, cependant, d après le tableau des fréquences X est présent dans 45% des achats. Il est donc plus judicieux de prédire X sans prédire la règle d association si Y et Z alors X L amélioration L amélioration permet de comparer la confiance de la règle par rapport à la fréquence d apparition du résultat de la règle. à 1. Une règle pertinente doit avoir une amélioration supérieure Règles Confiance Fréquence du résultat Amélioration Si X et Y alors Z % 0.50 Si X et Z alors Y % 0.59 Si Y et Z alors X % 0.74 Si X alors Y % 1.31 Tableau 5 Page 12 sur 43

15 Comme la règle si X alors Y a une amélioration supérieure à 1 donc c est la règle la plus pertinente Réduction des données Dans le cas d un supermarché, des milliers d articles existent, il est impossible malgré la puissance des machines de réaliser les calculs sur tous ces articles. Il existe différentes techniques pour réduire la liste des règles voici les deux principales : L élagage par support minimum Lors de la recherche de règles pour l association de deux produits, un support minimum est introduit. Si le support de la règle est inférieur au support minimum, la règle sera éliminée ainsi que les articles. A chaque recherche des règles d association (pour 3, 4, 5 articles) l élagage reprend avec une valeur différente pour le support minimum. Le groupement d articles Les articles sont regroupés d une façon ou d une autre, leurs nombres d apparition sont additionnés. Ce regroupement doit être fait par les experts métier afin de ne pas fausser les résultats Avantages / inconvénients Résultats clairs Les règles d association sont faciles à interpréter. Elles sont faciles à appliquer pour les utilisateurs. Apprentissage non supervisé La méthode ne nécessite pas d autre information qu une série d articles et des tickets de caisse. Achat de taille variable La méthode est l une des rares à prendre en entrée des achats qui sont des listes d articles de tailles variables. Page 13 sur 43

16 Introduction du temps Il est possible d introduire des articles virtuels tels que le jour, la semaine etc. En limitant la forme des règles, on obtient des comportements d achat qui dépendent du temps. Simplicité de la méthode La méthode et les calculs sont élémentaires. Elle peut être programmée sur un simple tailleur et est disponible dans la plus part des logiciels de datamining. Coût de la méthode La méthode est coûteuse en temps de calcul machine. La réduction des données permet de gagner du temps mais risque d éliminer des règles importantes. Les articles rares La méthode est plus efficace pour les articles fréquents, les articles rares sont souvent écartés. La qualité des règles La méthode peut produire des règles triviales ou inutiles (ex : tous les détenteurs du permis B ont plus de 18 ans). Page 14 sur 43

17 2.1.6 Applications Connaissance du client et donc du panier de la ménagère. Optimisation des stocks, la découverte logique des associations de produits permet d optimiser les stocks donc les commandes ou la production. Merchandising : la découverte d association entre les produits peut entraîner une réorganisation de la surface de vente. Ventes croisées : une opération promotionnelle sur un produit entraînera l achat d un autre au tarif fort. Analyse des mouvements bancaires. Analyse des incidents dans le domaine des assurances. Analyse des communications dans les télécoms. D une façon plus générale, l analyse des associations peut s appliquer à tous les problèmes dans lesquels l apparition d un événement est conditionnée par des événements passés. Page 15 sur 43

18 2.2 Le raisonnement basé sur la mémoire Généralité Le raisonnement basé sur la mémoire (RBM), également appelé le raisonnement à base de cas, est l équivalent de l expérience chez l homme. Le but de cet algorithme est de classer et de prédire, en s appuyant sur la comparaison d exemples proches tirés d un ensemble de cas préalablement enregistrés. Dès qu un nouveau cas se présente et qu il y a suffisamment de similitudes avec un cas stocké, les conclusions appliquées au cas stocké s appliquent au nouveau cas. La capacité de résolution augmente au fur et à mesure des cas présentés Mise en place La mise en place du RBM se décompose en 4 phases : Collecte des données Recherche des facteurs pertinents Indexation des données Tests et amélioration de la performance Collecte des données Les données sont constituées d enregistrements représentant des cas qui eux-mêmes représentent des situations caractéristiques dans un domaine particulier. Chaque cas regroupe deux types d information : Un recueil d informations descriptives d un état particulier et cohérent dans le domaine considéré. Un ensemble de déductions ou d interprétations applicables pour le cas en cours. Page 16 sur 43

19 Les variables sont définies par une liste finie de modalités ou sont sous une forme textuelle libre. La collecte de données se présente sous deux formes : Soit les données existent déjà dans des bases et la collecte des données prend alors la forme d une interface. Soit les données requièrent une saisie manuelle pour construire un premier ensemble de cas pertinents Recherche de facteurs pertinents La première méthode est la mesure des similitudes. Cette méthode consiste à compter les exemples qui présentent le plus de mots clés en commun puis de mesurer la distance entre les exemples et le cas à étudier. Distance (a,b)= 1 ((nombre de mots clés en communs) / (le nombre de mots communs en a ou en b)) La seconde méthode consiste à décrire une hiérarchie de concepts pour décrire un problème. La structuration du problème sous forme d arborescence permet de limiter la mesure de la distance aux cas pertinents Indexation des données L indexation limite le nombre de cas à ceux qui sont potentiellement similaires au cas à résoudre, et identifie ainsi les cas les plus proches. Le filtrage améliore la précision et la fiabilité du diagnostique. La méthode d indexation la plus fréquente consiste à rechercher les plus proches voisins du cas à résoudre avec une fonction de similitude. Cette fonction compte le nombre de diagnostiques présents et à effectuer un simple calcul de fréquence. Une seconde mesure de similitude introduit une pondération des critères pour définir une fonction globale. Dans un premier Page 17 sur 43

20 temps sélection des cas qui présentent un seuil minimal de similitude, ensuite recherche des différents types de diagnostiques présents. Ce double traitement permet de présenter à l utilisateur les réponses possibles avec à la fois une fréquence et une distance Tests et amélioration de la performance. Une phase de diagnostique est lancée, les résultats prédits sont comparés aux résultats réels. Si le niveau de performance est insuffisant la phase de recherche de pertinence et/ou l indexation est à revoir Avantages / inconvénients Apprentissage simple C est l échantillon qui construit le modèle. Chaque nouveau cas présenté est automatiquement intégré dans le modèle, sans aucune reconstruction de celui-ci. Clarté des résultats Bien que la méthode ne produit pas de règle, chaque prédiction peut être justifiée en dévoilant les plus proches voisins qui ont amené à ce choix. Tout type de données La méthode peut s appliquer dés qu il est possible de définir une distance sur les champs. Il est possible de définir des distances sur des champs complexes tel que des informations géographiques, des textes, des images, des sons etc. c est parfois un critère de choix de la méthode car les autres méthodes traitent difficilement les données complexes. Page 18 sur 43

21 Nombre d attributs La méthode permet de traiter des problèmes avec un grand nombre d attributs. Mais, plus le nombre d attributs est important, plus le nombre d exemples doit être grand. En effet, pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l espace et soient suffisamment proches les uns des autres. Si le nombre d attributs pertinents est faible relativement au nombre total d attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur des attributs non pertinents. Stocker le modèle Comme le modèle de l algorithme est l échantillon, l espace de stockage doit être important pour le stocker, de plus le temps d accès aux données doit être rapide Applications Le RBM peut être employé dans différents domaines tels que le service après vente, le diagnostique des pannes, la médecine et est également utilisé dans l estimation des éléments manquants, la détection des fraudes. Les applications du RBM sont généralement utilisées dans tous les cas où «l expérience» peut résoudre ou aider à résoudre le nouveau problème. Page 19 sur 43

22 2.3 La détection de cluster ou segmentation Généralité La segmentation est l opération qui consiste à regrouper les individus d une population en un nombre limité de groupe (ou cluster). Ces groupes ont deux propriétés : ils ne sont pas prédéfinis, ils sont découverts automatiquement. ils regroupent des individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes en s appuyant sur des critères tels que ceux de Condorcet ou de l insertion interclasse Segmentation relationnelle Généralité L analyse relationnelle repose sur la représentation des données sous la forme de relation d équivalence. Une segmentation est une relation d équivalence R, où arb si a et b sont dans le même segment. R est une matrice carrée qui est définie par si arb alors m ab =1, sinon m ab =0. Les trois propriétés d une relation d équivalence, réflexivité, symétrie et transitivité, se traduisent par les relations suivantes : m ab = 1 m ab = m ba m ab + m bk m ak 1 La recherche d une segmentation revient donc à la recherche d une matrice M = m ab satisfaisant aux conditions précédentes. Dans l analyse relationnelle, toutes les variables des individus de la population à segmenter doivent être catégoriques, sinon elles sont automatiquement écartées. Page 20 sur 43

23 A chacune des variables p catégoriques correspond une segmentation naturelle. Chaque segment est composé des individus ayant la même modalité pour la variable considérée. Le but de l analyse relationnelle est de trouver une segmentation qui fournisse un bon compromis entre les segmentations p naturelles initiales. Pour cela, on pose m ab le nombre de fois où les individus a et b ont été mis dans le même segment et on pose M = (m ab ) = 2(m ab )-p. m ab > 0 si a et b sont dans le même segment pour une majorité de variables. m ab <0 si a et b sont dans des segments différents pour une majorité de variables. m ab = 0 s il y a autant de variables pour lesquelles a et b sont réunis que de variables pour lesquelles a et b sont séparées. Ce critère ne suffit pas car il y a non transitivité de la règle majoritaire : il est possible d avoir une majorité pour a et b, b et k mais pas pour réunir a et k. Il faut rajouter des contraintes de relation d équivalence de la forme précédente pour trouver une segmentation satisfaisant au mieux la majorité des segmentations p initiales Avantages Détermination automatique du nombre optimal de segments au lieu de le fixer à priori. Traitement efficace d un grand nombre de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données. Obtention de segments bien différenciés. Obtention de segments stables vis-à-vis de légères modifications de données. Comparaison à chaque étape des individus deux à deux et obtention d une segmentation globale et non locale. Détention des «niches». Page 21 sur 43

24 Inconvénients La méthode relationnelle est affectée par la présence de variables redondantes, de ce fait le résultat de la segmentation va être orienté en faveur des ces variables qui deviendront les plus discriminantes dans la description des segments. De plus, la segmentation relationnelle est surtout destinée aux variables catégoriques puisqu elle écarte implicitement les variables continues Centres mobiles, K-moyennes et nuées dynamiques Centres mobiles La méthode des centres mobiles suit le déroulement suivant Etape 1 - Etape 2 - Etape 3 - Choix d un nombre K d individus, c est un choix arbitraire, tirage au sort, les k premiers qui seront appelés les centres. Regroupement des autres individus autour des centres définis à l étape 1 de telle sorte que les groupes sont constitués des individus les plus proches. Remplacement des k individus choisis à l étape 1 par les barycentres des groupes définis à l étape 2. Les étapes se répètent tant que l inertie interclasse, qui décroît d une itération à l autre, ne diminue plus sensiblement. Page 22 sur 43

25 K-moyennes La méthode des k-moyennes est une variante de la méthode des centres mobiles. Dans cette méthode le barycentre de chaque groupe est calculé à l introduction de chaque nouvel individu dans le groupe au lieu d attendre l affectation de tous les individus Les nuées dynamiques Avec cette méthode, le groupe n est plus représenté par son barycentre, qui peut être extérieur à la population, mais par un sous-ensemble du groupe appelé noyau. Ce noyau composé des individus centraux sera plus représentatif du groupe que le barycentre Avantages / inconvénients Temps de traitement Le temps de traitement est proportionnel aux nombres d individus. Données continues La méthode ne s applique qu à des données continues, il est donc nécessaire de transformer les données si elles ne le sont pas. Le choix des bons paramètres. La méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. Page 23 sur 43

26 2.3.4 Segmentation hiérarchique ascendante Généralité Cette segmentation produit une suite de classes organisées hiérarchiquement. La classe parent regroupe toute la population, puis la population est divisée successivement en classes enfants pour finir à une classe par individu. La représentation graphique est appelée dendrogramme. 250 Tous les individus dans la classe 150 Les classes 5 et 6 sont a une distance de Figure 1 Classe la plus fine, 1 individu par classe L algorithme de la segmentation hiérarchique recherche à chaque étape les deux classes les plus proches pour les fusionner. La notion de proche étant déterminée par la distance des deux classes. Ensuite vient la notion d inertie interclasse, les deux segments qui feront le moins baisser l inertie interclasse seront fusionnés. Page 24 sur 43

27 Avantages / inconvénients Pas de choix arbitraire des individus initiaux Pas de fixation du nombre de segments Nécessite des ressources matérielles importantes Deux individus placés dans des segments différents ne sont plus jamais comparés, certains segments naturels peuvent être occultés Applications Par son aptitude à traiter les données sans en privilégier une en particulier, à traiter des données hétérogènes et de nombreuses variables, la segmentation est utile : pour avoir une compréhension de l ensemble d une population. pour constituer des panels représentatifs. Comme préalable à d autres opérations de datamining car la segmentation évite le sur apprentissage du aux variables trop discriminantes, et le remplacement des données manquantes pour la valeur moyenne dans le segment de l individu. Page 25 sur 43

28 3 Les algorithmes destinés à l évaluation A la différence des algorithmes générateurs de connaissances, ces algorithmes ont la particularité de s initialiser avec un jeu de données pour créer le modèle, puis vient une phase de validation de ce modèle. Une fois le modèle calibré chaque cas présenté sera classé dans une catégorie. Les données d initialisation aussi que ceux de validation détermineront le modèle donc les résultats futurs. 3.1 Les arbres de décision Généralité Les arbres de décision sont une représentation graphique d un processus de classification qui doivent répondre à une question : «la banque peut elle accorder le prêt?», «le patient est il malade?» La réponse à cette question est une classe (un champ) de la population. A la question «la banque peut elle accorder le prêt?» l échantillon de population se représente de la façon suivante : Prêt Revenu annuel Age Classe Découvert accordé? professionnel Oui Cadre Jamais Non Cadre A découvert Tableau 6 La réponse à la question se situe dans le champ «prêt accordé». En partant d un jeu de données d apprentissage et d un jeu de données de validation, l arbre se construira seul et répondra à la question posée. Page 26 sur 43

29 3.1.2 Représentation d un arbre X > 500 Nœud Racine OUI Z < 2000 Nœud fils Y < 200 NON OUI NON Feuilles Figure 2 Un arbre de décision est basé sur l enchaînement hiérarchique de tests, «nœud», construit automatiquement en fonction du jeu de données d apprentissage. Un arbre de décision est constitué : D un nœud racine : servant de point d entrée De nœuds fils : des questions De feuilles : état final, classification Chaque nœud est une question. Le jeu de question est itératif et débouche sur un autre nœud ou sur une feuille. Dans le cas d une question Binaire (Oui ou Non) la réponse OUI se situe a gauche. Il existe trois algorithmes pour déterminer la variable à associer à un nœud : CART, C5.0 et CHAID. Page 27 sur 43

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

1. Les types d enquêtes

1. Les types d enquêtes La conduite d une enquête par questionnaire La conception d un questionnaire ne doit pas être réalisée de façon hasardeuse. Elle suit une méthodologie stricte qui permet d atteindre des résultats utilisables

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

Le scoring est-il la nouvelle révolution du microcrédit?

Le scoring est-il la nouvelle révolution du microcrédit? Retour au sommaire Le scoring est-il la nouvelle révolution du microcrédit? BIM n 32-01 octobre 2002 Frédéric DE SOUSA-SANTOS Le BIM de cette semaine se propose de vous présenter un ouvrage de Mark Schreiner

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Construire un tableau de bord par Marc Maisonneuve

Construire un tableau de bord par Marc Maisonneuve Construire un tableau de bord par Marc Maisonneuve Le tableau de bord On peut le définir comme la présentation synoptique d indicateurs relatifs au suivi d une bibliothèque, d un projet, d un service.

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Le système d information en classe de première STMG

Le système d information en classe de première STMG Le système d information en classe de première STMG Description du thème Propriétés Description Intitulé long Formation concernée Matière Thème Question de gestion Intitulé long Données, information et

Plus en détail

MARKETING MIX. Politique Produit. Les composantes d un produit POLITIQUE PRODUIT

MARKETING MIX. Politique Produit. Les composantes d un produit POLITIQUE PRODUIT MARKETING MIX POLITIQUE PRODUIT Sandrine Monfort Politique Produit! Les composantes d un produit! Les classifications produit! Lancement produit! Politique de gamme! Politique de marque Les composantes

Plus en détail

Méthodes d apprentissage statistique «Machine Learning»

Méthodes d apprentissage statistique «Machine Learning» Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal

Plus en détail

Quels outils pour prévoir?

Quels outils pour prévoir? modeledition SA Quels outils pour prévoir? Les modèles de prévisions sont des outils irremplaçables pour la prise de décision. Pour cela les entreprises ont le choix entre Excel et les outils classiques

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS Sauvegarde collaborative entre pairs 1 Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS Sauvegarde collaborative entre pairs 2 Introduction Pourquoi pair à pair? Utilisation de ressources

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

Les algorithmes de base du graphisme

Les algorithmes de base du graphisme Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration L'évolution de VISUAL MESSAGE CENTER Architecture et intégration Sommaire Résumé exécutif Base technologique : VISUAL Message Center 2 3 VISUAL Message Center Core Engine VISUAL Message Center Extended

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Les ressources numériques

Les ressources numériques Les ressources numériques Les ressources numériques sont diverses et regroupent entre autres, les applications, les bases de données et les infrastructures informatiques. C est un ensemble de ressources

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Principe et règles d audit

Principe et règles d audit CHAPITRE 2 Principe et règles d audit 2.1. Principe d audit Le principe et les règles d audit suivent logiquement l exposé précédent. D abord, comme dans toute branche de l activité d une entreprise, l

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Formation PME Etude de marché

Formation PME Etude de marché Formation PME Etude de marché Fit for Business (PME)? Pour plus de détails sur les cycles de formation PME et sur les business-tools, aller sous www.banquecoop.ch/business L étude de marché ou étude marketing

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Figure 3.1- Lancement du Gambit

Figure 3.1- Lancement du Gambit 3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Fast and furious decision tree induction

Fast and furious decision tree induction Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline

Plus en détail

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1

Plus en détail

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

ITIL V3. Exploitation des services : Les processus

ITIL V3. Exploitation des services : Les processus ITIL V3 Exploitation des services : Les processus Création : juin 2013 Mise à jour : juin 2013 A propos A propos du document Ce document de référence sur le référentiel ITIL V3 a été réalisé en se basant

Plus en détail

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Garantir une meilleure prestation de services et une expérience utilisateur optimale LIVRE BLANC Garantir une meilleure prestation de services et une expérience utilisateur optimale Mai 2010 Garantir une meilleure prestation de services et une expérience utilisateur optimale CA Service

Plus en détail