Les algorithmes de fouille de données

Dimension: px
Commencer à balayer dès la page:

Download "Les algorithmes de fouille de données"

Transcription

1 Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique

2

3 Remerciements Je remercie les personnes, les universités et les sites Internet suivants qui m ont aidé pour la réalisation de ce probatoire Mr Nakache (http://nakache.9online.fr/) Université de Lille Université de Lyon Ainsi que le CNAM centre d enseignement de Valenciennes, son personnel et ses enseignants. Page 1 sur 43

4 Sommaire Introduction Les Pré-requis du Datamining Présentation du datamining L entrepôt de données Les taches Méthode d analyse de données Mise en garde Les algorithmes générateurs de connaissances Les règles d association Le raisonnement basé sur la mémoire La détection de cluster ou segmentation Les algorithmes destinés à l évaluation Les arbres de décision Les réseaux de neurones Les cartes de Kohonen...39 Conclusion Page 2 sur 43

5 Introduction Dans le contexte actuel de concurrence des entreprises, la mondialisation, la délocalisation, l objectif principal de l entreprise n est plus d agrandir sa clientèle, n y d optimiser ses processus mais de fidéliser ses clients, de leurs offrir des produits adaptés à leurs besoins et de leur faire naître des besoins. Au cours des dernières années les entreprises ont collecté de nombreuses informations sur leurs clients par le biais des systèmes de gestion. Aujourd hui ces informations représentent une mine d or. Des décennies de stockage de données dans des systèmes de gestion, le faible coût des espaces de stockage et la rapidité des machines, les entreprises ont une mine d or de renseignement sur ces clients. Dans l optique de progression, cette mine d or doit être explorée, fouillée, afin d en tirer des connaissances sur les clients, trouver les schémas comportementaux de ses clients et ainsi cadrer et anticiper leurs attentes. Le datamining répond aux besoins de l entreprise, il explore les données et en ressort des relations entre le client et ses comportements ou il évalue les résultats à une action future. Vous trouverez dans ce document un échantillon des méthodes du datamining. Page 3 sur 43

6 1 Les Pré-requis du Datamining 1.1 Présentation du datamining Traduit littéralement par «creusage des données» ou «forage des données», le Datamining est un processus plus ou moins autonome permettant de fouiller dans des grands ensembles de données afin de mettre en évidence des relations. Le parcours à travers ces grands ensembles de données, généralement stockés dans un entrepôt de données, est réalisé au moyen de méthodes mathématiques, statistiques ou algorithmiques. La méthode de parcours peut être itératif et/ou interactif en fonction des objectifs à atteindre. Le datamining est un processus qui va des données élémentaires disponibles à la décision en apportant à chaque étape une plus value informationnelle. Cette plus value peut générer, en fonction des informations de synthèse, des déclenchements automatiques d actions correctives, préventives ou amélioratrices. Les méthodes ont pour objet de découvrir des structures, des relations entre les faits. En partant d un jeu de données, la méthode va s initialiser, apprendre, soit de façon automatique (méthode non supervisée), soit de façon dirigée (méthode supervisée). Le datamining est un métissage entre l intelligence artificielle, les systèmes experts et les statistiques. Il est donc évident de retrouver au catalogue des méthodes du Datamining aussi bien les réseaux de neurones, les arbres de décisions que les méthodes de visualisation multidimensionnelle. Le datamining peut parcourir quasiment tous les types de données, cependant, dans un souci d optimisation et de performance, il est préférable de rassembler les données et de le formaliser au sein d un entrepôt de données (Datawarehouse). Page 4 sur 43

7 1.2 L entrepôt de données L entrepôt de données n est ni une base de données, ni un système d information, et cependant provient aussi bien de l un que de l autre. Un système d information désigne les données systématiquement collectées et les traitements réalisés sur elles pour que l entreprise puisse effectuer des opérations classiques telles que la facturation, le marketing, le contrôle de gestion, la maintenance, l exploitation. Un système d information n est pas nécessairement automatisé ou informatisé, pourtant sans cette informatisation la productivité de l entreprise serait réduite. Cette informatisation des systèmes met en jeu des bases de données, dessinées par des informaticiens à l aide de méthodes de conception de base de données donc pas exploitables par des non informaticiens, et des réseaux de communication permettant l échange des informations qu elles soient de types datas ou de courriers. Un entrepôt de données contient à la fois les données opérationnelles enregistrées au fil de l eau, les données agrégées selon toutes dimensions, les données archivées, les données de pilotage, et éventuellement toutes données externes à l entreprise mais ayant une relation possible avec ses activités. Ces données sont consignées dans une ou plusieurs bases de données et accessibles pour toutes applications par des systèmes d aide à la décision, des requêteurs de données, des systèmes de reporting, des systèmes d analyse statistique ou de Datamining. L entrepôt de données se différencie du système d information traditionnel par l orientation de ces données, elles sont uniformisées (une date est toujours au même format), concentrées, organisées, et prêtes pour être exploitées par des systèmes d aide à la décision et de Datamining. Page 5 sur 43

8 1.3 Les taches Lors de la fouille automatique des données le Datamining va utiliser des méthodes/algorithmes plus ou moins complexes et ainsi établir des corrélations entre ces données et définir des comportements types. Les différents algorithmes réalisent quelques opérations de base, les taches suivantes : Les définitions proviennent de : «le petit Larousse» la classification «Distribution par classes, par catégories, selon un certain ordre et une certaine méthode.» l estimation «Recherche de la valeur d un ou de plusieurs paramètres d une loi statistique à partir d observation ou de sondages». La prédiction Action de prédire. «Prédire : annoncer d avance ce qui doit se produire soit par intuition ou divination, soit par des règles certaines, soit par conjecture ou raisonnement» Association «Action d associer quelqu un à quelque chose, des choses diverses entre elles.». Il s'agit de trouver des similitudes ou des associations. Le sequencing est le terme anglais utilisé pour préciser que l'association se fera dans le temps. Page 6 sur 43

9 Segmentation ou clusterisation Diviser en segments. «Segment : portion bien délimitée, détachée d un ensemble.». La problématique est de trouver des groupes homogènes dans une population. description «Action de décrire, développement qui réduit». optimisation Action d optimiser. «Optimiser : donner à quelque chose, une machine, une entreprise, le rendement optimal en créant les conditions les plus favorables ou en tirant le meilleur parti possible.» 1.4 Méthode d analyse de données La mise en place d un outil de datamining passe par plusieurs étapes. En effet la simple installation d un outil ne résout pas tous les problèmes, et ne fournit pas les résultats espérés. La première étape consiste à poser la bonne question, à définir le domaine, les objectifs, le résultat attendu ainsi que les moyens de mesure du succès. La seconde étape est la recherche des données, cette étape consiste à rechercher les données utiles, exploitables, d évaluer leur fiabilité. Ensuite, les données sont normalisées, uniformisées afin de les rendre exploitables par le datamining. La troisième étape consiste à mettre en place les outils du datamining. La dernière étape est la validation des résultats, cette étape peut remettre en cause une des étapes précédentes. Dans ce cas, le cycle recommence. Page 7 sur 43

10 La phase de préparation des données représente la partie la plus importante en temps et en moyen de toute la mise en place d un outil de datamining. 1.5 Mise en garde Le regroupement et l exploitation de données personnelles sur un individu à des fins commerciaux posent quelques problèmes d éthique. En France, la loi informatique et liberté du 24 janvier 1978 oblige tous les organismes stockant des données d ordre personnel à faire une déclaration préalable à la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées. L article 25 de cette loi a été modifié le 22 décembre 2004 pour intégrer «les huit catégories de traitements qui sont soumis à autorisation préalable de la CNIL.». Le datamining apparaît dans la rubrique «les traitements automatisés ayant pour objet : l interconnexion de fichier». Dorénavant, la mise en place d un datamining est soumise à l approbation de la CNIL. Page 8 sur 43

11 2 Les algorithmes générateurs de connaissances Les algorithmes générateurs de connaissances vont analyser les données et trouver des relations. Ils se contentent d analyser le passé, leur pouvoir de prédiction reste limité. 2.1 Les règles d association Généralité Les règles d association sont traditionnellement liées au secteur de la grande distribution car leur principale application est l analyse du panier de la ménagère qui consiste à rechercher des associations entre produits sur les tickets de caisse. Le but de la méthode est d étudier les achats des clients afin d obtenir leur profil et ainsi de proposer des offres adéquates à ses clients. La méthode va rechercher les associations entre produits : si achat du produit A alors achat du produit B. Cette méthode peut être appliquée à tous types de secteurs pour lesquels il est intéressant de rechercher le groupement potentiel de produits ou de services. Elle peut également être utilisée dans le secteur médical pour la recherche de complications dues à des associations de traitement ou de médicaments ou à la détection des fraudes en recherchant les associations inhabituelles. L un des avantages de cette méthode est la clarté des résultats car les règles seront de la sorte : Association simple Si achat de plantes alors achat de terreau. Association plus complexe Si achat de vin blanc et de riz alors achat de poisson. Page 9 sur 43

12 Association dans le temps Si achat d un téléviseur alors achat d un lecteur DVD dans l année. Recherche de fraude Si achat d un lecteur de DVD alors possession d un téléviseur. Si possession d un téléviseur alors payement de la taxe audiovisuelle. Donc : Si achat d un lecteur DVD alors payement de la taxe audiovisuelle. Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se situent les uns par rapport aux autres. Cependant, la méthode produit des règles intéressantes mais peut aussi produire des règles triviales ou inutiles Mise en pratique Les données disponibles dans un magasin sont les tickets de caisse, un ticket regroupe des produits. Comme un ticket est de longueur variable chaque ticket sera un enregistrement dans la table. Les produits sont donc des champs. Produit A Produit B Produit C Produit D Produit E Ticket 1 X X Ticket 2 X X X Ticket 3 X X Ticket 4 X X X Ticket 5 X X Total Tableau 1 Page 10 sur 43

13 A partir des données brutes, on construit le tableau de cooccurrence afin d identifier les associations. Produit A Produit B Produit C Produit D Produit E Produit A Produit B Produit C Produit D Produit E Tableau 2 Ce tableau permet de déterminer la fréquence d apparition de deux produits dans un achat. Le produit C n est jamais acheté en même temps que les produits D et E. Les produits A et E apparaissent simultanément dans 40% des achats. Le produit E est toujours acheté avec le produit A Évaluation des résultats Chaque règle doit être quantifiée afin d évaluer sa pertinence Le support Le support est la fréquence d apparition simultanée des produits de la condition dans la liste des tickets. Pour le produit A Support = Σ apparitions = 4 Σ total = 5 Équation 1 4 Support = = 0.8 = 80% 5 apparitions total Page 11 sur 43

14 La confiance C est le rapport entre le nombre de tickets contenant les produits de la règle et le nombre de tickets contenant les produits de la condition. Exemple 3 produits X, Y et Z Articles X Y Z X et Y X et Z Y et Z X et Y et Z Fréquence 45% 42,5% 40% 25% 20% 15% 5% Tableau 3 Le niveau de confiance pour l association X, Y et Z. Règle Confiance si X et Y alors Z 0.20 si X et Z alors Y 0.25 si Y et Z alors X 0.33 Tableau 4 La règle si Y et Z alors X possède la plus grande confiance 33%, cependant, d après le tableau des fréquences X est présent dans 45% des achats. Il est donc plus judicieux de prédire X sans prédire la règle d association si Y et Z alors X L amélioration L amélioration permet de comparer la confiance de la règle par rapport à la fréquence d apparition du résultat de la règle. à 1. Une règle pertinente doit avoir une amélioration supérieure Règles Confiance Fréquence du résultat Amélioration Si X et Y alors Z % 0.50 Si X et Z alors Y % 0.59 Si Y et Z alors X % 0.74 Si X alors Y % 1.31 Tableau 5 Page 12 sur 43

15 Comme la règle si X alors Y a une amélioration supérieure à 1 donc c est la règle la plus pertinente Réduction des données Dans le cas d un supermarché, des milliers d articles existent, il est impossible malgré la puissance des machines de réaliser les calculs sur tous ces articles. Il existe différentes techniques pour réduire la liste des règles voici les deux principales : L élagage par support minimum Lors de la recherche de règles pour l association de deux produits, un support minimum est introduit. Si le support de la règle est inférieur au support minimum, la règle sera éliminée ainsi que les articles. A chaque recherche des règles d association (pour 3, 4, 5 articles) l élagage reprend avec une valeur différente pour le support minimum. Le groupement d articles Les articles sont regroupés d une façon ou d une autre, leurs nombres d apparition sont additionnés. Ce regroupement doit être fait par les experts métier afin de ne pas fausser les résultats Avantages / inconvénients Résultats clairs Les règles d association sont faciles à interpréter. Elles sont faciles à appliquer pour les utilisateurs. Apprentissage non supervisé La méthode ne nécessite pas d autre information qu une série d articles et des tickets de caisse. Achat de taille variable La méthode est l une des rares à prendre en entrée des achats qui sont des listes d articles de tailles variables. Page 13 sur 43

16 Introduction du temps Il est possible d introduire des articles virtuels tels que le jour, la semaine etc. En limitant la forme des règles, on obtient des comportements d achat qui dépendent du temps. Simplicité de la méthode La méthode et les calculs sont élémentaires. Elle peut être programmée sur un simple tailleur et est disponible dans la plus part des logiciels de datamining. Coût de la méthode La méthode est coûteuse en temps de calcul machine. La réduction des données permet de gagner du temps mais risque d éliminer des règles importantes. Les articles rares La méthode est plus efficace pour les articles fréquents, les articles rares sont souvent écartés. La qualité des règles La méthode peut produire des règles triviales ou inutiles (ex : tous les détenteurs du permis B ont plus de 18 ans). Page 14 sur 43

17 2.1.6 Applications Connaissance du client et donc du panier de la ménagère. Optimisation des stocks, la découverte logique des associations de produits permet d optimiser les stocks donc les commandes ou la production. Merchandising : la découverte d association entre les produits peut entraîner une réorganisation de la surface de vente. Ventes croisées : une opération promotionnelle sur un produit entraînera l achat d un autre au tarif fort. Analyse des mouvements bancaires. Analyse des incidents dans le domaine des assurances. Analyse des communications dans les télécoms. D une façon plus générale, l analyse des associations peut s appliquer à tous les problèmes dans lesquels l apparition d un événement est conditionnée par des événements passés. Page 15 sur 43

18 2.2 Le raisonnement basé sur la mémoire Généralité Le raisonnement basé sur la mémoire (RBM), également appelé le raisonnement à base de cas, est l équivalent de l expérience chez l homme. Le but de cet algorithme est de classer et de prédire, en s appuyant sur la comparaison d exemples proches tirés d un ensemble de cas préalablement enregistrés. Dès qu un nouveau cas se présente et qu il y a suffisamment de similitudes avec un cas stocké, les conclusions appliquées au cas stocké s appliquent au nouveau cas. La capacité de résolution augmente au fur et à mesure des cas présentés Mise en place La mise en place du RBM se décompose en 4 phases : Collecte des données Recherche des facteurs pertinents Indexation des données Tests et amélioration de la performance Collecte des données Les données sont constituées d enregistrements représentant des cas qui eux-mêmes représentent des situations caractéristiques dans un domaine particulier. Chaque cas regroupe deux types d information : Un recueil d informations descriptives d un état particulier et cohérent dans le domaine considéré. Un ensemble de déductions ou d interprétations applicables pour le cas en cours. Page 16 sur 43

19 Les variables sont définies par une liste finie de modalités ou sont sous une forme textuelle libre. La collecte de données se présente sous deux formes : Soit les données existent déjà dans des bases et la collecte des données prend alors la forme d une interface. Soit les données requièrent une saisie manuelle pour construire un premier ensemble de cas pertinents Recherche de facteurs pertinents La première méthode est la mesure des similitudes. Cette méthode consiste à compter les exemples qui présentent le plus de mots clés en commun puis de mesurer la distance entre les exemples et le cas à étudier. Distance (a,b)= 1 ((nombre de mots clés en communs) / (le nombre de mots communs en a ou en b)) La seconde méthode consiste à décrire une hiérarchie de concepts pour décrire un problème. La structuration du problème sous forme d arborescence permet de limiter la mesure de la distance aux cas pertinents Indexation des données L indexation limite le nombre de cas à ceux qui sont potentiellement similaires au cas à résoudre, et identifie ainsi les cas les plus proches. Le filtrage améliore la précision et la fiabilité du diagnostique. La méthode d indexation la plus fréquente consiste à rechercher les plus proches voisins du cas à résoudre avec une fonction de similitude. Cette fonction compte le nombre de diagnostiques présents et à effectuer un simple calcul de fréquence. Une seconde mesure de similitude introduit une pondération des critères pour définir une fonction globale. Dans un premier Page 17 sur 43

20 temps sélection des cas qui présentent un seuil minimal de similitude, ensuite recherche des différents types de diagnostiques présents. Ce double traitement permet de présenter à l utilisateur les réponses possibles avec à la fois une fréquence et une distance Tests et amélioration de la performance. Une phase de diagnostique est lancée, les résultats prédits sont comparés aux résultats réels. Si le niveau de performance est insuffisant la phase de recherche de pertinence et/ou l indexation est à revoir Avantages / inconvénients Apprentissage simple C est l échantillon qui construit le modèle. Chaque nouveau cas présenté est automatiquement intégré dans le modèle, sans aucune reconstruction de celui-ci. Clarté des résultats Bien que la méthode ne produit pas de règle, chaque prédiction peut être justifiée en dévoilant les plus proches voisins qui ont amené à ce choix. Tout type de données La méthode peut s appliquer dés qu il est possible de définir une distance sur les champs. Il est possible de définir des distances sur des champs complexes tel que des informations géographiques, des textes, des images, des sons etc. c est parfois un critère de choix de la méthode car les autres méthodes traitent difficilement les données complexes. Page 18 sur 43

21 Nombre d attributs La méthode permet de traiter des problèmes avec un grand nombre d attributs. Mais, plus le nombre d attributs est important, plus le nombre d exemples doit être grand. En effet, pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l espace et soient suffisamment proches les uns des autres. Si le nombre d attributs pertinents est faible relativement au nombre total d attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur des attributs non pertinents. Stocker le modèle Comme le modèle de l algorithme est l échantillon, l espace de stockage doit être important pour le stocker, de plus le temps d accès aux données doit être rapide Applications Le RBM peut être employé dans différents domaines tels que le service après vente, le diagnostique des pannes, la médecine et est également utilisé dans l estimation des éléments manquants, la détection des fraudes. Les applications du RBM sont généralement utilisées dans tous les cas où «l expérience» peut résoudre ou aider à résoudre le nouveau problème. Page 19 sur 43

22 2.3 La détection de cluster ou segmentation Généralité La segmentation est l opération qui consiste à regrouper les individus d une population en un nombre limité de groupe (ou cluster). Ces groupes ont deux propriétés : ils ne sont pas prédéfinis, ils sont découverts automatiquement. ils regroupent des individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes en s appuyant sur des critères tels que ceux de Condorcet ou de l insertion interclasse Segmentation relationnelle Généralité L analyse relationnelle repose sur la représentation des données sous la forme de relation d équivalence. Une segmentation est une relation d équivalence R, où arb si a et b sont dans le même segment. R est une matrice carrée qui est définie par si arb alors m ab =1, sinon m ab =0. Les trois propriétés d une relation d équivalence, réflexivité, symétrie et transitivité, se traduisent par les relations suivantes : m ab = 1 m ab = m ba m ab + m bk m ak 1 La recherche d une segmentation revient donc à la recherche d une matrice M = m ab satisfaisant aux conditions précédentes. Dans l analyse relationnelle, toutes les variables des individus de la population à segmenter doivent être catégoriques, sinon elles sont automatiquement écartées. Page 20 sur 43

23 A chacune des variables p catégoriques correspond une segmentation naturelle. Chaque segment est composé des individus ayant la même modalité pour la variable considérée. Le but de l analyse relationnelle est de trouver une segmentation qui fournisse un bon compromis entre les segmentations p naturelles initiales. Pour cela, on pose m ab le nombre de fois où les individus a et b ont été mis dans le même segment et on pose M = (m ab ) = 2(m ab )-p. m ab > 0 si a et b sont dans le même segment pour une majorité de variables. m ab <0 si a et b sont dans des segments différents pour une majorité de variables. m ab = 0 s il y a autant de variables pour lesquelles a et b sont réunis que de variables pour lesquelles a et b sont séparées. Ce critère ne suffit pas car il y a non transitivité de la règle majoritaire : il est possible d avoir une majorité pour a et b, b et k mais pas pour réunir a et k. Il faut rajouter des contraintes de relation d équivalence de la forme précédente pour trouver une segmentation satisfaisant au mieux la majorité des segmentations p initiales Avantages Détermination automatique du nombre optimal de segments au lieu de le fixer à priori. Traitement efficace d un grand nombre de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données. Obtention de segments bien différenciés. Obtention de segments stables vis-à-vis de légères modifications de données. Comparaison à chaque étape des individus deux à deux et obtention d une segmentation globale et non locale. Détention des «niches». Page 21 sur 43

24 Inconvénients La méthode relationnelle est affectée par la présence de variables redondantes, de ce fait le résultat de la segmentation va être orienté en faveur des ces variables qui deviendront les plus discriminantes dans la description des segments. De plus, la segmentation relationnelle est surtout destinée aux variables catégoriques puisqu elle écarte implicitement les variables continues Centres mobiles, K-moyennes et nuées dynamiques Centres mobiles La méthode des centres mobiles suit le déroulement suivant Etape 1 - Etape 2 - Etape 3 - Choix d un nombre K d individus, c est un choix arbitraire, tirage au sort, les k premiers qui seront appelés les centres. Regroupement des autres individus autour des centres définis à l étape 1 de telle sorte que les groupes sont constitués des individus les plus proches. Remplacement des k individus choisis à l étape 1 par les barycentres des groupes définis à l étape 2. Les étapes se répètent tant que l inertie interclasse, qui décroît d une itération à l autre, ne diminue plus sensiblement. Page 22 sur 43

25 K-moyennes La méthode des k-moyennes est une variante de la méthode des centres mobiles. Dans cette méthode le barycentre de chaque groupe est calculé à l introduction de chaque nouvel individu dans le groupe au lieu d attendre l affectation de tous les individus Les nuées dynamiques Avec cette méthode, le groupe n est plus représenté par son barycentre, qui peut être extérieur à la population, mais par un sous-ensemble du groupe appelé noyau. Ce noyau composé des individus centraux sera plus représentatif du groupe que le barycentre Avantages / inconvénients Temps de traitement Le temps de traitement est proportionnel aux nombres d individus. Données continues La méthode ne s applique qu à des données continues, il est donc nécessaire de transformer les données si elles ne le sont pas. Le choix des bons paramètres. La méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. Page 23 sur 43

26 2.3.4 Segmentation hiérarchique ascendante Généralité Cette segmentation produit une suite de classes organisées hiérarchiquement. La classe parent regroupe toute la population, puis la population est divisée successivement en classes enfants pour finir à une classe par individu. La représentation graphique est appelée dendrogramme. 250 Tous les individus dans la classe 150 Les classes 5 et 6 sont a une distance de Figure 1 Classe la plus fine, 1 individu par classe L algorithme de la segmentation hiérarchique recherche à chaque étape les deux classes les plus proches pour les fusionner. La notion de proche étant déterminée par la distance des deux classes. Ensuite vient la notion d inertie interclasse, les deux segments qui feront le moins baisser l inertie interclasse seront fusionnés. Page 24 sur 43

27 Avantages / inconvénients Pas de choix arbitraire des individus initiaux Pas de fixation du nombre de segments Nécessite des ressources matérielles importantes Deux individus placés dans des segments différents ne sont plus jamais comparés, certains segments naturels peuvent être occultés Applications Par son aptitude à traiter les données sans en privilégier une en particulier, à traiter des données hétérogènes et de nombreuses variables, la segmentation est utile : pour avoir une compréhension de l ensemble d une population. pour constituer des panels représentatifs. Comme préalable à d autres opérations de datamining car la segmentation évite le sur apprentissage du aux variables trop discriminantes, et le remplacement des données manquantes pour la valeur moyenne dans le segment de l individu. Page 25 sur 43

28 3 Les algorithmes destinés à l évaluation A la différence des algorithmes générateurs de connaissances, ces algorithmes ont la particularité de s initialiser avec un jeu de données pour créer le modèle, puis vient une phase de validation de ce modèle. Une fois le modèle calibré chaque cas présenté sera classé dans une catégorie. Les données d initialisation aussi que ceux de validation détermineront le modèle donc les résultats futurs. 3.1 Les arbres de décision Généralité Les arbres de décision sont une représentation graphique d un processus de classification qui doivent répondre à une question : «la banque peut elle accorder le prêt?», «le patient est il malade?» La réponse à cette question est une classe (un champ) de la population. A la question «la banque peut elle accorder le prêt?» l échantillon de population se représente de la façon suivante : Prêt Revenu annuel Age Classe Découvert accordé? professionnel Oui Cadre Jamais Non Cadre A découvert Tableau 6 La réponse à la question se situe dans le champ «prêt accordé». En partant d un jeu de données d apprentissage et d un jeu de données de validation, l arbre se construira seul et répondra à la question posée. Page 26 sur 43

29 3.1.2 Représentation d un arbre X > 500 Nœud Racine OUI Z < 2000 Nœud fils Y < 200 NON OUI NON Feuilles Figure 2 Un arbre de décision est basé sur l enchaînement hiérarchique de tests, «nœud», construit automatiquement en fonction du jeu de données d apprentissage. Un arbre de décision est constitué : D un nœud racine : servant de point d entrée De nœuds fils : des questions De feuilles : état final, classification Chaque nœud est une question. Le jeu de question est itératif et débouche sur un autre nœud ou sur une feuille. Dans le cas d une question Binaire (Oui ou Non) la réponse OUI se situe a gauche. Il existe trois algorithmes pour déterminer la variable à associer à un nœud : CART, C5.0 et CHAID. Page 27 sur 43

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion

Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion Programme de l enseignement obligatoire commun de mathématiques Cycle terminal de la série sciences et technologies du management et de la gestion L enseignement des mathématiques au collège et au lycée

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel)

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel) UPMC - UFR 99 Licence d informatique 205/206 Module 3I009 Cours 4 : Méthodes d accès aux données Plan Fonctions et structure des SGBD Structures physiques Stockage des données Organisation de fichiers

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système.

Le diagramme des relations met en évidence les multiples relations entre les différents éléments, causes et effets d'un système. Sept outils du management (Les) Introduction Diagramme des relations Diagramme des affinités Diagramme en arbre Diagramme matriciel Diagramme des décisions d'action (PDPC) Diagramme sagittal (CPM) Analyse

Plus en détail

Enjeux prudentiels des données utilisées par les entreprises d assurance : le point de vue du superviseur

Enjeux prudentiels des données utilisées par les entreprises d assurance : le point de vue du superviseur Enjeux prudentiels des données utilisées par les entreprises d assurance : le point de vue du superviseur Atelier «Information et assurance» Institut de Science Financière et d Assurances ISFA Université

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Acteos Points de Vente Acteos PPS

Acteos Points de Vente Acteos PPS Acteos Points de Vente Acteos PPS Christian Zelle Directeur R&D, Acteos 06.05.2010 1 Agenda Motivation ACTEOS PPS La solution ACTEOS PPS ACTEOS PPS dans le contexte du «Flowcasting» 2 Motivation Les problématiques

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE

ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE BAZEILLE Stéphane MOUGEL Baptiste IUP3 ALGORITHMES POUR LA VISUALISATION SCIENTIFIQUE EN Année 2003/2004 1 TABLE DES MATIERES Home... 3 Introduction.... 3 Marching Square... 4 Algorithme....4 Programmation...4

Plus en détail

Problème combinatoire sur le réseau de transport de gaz. Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS

Problème combinatoire sur le réseau de transport de gaz. Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS Problème combinatoire sur le réseau de transport de gaz Nicolas Derhy, Aurélie Le Maitre, Nga Thanh CRIGEN Manuel Ruiz, Sylvain Mouret ARTELYS Au programme Présentation du problème Un problème d optimisation

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

Travaux pratiques de traitement d images

Travaux pratiques de traitement d images Travaux pratiques de traitement d images EI3 année 2009-2010 TP n 1 : Segmentation d images en régions p. 3 TP n 2 : Reconnaissance des formes p. 15 Vandenbroucke Nicolas R11 TP n 1 Segmentation d images

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Quantification Vectorielle

Quantification Vectorielle Quantification Vectorielle Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 14 Décembre 2012 M. Cagnazzo Quantification Vectorielle 1/65 Plan Introduction 1 Introduction

Plus en détail

Analyse de sûreté des systèmes informatisés : l approche de l IRSN

Analyse de sûreté des systèmes informatisés : l approche de l IRSN 02 Novembre 2009 Analyse de sûreté des systèmes informatisés : l approche de l IRSN 1 ROLE DES SYSTEMES INFORMATISES DANS LES CENTRALES NUCLEAIRES Les centrales nucléaires sont de plus en plus pilotées

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats On considère la fonction f définie pour tout réel x de l intervalle [1,5 ; 6] par : f (x)=(5x 3)e x. On

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban

Soutien illimité 7j/7 en maths: Coach, profs, exercices & annales, cours. Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban Sujet de Bac 2013 Maths S Obligatoire & Spécialité - Liban EXERCICE 1 : 4 Points Cet exercice est un questionnaire à choix multiples. Aucune justification n est demandée. Pour chacune des questions, une

Plus en détail

Introduction au Data Mining

Introduction au Data Mining Cours GMM Introduction au Data Mining 1.0 DT_GMM3 Décembre 2009 Légende Table des matières 3 4 Introduction Ce support de cours est un complément au cours magistral et n'est en aucun cas autosuffisant.

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

La détection de spams : un jeu d enfant?

La détection de spams : un jeu d enfant? La détection de spams : un jeu d enfant? Tristan Mary-Huard, chargé de recherche INRA à INRA-AgroParisTech Comment distinguer automatiquement un spam d un message normal? Les filtres anti-spams analysent

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Analyse des réseaux sociaux et apprentissage

Analyse des réseaux sociaux et apprentissage Analyse des réseaux sociaux et apprentissage Emmanuel Viennet Laboratoire de Traitement et Transport de l Information Université Paris 13 - Sorbonne Paris Cité Réseaux sociaux? Réseaux sociaux? Analyse

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

L INFORMATION GEOGRAPHIQUE

L INFORMATION GEOGRAPHIQUE Champs sur Marne ENSG/CERSIG Le 19-nove.-02 L INFORMATION GEOGRAPHIQUE Archivage Le Système d information géographique rassemble de l information afin de permettre son utilisation dans des applications

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail