Les algorithmes de fouille de données

Dimension: px
Commencer à balayer dès la page:

Download "Les algorithmes de fouille de données"

Transcription

1 Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique

2

3 Remerciements Je remercie les personnes, les universités et les sites Internet suivants qui m ont aidé pour la réalisation de ce probatoire Mr Nakache (http://nakache.9online.fr/) Université de Lille Université de Lyon Ainsi que le CNAM centre d enseignement de Valenciennes, son personnel et ses enseignants. Page 1 sur 43

4 Sommaire Introduction Les Pré-requis du Datamining Présentation du datamining L entrepôt de données Les taches Méthode d analyse de données Mise en garde Les algorithmes générateurs de connaissances Les règles d association Le raisonnement basé sur la mémoire La détection de cluster ou segmentation Les algorithmes destinés à l évaluation Les arbres de décision Les réseaux de neurones Les cartes de Kohonen...39 Conclusion Page 2 sur 43

5 Introduction Dans le contexte actuel de concurrence des entreprises, la mondialisation, la délocalisation, l objectif principal de l entreprise n est plus d agrandir sa clientèle, n y d optimiser ses processus mais de fidéliser ses clients, de leurs offrir des produits adaptés à leurs besoins et de leur faire naître des besoins. Au cours des dernières années les entreprises ont collecté de nombreuses informations sur leurs clients par le biais des systèmes de gestion. Aujourd hui ces informations représentent une mine d or. Des décennies de stockage de données dans des systèmes de gestion, le faible coût des espaces de stockage et la rapidité des machines, les entreprises ont une mine d or de renseignement sur ces clients. Dans l optique de progression, cette mine d or doit être explorée, fouillée, afin d en tirer des connaissances sur les clients, trouver les schémas comportementaux de ses clients et ainsi cadrer et anticiper leurs attentes. Le datamining répond aux besoins de l entreprise, il explore les données et en ressort des relations entre le client et ses comportements ou il évalue les résultats à une action future. Vous trouverez dans ce document un échantillon des méthodes du datamining. Page 3 sur 43

6 1 Les Pré-requis du Datamining 1.1 Présentation du datamining Traduit littéralement par «creusage des données» ou «forage des données», le Datamining est un processus plus ou moins autonome permettant de fouiller dans des grands ensembles de données afin de mettre en évidence des relations. Le parcours à travers ces grands ensembles de données, généralement stockés dans un entrepôt de données, est réalisé au moyen de méthodes mathématiques, statistiques ou algorithmiques. La méthode de parcours peut être itératif et/ou interactif en fonction des objectifs à atteindre. Le datamining est un processus qui va des données élémentaires disponibles à la décision en apportant à chaque étape une plus value informationnelle. Cette plus value peut générer, en fonction des informations de synthèse, des déclenchements automatiques d actions correctives, préventives ou amélioratrices. Les méthodes ont pour objet de découvrir des structures, des relations entre les faits. En partant d un jeu de données, la méthode va s initialiser, apprendre, soit de façon automatique (méthode non supervisée), soit de façon dirigée (méthode supervisée). Le datamining est un métissage entre l intelligence artificielle, les systèmes experts et les statistiques. Il est donc évident de retrouver au catalogue des méthodes du Datamining aussi bien les réseaux de neurones, les arbres de décisions que les méthodes de visualisation multidimensionnelle. Le datamining peut parcourir quasiment tous les types de données, cependant, dans un souci d optimisation et de performance, il est préférable de rassembler les données et de le formaliser au sein d un entrepôt de données (Datawarehouse). Page 4 sur 43

7 1.2 L entrepôt de données L entrepôt de données n est ni une base de données, ni un système d information, et cependant provient aussi bien de l un que de l autre. Un système d information désigne les données systématiquement collectées et les traitements réalisés sur elles pour que l entreprise puisse effectuer des opérations classiques telles que la facturation, le marketing, le contrôle de gestion, la maintenance, l exploitation. Un système d information n est pas nécessairement automatisé ou informatisé, pourtant sans cette informatisation la productivité de l entreprise serait réduite. Cette informatisation des systèmes met en jeu des bases de données, dessinées par des informaticiens à l aide de méthodes de conception de base de données donc pas exploitables par des non informaticiens, et des réseaux de communication permettant l échange des informations qu elles soient de types datas ou de courriers. Un entrepôt de données contient à la fois les données opérationnelles enregistrées au fil de l eau, les données agrégées selon toutes dimensions, les données archivées, les données de pilotage, et éventuellement toutes données externes à l entreprise mais ayant une relation possible avec ses activités. Ces données sont consignées dans une ou plusieurs bases de données et accessibles pour toutes applications par des systèmes d aide à la décision, des requêteurs de données, des systèmes de reporting, des systèmes d analyse statistique ou de Datamining. L entrepôt de données se différencie du système d information traditionnel par l orientation de ces données, elles sont uniformisées (une date est toujours au même format), concentrées, organisées, et prêtes pour être exploitées par des systèmes d aide à la décision et de Datamining. Page 5 sur 43

8 1.3 Les taches Lors de la fouille automatique des données le Datamining va utiliser des méthodes/algorithmes plus ou moins complexes et ainsi établir des corrélations entre ces données et définir des comportements types. Les différents algorithmes réalisent quelques opérations de base, les taches suivantes : Les définitions proviennent de : «le petit Larousse» la classification «Distribution par classes, par catégories, selon un certain ordre et une certaine méthode.» l estimation «Recherche de la valeur d un ou de plusieurs paramètres d une loi statistique à partir d observation ou de sondages». La prédiction Action de prédire. «Prédire : annoncer d avance ce qui doit se produire soit par intuition ou divination, soit par des règles certaines, soit par conjecture ou raisonnement» Association «Action d associer quelqu un à quelque chose, des choses diverses entre elles.». Il s'agit de trouver des similitudes ou des associations. Le sequencing est le terme anglais utilisé pour préciser que l'association se fera dans le temps. Page 6 sur 43

9 Segmentation ou clusterisation Diviser en segments. «Segment : portion bien délimitée, détachée d un ensemble.». La problématique est de trouver des groupes homogènes dans une population. description «Action de décrire, développement qui réduit». optimisation Action d optimiser. «Optimiser : donner à quelque chose, une machine, une entreprise, le rendement optimal en créant les conditions les plus favorables ou en tirant le meilleur parti possible.» 1.4 Méthode d analyse de données La mise en place d un outil de datamining passe par plusieurs étapes. En effet la simple installation d un outil ne résout pas tous les problèmes, et ne fournit pas les résultats espérés. La première étape consiste à poser la bonne question, à définir le domaine, les objectifs, le résultat attendu ainsi que les moyens de mesure du succès. La seconde étape est la recherche des données, cette étape consiste à rechercher les données utiles, exploitables, d évaluer leur fiabilité. Ensuite, les données sont normalisées, uniformisées afin de les rendre exploitables par le datamining. La troisième étape consiste à mettre en place les outils du datamining. La dernière étape est la validation des résultats, cette étape peut remettre en cause une des étapes précédentes. Dans ce cas, le cycle recommence. Page 7 sur 43

10 La phase de préparation des données représente la partie la plus importante en temps et en moyen de toute la mise en place d un outil de datamining. 1.5 Mise en garde Le regroupement et l exploitation de données personnelles sur un individu à des fins commerciaux posent quelques problèmes d éthique. En France, la loi informatique et liberté du 24 janvier 1978 oblige tous les organismes stockant des données d ordre personnel à faire une déclaration préalable à la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées. L article 25 de cette loi a été modifié le 22 décembre 2004 pour intégrer «les huit catégories de traitements qui sont soumis à autorisation préalable de la CNIL.». Le datamining apparaît dans la rubrique «les traitements automatisés ayant pour objet : l interconnexion de fichier». Dorénavant, la mise en place d un datamining est soumise à l approbation de la CNIL. Page 8 sur 43

11 2 Les algorithmes générateurs de connaissances Les algorithmes générateurs de connaissances vont analyser les données et trouver des relations. Ils se contentent d analyser le passé, leur pouvoir de prédiction reste limité. 2.1 Les règles d association Généralité Les règles d association sont traditionnellement liées au secteur de la grande distribution car leur principale application est l analyse du panier de la ménagère qui consiste à rechercher des associations entre produits sur les tickets de caisse. Le but de la méthode est d étudier les achats des clients afin d obtenir leur profil et ainsi de proposer des offres adéquates à ses clients. La méthode va rechercher les associations entre produits : si achat du produit A alors achat du produit B. Cette méthode peut être appliquée à tous types de secteurs pour lesquels il est intéressant de rechercher le groupement potentiel de produits ou de services. Elle peut également être utilisée dans le secteur médical pour la recherche de complications dues à des associations de traitement ou de médicaments ou à la détection des fraudes en recherchant les associations inhabituelles. L un des avantages de cette méthode est la clarté des résultats car les règles seront de la sorte : Association simple Si achat de plantes alors achat de terreau. Association plus complexe Si achat de vin blanc et de riz alors achat de poisson. Page 9 sur 43

12 Association dans le temps Si achat d un téléviseur alors achat d un lecteur DVD dans l année. Recherche de fraude Si achat d un lecteur de DVD alors possession d un téléviseur. Si possession d un téléviseur alors payement de la taxe audiovisuelle. Donc : Si achat d un lecteur DVD alors payement de la taxe audiovisuelle. Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se situent les uns par rapport aux autres. Cependant, la méthode produit des règles intéressantes mais peut aussi produire des règles triviales ou inutiles Mise en pratique Les données disponibles dans un magasin sont les tickets de caisse, un ticket regroupe des produits. Comme un ticket est de longueur variable chaque ticket sera un enregistrement dans la table. Les produits sont donc des champs. Produit A Produit B Produit C Produit D Produit E Ticket 1 X X Ticket 2 X X X Ticket 3 X X Ticket 4 X X X Ticket 5 X X Total Tableau 1 Page 10 sur 43

13 A partir des données brutes, on construit le tableau de cooccurrence afin d identifier les associations. Produit A Produit B Produit C Produit D Produit E Produit A Produit B Produit C Produit D Produit E Tableau 2 Ce tableau permet de déterminer la fréquence d apparition de deux produits dans un achat. Le produit C n est jamais acheté en même temps que les produits D et E. Les produits A et E apparaissent simultanément dans 40% des achats. Le produit E est toujours acheté avec le produit A Évaluation des résultats Chaque règle doit être quantifiée afin d évaluer sa pertinence Le support Le support est la fréquence d apparition simultanée des produits de la condition dans la liste des tickets. Pour le produit A Support = Σ apparitions = 4 Σ total = 5 Équation 1 4 Support = = 0.8 = 80% 5 apparitions total Page 11 sur 43

14 La confiance C est le rapport entre le nombre de tickets contenant les produits de la règle et le nombre de tickets contenant les produits de la condition. Exemple 3 produits X, Y et Z Articles X Y Z X et Y X et Z Y et Z X et Y et Z Fréquence 45% 42,5% 40% 25% 20% 15% 5% Tableau 3 Le niveau de confiance pour l association X, Y et Z. Règle Confiance si X et Y alors Z 0.20 si X et Z alors Y 0.25 si Y et Z alors X 0.33 Tableau 4 La règle si Y et Z alors X possède la plus grande confiance 33%, cependant, d après le tableau des fréquences X est présent dans 45% des achats. Il est donc plus judicieux de prédire X sans prédire la règle d association si Y et Z alors X L amélioration L amélioration permet de comparer la confiance de la règle par rapport à la fréquence d apparition du résultat de la règle. à 1. Une règle pertinente doit avoir une amélioration supérieure Règles Confiance Fréquence du résultat Amélioration Si X et Y alors Z % 0.50 Si X et Z alors Y % 0.59 Si Y et Z alors X % 0.74 Si X alors Y % 1.31 Tableau 5 Page 12 sur 43

15 Comme la règle si X alors Y a une amélioration supérieure à 1 donc c est la règle la plus pertinente Réduction des données Dans le cas d un supermarché, des milliers d articles existent, il est impossible malgré la puissance des machines de réaliser les calculs sur tous ces articles. Il existe différentes techniques pour réduire la liste des règles voici les deux principales : L élagage par support minimum Lors de la recherche de règles pour l association de deux produits, un support minimum est introduit. Si le support de la règle est inférieur au support minimum, la règle sera éliminée ainsi que les articles. A chaque recherche des règles d association (pour 3, 4, 5 articles) l élagage reprend avec une valeur différente pour le support minimum. Le groupement d articles Les articles sont regroupés d une façon ou d une autre, leurs nombres d apparition sont additionnés. Ce regroupement doit être fait par les experts métier afin de ne pas fausser les résultats Avantages / inconvénients Résultats clairs Les règles d association sont faciles à interpréter. Elles sont faciles à appliquer pour les utilisateurs. Apprentissage non supervisé La méthode ne nécessite pas d autre information qu une série d articles et des tickets de caisse. Achat de taille variable La méthode est l une des rares à prendre en entrée des achats qui sont des listes d articles de tailles variables. Page 13 sur 43

16 Introduction du temps Il est possible d introduire des articles virtuels tels que le jour, la semaine etc. En limitant la forme des règles, on obtient des comportements d achat qui dépendent du temps. Simplicité de la méthode La méthode et les calculs sont élémentaires. Elle peut être programmée sur un simple tailleur et est disponible dans la plus part des logiciels de datamining. Coût de la méthode La méthode est coûteuse en temps de calcul machine. La réduction des données permet de gagner du temps mais risque d éliminer des règles importantes. Les articles rares La méthode est plus efficace pour les articles fréquents, les articles rares sont souvent écartés. La qualité des règles La méthode peut produire des règles triviales ou inutiles (ex : tous les détenteurs du permis B ont plus de 18 ans). Page 14 sur 43

17 2.1.6 Applications Connaissance du client et donc du panier de la ménagère. Optimisation des stocks, la découverte logique des associations de produits permet d optimiser les stocks donc les commandes ou la production. Merchandising : la découverte d association entre les produits peut entraîner une réorganisation de la surface de vente. Ventes croisées : une opération promotionnelle sur un produit entraînera l achat d un autre au tarif fort. Analyse des mouvements bancaires. Analyse des incidents dans le domaine des assurances. Analyse des communications dans les télécoms. D une façon plus générale, l analyse des associations peut s appliquer à tous les problèmes dans lesquels l apparition d un événement est conditionnée par des événements passés. Page 15 sur 43

18 2.2 Le raisonnement basé sur la mémoire Généralité Le raisonnement basé sur la mémoire (RBM), également appelé le raisonnement à base de cas, est l équivalent de l expérience chez l homme. Le but de cet algorithme est de classer et de prédire, en s appuyant sur la comparaison d exemples proches tirés d un ensemble de cas préalablement enregistrés. Dès qu un nouveau cas se présente et qu il y a suffisamment de similitudes avec un cas stocké, les conclusions appliquées au cas stocké s appliquent au nouveau cas. La capacité de résolution augmente au fur et à mesure des cas présentés Mise en place La mise en place du RBM se décompose en 4 phases : Collecte des données Recherche des facteurs pertinents Indexation des données Tests et amélioration de la performance Collecte des données Les données sont constituées d enregistrements représentant des cas qui eux-mêmes représentent des situations caractéristiques dans un domaine particulier. Chaque cas regroupe deux types d information : Un recueil d informations descriptives d un état particulier et cohérent dans le domaine considéré. Un ensemble de déductions ou d interprétations applicables pour le cas en cours. Page 16 sur 43

19 Les variables sont définies par une liste finie de modalités ou sont sous une forme textuelle libre. La collecte de données se présente sous deux formes : Soit les données existent déjà dans des bases et la collecte des données prend alors la forme d une interface. Soit les données requièrent une saisie manuelle pour construire un premier ensemble de cas pertinents Recherche de facteurs pertinents La première méthode est la mesure des similitudes. Cette méthode consiste à compter les exemples qui présentent le plus de mots clés en commun puis de mesurer la distance entre les exemples et le cas à étudier. Distance (a,b)= 1 ((nombre de mots clés en communs) / (le nombre de mots communs en a ou en b)) La seconde méthode consiste à décrire une hiérarchie de concepts pour décrire un problème. La structuration du problème sous forme d arborescence permet de limiter la mesure de la distance aux cas pertinents Indexation des données L indexation limite le nombre de cas à ceux qui sont potentiellement similaires au cas à résoudre, et identifie ainsi les cas les plus proches. Le filtrage améliore la précision et la fiabilité du diagnostique. La méthode d indexation la plus fréquente consiste à rechercher les plus proches voisins du cas à résoudre avec une fonction de similitude. Cette fonction compte le nombre de diagnostiques présents et à effectuer un simple calcul de fréquence. Une seconde mesure de similitude introduit une pondération des critères pour définir une fonction globale. Dans un premier Page 17 sur 43

20 temps sélection des cas qui présentent un seuil minimal de similitude, ensuite recherche des différents types de diagnostiques présents. Ce double traitement permet de présenter à l utilisateur les réponses possibles avec à la fois une fréquence et une distance Tests et amélioration de la performance. Une phase de diagnostique est lancée, les résultats prédits sont comparés aux résultats réels. Si le niveau de performance est insuffisant la phase de recherche de pertinence et/ou l indexation est à revoir Avantages / inconvénients Apprentissage simple C est l échantillon qui construit le modèle. Chaque nouveau cas présenté est automatiquement intégré dans le modèle, sans aucune reconstruction de celui-ci. Clarté des résultats Bien que la méthode ne produit pas de règle, chaque prédiction peut être justifiée en dévoilant les plus proches voisins qui ont amené à ce choix. Tout type de données La méthode peut s appliquer dés qu il est possible de définir une distance sur les champs. Il est possible de définir des distances sur des champs complexes tel que des informations géographiques, des textes, des images, des sons etc. c est parfois un critère de choix de la méthode car les autres méthodes traitent difficilement les données complexes. Page 18 sur 43

21 Nombre d attributs La méthode permet de traiter des problèmes avec un grand nombre d attributs. Mais, plus le nombre d attributs est important, plus le nombre d exemples doit être grand. En effet, pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l espace et soient suffisamment proches les uns des autres. Si le nombre d attributs pertinents est faible relativement au nombre total d attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur des attributs non pertinents. Stocker le modèle Comme le modèle de l algorithme est l échantillon, l espace de stockage doit être important pour le stocker, de plus le temps d accès aux données doit être rapide Applications Le RBM peut être employé dans différents domaines tels que le service après vente, le diagnostique des pannes, la médecine et est également utilisé dans l estimation des éléments manquants, la détection des fraudes. Les applications du RBM sont généralement utilisées dans tous les cas où «l expérience» peut résoudre ou aider à résoudre le nouveau problème. Page 19 sur 43

22 2.3 La détection de cluster ou segmentation Généralité La segmentation est l opération qui consiste à regrouper les individus d une population en un nombre limité de groupe (ou cluster). Ces groupes ont deux propriétés : ils ne sont pas prédéfinis, ils sont découverts automatiquement. ils regroupent des individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes en s appuyant sur des critères tels que ceux de Condorcet ou de l insertion interclasse Segmentation relationnelle Généralité L analyse relationnelle repose sur la représentation des données sous la forme de relation d équivalence. Une segmentation est une relation d équivalence R, où arb si a et b sont dans le même segment. R est une matrice carrée qui est définie par si arb alors m ab =1, sinon m ab =0. Les trois propriétés d une relation d équivalence, réflexivité, symétrie et transitivité, se traduisent par les relations suivantes : m ab = 1 m ab = m ba m ab + m bk m ak 1 La recherche d une segmentation revient donc à la recherche d une matrice M = m ab satisfaisant aux conditions précédentes. Dans l analyse relationnelle, toutes les variables des individus de la population à segmenter doivent être catégoriques, sinon elles sont automatiquement écartées. Page 20 sur 43

23 A chacune des variables p catégoriques correspond une segmentation naturelle. Chaque segment est composé des individus ayant la même modalité pour la variable considérée. Le but de l analyse relationnelle est de trouver une segmentation qui fournisse un bon compromis entre les segmentations p naturelles initiales. Pour cela, on pose m ab le nombre de fois où les individus a et b ont été mis dans le même segment et on pose M = (m ab ) = 2(m ab )-p. m ab > 0 si a et b sont dans le même segment pour une majorité de variables. m ab <0 si a et b sont dans des segments différents pour une majorité de variables. m ab = 0 s il y a autant de variables pour lesquelles a et b sont réunis que de variables pour lesquelles a et b sont séparées. Ce critère ne suffit pas car il y a non transitivité de la règle majoritaire : il est possible d avoir une majorité pour a et b, b et k mais pas pour réunir a et k. Il faut rajouter des contraintes de relation d équivalence de la forme précédente pour trouver une segmentation satisfaisant au mieux la majorité des segmentations p initiales Avantages Détermination automatique du nombre optimal de segments au lieu de le fixer à priori. Traitement efficace d un grand nombre de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données. Obtention de segments bien différenciés. Obtention de segments stables vis-à-vis de légères modifications de données. Comparaison à chaque étape des individus deux à deux et obtention d une segmentation globale et non locale. Détention des «niches». Page 21 sur 43

24 Inconvénients La méthode relationnelle est affectée par la présence de variables redondantes, de ce fait le résultat de la segmentation va être orienté en faveur des ces variables qui deviendront les plus discriminantes dans la description des segments. De plus, la segmentation relationnelle est surtout destinée aux variables catégoriques puisqu elle écarte implicitement les variables continues Centres mobiles, K-moyennes et nuées dynamiques Centres mobiles La méthode des centres mobiles suit le déroulement suivant Etape 1 - Etape 2 - Etape 3 - Choix d un nombre K d individus, c est un choix arbitraire, tirage au sort, les k premiers qui seront appelés les centres. Regroupement des autres individus autour des centres définis à l étape 1 de telle sorte que les groupes sont constitués des individus les plus proches. Remplacement des k individus choisis à l étape 1 par les barycentres des groupes définis à l étape 2. Les étapes se répètent tant que l inertie interclasse, qui décroît d une itération à l autre, ne diminue plus sensiblement. Page 22 sur 43

25 K-moyennes La méthode des k-moyennes est une variante de la méthode des centres mobiles. Dans cette méthode le barycentre de chaque groupe est calculé à l introduction de chaque nouvel individu dans le groupe au lieu d attendre l affectation de tous les individus Les nuées dynamiques Avec cette méthode, le groupe n est plus représenté par son barycentre, qui peut être extérieur à la population, mais par un sous-ensemble du groupe appelé noyau. Ce noyau composé des individus centraux sera plus représentatif du groupe que le barycentre Avantages / inconvénients Temps de traitement Le temps de traitement est proportionnel aux nombres d individus. Données continues La méthode ne s applique qu à des données continues, il est donc nécessaire de transformer les données si elles ne le sont pas. Le choix des bons paramètres. La méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. Page 23 sur 43

26 2.3.4 Segmentation hiérarchique ascendante Généralité Cette segmentation produit une suite de classes organisées hiérarchiquement. La classe parent regroupe toute la population, puis la population est divisée successivement en classes enfants pour finir à une classe par individu. La représentation graphique est appelée dendrogramme. 250 Tous les individus dans la classe 150 Les classes 5 et 6 sont a une distance de Figure 1 Classe la plus fine, 1 individu par classe L algorithme de la segmentation hiérarchique recherche à chaque étape les deux classes les plus proches pour les fusionner. La notion de proche étant déterminée par la distance des deux classes. Ensuite vient la notion d inertie interclasse, les deux segments qui feront le moins baisser l inertie interclasse seront fusionnés. Page 24 sur 43

27 Avantages / inconvénients Pas de choix arbitraire des individus initiaux Pas de fixation du nombre de segments Nécessite des ressources matérielles importantes Deux individus placés dans des segments différents ne sont plus jamais comparés, certains segments naturels peuvent être occultés Applications Par son aptitude à traiter les données sans en privilégier une en particulier, à traiter des données hétérogènes et de nombreuses variables, la segmentation est utile : pour avoir une compréhension de l ensemble d une population. pour constituer des panels représentatifs. Comme préalable à d autres opérations de datamining car la segmentation évite le sur apprentissage du aux variables trop discriminantes, et le remplacement des données manquantes pour la valeur moyenne dans le segment de l individu. Page 25 sur 43

28 3 Les algorithmes destinés à l évaluation A la différence des algorithmes générateurs de connaissances, ces algorithmes ont la particularité de s initialiser avec un jeu de données pour créer le modèle, puis vient une phase de validation de ce modèle. Une fois le modèle calibré chaque cas présenté sera classé dans une catégorie. Les données d initialisation aussi que ceux de validation détermineront le modèle donc les résultats futurs. 3.1 Les arbres de décision Généralité Les arbres de décision sont une représentation graphique d un processus de classification qui doivent répondre à une question : «la banque peut elle accorder le prêt?», «le patient est il malade?» La réponse à cette question est une classe (un champ) de la population. A la question «la banque peut elle accorder le prêt?» l échantillon de population se représente de la façon suivante : Prêt Revenu annuel Age Classe Découvert accordé? professionnel Oui Cadre Jamais Non Cadre A découvert Tableau 6 La réponse à la question se situe dans le champ «prêt accordé». En partant d un jeu de données d apprentissage et d un jeu de données de validation, l arbre se construira seul et répondra à la question posée. Page 26 sur 43

29 3.1.2 Représentation d un arbre X > 500 Nœud Racine OUI Z < 2000 Nœud fils Y < 200 NON OUI NON Feuilles Figure 2 Un arbre de décision est basé sur l enchaînement hiérarchique de tests, «nœud», construit automatiquement en fonction du jeu de données d apprentissage. Un arbre de décision est constitué : D un nœud racine : servant de point d entrée De nœuds fils : des questions De feuilles : état final, classification Chaque nœud est une question. Le jeu de question est itératif et débouche sur un autre nœud ou sur une feuille. Dans le cas d une question Binaire (Oui ou Non) la réponse OUI se situe a gauche. Il existe trois algorithmes pour déterminer la variable à associer à un nœud : CART, C5.0 et CHAID. Page 27 sur 43

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage, SYNTHÈSE DU CHAPITRE 11 : LA SEGMENTATION DE LA DEMANDE. La segmentation. La segmentation de la demande consiste à définir des groupes de clients (des segments de clientèle) ayant des comportements homogènes

Plus en détail

Système d'information Page 1 / 7

Système d'information Page 1 / 7 Système d'information Page 1 / 7 Sommaire 1 Définition... 1 2 Fonctions du système d information... 4 2.1 Recueil de l information... 4 2.2 Mémorisation de l information... 4 2.3 Traitement de l information...

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE

Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE Résumé de Mémoire EN QUOI LE PILOTAGE PAR LES COUTS REPRESENTE-T-IL UN OUTIL DE GESTION ESSENTIEL POUR ASSURER LA PERENNITE FINANCIERE DE LA BRANCHE COURRIER DU GROUPE LA POSTE? Alix LEGRAND ESG MANAGEMENT

Plus en détail

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set UTFPR [DATA MINING] Fertility Data Set Sommaire Introduction... 2 1. Description de la base de données... 3 1.1. Origine de la base... 3 1.2. Description des attributs... 3 1.3. Exploration des données...

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

LES SOLUTIONS MES HUMAINES METTENT EN AVANT LES INDIVIDUS

LES SOLUTIONS MES HUMAINES METTENT EN AVANT LES INDIVIDUS LIVRE BLANC LES SOLUTIONS MES HUMAINES METTENT EN AVANT LES INDIVIDUS Une collaboration entre homme et machine LIVRE BLANC LES SOLUTIONS MES HUMAINES METTENT EN AVANT LES INDIVIDUS 2 A PROPOS Les hommes

Plus en détail

Chapitre E : Allégations environnementales dans la communication commerciale

Chapitre E : Allégations environnementales dans la communication commerciale Chapitre E : Allégations environnementales dans la communication commerciale Le présent chapitre doit être lu en conjonction avec les Dispositions générales sur les pratiques de publicité et de communication

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

SECRETARIAT : INTEGRATION DE LOGICIELS BUREAUTIQUES

SECRETARIAT : INTEGRATION DE LOGICIELS BUREAUTIQUES MINISTERE DE LA COMMUNAUTE FRANCAISE ADMINISTRATION GENERALE DE L ENSEIGNEMENT ET DE LA RECHERCHE SCIENTIFIQUE ENSEIGNEMENT DE PROMOTION SOCIALE DE REGIME 1 DOSSIER PEDAGOGIQUE UNITE DE FORMATION SECRETARIAT

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

L INFORMATION GEOGRAPHIQUE

L INFORMATION GEOGRAPHIQUE Champs sur Marne ENSG/CERSIG Le 19-nove.-02 L INFORMATION GEOGRAPHIQUE Archivage Le Système d information géographique rassemble de l information afin de permettre son utilisation dans des applications

Plus en détail

AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS

AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS «Validation méthodologique de l élaboration de scores composites de performance hospitalière» 1.

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

GarantBox : pour aller plus loin

GarantBox : pour aller plus loin 1 Sommaire Sommaire GarantBox : pour aller plus loin Les acteurs en présence et les intérêts qu ils trouvent dans GarantBox Les utilisateurs Les banques partenaires du projet Les commerces partenaires

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

1. Les types d enquêtes

1. Les types d enquêtes La conduite d une enquête par questionnaire La conception d un questionnaire ne doit pas être réalisée de façon hasardeuse. Elle suit une méthodologie stricte qui permet d atteindre des résultats utilisables

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

Chapitre 1 : Le plan média (media planning)

Chapitre 1 : Le plan média (media planning) Chapitre 1 : Le plan média (media planning) Introduction Cela consiste à sélectionner les médias et à définir leurs modes d utilisation. Objectif : rechercher l efficacité maximum des médias dans la contrainte

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

GIND5439 Systèmes Intelligents. Septembre 2004

GIND5439 Systèmes Intelligents. Septembre 2004 GIND5439 Systèmes Intelligents Septembre 2004 Contenu du cours Introduction aux systèmes experts Intelligence artificielle Représentation des connaissances Acquisition de connaissances Systèmes à base

Plus en détail

0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage. 3- Organisation du cours

0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage. 3- Organisation du cours 0- Le langage C++ 1- Du langage C au langage C++ 2- Quelques éléments sur le langage 3- Organisation du cours Le présent cours constitue une introduction pour situer le langage C++, beaucoup des concepts

Plus en détail

Le métier de Chargé(e) d Etudes Statistiques

Le métier de Chargé(e) d Etudes Statistiques Le métier de Chargé(e) d Etudes Statistiques Nicolas Cabaj Sommaire Présentation du chargé d études statistiques 3 exemples de missions réalisées: Le scoring, illustré par un outil de détection des fraudes

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions.

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions. Ce glossaire a été élaboré dans un souci de clarification des notions et concepts clés communément utilisés en Gestion des Ressources Humaines, et notamment dans le champ de la gestion prévisionnelle des

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs

Plus en détail

TP N 57. Déploiement et renouvellement d une constellation de satellites

TP N 57. Déploiement et renouvellement d une constellation de satellites TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015

Baccalauréat ES Nouvelle-Calédonie 2 mars 2015 Baccalauréat ES Nouvelle-Calédonie mars 015 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats On considère la fonction f définie pour tout réel x de l intervalle [1,5 ; 6] par : f (x)=(5x 3)e x. On

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE L ENQUETE PAR SONDAGE : LA METHODE La définition La méthode Le questionnaire Les biais La passation du questionnaire La validité des réponses Les échelles de mesure Les échelles d évaluation Les échelles

Plus en détail

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel)

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel) UPMC - UFR 99 Licence d informatique 205/206 Module 3I009 Cours 4 : Méthodes d accès aux données Plan Fonctions et structure des SGBD Structures physiques Stockage des données Organisation de fichiers

Plus en détail

GUIDE POUR L EVALUATION DES RISQUES PROFESSIONNELS

GUIDE POUR L EVALUATION DES RISQUES PROFESSIONNELS GUIDE POUR L EVALUATION DES RISQUES PROFESSIONNELS SANTE AU TRAVAIL ET MEDECINE DU TRAVAIL 41 Chemin de la Durance 13300 SALON DE PROVENCE 0 SOMMAIRE INTRODUCTION... 2 I. GENERALITES... 3 A. Définitions...

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Méthodes de prévision des ventes

Méthodes de prévision des ventes Méthodes de prévision des ventes Il est important pour toute organisation qui souhaite survivre dans un environnement concurrentiel d adopter des démarches de prévision des ventes pour anticiper et agir

Plus en détail

LES DECISIONS STRATEGIQUES ET ORGANISATIONNELLE A L INTERNATIONAL :

LES DECISIONS STRATEGIQUES ET ORGANISATIONNELLE A L INTERNATIONAL : LES DECISIONS STRATEGIQUES ET ORGANISATIONNELLE A L INTERNATIONAL : ANALYSE CONCURRENTIELLE ET STRATEGIE MARKETING INTERNATIONAL : L entreprise a le choix entre 3 grands types de stratégie : La standardisation

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous

StatEnAction 2009/10/30 11:26 page 111 #127 CHAPITRE 10. Machines à sous StatEnAction 2009/0/30 :26 page #27 CHAPITRE 0 Machines à sous Résumé. On étudie un problème lié aux jeux de hasard. Il concerne les machines à sous et est appelé problème de prédiction de bandits à deux

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Rationalisez vos processus et gagnez en visibilité grâce au cloud

Rationalisez vos processus et gagnez en visibilité grâce au cloud Présentation de la solution SAP s SAP pour les PME SAP Business One Cloud Objectifs Rationalisez vos processus et gagnez en visibilité grâce au cloud Favorisez une croissance rentable simplement et à moindre

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier. PRÉSENTATION PRODUIT Plus qu un logiciel, la méthode plus efficace de réconcilier. Automatiser les réconciliations permet d optimiser l utilisation des ressources et de générer plus de rentabilité dans

Plus en détail

Introduction aux systèmes d exploitation

Introduction aux systèmes d exploitation Introduction aux systèmes d exploitation Le système d exploitation est un ensemble de logiciels qui pilotent la partie matérielle d un ordinateur. Les principales ressources gérées par un système d exploitation

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Livre Blanc. Construire un système d information collaboratif de pilotage de l action publique. Mai 2010

Livre Blanc. Construire un système d information collaboratif de pilotage de l action publique. Mai 2010 Livre Blanc Construire un système d information collaboratif de pilotage de l action publique Mai 2010 Un livre blanc édité par : NQI - Network Quality Intelligence Tél. : +33 4 92 96 24 90 E-mail : info@nqicorp.com

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

INTRODUCTION. Cadre d évaluation de la qualité des données (CEQD) (juillet 2003)

INTRODUCTION. Cadre d évaluation de la qualité des données (CEQD) (juillet 2003) INTRODUCTION Cadre d évaluation de la qualité des données (CEQD) (juillet 2003) Le cadre d évaluation des données (CEQD) propose une structure qui permet d évaluer la qualité des données en comparant les

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

Recherche opérationnelle. Programmation linéaire et recherche opérationnelle. Programmation linéaire. Des problèmes de RO que vous savez résoudre

Recherche opérationnelle. Programmation linéaire et recherche opérationnelle. Programmation linéaire. Des problèmes de RO que vous savez résoudre Recherche opérationnelle Programmation linéaire et recherche opérationnelle Ioan Todinca Ioan.Todinca@univ-orleans.fr tél. 0 38 41 7 93 bureau : en bas à gauche Tentative de définition Ensemble de méthodes

Plus en détail

Algorithmique dans les nouveaux programmes de Première

Algorithmique dans les nouveaux programmes de Première Algorithmique dans les nouveaux programmes de Première Journée de présentation des nouveaux programmes de Première académie de Nice Les nouveaux programmes de Première 2011 1 I. Introduction 1. Acquis

Plus en détail

La méthode des quotas

La méthode des quotas La méthode des quotas Oliviero Marchese, décembre 2006 1 La méthode des quotas Principe de la méthode Point de départ et but recherché Caractère «intuitif» de la méthode A quoi ressemble une feuille de

Plus en détail

Le client/serveur repose sur une communication d égal à égal entre les applications.

Le client/serveur repose sur une communication d égal à égal entre les applications. Table des matières LES PRINCIPES DE BASE... 1 Présentation distribuée-revamping...2 Présentation distante...3 Traitements distribués...3 données distantes-rd...4 données distribuées-rda distribué...4 L'ARCHITECTURE

Plus en détail

COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES

COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES Juin 2015 SOMMAIRE 1. Précisions sur la cotation Banque de France et les statistiques présentées... 4 2. Statistiques 2015... 6 2.1. Discrimination

Plus en détail

L ORGANISATION SOCIALE DE L ENTREPRISE

L ORGANISATION SOCIALE DE L ENTREPRISE 1 L ORGANISATION SOCIALE DE L ENTREPRISE Métiers opérationnels et fonctionnels Définition d une structure 2 «la structure de l organisation est la somme totale des moyens employés pour diviser le travail

Plus en détail

Leçon 12. Le tableau de bord de la gestion des stocks

Leçon 12. Le tableau de bord de la gestion des stocks CANEGE Leçon 12 Le tableau de bord de la gestion des stocks Objectif : A l'issue de la leçon l'étudiant doit être capable de : s initier au suivi et au contrôle de la réalisation des objectifs fixés au

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Sage CRM. La solution complète de Gestion des Relations Clients pour PME. Précision et efficacité à portée de mains!

Sage CRM. La solution complète de Gestion des Relations Clients pour PME. Précision et efficacité à portée de mains! Sage CRM Précision et efficacité à portée de mains! La solution complète de Gestion des Relations Clients pour PME Alliant l innovation pragmatique, la souplesse d utilisation et l efficacité Living Your

Plus en détail

Associations Dossiers pratiques

Associations Dossiers pratiques Associations Dossiers pratiques Le tableau de bord, outil de pilotage de l association (Dossier réalisé par Laurent Simo, In Extenso Rhône-Alpes) Difficile d imaginer la conduite d un bateau sans boussole

Plus en détail

PROGRAMMES DE GESTION 3 ème année & 4 ème année de l Enseignement secondaire

PROGRAMMES DE GESTION 3 ème année & 4 ème année de l Enseignement secondaire RÉPUBLIQUE TUNISIENNE MINISTÈRE DE L ÉDUCATION & DE LA FORMATION DIRECTION GÉNÉRALE DES PROGRAMMES & DE LA FORMATION CONTINUE Direction des Programmes & des Manuels Scolaires PROGRAMMES DE GESTION 3 ème

Plus en détail

5. Validité de la méta-analyse

5. Validité de la méta-analyse 5. Validité de la méta-analyse 5.1. Poids de la preuve d une méta-analyse Le poids de la preuve d un résultat scientifique quantifie le degré avec lequel ce résultat s approche de la réalité. Il ne s agit

Plus en détail

VIII : Gestion des prévisions

VIII : Gestion des prévisions CHTIBI Chafik Une prévision est une prédiction des événements à venir qu'on utilise à des fins de planification. Les méthodes de prévision peuvent se fonder sur des modèles mathématiques utilisant les

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Management des processus opérationnels

Management des processus opérationnels Ecole Nationale Supérieure de Management Master Management des organisations Management des processus opérationnels Dr TOUMI Djamila Cours n 1: La vision processus dans le management des organisations

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail