Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Dimension: px
Commencer à balayer dès la page:

Download "Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»"

Transcription

1 Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 : Présentation de la plate-forme de Data Mining PASW Modeler Partie 3 : Ateliers de manipulation de base de PASW Modeler 2

2 Partie 1 : Introduction au Data Mining 1- Qu est ce que le Data Mining? 2- Domaines d applications 3- Principales techniques 3.1 Techniques non supervisées 3.2 Techniques supervisées 4- Méthodologie de Projets 3 Contexte économique Les entreprises doivent améliorer La qualité des produits & services La connaissance des marchés et leur dynamique Leur position face à la concurrence Les coûts de production La connaissance des technologies pour en tirer profit La maîtrise de l information par un processus d intelligence La collecte de l information, Le traitement de l information, La diffusion de l information à des fins stratégiques D où l importance du «Data Mining» 4

3 Plate-forme analytique et opérationnelle pour l entreprise Intégration des canaux de communication et des processus métiers Finances Marketing Ventes Organisation Credit Scoring Notation Interne & Risque (ex. Bâle II, Patriot Act) Optimisation des grilles tarifaires Valorisation des sinistres Détection de Fraude (sinistres, cartes, prêt) Blanchiment d Argent Acquisition client, ventes croisées et rétention Optimisation des campagnes Marketing Segmentation Client Valeur Comportement Simulation tarifaire Optimisation des interactions Web Analyse du portefeuille client Ventes croisées et rétention sur le point de contact du client Affectation des prospects aux commerciaux Analyse de la performance Force de vente Secteurs géographiques Service Client pro-actif Call center monitoring et tuning Analyse automatique des s Satisfaction Client Recrutement des employés Satisfaction des employés Rétention des employés Direction Générale : Analyses et Reporting Analyses Data mining Statistiques Sortantes Entrantes Actions Vision Client Unique Datamart Marketing Données déclaratives Données contrats Navigation Web Call Center Données opérationnelles 5 De l analyse historique à l analyse Predictive Analyse Historique (BI) Analyse Prédictive (DM) Valeur Business Combien de clients avons nous perdu? Query & Reporting Quelle est leur localisation? OLAP Data mining Quels clients type sont à risques et pourquoi? Real time distribution Que devons nous offrir à ce client aujourd hui? Temps Point de départ de la chaîne de prise de décision : le Reporting Soucis pour les entreprises : données incompatibles, lourdeur du traitement, difficultés de consolidations,. 6

4 Le Data Mining : Un champs multidisciplinaire Statistiques Régression logistique Analyse discriminante Arbre de décision : CHAID Classification : K-Means Intelligence Artificielle, Machine Learning Réseaux de neurones Règles d inductions Kohonen Data Mining Familles d algorithmes Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble Database Technology ETL, ROLAP, MOLAP Reporting I. BERRADA7 1 Qu est ce que le Data Mining? 8

5 Qu est ce que le Data Mining? Data Mining est un sujet qui dépasse le cercle restreint des scientifiques et suscite un vif intérêt dans le monde des affaires «l extraction d information originale, auparavant inconnues et potentiellement utiles, à partir de données» (Piateski-Shapiro). «la découverte de nouvelles corrélation (ou coefficient de coïncidence), tendances et modèles par tamisage d un large volume de données» (John Page). «un processus d aide à la décision où les utilisateurs cherchent des modèles d interprétation dans les données» (Kamran Parsaye). 9 Qu est ce que le Data Mining? «l exploration et l analyse, par des moyens automatiques ou semi-automatiques, d un large volume de données afin de découvrir des tendances ou des règles» (M. Berry). «un processus non élémentaire de mise à jour de relation, corrélation, dépendances, association, modèles, structure, tendance, classes, facteurs obtenus en naviguant à travers de grands ensembles de données» (M. Jambu). Avec poésie: «torturer l information disponible jusqu à ce qu elle avoue» (Dimitris Chorafas). Avec cynisme et réalisme «passer les données dans la machine à saucisses pour obtenir des Merguez douces ou épicées» (Moktar Outtas) 10

6 Le data mining : une définition Le data mining est un processus de gestion et de valorisation de l information client au service de la performance de l entreprise. Le data mining doit permettre de : 1. Décrire un phénomène «client» (choix, désaffection ). 2. Comprendre ce phénomène (relations, dépendances). 3. Modéliser (abstraire le phénomène dans un modèle). 4. Prédire (anticiper sur de nouvelles données à l aide du modèle). 11 Quelle Problématique du Data Mining? Comment gérer la grande quantité des données brutes provenant de plusieurs sources pour les rendre accessibles et lisibles par le décideur? 12

7 Définition du Data mining Extraction d information d intérêt (non triviale, implicite, inconnue à priori et potentiellement utile) à partir de données stockées dans de large entrepôts de données, en utilisant des procédures automatiques ou semi-automatiques pour une prise de décision. Appelé aussi KDD (Knowledge Discovery in Databases ) 13 De la donnée vers la connaissance Data mining: noyau du processus de découverte de la connaissance. Enrichissement des variables Data Mining Données sources Sélection des données Qualification des données Données validées Données cibles Information découverte Données Transformées Utilisation de la connaissance Information exploitée et diffusée 14

8 Processus de Data Mining : Etude de cas - ciblage Mk Périmètre d un projet DM pilote ACTION DATAMINING ENRICHISSEMENT DES VARIABLES TRANSFORMATION DES DONNEES Information Exploitée et diffusée BDI MARKETING Données Validées BD Développement Données Transformées Information Scoring Modélisation Reporting DW Données sources Données Marketing Plate-forme analytique d un projet DM 15 2 Domaines d applications 16

9 Applications clefs du Data Mining Marketing direct : identifier les profils des prospects ayant les meilleurs taux de réponses à une action marketing donnée (réponse / non réponse - réponse achat / réponse non achat / non réponse). Credit Scoring : identifier les profils des emprunteurs ou souscripteurs à risque en matière de crédit ou d'assurance (bon payeur/ mauvais payeur - client non risqué/client à risque moyen/client à risque élevé). Analyse de marché : identifier les segments les plus porteurs sur un marché - Déterminer les variables influant sur la vente d un produit ou d'un service - Identifier les profils des clients de tel ou tel produit ou tel ou tel service. Industrie Industrie Santé Utilisation des Ressources Qualité des Soins Satisfaction Clientèle le Contrôle Qualité Finance / Service Acquisition Clientèle le Détection des Fraudes Data mining Détection des Fraudes Analyse Base de Données Secteur Public Ventes Croisées, Ventes Additionnelles Fidélisation Fidélisation Analyse de Panier d Achat d Télécom Distributeur/VPC Distributeur/VPC Application Secteur Médical : déterminer les facteurs de risques liées à une maladie (développement / non développement) - identifier les profils des patients susceptibles de réagir favorablement à un traitement (guérison / non guérison). 17 Champs disciplinaire du CRM champs disciplinaires Problématique d acquisition Problématique de fidélisation Problématique de rétention Problématique de migration 3 Migration Mouvement des clients dans les segments actifs de la pyramide de valeur Rétention/Attrition Mouvements des consommateurs depuis les segments actifs vers les segments inactifs. Acquisition/Fidélisation Basée notamment sur la segmentation et le profilage Sup Grands Moyens Petits Inactifs Actifs Inactifs I. BERRADA 18

10 L historique du Data Mining Ces techniques ne sont pas récentes Ce qui est nouveau Capacité de stockage et de calcul // (matériel puissant) Package de techniques de natures différentes qui peuvent s enchaîner les unes aux autres L intégration du DM dans le processus de production Elle permettent de traiter de grands volumes de données et font sortir le DM des Laboratoires de Recherche pour entrer dans les entreprises. Modélisation le noyau du data mining C est ce qui permet de différencier le DM de ces ancêtres Les requêtes, le reporting, la visualisation et les statistiques simples permettent de tester les hypothèses Les hypothèses, les idées, sont spécifiées par l utilisateur La Modélisation permet la génération des hypothèses Utiliser les outils de data mining pour suggérer de nouvelles idées et directions 19 Des statistiques.. Au Data Mining Statistiques Quelques centaines d individus Quelques variables recueillies avec protocole spécial (échantillonnage, plan d expérience, etc.) Fortes hypothèses sur les lois statistiques suivies Data Mining Quelques millions d individus Quelques centaines de variables Nombreuses var non numériques Données recueillies avant l étude et souvent à d autres fins Population constamment évolutive Données imparfaites avec erreur de codification Nécessité de calculs rapides On ne cherche pas l optimum mathématique mais le modèle le + facile à appréhender par les utilisateurs non statisticiens 20

11 Différence entre le Data Mining et la Statistique traditionnelle Les techniques de Data Mining remplacent-elles les statistiques? Les statistiques sont omniprésentes. On les utilise : Pour faire une analyse préalable, Pour estimer ou alimenter les valeurs manquantes, Pendant le processus pour évaluer la qualité des estimations, Après le processus pour mesurer les actions entreprises et faire un bilan. Statistiques et Data Mining sont tout à fait complémentaires 21 3 Principales techniques 3.1 Techniques descriptives Classification Typologie Règles d association 3.2 Techniques prédictives Classement Arbre de décision Réseau de neurone 22

12 Principales approches de modélisation Prédictive prédit une valeur numérique ou symbolique Classement (Segmentation ou Clustering) Identifier des groupes d items ayant un comportement similaire. Association trouver des événements ayant une forte probabilité de se réaliser ensemble 23 Les 2 types de techniques de DM Les techniques descriptives visent à mettre en évidence des informations présentes mais cachées par le volume des données (ex: segmentation de clientèles et recherche d associations de produits sur les tickets de caisse) Réduisent, résument, synthétisent les données il n y a pas de var cible à expliquer Les techniques prédictives visent à extrapoler de nouvelles informations à partir des informations présentes (ex. Scoring) Expliquent des données Il y a une variable cible à prédire. & & 24

13 Méthodes descriptives de DM Type Famille Sous famille Algorithme Modèles géométriques Méthodes descriptives Modèles à base de règles logiques Analyse factorielle (projection sur un espace de dimension inférieure) Détection de liens Analyse en composantes principales ACP (var. continues) Analyse des correspondances multiples ACM (var. catégorielle) Centre mobiles, k_means, nuées dynamiques Classification hiérarchique Classification neuronale (carte de Kohonen) Classification relationnelle Détection d associations Recherche de séries similaires 25 Méthodes prédictives de DM Type Famille Sous famille Algorithme Modèles à base de règles logiques Arbre de décision Arbre de décision (var. à expliquer continue ou catégorielle) Modèles à base de fonctions mathématique Réseaux de neurones Réseaux à apprentissage supervisé perceptron, réseau à fonction radiale de base Méthodes prédictives Modèles paramétriques ou semi paramétriques Régression linéaire (var. à expliquer continue) Modèle linéaire général (var. à expliquer continue) Régression logistique (var. à expliquer catégorielle) Analyse discriminante de Fisher (var. àexpliquer catégorielle) Modèle log-linéaire (var. à expliquer discrète) Prédiction sans modèle Modèles linéaire généralisé (var. à expliquer continue, discrète ou catégorielle) Modèle additif généralisé (var. à expliquer continue, discrète ou catégorielle) K plus proche voisin (K-NN) 26

14 Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations Principales techniques Zoom sur les techniques descriptives Classification Typologie Règles d associations 28

15 Pourquoi et Quand utiliser la classification? Quand on souhaite trouver des patterns sans cible Pour trouver des anomalies / cas atypiques Ex. détection de fraude Plusieurs terminologies Clustering Attention, il est employé par les anglo-saxons (classification désigne la technique prédictive Classement en français) Segmentation : employé en Marketing Typologie Taxinomie (Biologie) Nosologie (Médecine) 29 Plusieurs algorithmes de classification Méthode hiérarchique Ascendantes (agglomérations) Basées sur une notion de distance Basée sur une notion de densité Descendante (divisives) Méthodes de partitionnement Centres mobiles : K-means Réseaux de Kohonen Méthodes Two Step 30

16 Comparatif entre les différentes méthodes de classification de partitions Méthode Hiérarchique Il n'est pas nécessaire de sélectionner à l'avance le nombre de classes. on rassemble les pairs de sous-classes avec la plus petite distance. Ceci est répété jusqu à obtenir une classe qui regroupe tout. Méthode K_Means Etant donné k entier, Partitionner les cas en k groupes. Calculer un centre ou point moyen de chaque groupe Affecter chaque cas (point) au groupe ayant le centre le plus proche Retour à l étape 2, stopper lorsqu il n y plus d affectation possible. Méthode Two Step Traite les données de grandes tailles. Utilisée pour les variables continues et catégorielles Constituée de deux étapes : Étape 1 : Regroupement préliminaire (sub-cluster). Etape 2 : Regroupement final (cluster) : l'utilisation de la méthode de classification hiérarchique pour fusionner progressivement les sousclasses de l étape 1 en classes de plus en plus importantes, sans qu'un nouvel examen des données soit nécessaire. Validité = inter intra 31 Principe du Réseau de Kohonen Il s agit d un algorithme original de classification qui a été défini par Teuvo Kohonen dans les années 80. L algorithme regroupe les observations en classes en respectant la topologie de l espace des observations. On se définit une notion de voisinage entre classes et les observations voisines dans l espace des variables. En général, on suppose que les classes sont disposées sur une grille rectangulaire qui définit naturellement les voisins de chaque classe. Couche cachée, lxm nœuds connectés avec un certain poids p ijk Principe de l algorithme L algorithme de classement est itératif L initialisation : associer à chaque classe un vecteur code dans l espace des observations choisi de manière aléatoire Ensuite, à chaque étape, on choisit une observation au hasard, on la compare à tous les vecteurs codes et on détermine la classe gagnante, i.e. celle dont le vecteur code est le plus proche au sens d une distance donnée à priori. On rapproche de l observation les codes de classe gagnante et des classes voisines On ne modifie à chaque étape que le code de la classe gagnante. C est un algorithme compétitif. Couche d entrée, 1 nœud par var (-> n nœuds) 32

17 Description de Kohonen L'analyse Kohonen est une méthode de classification non supervisée. Elle a les propriétés: de représenter les données en conservant la topologie. des données proches (dans l'espace d'entrée) vont avoir des représentations proches dans l'espace de sortie et vont donc être classés dans une même classe ou dans des classes voisines. Un réseau de Kohonen est constitué: d'une couche d'entrée: Tout individu à classer est représenté par un vecteur multidimensionnel (le vecteur d'entrée). A chaque individu est affecté un neurone qui représente le centre de la classe d'une couche de sortie (ou couche de compétition). Les neurones de cette couche entrent en compétition.seuls les meilleurs gagnent("wta ou Winner takes all") 33 Representation de kohonen A chaque neurone, on fait correspondre un espace de sortie qui, en général, est un espace 2D défini par une grille soit rectangulaire soit hexagonale. Chaque neurone posséde 8 plus proches voisins 34

18 Description de Kohonen Le neurone biologique Le neurone de Kohonen a une fonction d'activation qui ne prend que des valeurs positives. Compétition Chaque neurone reçoit les signaux de ses voisins. Son excitation (ou son inhibition) dépend de la distance et peut être représentée par la fonction ci-aprés. : + exitation :-inhibition Les neurones voisins ont une action d'excitation. Les neurones éloignés ont une action d'inhibition. La loi d'évolution de la couche fait que: le réseau s'organise de telle façon à créer un amas de neurones autour du neurone le plus stimulé par le signal d'entrée. Les autres neurones se stabilisent dans un état d'activation faible. 35 Algorithme 1) Prétraitement des données Chaque vecteur d'entrée V est normalisé de telle façon à ce que sa longueur soit égale à 1. Les poids initiaux W (générés aléatoirement) des neurones de compétition sont également normalisés à 1. 2) Présentation des données Les données d'entrée peuvent être présentées soit dans leur ordre initial soit de façon aléatoire. 3) Recherche du neurone gagnant Le programme recherche le neurone dit "gagnant" en minimisant(v-w). Les neurones voisins du gagnant sont modifiés, à chaque itération, comme suit: W=W+alpha(V-W) alpha est la vitesse d'apprentissage. Elle peut être linéaire (et décroissante en fonction du temps) ou gaussienne des distances (et décroissante en fonction du temps). 4) Visualisation de la couche de sortie La visualisation de la carte finale est en générale faite en projetant les neurones gagnants dans un espace 3D/2D("Non linear mapping"). 36

19 Algorithme d Apprentissage d un réseau Kohonen Initialisation aléatoire des poids p ijk Pour tout individu x=(x 1,x 2,, x n ) présenté au réseau sont calculées les distances le séparant de lxm nœuds : Nœud retenu pour représenter x est le nœud (i,j) pour n lequel d ij (x) est minimum. 2 dij( x) ( xk pijk ) k 1 Ce nœud et tous les nœuds voisins voient leurs poids ajustés p ijk + (x k -p ijk ) pour les rapprocher de x. [0,1] est le taux d apprentissage pendant l apprentissage. C est cet ajustement des poids dans tout le voisinage du nœud «gagnant» qui rapproche les nœuds voisins de (i,j) de l individu x. On diminue la taille du voisinage et on prend un autre individu (enregistrement) x. 37 Conseils d ordre général sur les solutions de classification Il existe un certain nombre de principes standard pouvant être appliqués à chaque solution de classification. Les plus critiques sont : Nombre d enregistrements par classe Les classes ne doivent pas être trop petites dans la pratique. Certains cas isolés peuvent constituer leur propre classe (5 ou 10 cas dans un jeu de données de enregistrements). Nombre de classes Le nombre de classes étant arbitraire, il est courant d essayer des solutions avec différents nombres de classes en examinant chacune tour à tour pour déterminer laquelle est la plus utile. 38

20 3.2 Principales techniques Zoom sur les techniques prédictives Classement Arbre de décision Réseau de neurone 39 Techniques prédictives Passé pour prédire l avenir 40

21 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur pour permettre une validation indépendante des modèles. Parfois l algorithme divise automatiquement les données en données d apprentissage/test Prédire la cible qu est-ce que nous essayons de prédire? Rôle de chaque champs dans le modèle Directions (terminologie de Clementine) IN, OUT, LES DEUX, AUCUNE Précision Combien de fois le modèle prédit correctement? Ou pour les nombres, moyenne d erreur, corrélation, Confiance à quel point cette prédiction peut être correcte? Parfois ce n est pas une probabilité, mais juste une indication Les questions de l équilibre Est-ce les oui / non sont de proportions égales 50/50? Quelle différence peut-il faire? 41 Modèles Prédictifs Certains modèles sont meilleurs que d autres : Précision Compréhension Modèles varient entre facile à comprendre à incompréhensible Arbre de Décision Règles d induction Modèles de Régression Réseaux de Neurones Simple Complexe 42

22 Classification vs Classement Classification des données consiste regrouper les données en classes (non définie à priori) basées sur le principe conceptuel : maximiser la similarité intra classe et minimiser la similarité interclasse. Classement (affecter à un classe pré-définie, Analyse Discriminante, Rég. Logistique) est une méthode d apprentissage supervisée, alors que la classification est une méthode non supervisée. 43 Principe des arbres de décision Les méthodes de segmentation par Induction de Règles sont des techniques statistiques (CHAID, CART et non statistiques C5) multivariées et supervisées. Elles permettent : d'étudier plusieurs variables simultanément, et, plus précisément, la relation entre une variable dite dépendante (cible) et des variables dites indépendantes. Le résultat de la segmentation, décrit sous la forme d'un arbre dit arbre de décision: indique quels sont, parmi les variables indépendantes considérées, les meilleurs prédicteurs de la variable cible, et affiche les caractéristiques des groupes définis par ces prédicteurs. De partitionner de manière séquentielle, les données en des groupes (segments), en fonction des modalités des variables indépendantes retenues pour leur pouvoir explicatif sur la variable dépendante. 44

23 Exemple: Arbre de décision age : du chef du foyer, sexe : le sexe du chef du foyer, enfant : existence d enfants, revenu : revenu du ménage, carte : présence de carte bancaire, nbpers : # de personne dans le foyer, occup : type de profession I. BERRADA 45 Prédire le risque client par l arbre l de décisiond 46

24 Les individus entre 25 à 35 ans sont tous bons payeurs lorsqu ils perçoivent un salaire mensuel, mais majoritairement des mauvais payeurs lorsqu ils perçoivent un salaire hebdomadaire. Les individus de moins de 25 ans sont en majorité de mauvais payeurs lorsqu ils sont payés à la semaine et se répartissent entre bons et mauvais lorsqu ils sont payés au mois. Les individus de plus de 35 ans sont toujours des bons payeurs, quel que soit le mode de rémunération. I. BERRADA 47 Pourquoi / quand utiliser les règles d Association? Exploration Générale Ne sait pas exactement ce que je cherche, je veux juste savoir ce qui va avec quoi Pannier de la ménagère Analyse des transactions commerciales à l aide d un moteur d associations grande distribution, Analyse des mouvements dans les grandes banques, Analyse des incidents en assurance Analyse des associations des pages Web 48

25 Exemple de règles d association Analyse du panier de la ménagère Découverte d associations et de corrélations entre les articles achetés par clients en analysant les achats effectués (panier) Quels items tendent à se retrouver ensemble? Une règle est une expression de la forme : Si condition alors Résultat La règle Soda & Boucherie => Conserve légumes si vous avez Soda et Boucherie, vous achèteriez probablement Conserve légumes probablement = confiance, Combien de cas = couverture (ou support ). L indice de confiance = p(conditions et résultat) / p(condition) L indice de support = p(condition et résultat) 49 Exemple de calcul des indices de confiance et du support 50

26 Application des règles r d association d pour le choix des plans tarifaires par les clients Le Support correspond au pourcentage d'enregistrements contenus dans les données d'apprentissage pour lesquels les antécédents sont vrais (true). 13% des cas vérifient la règle Forfait maîtrisé Forfait plafonné est vraie avec une confiance de 89,7% 51 Les réseaux de neurones Simulation des neurones dans le cerveau humain par apprentissage de règles et généralisations Une classe d outils et d algorithmes très puissants pour : La prédiction La classification La segmentation ou Clustering Ils sont utilisés dans plusieurs domaines : Prévision des séries temporelles dans les finances Diagnostic médical Identification de segments de clients potentiels Détection de fraude Etc. 52

27 Qu est ce qu un réseau de neurones? Un réseau de neurone typique présente plusieurs neurones rangés en couches afin de créer un réseau. Chaque neurone peut être considéré comme un calculateur élémentaire à qui l on attribue une tâche simple et unique. Les connexions entre neurones donnent au réseau sa capacité à apprendre des caractéristiques et des relations. Une représentation simple d un réseau de neurones : Perceptron 53 Exemples de fonctions d activation x Sigmoïde ou logistique : e f ( x) 1 x e x 2e Tangente hyperbolique : f ( x) 1 x 1 e Linéaire : f ( x) x L unité ou neurone combine ses entrées (valeurs entre 0 et 1) en une seule valeur, qu elle transforme après pour produire la sortie (entre 0 et 1). Cette combinaison et cette transformation sont appelées la fonction d activation. Quand la fonction d activation est linéaire, le réseau de neurones n est autre qu une régression linéaire multiple avec comme entrées les variables indépendantes x i et comme sortie la variable dépendante y. Les poids w i ne sont autres que les coefficients β i du modèle de régression. Lorsque la fonction d activation est logistique, le réseau de neurones s assimile à un modèle de régression logistique. La différence avec le modèle de régression linéaire est que la variable dépendante y est binaire (valeurs : 0 ou 1). Quand la fonction d activation est la tangente hyperbolique, le réseau de neurones est un perceptron multi-couches (MLP), variante la plus fréquemment utilisée. On note ici que le modèle se complique avec la présence d une couche cachée. 54

28 Mise en œuvre d un réseau de neurone Les étapes pour la mise en œuvre d un réseau pour la prédiction ou le classement sont : Identification des données en entrée et en sortie Normalisation des données (entre 0 et 1) Constitution d un réseau avec une topologie adaptée (nb de couches, ) Apprentissage ou entraînement du réseau Test du réseau Application du modèle généré par l apprentissage Dénormalisation des données en sortie rétropropagation L entraînement est le processus de choisir les poids optimaux sur les arêtes minimisant SEC pour chaque observation: SEC = (données réelles données en sorties)² Utiliser l ensemble d apprentissage afin de calculer les poids et s approcher le possible de la sortie. w nouveau = w encours + w encours w encours = - η ( SEC/ w encours) + α W antérieur η : taux d apprentissage 0<η<1 contrôle l importance de la modification des poids. C est la vitesse de déplacement : plus il est élevé, plus l apprentissage est rapide mais plus le réseau risque de converger vers une solution globalement non optimale. α Le terme de moment aide à diminuer les oscillations autour de l optimum en encourageant les ajustements à rester On peut ne pas atteindre l optimum si α est petit dans la même direction 55 Forces et faiblesses des réseaux de neurones Un RN «apprend itérativement» les patterns dans les données : A chaque itération, le modèle est testé puis raffiné. Alors que les Analyses Statistiques supposent un type de modèle pour les données puis testent son adéquation aux données. Forces Aptitude à modéliser des structures complexes et des données irrégulières Prise en compte des relations non linéaires (interactions) entre les variables. Assez bonne robustesse aux données bruitées Aptitude à modéliser des problèmes très variés. Faiblesses Résultats totalement non explicites Sensibilité à un trop grand nombre de variables non discriminantes (contrairement aux arbres de décision) Convergence vers la meilleure solution globale pas toujours assurée Paramètres nombreux et délicats à régler (nb et taille des couches cachées, taux d apprentissage, moment, etc.) Ne s applique naturellement qu aux variables continues dans l intervalle (0,1) Nécessité de normaliser les données. 56

29 Quel modèle retenir? Plusieurs itérations Data Miners exécutent plusieurs modèles en utilisant les paramètres par défault. Affinent les paramètres ou reviennent à la phase de préparation pour effectuer des transformations requises par le modèle choisi. Courbe ROC 57 En guise de synthèse : Quels problèmes : Fiche technique La Segmentation (clustering) Rechercher des groupes homogènes dans une population d individus Par exemple, segmenter les comportements d achat des clients. Techniques: K-means, CAH (Classification Ascendante Hiérarchique), Nuées Dynamiques, Cartes de Kohonen... 58

30 Quels problèmes : Fiche technique L Association Rapprocher les caractéristiques, les comportements ou les préférences d un individu Un exemple particulièrement populaire est celui de l analyse du panier de la ménagère Techniques: Règles d associations, analyse des corrélations, analyse des correspondances (ACM) 59 Quels problèmes : Fiche technique La Classification Prévoir l appartenance d un individu à un groupe donné. = Expliquer une caractéristique qualitative à partir d autres variables qualitatives ou quantitatives Exemple: Un client donné fera t il parti des «churners»? Techniques: Arbres de décisions (CART, ChAID, C4.5, ID3,..), Analyse Factorielle Discriminante, Régression Logistique, Réseaux de neurones... 60

31 Quels problèmes : Fiche technique L Estimation Évaluer une caractéristique quantitative d un individu (taille, revenu, montant d achat, ) = Expliquer une caractéristique quantitative à partir d autres variables qualitatives ou quantitatives Exemple: Évaluer le montant d achat d un client? Techniques : Modèles linéaires ou non linéaire, Réseaux de neurones, GLM, Poursuite de projection en Régression Projet Data Mining Coût et Gain Facteurs Clés de succès et quelques freins 62

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

L information et la technologie de l informationl

L information et la technologie de l informationl L information et la technologie de l informationl CRM & informatique décisionnelled CRM CRM & informatique décisionnelle. d 1 2 3 Les Les fondements managériaux managériaux du du CRM. CRM. Les Les fondements

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données 1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Mémoire d actuariat - promotion 2010. complexité et limites du modèle actuariel, le rôle majeur des comportements humains. Mémoire d actuariat - promotion 2010 La modélisation des avantages au personnel: complexité et limites du modèle actuariel, le rôle majeur des comportements humains. 14 décembre 2010 Stéphane MARQUETTY

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Quels outils pour prévoir?

Quels outils pour prévoir? modeledition SA Quels outils pour prévoir? Les modèles de prévisions sont des outils irremplaçables pour la prise de décision. Pour cela les entreprises ont le choix entre Excel et les outils classiques

Plus en détail

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 Le CRM (GRC) est la clef de votre succès Les Principes généraux de la Gestion de la Relation Clients Confidentiel

Plus en détail

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data Approches & opportunités face aux enjeux de volume, variété et vélocité France, 2012-2014 28 mars 2013 Ce document

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle 842 - La segmentation de la clientèle 843 - Les actions personnalisées utilisation des procédures de consultation

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi» 46, rue de la Tour 75116 Paris tél. (33) 01 73 00 55 00 fax (33) 01 73 00 55 01 www.softcomputing.com Sommaire

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Surabondance d information

Surabondance d information Surabondance d information Comment le manager d'entreprise d'assurance peut-il en tirer profit pour définir les stratégies gagnantes de demain dans un marché toujours plus exigeant Petit-déjeuner du 25/09/2013

Plus en détail

Marketing comportemental. Guide méthodologique de mise en œuvre

Marketing comportemental. Guide méthodologique de mise en œuvre Marketing comportemental Guide méthodologique de mise en œuvre Sommaire Présentation...3 Les limites du marketing de masse ou du marketing «produit»...5 L idéal marketing : délivrer le bon message au bon

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1

Workflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant : Chap 3 : La connaissance du client I. Les fondements de la connaissance du client A. D une société de consommation à une société de consommateurs Depuis les années 1980, les mutations sociales ont eu d

Plus en détail

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? DOSSIER SOLUTION Solution CA Virtual Placement and Balancing Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain? agility made possible La solution automatisée

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

We make your. Data Smart. Data Smart

We make your. Data Smart. Data Smart We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC

Plus en détail

Le géomarketing - Page 1 sur 7

Le géomarketing - Page 1 sur 7 Le géomarketing - Page 1 sur 7 LES DOSSIERS MADWATCH.net méthodes Le Géomarketing Novembre 2003 Nb de pages : 7 Le géomarketing - Page 2 sur 7 Créé dans les années 80, la plupart des applications du géomarketing

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

WHITE PAPER Une revue de solution par Talend & Infosense

WHITE PAPER Une revue de solution par Talend & Infosense WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION

Plus en détail

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress transformer en temps réel vos données en avantage compétitif Your business technologists. Powering progress Transformer les données en savoir Les données sont au cœur de toute activité, mais seules elles

Plus en détail

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans

Plus en détail

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Table des matières Préface........................................................ V Remerciements................................................ VII Introduction...................................................

Plus en détail

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients Frédérick Vautrain, Dir. Data Science - Viseo Laurent Lefranc, Resp. Data Science Analytics - Altares

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

Développer une culture d efficience

Développer une culture d efficience point de vue services financiers Développer une culture d efficience dans les Back Offices Hughes ROY Partner au sein de l'équipe Services Financiers de Sopra Consulting, Hughes Roy est porteur de l offre

Plus en détail

Le décisionnel plus que jamais au sommet de l agenda des DSI

Le décisionnel plus que jamais au sommet de l agenda des DSI Le décisionnel plus que jamais au sommet de l agenda des DSI 9 juin 2011 www.idc.com Cyril Meunier IDC France Research & Consulting Manager Copyright 2008 IDC. Reproduction is forbidden unless authorized.

Plus en détail

Ici, le titre de la. Tableaux de bords de conférence

Ici, le titre de la. Tableaux de bords de conférence Ici, le titre de la Tableaux de bords de conférence pilotage d entreprise, indicateurs de performance reporting et BI quels outils seront incontournables à l horizon 2010? Les intervenants Editeur/Intégrateur

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Une Démarche pour la sélection d outils de cartographie des processus métiers

Une Démarche pour la sélection d outils de cartographie des processus métiers Une Démarche pour la sélection d outils de cartographie des processus métiers Résumé El Haddadi Anass, Atahran Ahmed, Ebobissé Yves, B. Bounabat anass.elhaddadi@gmail.com, atahran.ahmed@gmail.com, ebobisseyves@yahoo.fr,

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion Données des SIM Bases de données produits Identification, caractéristiques techniques, caractéristiques commerciales (prix, unités de vente, fournisseurs), état des stocks, ventes réalisées Bases de données

Plus en détail

(Customer Relationship Management, «Gestion de la Relation Client»)

(Customer Relationship Management, «Gestion de la Relation Client») (Customer Relationship Management, «Gestion de la Relation Client») Les Banques et sociétés d assurance sont aujourd'hui confrontées à une concurrence de plus en plus vive et leur stratégie " clientèle

Plus en détail

Base de données clients outil de base du CRM

Base de données clients outil de base du CRM Base de données clients outil de base du CRM Introduction Objectifs SOMMAIRE Constitution de la base de données clients Alimentation Datamart et DataWarehouse Contenu Dimensions Exploitation de la base

Plus en détail

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification Séminaire national Alger 12 Mars 2008 «L Entreprise algérienne face au défi du numérique : État et perspectives» CRM et ERP Impact(s) sur l entreprise en tant qu outils de gestion Historique des ERP Le

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Atelier Symposium MicroStrategy

Atelier Symposium MicroStrategy Atelier Symposium MicroStrategy Présentation de Soft Computing «De l'usage de MicroStrategy pour la Connaissance Client dans le secteur de la Distribution» G.MANGEON Soft Computing 16 Juin 2016 Soft Computing

Plus en détail

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal CRM Assurance Fonctionnalités clés Vue globale de l assuré Le CRM pour les compagnies d'assurances est une solution spécialement conçue pour mettre en place et soutenir les fondements d une orientation

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail